/users
/posts
/slides
/apps
/books
mysetting
/users
/posts
/slides
/apps
/books
11:08 5/30
parksuseong.blogspot.com
11:08
parksuseong.blogspot.com
ParkSuSeong
https://parksuseong.blogspot.com/
저작도구: Blogger
최종 피드 수집: 2024-12-12 12:17
전체 (38)
1y
2022년 회고
올해는 블로그 포스팅을 열심히 못했다. 개인적으로 지금까지 경험했던 내용들을 리마인드하자는 마인드로 한해를 보낸 것 같다.
대부분의 시간을 MLOps pipeline 구축하고 대부분을 최적화 하는데 시간을 많이 할애했다. 결국에
회고
+ 더보기
0
0
1
읽기모드
2y
spark application resource manager - MESOS vs YARN
MESOS
메소스의 경우 마스터가 자원을 중계하는데 특이한 점은 mesos agent(slave)에 mesos excotur가 뜨고(자원을 먼저 점유) 그 안에서 다시 spark-excutor가 실행된다.
즉 순서가 spark-
mesos
resource manager
spark
+ 더보기
yarn
0
0
4
읽기모드
2y
airflow multi cluster 구축 및 고려할 점
다수의 모델을 트레이닝 및 전/후 처리하기 위한 상황을 가정하였다. (최소 100개이상)
대부분의 스케쥴러가 muti cluster를 통해 worker를 옆으로 확장시킬 수 있는 구조이다.
airflow 역시 celery excu
Airflow
airflow celery excutor
airflow multi cluster
+ 더보기
redis
0
0
48
읽기모드
2y
2021년 회고
2021년은 이직을 하면서 조금 바쁜 해를 살았다. 새 회사와 도메인에 적응하기 위해 나름 바쁘게 살았고 기존에 알던 지식을 어떻게 사용할 수 있을지 많이 고민을 했었다. 결과적으로는 기술부채를 많이 쌓았지만 경험적인 측면에서는
2021_회고
회고
+ 더보기
1
0
7
읽기모드
3y
airflow dynamic task at runtime에 대한 고찰
airflow에서 runtime에 동적으로 태스크를 생성하는 것이 옳은 일인가? (task들의 정보는 외부에 존재한다고 가정한다. 그 정보를 가져오려면 수 분이 소요될 수 있다.)
지금까지 스케쥴러에서 dag(flow)를 고정시켜
Airflow
airflow dynamic task at runtime
+ 더보기
0
0
12
읽기모드
3y
Hive partition table로 DW를 구축할 때 고려할 점(upsert)
과거에 팀장님께서도 한번 주문했던 내용인데 하둡에 저장된 과거 데이터의 update 시나리오를 고민했던 적이 있다. 당시 결국 만족할만한 방법이 없어서 drop했던 내용인데 그 기억을 살려 hive를 기준으로 다시 포스팅을 해본다
Data WareHouse
HIVE
+ 더보기
0
0
3
읽기모드
3y
6) 빅데이터 플랫폼 아키텍처에 대하여.. 다른 팀과 협업 시 구성하면 좋은 프레임워크(hive, hue)
무슨 내용을 쓸까하다가 보안적인 부분에 대해서 포스팅을 안했기 때문에 이번에는 이 부분에 대해서 다뤄보려고 한다. 최근 깃랩에 사이드프로젝트를 만들어보니 토큰 발급이 필수로 바뀌어서 문득 다음 포스팅 주제도 보안적인 부분을 다루면
Bigdata
HIVE
hue
+ 더보기
mapreduce
spark
tez
0
0
0
읽기모드
3y
5) 빅데이터 플랫폼 아키텍처에 대하여.. 데이터 시각화를 위한 프레임워크(DashBoard 구현에 필요한 Grafana, Prometheus, influxDB 등)
1편 Bigdata Architecture, 2편 Hadoop, 3편 Spark, 4편 Scheduler에 이어서 5편은 무슨 주제로 포스팅을 할까 하다가.. Hive나 Hue같은 부가적인 프레임워크보다는 시각화를 먼저 쓰는게 좋
dashboard
grafana
influxdb
+ 더보기
prometheus
0
0
0
읽기모드
3y
Hive Error) Cannot insert into target table because column number/types are different
Hive에 Insert를 할 때 이런 에러를 볼 수 있다.
target table은 partition table이고 source 테이블보다 컬럼이 한개(div_col)가 더 많다.
대충 Insert 구문은 이런식으로 작성을 했
HIVE
+ 더보기
0
0
60
읽기모드
3y
4) 빅데이터 플랫폼 아키텍처에 대하여.. 배치 스케쥴러(airflow, azkaban, oozie)
2, 3포스팅을 통해 데이터를 관리하는 하둡과 처리하는 스파크가 세팅되있다면 이제 정기적으로 작업를 수행할 수 있는 배치 스케쥴러가 필요하다.
스케쥴러란 정기적으로 원하는 시간에 특정 작업(스크립트 등)을 수행하기 위해 필요한 시
Airflow
Azkaban
Bigdata
+ 더보기
Oozie
Scheduler
0
0
0
읽기모드
3y
3) 빅데이터 플랫폼 아키텍처에 대하여.. 데이터를 처리를 위한 Spark
지난 포스팅에서 하둡에 대해서 알아보았다. 최초 하둡을 세팅하고부터는 사실상 전체 리부팅을 할 일이 거의 없고 데이터를 열심히 사용하고 관리를 하게 된다. 이렇게 열심히 모은 데이터를 이제 처리를 해야한다.
빅데이터가 주목받기 시
Bigdata
spark
+ 더보기
0
0
2
읽기모드
3y
2) 빅데이터 플랫폼 아키텍처에 대하여.. 하둡을 알아보자
전 포스팅(1편)에서 BDP를 큰 관점에서 훑어보았는데 개인적인 사정으로 2편이 조금 늦어졌다. 그래도 시작한 김에 꾸준히 연재해보고자 한다.
데이터가 부각되면서 저장소의 개념과 종류도 많아지고 여러가지를 적재적소에 조합하여 사용
BDP
Bigdata
hadoop
+ 더보기
hdfs
zookeeper
0
0
20
읽기모드
3y
1) 빅데이터 플랫폼 아키텍처에 대하여.. 데이터 스토리지 관점에서의 흐름
최근 몇 년동안 AI, ML, DL이 뜨면서 BDP라는 용어의 사용이 뜸해졌다. 그렇다고하여 빅데이터라는 영역이 많이 시들해졌다고 생각하는 것은 큰 오판이다. 오히려 더 발전하고 견고해지면서 당연 시 여기는 현재라고 보는게 맞다.
BDP
Bigdata
MPP
+ 더보기
SMP
0
0
4
읽기모드
3y
Spark Read Parquet - Timestamp and Timezone Confusion
Spark 배치에서 Parquet File을 데이터를 읽을 때 timestamp가 +0900시간이 되는 문제가 발생했다. timezone 문제인데 처음에는 win server to linux 마이그레이션 문제인 줄 알았는데 그게
kst
parquet timezone
spark
+ 더보기
utc
0
0
27
읽기모드
3y
HA hadoop+Spark 조합으로 namespace 사용할 때 발생할 수 있는 에러(UnknownHostException)
현재 HA hadoop + Spark + mesos + azkaban 조합으로 배치를 구성하고 있는데 서버에 직접 들어가서 shell script를 수행하면 정상적으로 동작을 한다.
scala source에서는 hadoop url
hadoop
spark
UnknownHostException
+ 더보기
0
0
9
읽기모드
3y
2020년 회고
2020년 올해는 기술적으로 이것 저것 많이 시도해봤다.
데이터엔지니어로서 데이터를 다루는 것도 중요하지만 데이터를 수집하고 저장하고 처리하는 구조를 만드는 일이 더 중요하고 어려운 일이라고 생각하기 때문에 이 부분을 공략하는데
회고
+ 더보기
0
0
0
읽기모드
3y
hadoop 3.x ec policy(erasure coding) vs replication 3
하둡3에서 ec policy라는 기능이 생겼다. 말로만 들었던 기능인데 이참에 테스트할 겸 적용해보기로 한다.
하둡2에서 하둡3으로 데이터 마이그레이션을 할 때 공간이슈 때문에 3복제 대신에 ec policy 적용을 고려해보았다.
ec policy
erasure coding
hadoop
+ 더보기
0
0
1
읽기모드
3y
hadoop name node heap size
hadoop cluster에서 특히 spark cluster를 hadoop data node에 구성을 하기 때문에 name node heap size는 신경 안써도 된다고 생각할 수도 있는데 hdfs가 많아질 수록 신경을 써야한다
hadoop
hadoop namenode heap
+ 더보기
0
0
5
읽기모드
4y
apache mesos를 세팅하면서
resource manager 중에 yarn vs mesos 뭐가 더 좋은지는 모르겠지만 mesos가 ui 부분에서는 확실히 이쁜 것 같다. 자원도 이쁘게 할당하고 현재 connect된 agent(slave)와 task 각각의 상
mesos
yarn
+ 더보기
0
0
0
읽기모드
4y
Apache Hadoop 3.1.4 HA(High Availability) Install Guide with Cloudera guide
과거에 개인적으로 하둡 2~3 버전을 완전분산 모드로 설치를 해보면서 확실히 크게 달라진 점은 없었다. 당시에는 HA구성을 할 필요가 없었는데 이번에 HA 구성을 해보려고 한다.
하지만 프로덕션 환경에서 설치하기위해서 최적의 구성
hadoop
hadoop HA install
hadoop 설치
+ 더보기
hdfs
0
0
3
읽기모드
About
Badge
Contact
Activity
Terms of service
Privacy Policy