스팍 마이그레이션 실패
2023/01/09
C와 파이썬으로 짠 하둡스트리밍 코드를 스팤 3.0으로 마이그레이션 하는 작업은 잠정 포기했다.
- 스팤에서 외부 코드를 사용하려면 pipe IPC를 통해서 가능하다.
- pipe IPC는 rdd 수준에서만 사용가능하다.
- 스팍의 기조는 어떻게든 rdd 프로그래밍 하지 말라는 것이다. 모든 최적화는 데이터프레임 중심으로 되어있다. 로우엔드 데이터 가공을 하지 말라고 한다.
- 데이터프레임 중심으로 데이터 처리를 할 때, 정교한 데이터 조작을 하려면 udf가 필수이다. 파이썬 udf는 데이터 직렬화를 수반하여 매우 느리다. 아니 속도(=비용) 때문에 이러고 있는데.. 따라서 pandas_udf가 거의 유일한 해법이다.
- pandas_udf 를 써보려고 하니 클러스터에 미설치다. 여기서 1차 좌절. 이렇게 저렇게 할 수는 있으나 여기서 다시 pipe로 보낸다고? 복잡하다. 복잡한 거 -> 어려운 거 -> 관리 못 하는 거 -> ...
- 스팍은 인간 중심에서 우아하지만 로우엔드 관점에서 블랙박스가 꽤 있다. 내가 어쩌지 못하는 부분들. 여전히 내가 짠 스팍 코드들이 돌고 있고 오늘도 스팍으로 뭔가 짜야하지만.. 영..
- 생각해보니 나는 데이터프레임 중심으로 사고를 잘 못 한다. 넘파이 판다스 행렬 계산 할 때마다 머리아프다. 내가 이렇게 일차원적인 사람이다 ㅠ.ㅠ
[t:/] is not "technology - root". dawnsea, rss