수십테라 데이터 처리에 있어서 비용(=시간 = CPU 타임)을 줄인다고 one-pass 방식으로 가능한 업무를 몰아서 구현을 해봤다. ToC 측면에서 좋다. 전체 소요시간도 줄어든다. 하둡 스트리밍으로 이렇게 저렇게 조물딱거리기 쉽다. 스파크라면 내가 모르게 지가 이리 피봇팅, 저리 마샬링, 요리 셔플링하는 구간이 늘어나서 선호하지 않는다. 최신 버전은 안 다뤄봤다.
그런데 우리의 온프레미스 빅데이터 시스템들이 그렇게 믿음직한 놈들이 아니다. 자원 경쟁에서 밀리고, 그러다 연결 시간 초과 뜨고, 실패 카운트 누적 임계에 다다르고, 작업이 실패한다.
원패스 방식은 총 소요시간은 짧으나 단위 작업의 시간은 길다. 따라서 이 작업이 실패하면 실패 비용이 크다. 한 편 배치를 쪼개면 관리 비용이 크다.
인생사 트레이드 오프가 아닌게 별로 없다.