스팍같은 분산자원을 잘 활용하려면 우에되뜬 컬럼 수는 줄이고 로우수는 늘리는 것이 최적이다. 로우들을 붐빠이해서 기계들이 나눠계산한다.
문제는 많은 데이터 분석들이 컬럼 수가 많은 데이터를 이용한다는 것이다. 그래서 컬럼 수를 줄이기 위해 피쳐 셀렉션등 차원 축소가 등장한다.
요 며칠 맨날 하는 유사도 문제를 다시 접하고 있었는데, 그거 현실에선 못쓴다고 예전의 경험을 들어 거들떠도 보지 않았던 스팍 함수를 사용했다. 컬럼 피봇팅이 가능한 만큼 컬럼 수가 적은 데이터, 로우수는 겁나 많은 데이터인데 뿅하니 툭하고 나온다. 사실 이걸 하기 전에 어제, 그제는 원래 하던 방법으로 민해시고 매트릭스분해고 카테시안 전수 계산등을 뺑이치고 있었다. 한마디로 삽질이었다는 거다. 이 안 쓰던 함수를 다시 꺼낸 것은 아이러니하게도 의뢰인인 손상목 매니저님이 원래 R로 하려다가 안 된 방법을 이야기하면서 부터였는데, 때로는 탑다운 (높은 추상화에서 먼저 생각->성능 지향의 낮은 레벨의 생각) 으로 생각을 하는 것이 더 적절할 수 있다는 거시다. 나같은 사람은 매사 바틈업으로 생각하도록 훈련이 되어있으므로 이렇게 생각하기가 어렵다.
애초에 R 같은 걸 잘 썼다면 스팍에서도 컬럼 피봇팅으로 할 생각만 했을텐데. 나는 엑셀도 못 다루고 핳핳하..