아직 해석 중이므로 틀린 부분이 있을 수 있다. 구구절절 말이 많은데 내용 자체는 간단한 것 같다.
예를 들어 광고를 클릭한 사용자 풀이 있다. 클릭은 y=1 이 될 것이다. 이 사용자 풀이 10만명이라고 할 때, 비슷한 사람 10만명을 더 찾아내고 싶다. 이 10만명에게 광고를 전송하면 클릭할 확률이 높을 것이다.
CF나 mahout, ALS 등을 이용한 전통적인 추천방법이 있다. 이것저것 해보고 직접 구현까지 해보았으나 생각보다 후진 편이다. evaluator에 의한 값은 기가 막히게 잘 나올때도 있다. 그런데 실제로는 대부분 쓸모가 없다. 변별력이 좋지 않다. 이에 대해서는 다음에.
이 논문에서는 일단 LSH에 의해 자카드 유사도를 구한다. 사용자 풀 A와 미지의 사용자 a의 유사도를 구하면 a의 유사도 벡터는 10만 차원이 될 것이다. 이걸 다 더해서 스코어로 쓸 수 있다.
그런데 이렇게 구한 스코어는 개별 피쳐에 대해 모두 평등하다. 영향력 있는 피쳐를 반영하기 위해 IV를 구하고 이것을 앞의 값과 곱한다.
여기까지다.
뒷쪽은 분산환경에서의 구현과 eval.에 대한 이야기다.