스파크에서,
k = [15049,15048,14522,17968,17969,17919,17736,13007,13124,10048,10054,10095,10096,10218,10235,10254,10261,10277,10345,10357,10382,10423,10442,10832,18001,17984]
if 1:
data_src0 = sc.textFile('lal2_multi_train')\
.map(map_f0)\
.filter(lambda (u, d, s, f): d in dss)\
.flatMap(map_f1).partitionBy(26, lambda s: k.index(int(s)))
파티션 함수는 숫자로 던져주면 된다. 파티션 함수의 람다는 키만 받는다. glom을 떠서 확인할 수 있다.