pyspark dataframe에서 show로 디버그좀 보려고 하면 한글 때문에 utf-8 문제가 나온다. 아주 드러운 문제다. 때때로 rdd에 루프로 풀어서 보거나 디폴트 인코딩을 선언하거나 했는데, 이런 방법도 있다.
import sys import codecs sys.stdout = codecs.getwriter('utf8')(sys.stdout)