쪼렙이 쓴 쪼렙용 스파크 패턴 프로그래밍
2018/03/20
책을 써 볼까 해서 노트를 해 놓는다.
목차
- 개요
- 로컬 환경 구축하기
- 도우미 툴 설치하기
- hdfs, hadoop 명령어로 탐색하기
- hive 맛보기
- 예제 데이터 입수하여 구축하기
- 대상 디렉토리 확인하기
- sc 초기화 하기 (로컬, 리모트)
- 데이터 읽기
- 한 줄 씩 처리하기
- 데이터 정제하여 거르기
- 파티션이란
- 치우친 키 문제
- 한 줄 씩 처리하고 빠르게 거르기
- 파이썬 데코레이터
- 디버깅 구축
- 키 분산 시키기
- 데이터 묶기
- 빠르게 묶기
- 알맞게 묶기
- 결과 데이터 보기
- awk
- 파이썬으로 데이터 보기
...
[t:/] is not "technology - root". dawnsea, rss