목록스파크 스터디 (2)
끄적끄적
어려운 udf 개념 정리...
보호되어 있는 글입니다.
스파크 스터디
2021. 10. 16. 13:33
스파크 9장
9.5 ORC 파일 ORC는 하듭 워크로드를 위해 설계된 자기 기술적이며, 데이터 타입을 인식할 수 있는 컬럼 기반의 파일 포맷이다. 파케이처럼 별도의 옵션 지정 없이 데이터를 읽을 수 있다. 파케이, ORC 두 포맷은 매우 유사하지만 근본적인 차이점이 있다. 파케이는 스파크에 최적화된 포맷이고, ORC는 하이브에 최적화되어 있다. 9.5.1 ORC 파일 읽기 ORC 파일 읽기 예시 spark.read.format("orc").load("/data/flight-data/orc/2010-summary.orc").show(5) +-----------------+-------------------+-----+ |DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count| +---------..
스파크 스터디/스파크 9장
2019. 6. 8. 14:29