스파크 지연연산1 스파크 데이터 구조 1. 스파크 데이터 구조 DateFrame 1) 개념 스파크의 데이터 구조중 가장 대표가 되는 DataFrame은 마치 엑셀의 격자모양, 일반적인 RDB의 컬럼, 로우의 스키마 구조와 유사합니다. 하지만 엑셀과의 분명한 차이는, 엑셀은 한대의 컴퓨터에서 작동하지만 스파크 DataFrame은 여러 컴퓨터에 분산되어 있습니다. 왜냐하면 한대의 컴퓨터에 대한 데이터 저장과 처리는 연산이 너무 오래 걸릴 수 있기 때문입니다. 스파크는 파이썬과 R을 모두 지원하기 때문에 파이썬(Pandas) 라이브러리의 DataFrame을 스파크 DataFrame으로 쉽게 변환할 수 있습니다. 2) 파티션 스파크 파티션은 클러스터의 물리적 머신에 존재하는 로우의 집합을 의미합니다. 스파크는 모든 익스큐터의 병렬 작업을 위해 파티.. 2022. 8. 26. 이전 1 다음