본문 바로가기

스파크3

스파크 실행과 언어 API 1. 개요 스파크 대다수의 코드는 대화형 실행 방식으로 수행할 수 있습니다. 스파크는 스칼라로 구형되어 자바 가상 머신 기반으로 동작하고 사용자는 파이썬, JAVA, 스칼라, R, SQL로 스파크를 사용할 수 있습니다. 그러므로 작업 환경에서 자바를 반드시 설치해야 합니다. 파이썬 API를 사용하려면 파이썬 인터프리터 2.7 버전 이상이 필요합니다. R을 사용하려면 작업 컴퓨터에 R을 설치해야 합니다. 2. 스파크 다운로드하기 1) 로컬 환경 로컬 환경에서는 자바가 설치되어야 있어야 하며 파이썬으로 스파크를 사용하려면 설치된 파이썬 버전을 확인합니다. 스파크 공식 홈페이지 (http://spark.apache.org/dowloads.html)에 접속해 패키지 유형을 Pre-built for hadoop .. 2022. 9. 7.
스파크 데이터 구조 1. 스파크 데이터 구조 DateFrame 1) 개념 스파크의 데이터 구조중 가장 대표가 되는 DataFrame은 마치 엑셀의 격자모양, 일반적인 RDB의 컬럼, 로우의 스키마 구조와 유사합니다. 하지만 엑셀과의 분명한 차이는, 엑셀은 한대의 컴퓨터에서 작동하지만 스파크 DataFrame은 여러 컴퓨터에 분산되어 있습니다. 왜냐하면 한대의 컴퓨터에 대한 데이터 저장과 처리는 연산이 너무 오래 걸릴 수 있기 때문입니다. 스파크는 파이썬과 R을 모두 지원하기 때문에 파이썬(Pandas) 라이브러리의 DataFrame을 스파크 DataFrame으로 쉽게 변환할 수 있습니다. 2) 파티션 스파크 파티션은 클러스터의 물리적 머신에 존재하는 로우의 집합을 의미합니다. 스파크는 모든 익스큐터의 병렬 작업을 위해 파티.. 2022. 8. 26.
스파크의 기본 개념 - 1 1. 스파크의 역사 아파치 스파크는 UC 버클리 대학에서 2009년 스파크 연구 프로젝트로 시작되었습니다. 그다음 해에는 UC버클리 대학교 AMPLab 소속인 마테이 자하리아, 모샤라프 카우 두리, 마이클 프랭클린, 스콧 쉔커, 이온 스토이카가 발표한 논문 'Spark: Cluster Computiong with Working Sets'을 통해 세상에 처음으로 알려지게 되었습니다. 하둡 맵리듀스는 수백, 수천 개의 노드로 구성된 클러스터에서 병렬로 데이터를 처리하는 최초의 오픈소스 시스템이자 클러스터 환경용 병렬 프로그래밍 엔진의 대표주자였습니다. AMPLap은 새로운 프로그래밍 모델의 장단점을 이해하기 위해 맵리듀스 사용자들과 함께 협업을 진행했습니다. 그리고 다양한 사례에서 발견한 문제점들을 정리해서.. 2022. 7. 25.