본문 바로가기

스파크 SQL2

스파크 실행과 언어 API 1. 개요 스파크 대다수의 코드는 대화형 실행 방식으로 수행할 수 있습니다. 스파크는 스칼라로 구형되어 자바 가상 머신 기반으로 동작하고 사용자는 파이썬, JAVA, 스칼라, R, SQL로 스파크를 사용할 수 있습니다. 그러므로 작업 환경에서 자바를 반드시 설치해야 합니다. 파이썬 API를 사용하려면 파이썬 인터프리터 2.7 버전 이상이 필요합니다. R을 사용하려면 작업 컴퓨터에 R을 설치해야 합니다. 2. 스파크 다운로드하기 1) 로컬 환경 로컬 환경에서는 자바가 설치되어야 있어야 하며 파이썬으로 스파크를 사용하려면 설치된 파이썬 버전을 확인합니다. 스파크 공식 홈페이지 (http://spark.apache.org/dowloads.html)에 접속해 패키지 유형을 Pre-built for hadoop .. 2022. 9. 7.
스파크의 기본 개념 - 1 1. 스파크의 역사 아파치 스파크는 UC 버클리 대학에서 2009년 스파크 연구 프로젝트로 시작되었습니다. 그다음 해에는 UC버클리 대학교 AMPLab 소속인 마테이 자하리아, 모샤라프 카우 두리, 마이클 프랭클린, 스콧 쉔커, 이온 스토이카가 발표한 논문 'Spark: Cluster Computiong with Working Sets'을 통해 세상에 처음으로 알려지게 되었습니다. 하둡 맵리듀스는 수백, 수천 개의 노드로 구성된 클러스터에서 병렬로 데이터를 처리하는 최초의 오픈소스 시스템이자 클러스터 환경용 병렬 프로그래밍 엔진의 대표주자였습니다. AMPLap은 새로운 프로그래밍 모델의 장단점을 이해하기 위해 맵리듀스 사용자들과 함께 협업을 진행했습니다. 그리고 다양한 사례에서 발견한 문제점들을 정리해서.. 2022. 7. 25.