pyspark 설치
pyspark
대용량 data를 관리하기 위한 유사 SQL 라이브러리
사전 준비
- python 설치
- java 설치
- spark 다운로드
- winutils 다운로드
python 설치
파이썬 혹은 아나콘다를 설치한다.
python 버전 3 이상으로 설치한다.
java 설치
나의 경우 java가 설치되어있고 JAVA_HOME
환경변수까지 설정되있기에 그대로 사용했으나 아니라면 오라클에 로그인하고 java를 설치한다.
이후 JAVA_HOME
환경 변수를 추가해준다.
시스템 변수, 사용자 변수 중 원하는 영역에 추가해준다.
난 여러 계정을 사용하지 않으니 그냥 사용자 변수에 넣어줬다.
Spark 다운로드
Spark tgz 압축파일을 다운받는다.
원하는 경로에 압축 풀고 위와 동일하게 환경 변수를 설정해준다.
winutils 다운로드
위에서 받은 spark 버전과 동일 버전의 winutils.exe
를 받아준다.
winutils용 폴더를 만들고 bin 파일 아래에 넣어준다.
hadoop 환경변수도 설정한다.
Path 설정
마지막으로 path 값에
- %JAVA_HOME%\bin
- %SPARK_HOME%\bin
- %HADOOP_HOME%\bin
을 넣어준다.
pyspark 실행
CMD(혹은 Anaconda Prompt)를 열어서 pyspark 설치한다.1
pip install pyspark
1 | pyspark |