pyspark 설치

pyspark

대용량 data를 관리하기 위한 유사 SQL 라이브러리

사전 준비

  • python 설치
  • java 설치
  • spark 다운로드
  • winutils 다운로드

python 설치

파이썬 혹은 아나콘다를 설치한다.
python 버전 3 이상으로 설치한다.

java 설치

나의 경우 java가 설치되어있고 JAVA_HOME 환경변수까지 설정되있기에 그대로 사용했으나 아니라면 오라클에 로그인하고 java를 설치한다.

이후 JAVA_HOME 환경 변수를 추가해준다.

JAVA_HOME

시스템 변수, 사용자 변수 중 원하는 영역에 추가해준다.
난 여러 계정을 사용하지 않으니 그냥 사용자 변수에 넣어줬다.

Spark 다운로드

Spark tgz 압축파일을 다운받는다.

SPARK

원하는 경로에 압축 풀고 위와 동일하게 환경 변수를 설정해준다.

SPARK-경로
SPARK_HOME

winutils 다운로드

위에서 받은 spark 버전과 동일 버전의 winutils.exe를 받아준다.

winutils용 폴더를 만들고 bin 파일 아래에 넣어준다.

winutils-경로

hadoop 환경변수도 설정한다.

HADOOP_HOME

Path 설정

마지막으로 path 값에

  • %JAVA_HOME%\bin
  • %SPARK_HOME%\bin
  • %HADOOP_HOME%\bin
    을 넣어준다.

path

pyspark 실행

CMD(혹은 Anaconda Prompt)를 열어서 pyspark 설치한다.

1
> pip install pyspark

1
> pyspark

pyspark

외부링크

Author

Hangack

Posted on

2022-02-14

Updated on

2022-02-14

Licensed under

댓글