Programming/Spark, Scala

Scala 실행 방법, python 프로그램 spark에서 실행

빠릿베짱이 2016. 11. 1. 17:43
반응형

Scala로 구현한 뒤 sbt package 를 사용하여 컴파일 하면,

아래와 같이, *.jar 파일이 출력된다.

jar 파일을 spark에서 돌리는 명령어는 아래와 같다.

spark-submit --class "클래스이름" --master yarn ./target/scala-2.10/selector_2.10-1.0.jar argument



python으로 구현한 프로그램을 실행시키는 방법은 아래와 같음.

아래 옵션은 클라우드 시스템이 아닌 경우 local로 변경될 수 있음.

spark-submit --master yarn 파일명.py


Spark 2.0 설치 방법 [ 링크 ]

아래 SPARK_SUBMIT_OPTIONS에 추가하면 다른 라이브러리도 추가할 수 있을 것 같음.

Spark environment file

Create a new file in under $SPARK_HOME/conf

1
sudo -u spark vi conf/spark-env.sh

Add the following lines and adjust aaccordingly.

1
2
3
4
5
6
export SPARK_LOG_DIR=/var/log/spark
export SPARK_PID_DIR=${SPARK_HOME}/run
export HADOOP_HOME=${HADOOP_HOME:-/usr/hdp/current/hadoop-client}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/usr/hdp/current/hadoop-client/conf}
export JAVA_HOME=/usr/jdk64/jdk1.8.0_40
export SPARK_SUBMIT_OPTIONS="--jars ${SPARK_HOME}/lib/spark-csv_2.11-1.4.0.jar"

The last line serves as an example how to add external libreries to Spark. This particular package is quite common and is advised to install it. The package can be downloaded from this site.


반응형

'Programming > Spark, Scala' 카테고리의 다른 글

HDP 2.5 설치  (0) 2016.11.15
XGBoost build  (0) 2016.11.02
Scala Spark - error : org.apache.spark.sql.SQLContext.sql  (0) 2016.11.01
Spark - Scala  (0) 2016.11.01
Spark 1.6 Feature Importances  (0) 2016.10.31