반응형

Programming/Spark, Scala 9

Spark 환경 설정 - with XGboost

Intellij 설치방화벽 오픈 : JIRA 요청 ( HDP 포트 리스트 : https://ambari.apache.org/1.2.5/installing-hadoop-using-ambari/content/reference_chap2_1.html )1. 포트 HDFS Ports 50070 50470 8020 9000 50075 50475 50010 50020 50090 MapReduce Ports 50030 8021 50060 51111 Hive Ports 10000 9083 Hbase Port 60000 60010 60020 60030 2888 3888 2181 WebHCat 50111 Ganglia Port 8660 8661 8662 8663 8651 MySQL Port 3306 Ambari Ports..

Hadoop 관련 오류 메시지 정리

http://www.ibm.com/support/knowledgecenter/ko/SSZJPZ_11.5.0/com.ibm.swg.im.iis.ishadoop.doc/topics/troubleshooting.html XGBoost에서 num worker 수를 늘릴 경우 멈추는 현상이 발생하는데, 이는 Executor의 수와 worker의 수가 맞지 않아 발생된다. spark-submit을 수행할 때 명시적으로 Executor의 수를 설정하여 실행시키면 정상 동작함 worker의 수가 만약 10개이고 코어의 수가 2개라면 executors는 5로 설정해야 함. spark-submit --class Prediction --master yarn --num-executors 7 --executor-cores 2 ..

HDP 2.5 설치

OS : ubuntu 14.04구성 : VM 서버 8대기본 환경클라우드 VM 서버 : 10.161.64.x hadoop-dev-1 10.161.64.x hadoop-dev-2 10.161.64.x hadoop-dev-3 10.161.64.x hadoop-dev-4 10.161.64.x hadoop-dev-5 10.161.64.x hadoop-dev-6 10.161.64.x hadoop-dev-7 10.161.64.x hadoop-dev-8 방화벽 오픈 관련 Source ——– Taget ——– Port 운영서버 ——- any ———- 80, 443, 9418 클라우드VM —– any ———- 80, 443, 9418, 123(NTP) hadoop-dev-1 에 SSH 접속root 권한 얻기# sudo -..

XGBoost build

openjdk-8 설치 [링크] - sudo add-apt-repository ppa:openjdk-r/ppa- sudo apt-get update - sudo apt-get install openjdk-8-jdk g++ 설치 : sudo apt-get install g++gcc 설치 XGBOOST build [ 링크 ]sudo apt-get install gitgit clone --recursive https://github.com/dmlc/xgboost cd xgboost make -j4 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ cd jvm-packages mvn package maven 설치 [ 링크 ]이렇게 할 경우, 에러가 났음. mav..

Scala 실행 방법, python 프로그램 spark에서 실행

Scala로 구현한 뒤 sbt package 를 사용하여 컴파일 하면,아래와 같이, *.jar 파일이 출력된다.jar 파일을 spark에서 돌리는 명령어는 아래와 같다. spark-submit --class "클래스이름" --master yarn ./target/scala-2.10/selector_2.10-1.0.jar argument python으로 구현한 프로그램을 실행시키는 방법은 아래와 같음.아래 옵션은 클라우드 시스템이 아닌 경우 local로 변경될 수 있음.spark-submit --master yarn 파일명.py Spark 2.0 설치 방법 [ 링크 ]아래 SPARK_SUBMIT_OPTIONS에 추가하면 다른 라이브러리도 추가할 수 있을 것 같음.Spark environment fileCr..

Scala Spark - error : org.apache.spark.sql.SQLContext.sql

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.SQLContext.sql(Ljava/lang/String;)Lorg/apache/spark/sql/Dataset; 버전 문제로 에러가 난듯 함. 설치되어 있는 Spark 버전은 1.6.1 이였는데, libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "1.6.1","org.apache.spark" %% "spark-mllib" % "1.6.1","org.apache.spark" %% "spark-sql" % "1.6.1","org.apache.spark" %% "spark-hive" % "1.6.1") ..

Spark - Scala

Scala spark-submit 이용해서 실행 시키기1. jar 파일 만들기1) sbt가 설치되어 있어야 함echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt2) 컴파일 (자세한 것은 여기서 : 링크)/* SimpleApp.scala */ import org.apache.spark.SparkContext import or..

반응형