Programming/Spark, Scala

Spark 환경 설정 - with XGboost

빠릿베짱이 2017. 11. 29. 17:41
반응형
  1. Intellij 설치
  2. 방화벽 오픈 : JIRA 요청 ( HDP 포트 리스트 : https://ambari.apache.org/1.2.5/installing-hadoop-using-ambari/content/reference_chap2_1.html )
1. 포트
HDFS Ports
50070
50470
8020
9000
50075
50475
50010
50020
50090
MapReduce Ports
50030
8021
50060
51111
Hive Ports
10000
9083
Hbase Port
60000
60010
60020
60030
2888
3888
2181
WebHCat
50111
Ganglia Port
8660
8661
8662
8663
8651
MySQL Port
3306
Ambari Ports
8080
8440
8441

3. Hadoop 설치 ( winutils 설치 : https://github.com/steveloughran/winutils )

4. 환경 변수 등록 : HADOOP_HOME 

5. 테스트 코드


package com.netmarble.ailab
import org.apache.spark.sql.SparkSession
object App {
  def main(args : Array[String]) {
    val spark = SparkSession.builder().master("local[*]")
      .appName("sijoo")
      .config("spark.kryoserializer.buffer.max", "256m")
      .config("hive.metastore.uris", "thrift://hadoop-dev-1:9083")
//        .config("spark.sql.warehouse.dir", "hdfs://hadoop-dev-1/apps/hive/warehouse")
      .config("spark.executor.cores", "1")
      .config("spark.executor.memory", "1g")
      .config("spark.driver.memory", "1g")
      .enableHiveSupport()
      .getOrCreate()

    println(spark.conf.getAll.toList.sortBy(_._1).map(x=>"[%s] : %s\n".format(x._1, x._2)))
    spark.sql("SHOW tables").show()
    val aa = spark.sql("SELECT * FROM test LIMIT 2")
    println(aa)
    aa.show(1)
  }
}


 XGboost build ( Windows ) 

1. Git for Windows : https://git-for-windows.github.io/

2. MinGW-w64 설치 : https://sourceforge.net/projects/mingw-w64/

3. Microsoft Visual Studio 14.0 : http://landinghub.visualstudio.com/visual-cpp-build-tools


git bash를 열고

$ git clone --recursive https://github.com/dmlc/xgboost
$ cd xgboost
$ git submodule init
$ git submodule update


mingw32 제대로 설치되었는지 확인

$ which mingw32-make


alias make='mingw32-make'


xgboost build 시작

$ cd dmlc-core
$ make -j4
$ cd ../rabit
$ make lib/librabit_empty.a -j4
$ cd ..
$ cp make/mingw64.mk config.mk
$ make -j4


build가 완료되면, C:\xgboost\jvm-packages에 있는 pom.xml을 intellij로 열고,

필요한 jar 파일이 모두 다운되기를 기다림


아래와 같이 잘 열리면, mvn package 수행

빌드가 완료되면, 아래와 같이 xgboost4j-spark-0.7.jar

xgboost4j-spark-0.7-jar-with-dependencies.jar 파일이 생성됨.


install을 하게되면, 아래와 같이, local repository에 xgboost의 jar 파일이 배포됨.




반응형

'Programming > Spark, Scala' 카테고리의 다른 글

Hadoop 관련 오류 메시지 정리  (0) 2016.11.25
Spark Histogram  (0) 2016.11.24
HDP 2.5 설치  (0) 2016.11.15
XGBoost build  (0) 2016.11.02
Scala 실행 방법, python 프로그램 spark에서 실행  (0) 2016.11.01