Programming/Spark, Scala

Spark Histogram

빠릿베짱이 2016. 11. 24. 10:35
반응형

방법 1. hive Query를 이용한 방법

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

var data = sqlContext.sql("select prob from  hl_temp_test.test_prediction_20161109_20161110")

var hists = data.selectExpr("histogram_numeric(prob, 3)")


방법 2. Spark rdd Histogram을 이용한 방법

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

var data = sqlContext.sql("select prob from  hl_temp_test.test_prediction_20161109_20161110")

mRdd.histogram(10)

==> 결과 

(Array[Double], Array[Long]) = (Array(4.9408226914238185E-5, 0.09980998273167643, 0.19957055723643863, 0.2993311317412008, 0.399091706245963, 0.4988522807507252, 0.5986128552554874, 0.6983734297602495, 0.7981340042650118, 0.897894578769774, 0.9976551532745361),Array(99176, 10824, 6279, 8606, 19607, 25154, 25149, 21350, 15702, 25709))


※ bin size가 동일한 것 같지는 않음. hive는 bin size가 동일하지 않다고 하던데, Spark은 확인 필요


반응형

'Programming > Spark, Scala' 카테고리의 다른 글

Spark 환경 설정 - with XGboost  (0) 2017.11.29
Hadoop 관련 오류 메시지 정리  (0) 2016.11.25
HDP 2.5 설치  (0) 2016.11.15
XGBoost build  (0) 2016.11.02
Scala 실행 방법, python 프로그램 spark에서 실행  (0) 2016.11.01