Files

angular-aws-console
async-callback
cascading-tez-sample
cascading-topk
data-lake
devstack
docker-networking
etl-samples
flume-sources
flume-websocket
groovy-bug
hadoop-monitoring
hdp-sandbox-access
images
jersey2
lastfm-morphlines-etl
mapreduce-morphline
phoenix-jooq
scalding-correlation
scalding-sample
spark-clustering
spark-correlation
spark-samples
spark-submit
spark-topk
- gradle/wrapper
- sample
- src/main/scala/com/sequenceiq/spark
- README.md
- build.gradle
- gradlew
- gradlew.bat
tez-dag-jobs
tez-topk
timeline-server
yarn-monitoring-R
yarn-queue-tests
.gitattributes
.gitignore
LICENSE
README.md
pom.xml

spark-topk

Nov 5, 2014

e8e35aa · Nov 5, 2014

Name	Name	Last commit message	Last commit date
parent directory ..
gradle/wrapper	gradle/wrapper	add spark-topk samples	Nov 4, 2014
sample	sample	added sample	Nov 4, 2014
src/main/scala/com/sequenceiq/spark	src/main/scala/com/sequenceiq/spark	add context stop	Nov 5, 2014
README.md	README.md	Update README.md	Nov 4, 2014
build.gradle	build.gradle	add spark-topk samples	Nov 4, 2014
gradlew	gradlew	add spark-topk samples	Nov 4, 2014
gradlew.bat	gradlew.bat	add spark-topk samples	Nov 4, 2014

README.md

spark-topk

Set YARN_CONF_DIR and SPARK_JAR (uber jar at hdfs)

Running on Spark:

./bin/spark-submit --class com.sequenceiq.spark.TopKMain --master yarn-cluster --driver-memory 1g --executor-memory 1g --executor-cores 1 spark-topk-1.0.jar /input /output 10 cache

Running on Tez (with Spark):

./bin/spark-submit --class com.sequenceiq.spark.TopKMain --master execution-context:org.apache.spark.tez.TezJobExecutionContext --conf update-classpath=true spark-topk-1.0.jar /input /output 10

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

spark-topk

spark-topk

README.md

spark-topk

Files

spark-topk

Directory actions

More options

Directory actions

More options

Latest commit

History

spark-topk

Folders and files

parent directory

README.md

spark-topk