一. spark-submit/shell
1. standalone模式
注意: 以下都是 standalone
模式下的
1 | # 使用spark-submit提交一个任务: 比如求Pi |
2. Yarn 模式
1 | local 本地单线程 |
3.简而言之
1 | // 使用spark-submit提交一个任务到普通的Spark Standalone集群: 比如求Pi |
二. 内存资源不足的配置
修改
yarn-site.xml
, 增加2个配置
1 | <property> |
三. 启动集群相关命令总结
1 | # 第一:启动zookeeper |
Spark 启动脚本分析图
SparkCore 调优思维导图
四. 其它注意点
1.关于sc.textFile(“.....”)
读取到文件的切片
sc.textFile("xxx")
, 从 hdfs 上读取到的数据, 默认是2个分区- sc.textFile(“xxx”, 1) 这样会按照文件个数来切片, 如果后面不加上最小切片数量, 默认就是2个切片, 会把所有的文件的 size 加起来 除以2 得到一个
goalsize
目标切片大小, 来比较, 如果 > goalsize 的1.1 倍的话, 就会被再切片 - 通常如果几个文件大小区别特别大(比如 3k, 3k, 300k) 的情况下 , 会被多切出一个或多个分区