Spark常用命令 发表于 2018-08-05 | 更新于: 2018-08-05 | 分类于 Spark , Shell | 一. spark-submit/shell1. standalone模式注意: 以下都是 standalone 模式下的 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849 ... 阅读全文 »
Spark重点解析(四)=> Spark Streaming 发表于 2018-08-02 | 更新于: 2018-09-13 | 分类于 Spark , 精讲 | 0. StreamingContext 的创建过程解析1.直接上代码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162 ... 阅读全文 »
i-Storm 发表于 2018-08-01 | 更新于: 2018-08-02 | 分类于 Hadoop , Storm | 一. Storm 概述 官网: 下载: 文档: 参考 PDF: 免费、开源、分布式、实时计算系统。 吞吐量高。 每秒每节点百万元组。 Storm & Hadoop 对比 storm hadoop 实时流处理 批处理 无状态 有状态 使用zk协同的主从架构 无zk ... 阅读全文 »
Spark重点解析(三) => Spark SQL 发表于 2018-07-27 | 更新于: 2018-07-30 | 分类于 Spark , 精讲 | 一. SparkSQL 的前世今生 Hive => MapReduce => HDFS Shark => 使用 Hive 的 SQL 解析引擎 => RDD => 通过Hive 的metadata表去操作 HDFS SparkSQL => 使用自己SQL 解析引擎 ... 阅读全文 »
Spark重点解析(二) => Spark调优 发表于 2018-07-27 | 更新于: 2018-08-02 | 分类于 Spark , 精讲 | 前言Spark整套调优方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础; 数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案; shuffle调优,主 ... 阅读全文 »
Spark重点解析(一) => SparkCore 发表于 2018-07-25 | 更新于: 2018-08-05 | 分类于 Spark , 精讲 | 一. Spark 与 MapReduce 区别Apache Spark™ is a fast and general engine for large-scale data processing. 与mapreduce比较 : Spark大多数执行过程是基于内存的迭代 MapReduce 的 优 ... 阅读全文 »
i-Spark-5 发表于 2018-07-25 | 更新于: 2018-08-05 | 分类于 Spark , 部署模式 | 一. Spark 的闭包处理RDD, resilient distributed dataset,弹性(容错)分布式数据集。 分区列表, function,dep Option(分区类, Pair[Key,Value]),首选位置。 运行job时,spark将rdd打碎变换成task,每个task由 ... 阅读全文 »
Python & Hadoop | Spark 生态 发表于 2018-07-23 | 更新于: 2018-07-23 | 分类于 Spark | 一. Python 访问 MySQL1.安装 pymysql 模块1) idea中, import pymysql, 没有安装的话, option + return 安装 2. 访问 mysql 测试看看能否打印 mysql 的版本 12345678910111213141516171819202 ... 阅读全文 »
i-Spark-4 发表于 2018-07-20 | 更新于: 2018-07-23 | 分类于 Spark , MLLib | 一. 机器学习分类1.监督学习 有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。 director actor edit Label 2.非监督学习 没有训练数据。 分组。 3.推荐 协同过滤. 猜测你喜欢. 电商。 二. Spark机器 ... 阅读全文 »
i-Spark-3 发表于 2018-07-20 | 更新于: 2018-08-02 | 分类于 Spark , SparkStreaming | 一. Spark Streaming 简介1.介绍 是 spark core 的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka, flume, tcpsocket,使用高级函数(map reduce filter ,join , window) 处理的数据可以推送 ... 阅读全文 »