Spark常用命令

发表于 2018-08-05 | 更新于: 2018-08-05 | 分类于 Spark ， Shell |

一. spark-submit/shell1. standalone模式注意: 以下都是 standalone 模式下的 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849 ...

阅读全文 »

Spark重点解析(四)=> Spark Streaming

发表于 2018-08-02 | 更新于: 2018-09-13 | 分类于 Spark ，精讲 |

0. StreamingContext 的创建过程解析1.直接上代码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162 ...

阅读全文 »

i-Storm

发表于 2018-08-01 | 更新于: 2018-08-02 | 分类于 Hadoop ， Storm |

一. Storm 概述官网：下载：文档：参考 PDF: 免费、开源、分布式、实时计算系统。吞吐量高。每秒每节点百万元组。 Storm & Hadoop 对比 storm hadoop 实时流处理批处理无状态有状态使用zk协同的主从架构无zk ...

阅读全文 »

Spark重点解析(三) => Spark SQL

发表于 2018-07-27 | 更新于: 2018-07-30 | 分类于 Spark ，精讲 |

一. SparkSQL 的前世今生 Hive => MapReduce => HDFS Shark => 使用 Hive 的 SQL 解析引擎 => RDD => 通过Hive 的metadata表去操作 HDFS SparkSQL => 使用自己SQL 解析引擎 ...

阅读全文 »

Spark重点解析(二) => Spark调优

发表于 2018-07-27 | 更新于: 2018-08-02 | 分类于 Spark ，精讲 |

前言Spark整套调优方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优，主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案； shuffle调优，主 ...

阅读全文 »

Spark重点解析(一) => SparkCore

发表于 2018-07-25 | 更新于: 2018-08-05 | 分类于 Spark ，精讲 |

一. Spark 与 MapReduce 区别Apache Spark™ is a fast and general engine for large-scale data processing. 与mapreduce比较： Spark大多数执行过程是基于内存的迭代 MapReduce 的优 ...

阅读全文 »

i-Spark-5

发表于 2018-07-25 | 更新于: 2018-08-05 | 分类于 Spark ，部署模式 |

一. Spark 的闭包处理RDD, resilient distributed dataset,弹性(容错)分布式数据集。分区列表, function,dep Option(分区类, Pair[Key,Value]),首选位置。运行job时，spark将rdd打碎变换成task,每个task由 ...

阅读全文 »

Python & Hadoop | Spark 生态

发表于 2018-07-23 | 更新于: 2018-07-23 | 分类于 Spark |

一. Python 访问 MySQL1.安装 pymysql 模块1) idea中, import pymysql, 没有安装的话, option + return 安装 2. 访问 mysql 测试看看能否打印 mysql 的版本 12345678910111213141516171819202 ...

阅读全文 »

i-Spark-4

发表于 2018-07-20 | 更新于: 2018-07-23 | 分类于 Spark ， MLLib |

一. 机器学习分类1.监督学习有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。 director actor edit Label 2.非监督学习没有训练数据。分组。 3.推荐协同过滤. 猜测你喜欢. 电商。二. Spark机器 ...

阅读全文 »

i-Spark-3

发表于 2018-07-20 | 更新于: 2018-08-02 | 分类于 Spark ， SparkStreaming |

一. Spark Streaming 简介1.介绍是 spark core 的扩展，针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka, flume, tcpsocket,使用高级函数(map reduce filter ,join , window) 处理的数据可以推送 ...

阅读全文 »

airpoet

没有边界就没有自由.

RSS

我的简书 Mile2Me