i-Spark-4

一. 机器学习分类

1.监督学习

image-20180720221754476

  • 有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。
  • director actor edit Label

2.非监督学习

  • 没有训练数据。
  • 分组。

3.推荐

  • 协同过滤.
  • 猜测你喜欢.
  • 电商。

二. Spark机器学习库

[Estimator]

  • 运行在包含了feature和label(结果)的dataFrame之上,对数据进行训练创建model。

  • 该模型用于以后的预测。

[Transformer]

  • 将包含feature的Dataframe变换成了包含了预测的dataframe.
  • 由Estimator创建的model就是Transformer。

[Parameter]

  • Estimator和Transformer使用的数据,通常和机器学习的算法相关。
  • Spark API给出了一致性API针对算法。

[Pipeline]

  • 将Estimators和Transformers组合在一起,形成机器学习工作流.

机器学习应用步骤

  1. 读取数据文件形成训练数据框
  2. 创建LinearRegression并设置参数
  3. 对训练数据进行模型拟合,完成评估管线.
  4. 创建包含测试数据的DataFrame,典型包含feature和label,可以通过比较预测标签和测试标签确认model是ok,
  5. 使用模型,对测试数据进行变换(应用模型),抽取feature ,label,predication.

三. 代码实例

1. 线性回归

测试案例

2. 逻辑回归

酒质量预测

垃圾邮件过滤

3. ALS (最小二乘法)

商品推荐: 添加向指定用户推荐n款商品; 将指定的商品推荐给n个用户; 向所有用户推荐n种商品

电影推荐: ALS算法电影推荐

如果帮到你, 可以给我赞助杯咖啡☕️
0%