一. 机器学习分类
1.监督学习
- 有训练数据集。规范数据。合规数据。产生推断函数.然后对新数据应用函数。
- director actor edit Label
2.非监督学习
- 没有训练数据。
- 分组。
3.推荐
- 协同过滤.
- 猜测你喜欢.
- 电商。
二. Spark机器学习库
[Estimator]
运行在包含了feature和label(结果)的dataFrame之上,对数据进行训练创建model。
该模型用于以后的预测。
[Transformer]
- 将包含feature的Dataframe变换成了包含了预测的dataframe.
- 由Estimator创建的model就是Transformer。
[Parameter]
- Estimator和Transformer使用的数据,通常和机器学习的算法相关。
- Spark API给出了一致性API针对算法。
[Pipeline]
- 将Estimators和Transformers组合在一起,形成机器学习工作流.
机器学习应用步骤
- 读取数据文件形成训练数据框
- 创建LinearRegression并设置参数
- 对训练数据进行模型拟合,完成评估管线.
- 创建包含测试数据的DataFrame,典型包含feature和label,可以通过比较预测标签和测试标签确认model是ok,
- 使用模型,对测试数据进行变换(应用模型),抽取feature ,label,predication.
三. 代码实例
1. 线性回归
2. 逻辑回归
3. ALS (最小二乘法)
电影推荐: ALS算法电影推荐