• 1. Mahout 学习分享Mahout 简介 什么是机器学习 Mahout 算法介绍 聚类 K-means 分类 贝叶斯分类过程 手机上网推荐实例 推荐算法讲解
  • 2. Mahout开源(apache 许可) 可伸缩的机器学习算法库 与Hadoop 紧密结合
  • 3. Mahout 主要功能应用程序Examples分类推荐聚类通用工具包数学工具包集合类Hadoop 集成
  • 4. 机器学习监督学习(supervised learning) 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 分类: 贝叶斯分类器,神经网络分类器,决策树,SVM(支持向量机)等。 无监督学习(unsupervised learning) 我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。 聚类: K-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift
  • 5. Mahout 算法表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Machines有限波尔兹曼机聚类算法Canopy ClusteringCanopy聚类K-means ClusteringK均值算法Fuzzy K-means模糊K均值Expectation MaximizationEM聚类(期望最大化聚类)Mean Shift Clustering均值漂移聚类Hierarchical Clustering层次聚类Dirichlet Process Clustering狄里克雷过程聚类Latent Dirichlet AllocationLDA聚类Spectral Clustering谱聚类
  • 6. 算法类 算法名 中文名关联规则挖掘Parallel FP Growth Algorithm并行FP Growth算法回归Locally Weighted Linear Regression局部加权线性回归降维/维约简Singular Value Decomposition奇异值分解Principal Components Analysis主成分分析Independent Component Analysis独立成分分析Gaussian Discriminative Analysis高斯判别分析进化算法并行化了Watchmaker框架 推荐/协同过滤Non-distributed recommendersTaste(UserCF, ItemCF, SlopeOne)Distributed RecommendersItemCF向量相似度计算RowSimilarityJob计算列间相似度VectorDistanceJob计算向量间距离非Map-Reduce算法Hidden Markov Models隐马尔科夫模型集合方法扩展Collections扩展了java的Collections类
  • 7. 向量 - 数据向量化X = 5 , Y= 3 (5, 3)YX先将数据进行量化表示(向量化) 主要是N维向量(Mahout Vector类)
  • 8. 向量 – Mahout 实现DenseVector RandomAccessSparseVector SequentialAccessSparseVector Exp “she sells sea shells on the sea shore” she => 0 sells => 1 sea => 2 …… 存放结果:(0,1.0,2.0,…)
  • 9. 向量 -中文分词 将一个整句分解成词的数组 如: 我们工作在亚联。 我们,工作,在,亚联
  • 10. 聚类 - 向量相似性欧几里德距离 角度
  • 11. K-Means 聚类过程c1c2c3
  • 12. K-Means 聚类过程c1c2c3
  • 13. K-Means 聚类过程c1c2c3c1c2c3
  • 14. 分类过程
  • 15. 模型训练语料库选择分词并向量化生成模型共10类 (每类8000个文本)数据(8/2) 随机分割模型验证80%样本20%样本
  • 16. 模型验证结果
  • 17. 偏好生成手机上网记录 (url,手机号)Url记数 (url,count)获取url内容 (url,urlcontent)url分类 (url,偏好)手机号偏好生成 (手机号,偏好1,偏好3) 实时上网记录生成用户推荐
  • 18. 推荐引擎简介利用信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。 物品信息 (关键字,标签…)用户信息 (年龄,性别…)用户对物品偏好 (评分,查看,购买…)推荐引擎物品A物品B物品C物品D用户推荐数据源
  • 19. 推荐分类基于用户属性推荐 基于物品属性推荐 基于协同过滤推荐
  • 20. 基于用户属性推荐根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户 物品A物品B物品C物品D用户A 年龄:25 性别:男用户B 年龄:40 性别:女用户C 年龄:27 性别:男喜欢推荐相似
  • 21. 基于物品属性推荐根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品。物品A物品B物品C音乐A 流派:流行 主题:情歌 年代:80喜欢推荐音乐B 流派:电子 主题:美好 年代:2000音乐C 流派:流行 主题:情歌 年代:80相似
  • 22. 基于用户的协同过滤推荐根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。 物品A物品B物品C喜欢推荐相似
  • 23. 基于物品的协同过滤推荐使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户物品A物品B物品C喜欢推荐相似
  • 24. 谢谢!