机器学习与高性能计算


© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. GrowingIO 田毅 2016.09.07 Spark数据架构及后台应用 Spark @ GrowingIO • GrowingIO产品与机器学习 • 如何为机器学习搭建平台 • 使用Spark多数据源 • 机器学习应用举例 内容简介 GrowingIO产品 • 无埋点和全采集 GrowingIO产品 • 无埋点和全采集 • 基于全量数据提供各类统计分析 用户 PM/运营 移动端 PC 端 GrowingIO产品 • 无埋点和全采集 • 基于全量数据提供各类统计分析 GrowingIO产品 • 无埋点和全采集 • 基于全量数据提供各类统计分析 • 通过机器学习帮助用户更好了解自己的产品 GrowingIO产品 • 无埋点和全采集 • 基于全量数据提供各类统计分析 • 通过机器学习帮助用户更好了解自己的产品 • 留存魔法师:寻找关键指标的MagicNumber • 行为模式分析:自动发现用户行为模式,形成转化漏斗 内容简介 • GrowingIO产品与机器学习 • 如何为机器学习搭建平台 • 使用Spark多数据源 • 机器学习应用举例 机器学习的步骤 1 深入了解业务需求, 熟悉数据 2 收集数据, 进行合适的采样 3 数据预处理, 特征工程 4 选择合适的算法/模型 5 离线评估效果, 调整算法/模型/参数 6 重复4-6,直至得出期待的结果 7 使用线上数据进行验证 机器学习的常见问题 1 如何在系统中找到并快速访问你要的数据 2 如果需要的数据没有采集…. 3 每天找工程师要一下最新的数据 如何让数据平台为机器学习的同学更好的服务? 基于AWS EC2搭建数据平台 GrowingIO没有使用AWS中的EMR服务,而是基于EC2自主搭建多 个数据服务,包括:HDFS,YARN,SPARK,HBase, ElasticSearch。对外通过ELB+Nginx集群实现HTTP服务接口的 快速伸缩,对内通过ELB实现内部各类服务的负载均衡。 优势: 1. 通过预留实例节省固定的开销 2. 所有组件可使用自定义版本,快速修复开源版本的问题 3. 所有用到的数据服务全部可以通过增加实例的方式快速扩展 4. 可以很好的实现实时计算任务与离线计算任务的统一架构 GrowingIO数据平台 on AWS CSV文件 Json文件 历史行为数据 行为分类数据 客户属性数据 外部数据 ? 近期行为数据 汇总统计数据 GrowingIO的数据分布 CSV文件 Json文件 历史行为数据 行为分类数据 客户属性数据 外部数据 近期行为数据 汇总统计数据 DataSource API GrowingIO的数据分布 业务行为表1 业务行为表2 …. 外部数据表N ML工程师 机器学习工程师的工作就变成了… 1 在zeppelin中新建一个notebook 2 使用SparkSQL从多个数据源中获取样本需要的数据 3 可以实时的在zeppelin中对数据进行简单分析,查看分布 4 直接在zeppelin中编写算法,验证结果 5 随时从生产系统的数据中获取最新的数据进行验证 6 将改好的算法代码提交到生产环境正式运行 内容简介 • GrowingIO产品与机器学习 • 如何为机器学习搭建平台 • 使用Spark多数据源 • 机器学习应用举例 Spark在1.2.0版本中首次发布了Data Sources API 这套API主要提供了一种快速灵活的方法为Spark提供访问外部数据源的功能 主要目标是让Spark各个组件以及外部应用可以方便高效的读写外部数据 Spark Datasource 好处 1 可以方便的将其他组件中的数据挂载到Spark,通过 Dataframe或者SparkSQL读写 2 可以方便的对分布式数据源进行并发读写 3 通过SQL执行计划的优化,大大降低了数据传输的数量 4 社区中大量的可用资源,支持各类数据源 5 统一的数据类型定义 使用Spark多数据源 Spark 数据类型转换 Spark DataSource API DataSource实现举例 内容简介 • GrowingIO产品与机器学习 • 如何为机器学习搭建平台 • 使用Spark多数据源 • 机器学习应用举例 数据源: 用户在一个产品上的所有行为(页面浏览、点击等) 目标: 计算得出每种行为对用户留存的影响,进而预测用户流失的风险 适合场景: SaaS或者服务类的产品 难点: 相似的用户行为的归类合并 算法: SVM 特征选取: 单行为特征,带时序的多行为特征 结果: AUC接近0.8 准确率接近70% ranking top 20% 和 bottom 20%的准确率都在90%左右 用户留存预测 数据源: 用户在一个产品上的所有行为(页面浏览、点击等) 目标: 从大量用户这样的行为序列数据中 挖掘出包含了目标行为的频繁出现的行为模式 适合场景: 所有包含固定行为模式的业务产品 难点: 相似的用户行为的归类合并 算法: FP-Growth 数据选取: 包含目标行为的Session的完整的行为 行为模式分析 扫码关注,用数据驱动增长 GrowingIO关注增长,正在招聘,欢迎加入! 谢谢
还剩24页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

jacky_liu8

贡献于2016-09-23

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf