大规模机器学习技术


大规模机器学习技术 夏粉 2015年3月30日 Outline • 广告背景 • 大数据机器学习 • 深度学习与CTR • 总结展望 搜索广告: Search Ads 展示广告:Display Ads 广告与点击率预估 广告核 心问题 流量 变现 方法 • 给定环境下,用户与广告的最佳匹配 **profit PV CTR ACP • 依赖机器学习和大数据,做精准CTR预估 广告系统介绍 搜索 广告 系统 Google AdWords 展示 广告 系统 百度凤巢 Google AdSense RTB (Real Time Bidding) 百度网盟 有广告位的展现 广告候选 竞价排序 点击率预估 大致流程 点击率(CTR)预估问题 Query 点击率 预估 广告商 展现 样式 用户  例:鲜花  cookie\历史搜 索  鲜花网  把广告放在第一位  广告被用户点击的 概率 Outline • 广告背景 • 大数据机器学习 • 深度学习与CTR • 总结展望 未来 核心 技术 现状 点击率 (CTR) 预估 大型分布式模型训练 大规模深度学习模型 大规模线性Logistic Regression模型 问题规模: • 数据存储和管理:上万台机器 • 数据量:百亿到千亿级 • 特征数:百亿到千亿级 (稀疏离散值特征) 大数据机器学习 CTR预估的机器学习流程 特征生成 • 把广告展现成一个向量 概率模型 • 把向量变成点击率 模型训练 • 从历史数据学习模型参数 线上预测 • 把模型用到新的广告展现上 离散特征生成 • 假设 : 10000 查询; 1000 用户; 100 广告 • 查询(q):1 , 2 , … , 10000 • 用户(u):1 , 2 , … , 1000 • 广告(a):1 , 2, … , 100 • 原始特征向量: q=1,u=2,ad=3 高阶特征生成 • 1st 阶:3 种单维度特征 q,u,ad • 2nd 阶: q*u 查询和用户特征组合 特征 类型 离散特征影响 超大 维度 百亿到千亿量级 稀疏 特征 每个样本只有百个非零元 百个特征类型 维数约简 • 离散到离散:Hashing • 离散到统计:statistics • 更多先进技术? 模型: Logistic Regression • 模型假设 – 输入向量 x、输出点击率 ctr、模型参数 w • 模型训练 – 训练数据 • X: 特征向量 • Y: {-1,+1} , -1: 未点检 , +1:点检 – 求解优化问题: 模型: Logistic Regression • 正则化 – 减少模型大小 • 求解算法 – LBFGS: 使用 1st 阶梯度近似Hessian矩阵 – 坐标梯度下降: 使用单维特征梯度 – 随机梯度下降(SGD): 使用单个样本梯度 , : 梯度方向(梯度或者牛顿方向) , 分布式计算架构 数据并行 模型并行 数据&模型并行  每台机器存储所 有参数  每台数据存储部 分数据  每台机器存储所 有数据  每台机器存储部 分参数  每台机器存储部 分数据  每台机器存储部 分参数 Outline • 广告背景 • 大数据机器学习 • 深度学习与CTR • 总结展望 人工特征工程 • CTR 预估模型 – 需要加入组合特征来提升LR的表达能力 – 假设有N个单特征类,组合特征类: – 人工挖掘,先验知识给出候选特征集合,依次加入模型训练  耗时!耗力! 日志处理 特征抽取 模型训练 模型评估 单特征 • site • Ad • hour • Cookie •…… 组合特征 • Site-Ad • Site-hour • Ad-cookie •…… 13211 ...2   N NNNN NCCCC 深度特征学习技术 • 特征学习 – 深度学习在语音、图像上取得突破性进展 – 广告数据特征维数非常高(单特征百亿),尚无大规模稀疏特征学习算法 • DANOVA: 首个直接应用于大规模稀疏特征的深度特征学习算法 • 上线效果 – 特征挖掘效率提升上千倍 – CTR,CPM显著增长 逐 层 贪 婪 学 习 …… 高阶组合:Site-Ad- Cookie,… 二阶组合:Site-Ad, Site- Hour, … 单特征:Site, Ad, Hour, Cookie, … Outline • 广告背景 • 大数据机器学习 • 深度学习与CTR • 总结展望 大数据点击率预测技术发展 一代:人工规则 二代: 40%+ 点击率提升 简单特征 小规模非线性模型 三代: 10%+ 点击率提升 高维特征 大规模线性模型 模型实时更新 Yahoo, Facebook, Microsoft, etc. Google, Baidu, etc. 百度新一代模型 20%+点击率提升 技术全球领先 大规模 复杂模型 实时更新 流式计算 模型在线更新 Google, Baidu, etc. Thanks!
还剩22页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

jjike

贡献于2015-08-17

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf