算法实现价值的实践


算法实现价值的实践 当当网 鞠奇 2013.4 意大利TRENTO大学 博士 IT技术男 乒乓球 管理,历史 2013.6 当当网 算法研究员 2014.3 当当网 算法团队负责人 算法技巧 算法架构 算法流程 提纲 • 图书“最佳拍档”的优化 •“最佳拍档”与关联规则 • 存在的问题 • 解决方案 • 效果评估 • 评论排序对于用户购买的影响 • 排序因素 • 内容相关性计算 • 排序模型 • 效果评估 • 作弊vs.反作弊 最佳拍档 3 2 1关联规则 + + + 存在问题(1) •是否关联?(共同购买次数K)---支持度 •K值小: …… 增加运算,意义不大 …… 存在问题(1) •是否关联?(共同购买次数K)---支持度 •K值大: 候选池不足,未满足“小众” 存在问题(2) 真的具有相同 的关联值吗? ? 关联规则:任意订单里的商品对都具有相同的关联权重:1 = 存在问题(3) 相同关联值?? 热销书,关联图 书种类过万 专业书,关联图 书种类数十 = BOOK 满300免100 IT屌丝男 老婆怀孕 历史 ? 存在问题(4) 我的意图 偏好是这 样的吗? 问题小结 •算法适应性:支持度K值取值问题; •商品特点:关联商品的热度 •订单特点:订单件数 •用户行为:意图混淆 Apriori算法 大单 大单案例(1) 共同购买次数 215 157 120 90 (>4件)订单占比 52.1% 48.7% 85.7% 50% 共同购买次数 288 122 69 49 47 (>4件)订单占比 0.354 0.492 0.866 0.672 0.319 大单案例(2) 原来都是“大单”惹的祸 <=3件单数占比 0.542 0.328 0.072 0.143 0.511 大单统计 28% * 42.94% =12.02% 2倍 (1) 大单占比: 28% 28%/ (1-33.5%) = 42.1% (2) 大单总份额: 2013Q4: 提纲 •图书“最佳拍档”的优化 •“最佳拍档”与关联规则 • 存在的问题 • 解决方案 • 效果评估 • 评论排序对于用户购买的影响 问题1:支持度K值取值问题 •分治法: • 按照销量,uv,pv等热度分解成高,中, 低三档; • 每一档确定不同的K值。 问题2:关联商品的热度 思考:共同都买的商品的关联权重还要考虑与其关联的商 品种类数。 2 21 1log, i ii n N  思考:共同购买商品的关联权重要结合同订单其他商品件数 bnaii iie weight   2,121 1 1 , 问题3:订单件数 问题4:用户意图混淆 思考:用户意图到底是什么呢?哪些是他偏向于一次购买的? |)(| 1 21 21, ii ii ttf  )( 2121 ,, iiii sh或者 商品关联权重 2 2,1 21 21 21212121 1log) 1 1 |)(| 1(, ,,,, i bna ii ii iiiiiiii n N ettf YWTr ii      综合以上三个策略,任意两个商品 的关联权重为:21,ii 提纲 •图书“最佳拍档”的优化 •“最佳拍档”与关联规则 • 存在的问题 • 解决方案 • 效果评估 • 评论排序对于用户购买的影响 ABtest-pv 点击率 2.00 2.20 2.40 2.60 2.80 3.00 3.20 3.40 3.60 3.80 18 20 22 24 26 28 30 pv click rate (%) March-X A:original B:new 10% 6.00 6.20 6.40 6.60 6.80 7.00 7.20 7.40 18 20 22 24 26 28 30 uv click rate (%) March-X A:original B:new ABtest-uv 点击率 9% 2.60 2.80 3.00 3.20 3.40 3.60 3.80 4.00 18 20 22 24 26 28 30 订单件数占比 (%) March-X A:original B:new ABtest-订单件数占比 100% 上线效果—pv, uv 上线效果—订单件数占比 关联规则,协同过滤 订单数据 + “纯”订单 用户意 图模糊 2人 60分 20人 90分 小结 用户意 图识别 发现噪音 处理噪音 提纲 •图书“最佳拍档”的优化 • 评论排序对于用户购买的影响 • 排序因素 • 内容相关性计算 • 排序模型 • 效果评估 • 作弊vs.反作弊 背景 怎么能让用户更方便决策, 带给用户更好的用户体验呢? 背景 自然语言处理技术 NLP-Natural Language Processing 5星级 XX评论 普通评论 普通评论 普通评论 普通评论 普通评论 文艺评论 XX评论 普通评论 普通评论+ 普通评论 普通评论 普通评论 “赞” 背景 因素 1. 字数长短 2. 内容相关score 3. 评论时间 4. 是否加精 5. 评论回复数 6. 评论被顶数 7. 评论星级 评论 Score 评论内容相关度 丁丁 历险 童年 埃尔热 经典 小狗米卢 阿道克船长 比利时 评论相关度 妈妈给买的这套书,我很喜欢。阿道 克船长的“倒霉”遭遇我感到很好 笑,丁丁是一个有正义感的人,小狗 米卢多次在危急时刻救了主人丁丁。 故事很有趣,令人紧张。每当丁丁遇 到危险,我都非常担心他的安危,他 依靠自己的聪明、勇敢和善良,还有 朋友的帮助,再加上一点点运气,最 终摆脱危险,阻止了坏人做坏事。我 喜 欢丁丁、米卢、阿道克和向日葵, 他们给我们家带来很多欢乐 小狗米卢 妈妈 我 喜欢 紧张 阿道克船长 倒霉 丁丁 善良 喜欢欢乐 聪明 有趣 评论相关度 这个商品不错~这个 商品 不错 很好!正版! 很好 正版 一个星期前买的 要280元,现在才 要188呢,真亏大 了!书还不错。 亏大了 不错 星期 现在 280 188 丁丁的故事不但陪伴我长大,现 在正在陪伴儿子长大,让不太爱 看书的儿子喜欢上看书! 内容相关 分词系统 相关性计算 (VSM,SVM,LDA) 相关性score 丁丁在西藏 · 大开 本经典收藏版(全 22册)(比利时著 名连环画大师埃尔 热的经典巨著) 相关性计算(1) 分词系统 标题 详情描述 term index weight 丁丁 60848 122.62 埃尔热 138872 64.78 蓝莲花 322759 28.46 米卢 338687 19.75 比利时 270889 19.15 托托 222905 17.12 历险记 95769 16.91 狗 22254 15.12 名字 106179 13.67 西方人 271446 13.25 连环画 212669 12.30 …… Tf*idf 丁丁在西藏 · 大开本经典 收藏版(全22册)(比利时 著名连环画大师埃尔热的经 典巨著) 丁丁的故事不但陪 伴我长大,现在正 在陪伴儿子长大, 让不太爱看书的儿 子喜欢上看书! 相关性计算(2) term index weight 丁丁 60848 122.62 埃尔热 138872 64.78 ……. 푖=1 푁 푤푒𝑖푔ℎ푡푖 푡푒푟푚1,…, 푡푒푟푚푁 푉1 = {푡푒푟푚1: 푡푓1 푡푒푟푚2: 푡푓2 … 푡푒푟푚푁: 푡푓푁} 푉2 = {푡푒푟푚1: 푤푒𝑖푔ℎ푡1 … 푡푒푟푚푀: 푤푒𝑖푔ℎ푡푀} (1) (2) Rocchio 算法 Similarity Score 丁丁历险记 · 大 开本经典收藏版 (全22册)(比利 时著名连环画大师 埃尔热的经典巨 著) 评论排序 .T = 2 丁丁的故事不但陪 伴我长大,现在正 在陪伴儿子长大, 让不太爱看书的儿 子喜欢上看书! 儿子喜欢的不得 了,天天抱着看。 … … 1 ... n Ranking 丁丁历险记 · 大开本 经典收藏版(全22册) (比利时著名连环画 大师埃尔热的经典巨 著) 1.字数长短 2.相关score 3.评论时间 4.是否加精 5.回复数 6.置顶数 7.星级 提纲 •图书“最佳拍档”的优化 • 评论排序对于用户购买的影响 • 排序因素 • 内容相关性计算 • 排序模型 • 效果评估 • 作弊vs.反作弊 线上效果 测试方法:AB Test,新旧版本各占流量50%; 衡量指标: 1. PV增长率(PV): (PV_new – PV_old) / PV_new; 2. 点击购买增长率(PUR): (PUR_new – PUR_old) / PUR_new; 3. 转化率增长率(Conversions rate): (PUR_new/PV_new - PUR_old/PV_old)/ PUR_new/PV_new ; -0.60 -0.10 0.40 0.90 1.40 1.90 2.40 2.90 3.40 20 22 24 26 28 30 Increased. rate (%) October-X PV PUR Conversions Rate 线上效果 效果图说明 • PV增长率一般为较小负数,说明新版本的用户点击总量变 少,但总体持恒; --- (1) • PUR点击购买增长率平均值在2.54,说明新版本的点击购买 总量大于就版本,增长比率值为2.54;--- (2) •(1)和(2)的反差说明排序后的评论有效地减少了购买用户的 翻页数(浏览页面和评论页面),同时促使了更多用户的 购买; • 转化率的增长基本和点击购买增长同步,在PV基本持恒的 情况下,验证了点击购买增长,也进一步说明了新版本每 个pv带来了更多的购买。 提纲 •图书“最佳拍档”的优化 • 评论排序对于用户购买的影响 • 排序因素 • 内容相关性计算 • 排序模型 • 效果评估 • 作弊vs.反作弊 作弊评论 Review_1 Review_2 反作弊 采用n-gram model计算评论和图书内容详情的相似度,过 滤掉相似度过高的评论 午夜卢浮宫 夜卢浮宫博 卢浮宫博物 浮宫博物馆 宫博物馆年 博物馆年迈 物馆年迈的 馆年迈的馆 年迈的馆长 。。。 午夜,卢浮宫博物馆年迈的馆长被 人杀害。在人生的最后时刻,馆长 脱光了衣服,明白无误地将自己… 5-gram Step 1:将评论和内容详情转化为n-gram Step 2:计算评论和内容详情n-gram的重合次数 Step 3:step2重合次数/评论n-gram数 > β,去掉 评论智能排序-ROI分析 这个我灰常 喜欢! 用户体验大幅提升! 年轻的记者丁丁和他忠实的搭档——小狗米卢, 以及他的伙伴们——阿道克船长、向日葵教授、 警探杜邦和杜庞兄弟,书中这些生动鲜活的人物 形象已经深深地印在了我的脑海里。岁月流逝, 我已经做了家长,可当年这套书带给我的无穷快 乐,以及童年的美好回忆,却仍然记忆犹新。 日本政府的抗议,与其说是维护国家声誉, 毋宁说是被揭老底的心虚和恐慌。这个时 候,我们说,丁丁背后真正的记者,却是埃 尔热。正如埃尔热说:“丁丁就是我。” 评论智能排序-ROI分析 预计全年销售额 贡献过亿! 年轻的记者丁丁和他忠实的搭档——小狗米卢, 以及他的伙伴们——阿道克船长、向日葵教授、 警探杜邦和杜庞兄弟,书中这些生动鲜活的人物 形象已经深深地印在了我的脑海里。岁月流逝, 我已经做了家长,可当年这套书带给我的无穷快 乐,以及童年的美好回忆,却仍然记忆犹新。 日本政府的抗议,与其说是维护国家声誉, 毋宁说是被揭老底的心虚和恐慌。这个时 候,我们说,丁丁背后真正的记者,却是埃 尔热。正如埃尔热说:“丁丁就是我。” 这次必须 给你们 涨工 资! 总结 •图书“最佳拍档”的优化 •“最佳拍档”与关联规则 • 存在的问题 • 解决方案 • 效果评估 • 评论排序对于用户购买的影响 • 排序因素 • 内容相关性计算 • 排序模型 • 效果评估 • 作弊vs.反作弊 算法流程 •“最佳拍档”中的关联规则 • 问题发现与分析 • 效果空间预估 • 算法改进 • 效果的衡量 • ROI分析 • 案例启示&下一步尝试 算 法 流 程
还剩52页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

peterzyliu

贡献于2015-01-12

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf