基于用户画像的大数据挖掘实践


基于用户画像的大数据挖掘实践 2014年11月 杨步涛 纲要 1  沃商店定位 2 沃商店大数据体系架构 3 用户画像建设 4 个性化推荐 5 广告 6 用户画像的其他应用实例 沃商店定位 沃商店定位 p  2013年中国手机应 用分发总量快速 上升,其中应用商 店的分发量占比超 过80%; p  TOP10渠道占总分 发量的90%。 p  2013年中国手机游戏 市场近100亿元,201 4年预计将达到180 亿元。 p  多款优质手游月流水 超过5000万元。 p  运营商通信账户SDK支 持APP应用内付费,提 升付费转换率,从不足5 %提升至20%以上。 p  话费支付的便捷优势机 遇期短暂仅1-2年,移动 互联网支付的替代转瞬 即至。 内容分发 平台 能力开放 平台 游戏运营 平台 3 沃商店大数据架构体系 离线计算 数据存储 实时 离线 FTP HDFS MR HIVE Sqoop FumeNG 数 据 采 集 数 据 处 理 存 储 层 建模 站内 Kaa Zookeeper Storm 实时计算 Hbase Mysql Redis 数据可视化 Ganglia Spark Nagios Ozzie 监 控 管理 调度 特征工程 机器学习算法库 能 力 开 放 应 用 用户画像/分群 流量 经分 个性化推荐 广告 分类/回归 聚类 主题 预测 Log Server CP GGSN BSS DM 非结构化 结构化 降维 优化 PUSH 特征工程—用户画像 基本维度 性别、年龄、地域、终端、 网络、 渠道、机型… 兴趣、标 签维度 商业维度 影音、生活、社交、金融、 阅读、儿童亲子… 转化、新老用户、频次、 付费次数、ARPU、通信消费、 信用等级 语义挖掘 行为 标注 引擎 网络爬虫引擎 知识库 自我 学习 结 构 化 沃商店、 CP 数据开放 智能推荐 PUSH 流量 广告 经分预测 用户画像 非结构化 用户画像—行为标注 结构化数据: 网站-动作-对象(名称、 分类、标签) 行为标注引擎 URL 规则库 内容对象 知识库 网页内容爬虫引擎 网站 知识库 URL解析标注 语义特征 抽取 URL字符串 hp:/ /detail.tmall.com /item.htm?spm=a230r . 1.14.42.xaurJi&id=387 99101147&abbucket= 13 hp://money .163.com/14/1107/15 / AAF5A98J00254IU4.h tml 淘宝-浏览-(雀巢2段 ,婴幼儿-奶粉,奶粉 、雀巢、、) 网易-浏览-(财经- 证券,、、) 用户画像—网页文本分类 n 特征预处理、特征筛选(降维) n 支持向量机SVM Ø 结构风险最优化 Ø  非线性(核函数、松弛变量) Ø  1对1方式多分类支持 n 评估:准确率、召回率、F1 算法 准确率(P) 召回率(R) F1 朴素Bayes 85% 86.2% 85.5 SVM 92% 93% 92.4 用户画像—兴趣建模 行为权重 时间衰减 热度衰减 活跃度衰减 x x x 归一化 2 Action [浏览 QQ 、 20141028] 0.3 1 1( )Ttα+− 3 6 Action [下载 彩票、 20141027] 0.21 6 3 2 用户画像应用实践 n 个性化推荐 n 广告 n 信用等级分群 n 用户流失预警 n 游戏潜在用户群体筛选 n 异常监控分析 推荐—应用场景 首页推荐 应用详情推荐 猜你喜欢 广告 用户粘性 转化率 个性化推荐—平台架构 特征-内容 用户-特征 离线 Jacarrd/cosine/CF/content Base/ FPGrowth/LDA/LR/DT 算法库 场景 在线 10010 触点 PC 无线 意图(聚焦、发散) + 画像 融合 过滤 排序 用户行为(反馈) 推荐 效果验证 A/B Tesng F1 RMSE AUC PUSH 数据存储中心 Hadoop Hive Hbase Mysql redis 任 务 调 度 中心 建模 内容质量评分 索引 model 模型 规则 模型训练 相似度 User(f1,f2,f3,…) 内容候选 用户行为 应用库(类别、标签) 语义分析 关联计算 配置 管理 监控 个性化推荐—算法 Content-Based ItemBased-CF Model-Based 稀疏 ap pp Topic分布 语义分析 LDA 基于KL距离 推荐语义相关应用 冷启动 来源融合 新颖 推荐精度 活跃用户 聚类模型 Category 基于语义相关推荐 —应用主题抽取 n PLSA Ø EM Ø 无p(z|d)的生成概率模型 Ø 容易过拟合 n LDA Ø Gibbs Ø 参数少,过拟合风险小 Ø 新文档处理能力强 算法融合—调整前 分类兴趣 关联 协同过滤 最新最热 语义相似 合并排序 结果集 权重=0.3 权重=0.2 反馈 调整 人工对权重的调整,很难把控 新加入特征难以快速设置特征 AB test 如何确定各个模型、特征的权重? 商业规则 算法融合—改进后 候选 集 model1 model2 model3 score App1 0.2 0.54 0.7 App2 0.32 0.6 0.5 Logic Regression 权重系数: 学习隐藏在用户群体行为背后的规律 个性化推荐—效果评价 PV转化率(CTR*CVR),效果提高30% 个性化推荐的下载量占比21% 非个性化 个性化 30+% 广告 n 公式:ctr*Bid ctr=click/PV n 缺点:冷启动、缺少个性化诉求 广告—改进算法 n 公式:pCTR*Bid n pCTR:p(click|ad,user) n 基于LR的点击预估模型 点击=1,不点击=0 点击的概率 广告—特征抽取 n 特征 用户profile(活跃度、性别、年龄、标签)、 广告(广告质量、历史点击率、新颖性)、 CP、 用户和广告交叉主题特征 广告—样本和特征处理 n 样本选择 Ø 去噪、样本抽样 n 特征处理 Ø 归一化 Ø 离散化、交叉 Ø 泛化能力 正则化(惩罚) L1,使得大量无效特征权重为0 L2 n 特征处理 冷启动、稀疏 用户标签特征筛选(降维) 广告—特征处理(续) UserProfile (标签) train 点击Advert 降维 (LDA) 用户对广告 主题偏好 用户主题 偏好模型 广告本身 特征 点击率预 估模型 train 计算 f1 f2 .. fn Click,PV 选取对点击PV贡献 最大的特征TopN p(topic|u) p(c|u,ad) 广告—LR参数优化 n 参数估计优化: L-BFGS line search确定步长,无须手动选择, 利用有限内存近似BFGS, 利用历史值和梯度寻找当前方向(Two loop), 实现快速迭代 广告—效果评估 n 产品层面 n 算法层面 AUC 对于CTR高的广告, 预测的是否也高? 小结 算法、数据、人机交互 用户信用等级分群 出账信息 入网时间 入网套餐价格 预付/后付 月流量消耗 号码归属地 支付 消费频次 消费金额 支付成功率 …… 欠费情况 客服情况 L1 L2 L3 … LN 基本算法 l K-means l RF n 模型 n 特征 用户流失预警 Training Set Label(是否流失 Tesng Set predict 活跃度、登陆情况、下载情况、预装机情况、机型、…. 10月份流失的用户, 分析其前3个月的行为数据 !潜在的流失用户 针对可能流失的用户做PUSH推广活动 基本算法 l GBDT 游戏潜在用户群体分析 全量 用户画像库 特征分解 U(f1,f2,f3,f4,…..) 模型训练 以在应用或者游戏中产生转化(注册、付费)的这 些用户作为训练正样本,结合用户特征进行模 型训练,从用户画像库中筛选出潜在的用户 群体,推荐给CP,通过PUSH做相关的营销活动 潜在群体预测 p(c|u) 基本算法 l Logic Regression 异常监控—Storm流计算 log spout log 数 据 实 时 汇 集 bolt bolt Storm 实时计算 bolt flume mysql HBase redis CP 站内 hp Log server web服务 展示 告警 邮件 页面 websocket 规则 推送 轮询 人工专家 数据挖掘 离线 HDFS 反馈 制定规则 存储 流数据暂存/结果 定时定量 MQ 异常监控和分析—离群点分析 n 异常检测 n 刷机诊断 基于规则(IF ELSE):依赖经验,调整繁琐,准确度低 基于模型: 利用用户刷机的一些行为特征和数据 进行模型训练,结合模型来判断当前是否刷机 招聘 我的blog: http://blog.csdn.net/yangbutao 我们招聘: Hadoop/Hbase/Spark开发 算法工程师 数据挖掘工程师 … 敬请期待: 2015中华数据库大会 时间:2015.05.16 报名时间:2015.02.14 报名网址:meeting.zhdba.com 联系我们: 联系人:朱小姐 联系电话:136 5197 9898 联系QQ:378091820
还剩30页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 5 人已下载

下载pdf

pdf贡献者

wp22

贡献于2014-12-01

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf