互联网行为分析和数据挖掘


第第1212期期 《《新一代互联网行为定向广告技术的挑新一代互联网行为定向广告技术的挑 战与优化战与优化--》》-- 品品友互动友互动专场专场 www.LAMPER.cn QQ群: 83304912 http://weibo.com/lampercn 互联网广告的用户行为分析和 数据挖掘数据挖掘 唐亮 Copyright@2012 iPinyou All Rights Reserved. • 我知道我的广告费浪费了一半, 问题是我不知道哪一半被浪费了。 John Wanamaker (美国百货零售业之父) • 浪费到哪里? • 如何避免? • 广告形式概述 • 广告主的数据分析 目录 • 广告主的数据分析 • 用户属性分析与建模 传统广告 • 电视、纸媒、户外广告等 缺陷:难以获得受众的信息和“反馈” 什么样的人看了我的广告? 他们喜欢(或购买)我的产品吗? 可以获得用户行为(浏览、点击、购买等) 可以分析用户属性(关注点、兴趣爱好等) 适于“定向投放” 互联网广告 适于“定向投放” • 广告形式概述 • 广告主的数据分析 目录 • 广告主的数据分析 • 用户属性分析与建模 为广告主提供数据分析  分析网站的流量特点  分析用户的兴趣属性 分析用户的兴趣属性  提供个性化的数据服务 …… 广告主的数据分析 • 访客来源: 广告主的其它数据分析 • 页面热度 • 页面流失率和二跳率 • 新旧访客数量 • 访客的兴趣属性 • …… • 广告形式概述 • 广告主的数据分析 目录 • 广告主的数据分析 • 用户属性分析与建模 (Audience Builder) • 用户行为的收集 • 海量数据的存储 广告数据分析的技术点 • 用户数据的挖掘 • 广告的定向投放 品友的用户行为收集和数据存储 • 网页上添加JS代码,为用户设置cookie • 分布式存储和计算平台(Hadoop、Pig、Mahout等) 用户数据挖掘流程 用户日志的 统计 用户属性的 更新 广告受众的 提取 广告后续的 分析 用户的日志统计 • 统计用户访问的具有类别特征的页面 汽车类 : auto.163.com www.autohome.com.cn ...... • 对用户进行兴趣分类 用户兴趣属性的分类 • 采用向量空间模型(Vector Space Model)  提取页面内容  提取类别关键词 提取类别关键词  构建关键词向量  计算向量距离 页面特征提取 兴趣类别的特征词向量  基于样本数据  提取类别特征词 汽车类: 服饰类: ……  设置特征词的权重 汽车类: <奔驰, w 1> <奥迪, w 2> <4S店, w 3> …… 用户浏览的特征词向量  基于用户的浏览  提取特征词  设置特征词的权重 设置特征词的权重 ,…… 用户的兴趣分类 特征词 ... 兴趣类别(Ci) ... 用户浏览(u) 特征词 ... 用户浏览(u) 广告受众的选择(投放前) • 根据广告类别和用户的兴趣类别 例如: 准备投放 Gucci 广告 选择具有个人关注/流行时尚 等相关属性的用户选择具有个人关注/流行时尚 等相关属性的用户 基于用户属性库(cookie与属性类别的映射) 展示广告的选择(投放中) • 按历史点击率等信息选择广告 例如,某用户既是Gucci 受众,又是Benz 受众, 根据: Price(Gucci) * P(Gucci | f ... f )Price(Gucci) * P(Gucci | f 1 ... f n) vs. Price(Benz) * P(Benz | f 1 ... f n) f1 ... f n 是用户的兴趣属性(及媒体和广告位等属性); P(A | f 1 ... f n) 是给定属性条件下,A类别广告的点击率; Price(A) 是A广告的点击价格。 多种属性的综合考量和选择 • 用户的兴趣属性 • 媒体、广告位等属性 • 时间、地域等属性 • ……• …… 如何确定:各个属性的权重? 设置属性权重的方法 • 统计历史数据 得到样本数据:在各种属性情况下的点击率等 • 设置属性权重的算法 K近邻 + 模拟退火 逻辑回归 …… K近邻 (K-Nearest Neighbor) • 根据历史数据 • 预测当前数据 模拟退火(Simulated Annealing ) • 初始:温度高,步长大 搜寻范围广,以确定最优解的大致位置 评价函数: 评价当前值的优劣 模拟退火 • 后续:温度低,步长小 搜寻范围窄,以确定最优解的具体位置 K近邻 + 模拟退火 基于样本数据集 90%训练集 10%测试集 1> 遍历测试集中的每条数据; 划分训练集和 测试集 随机设置各个属性的 初始权重 1> 遍历测试集中的每条数据; 2> 从训练集中提取“距离” 最近的前K条数据 3> 与测试数据的实际值比较, 并统计误差 若误差小于阈值,则得 到各个属性的权重; 否则,调整属性的权重, 并迭代测试 调整各个属性 的权重 (模拟退火) K近邻测试 误差 比较 得到各个属性的 权重 广告效果分析(投放后) • 各种曝光和点击情况  时间、地域等的分布  各种兴趣属性的分布  广告物料的效果评估  …… …… • 更新各种模型  分类模型  投放策略  …… 定向广告投放效果 我们的技术:我们的技术: 海量数据、云计算、分布式、数据挖掘、机器学习、海量数据、云计算、分布式、数据挖掘、机器学习、 精准定向、用户行为分析精准定向、用户行为分析 海量数据、云计算、分布式、数据挖掘、精准定向、海量数据、云计算、分布式、数据挖掘、精准定向、 数据分析、数据分析、HadoopHadoop,,RedisRedis,,HbaseHbase,,HiveHive,,PigPig,, OozieOozie,,GangliaGanglia,,FlumeFlume,,LuceneLucene,,LIBSVMLIBSVM,, MahoutMahout,,ZookeeperZookeeper…………………… 品友互动感谢您的关注,希望继续支持:品友互动感谢您的关注,希望继续支持: 官方网站:官方网站:http://www.ipinyou.com.cnhttp://www.ipinyou.com.cn 官方微博:官方微博:http://weibo.com/pinyouhudonghttp://weibo.com/pinyouhudong 招聘微博:招聘微博:http://weibo.com/pinyouhudonghrhttp://weibo.com/pinyouhudonghr 尽管每一个词都名声显赫,热的发紫,但这的确就是尽管每一个词都名声显赫,热的发紫,但这的确就是 我们每天正在做的和使用着的;我们每天正在做的和使用着的; 我知道,你那一本正经的外表下面那颗躁动的心已经我知道,你那一本正经的外表下面那颗躁动的心已经 蠢蠢欲动了蠢蠢欲动了!!!!!!!! 来吧!这儿的舞台无比广阔,这儿的技术绝对前沿,来吧!这儿的舞台无比广阔,这儿的技术绝对前沿, 这儿的事情会让你激动得颤抖这儿的事情会让你激动得颤抖!!!!!!!! 加入品友:加入品友:hr@ipinyou.comhr@ipinyou.com 我们的产品:我们的产品: OptimusOptimus Folo8Folo8
还剩31页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

tony2007

贡献于2015-06-20

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf