基于微博用户关系与行为的用户建模


基于微博用户关系和⾏为的用户建模 新浪微博⼤数据-朱红垒 微博:@叠⽯ 2015-06-27 •  微博及⼤数据 •  ⼤数据标签体系 •  用户能⼒标签 •  用户兴趣标签 提纲 微博及⼤数据 中国最⼤的社交媒体平台 用户 微博平台 关系 内容 传播 微博沉淀了海量的用户、关系、内容、⾏为数据 •  用户 –  注册⼈数:10亿 –  月活⼈数:1.98亿 –  日活⼈数:8900万 •  关系: –  关注关系:近千亿 –  分组关系:50亿+ •  内容 –  日增博⽂:1亿+ –  日增原创:4000万 •  ⾏为 –  转发:6000万 –  评论:3000万 –  赞:1亿 –  收藏: 1000万 –  查看:200亿 微博及⼤数据 微博⼤数据要做什么 微博及⼤数据 帮助用户发现感兴趣的内容 加快有价值内容的传播效率 目标如何实现 挖掘有能⼒⽣产垂直领域优质内容的用户 挖掘用户内容消费的兴趣偏好 ⼯作如何串联 普通 用户 标签体系 优质 用户 优质 内容 生产 用户能⼒标签 用户兴趣标签 微博内容标签 三级标签举例:php、皇马、纸牌屋等标签规模 一级 二级 三级 50+ 1000+ 1K万+ ⼤数据标签体系 微博找⼈ 直接推荐各⾏各业 的能⼒用户 微博头条 输出各领域原始语 料的专家库 用户能⼒标签-产品形态 用户能⼒标签-整体框架 用户能力标签库 用户关系数据 用户内容数据 用户行为数据 运 营 反 馈 系 统 定向挖掘 转行用户挖掘 图片视频挖掘 小众领域挖掘 基础挖掘 基于用户的网 络关系进行能 力权重的计算 基于用户的原 创博文进行能 力权重的计算 基于用户行业 影响力进行能 力权重的计算 调权处理 对于多个维度均具有能力权重的用户,采用加权处理; 对于只具备某一维度的用户,采用降权处理 (1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟⼈关系分组名 兴趣分组名用于用户的能⼒兴趣计算 熟⼈关系分组名用于用户的自然属性挖掘 (5)通过线性加权将用户的关系、内容和⾏业影响⼒计算为在这个垂直领域的综合能⼒: 用户能⼒标签归⼀化到0~100的区间,达到横纵向可比较 (3)基于用户发布内容数据计算用户在内容⽅面的能⼒: 用户在某个领域发布博⽂数量、纯度、互动量越⾼,在这个领域内容⽣产能⼒越⼤ (2)基于用户关注关系数据计算用户在关系⽅面的能⼒: 利用兴趣分组名称构建出标签的相关词库,进⽽通过归⼀化公式计算出基础权重 通过认证信息、自标签进⾏权重调权,输出用户在关注关系⽅面的能⼒权重 用户能⼒标签-策略算法 (4)通过PageRank计算用户在垂直⾏业的影响⼒: 通过PageRank计算具有⼀定内容⽣产能⼒和关系能⼒的用户群中每个用户的影响⼒ 其中f为转发数,c为评论数,l为赞数, ∆dt为博文发表时长 ?,?,?, θ, ?,b为相关参数 1.标签的自动聚合及筛选 2.微博短文本的识别问题 用户能⼒标签-主要问题 噪音问题 短文本分类及 语义主体识别问题 高相关词集合 低相关词集合 lda+word2vec+编辑距离 预处理、特征选择、决策树分类 熟人关系类分组名 兴趣类分组名 用户分组名 tfidf计算 规则过滤 标签集合 相关词集合 用户能⼒标签-标签自动聚合流程 用户能⼒标签-效果 •  挖掘出120万能⼒用户,覆盖月活粉丝1.6亿 •  微博用户中娱乐、互联⽹、财经⾏业名⼈最多 •  微博用户中动漫、美食、旅⾏⾏业精英最多 •  微博聚集了近万名互联⽹技术⽜⼈ 用户兴趣标签-产品形态 基于兴趣推 荐用户感兴趣的 ⽂章 基于兴趣Push用 户⼀段时间内关 注⼈发的但是没 看过的微博 用户兴趣标签库 用户关注关系 用户内容数据 用户行为数据 基础挖掘 基于用户的关 注关系+能力 标签进行兴趣 权重的计算 基于用户的内 容数据+行为 数据进行进行 兴趣权重的计 算 兴趣整合 在用户兴趣标签的融合策略中,关系维度权重所占的比例相对于内容维度 权重的比例会低一些,更能够发现用户更新、更细粒度的兴趣点。 用户能力标签 运 营 反 馈 系 统 调权优化 自填信息调权 时间调权 定向调权 用户兴趣标签-整体框架 (1)圈定各垂直领域的能⼒用户集合: 根据用户能⼒标签分数分布以及各分数段的意义,圈定垂直领域的能⼒用户集合 其中c为关注某⼀类能⼒用户的数量 为相关参数 (3)根据用户对内容产⽣的⾏为计算用户在内容消费⽅面的兴趣:  微博⾏为包括:原创,转发,评论,赞,收藏,查看微博等⼗⼏种⾏为  不同的⾏为对应不同的分值,最终通过归⼀化公式计算用户消费内容的兴趣权重 (2)根据用户对能⼒用户的关注关系计算用户在关系⽅面的兴趣: 关系兴趣权重的计算规则:根据w1和w2最终确定关系兴趣的权重 其中d为关注某⼀类能⼒用户的数量与总关注数的比值 为相关参数 其中 为第i项⾏为的权重, 为第i项⾏ 为的得分, 为相关参数 (4)通过线性加权计算用户的综合兴趣调权: 通过不断的迭代测试,用户在内容消费⽅面的权重更⾼⼀些 用户兴趣标签-策略算法 用户兴趣标签-主要问题 1.用户的兴趣相对于能⼒⽽⾔是时间敏感的,如何在用户的兴趣权重上体现出时间敏 感性是⼀个关键问题 2. 所有用户都对实时,旅游,明星感兴趣? 3. 活跃用户体现出的兴趣极为⼴泛 用户兴趣标签-用户⾏为权重的时间衰减 基于时间维度的⾏为热度衰减:在博⽂消费⽅面,用户通过转发、评论、赞等⾏为来 表达自⼰对领域博⽂的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们 通过⽜顿冷却定律来量化衰减的程度。 其中 c为当前兴趣权重, 为初始兴趣权重, ?为冷却系数, 为间隔的天数 用户兴趣标签-效果 •  挖掘出1.6亿用户的精准兴趣,覆盖微博月活75% •  微博用户中对娱乐、时事、互联⽹感兴趣的⼈最多 •  微博聚集了110万对互联⽹技术感兴趣的⼈ 用户标签的规划 •  用户身份 •  用户即时兴趣 •  用户质量等级 用户信 用体系 用户能 ⼒体系 用户自 然属性 用户兴 趣体系 微博⼤数据用户体系 6JCPMU3#
还剩19页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf