基于深度数据挖掘及用户行为分析的搜索引擎_百度


基于深度数据挖掘及用户行为分析的搜索引擎 百度复合搜索部 Lee 目录 Part1. 知心搜索 Part2. SNS用户行为在网页搜索的应用 知心搜索 XML、schema 数据挖掘 半结构化数据 结构化数据 数据 接入 站长平台 内容挖掘 1)结构化抽取 2)语义抽取 3)实体关系抽取 用户数据挖掘 1)关系抽取 2)关联需求分析 3)群组分析、兴趣建模 结构化数据 用户数据 开放平台数据引入 上下位 语义标签 关联关系 实体关系挖掘 序列化 知识库 知识库 用 户 Qeury改写 主次需求识别 筛选、排序 结果生成 知识库 苹果 水果 电脑 电影 上位 上位 上位 桔子 梨 香蕉 葡萄 桃 西瓜 菠萝 戴尔 IBM 惠普 联想 东芝 宏基 观音山 最爱 阿凡达 山楂树之恋 鸿门宴 同位 同位 同位 三元组 片名 苹果 导演 李玉 主演 范冰冰 佟大为 片长 112分钟 地区 中国 类型 剧情 赵薇 林心如 王学兵 王学圻 李冰冰 相关实体 名称 苹果 受事 买/购买/采买 受事 种/种植/栽种 受事 吃/啃/咬 施事 成熟 施事 腐烂/变质 限定 香甜/甜/美味/好 吃/甜脆 依存关系 禁片 大尺度 色情 都市 民工 语义标签 microdata 网页搜索由非结构化搜索向结构化搜索转变,越来越多结构化信息成为决定排序的因素,同时 结构化信息会有更丰富的结果展现形式 microdata是百度支持的网页规范,通过对网页html标签的简单修改,能将普通的网页变成一个 格式化的数据接口,让搜索引擎更好的理解网页信息,让网页获得更好的展现、排序 microdata microdata支持灵活使用,即可以在网页标签中定义,也可以xml文件或者ping的形式直接提交 站长平台目前发布并支持xml形式提交软件下载、在线文档、通用问答、资料下载等四种格式数据 的提交 更多数据形式近期请关注http://zhanzhang.baidu.com/schema/ Microdata规范独立官网筹备中,敬请关注。 目录 Part1. 知心搜索 Part2. SNS用户行为在网页搜索的应用 传统超链投票向用户投票转变 Web1.0时代,内容都是网站编辑产生,投票也是在网站间进行,传统搜索引擎均以网站对网站的 投票为基础,建立基于超链分析的权值体系 Web2.0时代,内容创造的主力开始变为用户,投票形式从单一的超链扩展为分享、评价、评分 等多种形态,以单个用户为粒度的投票,更能体现网站的价值 这些信息,都会被搜索引擎用来评判网页内容的价值 百度分享 百度分享是一个帮助网站增加用户向sns网站分享内容功能的一个简单工具,只需在页面中加入 一段代码即可实现 用户在网站中向sns网站分享内容的行为,会被百度网页搜索应用于收录、排序等环节 同时百度分享也提供高质量的数据分析服务,可以帮助网站精确的定位、分析sns流量 更多信息请访问百度分享官网http://share.baidu.com/ 感谢大家 Q&A
还剩11页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

hakiss

贡献于2014-01-17

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf