淘宝文本中的语义分析以及技术展望


淘宝网语义分析产品、技术介绍 王天舟(空海) 淘宝网-交易线-语义分析 个人介绍 • 花名空海 淘宝网中的文本 □ 淘宝主站: • 30亿店铺、宝贝浏览 • 10亿计的在线宝贝数 • 千万量级交易笔数 □文本数据: •用户评论 •商品标题、详情页 •用户query数据 •SNS、论坛等其他数据 海量文本数据带来的价值和挑战 有限框架数据的补充、用户UGC信息 如何结构化、高效计算 呈现文本数据挖掘文本价值 文本源数据 抽取特征、 构建向量 评估、展现 向量算法 语义分析平台架构总览 评价 详情页 SNS/分享数据 文本 数据 层次聚类 谱系聚类 聚 类 算 法 SVM/ANN/决策树/贝叶斯 分 类 算 法 大家印象 U站推荐 UE反馈 产 品 分词/新词 特征计 算层 商品标 题 词之间相关 序列标注 句法分析 实体语义 北极圈 Kmeans KNN 今天的话题 □相关业务场景: 标签、内容、分类打标 □相关算法和问题 □文本技术拓展 文本标签服务 内容相关、相似 框架提取 文本分类 单品标签 “大家印象” 商品导购标签 标签范围不确定:卖家自填商品标签;买家行为标签 通过算法圈定标签,如搜索query: 1、关键字聚合(商品重合度\购买人群重合度) 2、关键字筛选(搜索UV\商品数量\购买转化) 标签范围确定:买家自然属性 BI根据以往数据确定标签范围(如:18岁以下\18岁—25岁\25岁-35岁 \35岁以上) 怎么样的标签的规模是合适的,长尾标签怎么处理? 需要BI提供数据模型,对标签的规模、数量提供界定范围; 根据标签覆盖的商品数来确定需要增加的标签。 根据商品和标签的关联性,对商品进行打标。 如用户偏好点击、购买、收藏的商品;商品的标题、属性相关性;商 品与商品之间的关联性 商品打标 名校大学生 北京白领 白富美 牙痛 情侣 苍老师 头层 皮 惠 美 小清 新 海 宁 真 皮 深 V 禅 西 湖 美女 送货 24 夜 市 复 古 胖 妞 独 家 广 货 村 姑 原 创 卡 通 果 粉 陌 陌 屌 大 妈 宅 男 高 端 90 后 婆 婆 甜 蜜 蜜 夜 店 结婚 那些事 业务主线—人的维度重组推荐 逛店铺.业务框架: 类目list 类目+属性list 频道页 大促聚合结果list Combo Shortcut … 消费者 标签重组 找到店铺 机器挖掘 标签 赞同标签 消费目的 达成 产生标签 和好友互动 标签偏好 语义分析+词库 数据转换文本 自发现 店铺导购标签 标签当中的问题 标签的来源 标签的属性词义 标签的关系 标签来源、分词问题 □一元分词 □二元分词 □CRF分词 夏季 新款 女装 雪纺 连衣裙 夏季 新款 女装 雪纺 连衣裙 夏季 新款 女装 雪纺 连衣裙 B E B E B E BE BM E 标签中的短语、新词来源 • 互信息、聚合度、左右熵发现二元 • 前缀树发现长字符串模式 序列标注问题 隐马尔可夫模型(Hidden Markov Model,HMM) 最大熵模型(Maximum Entropy Model,MEM) 条件随机场(conditional random fields,CRF) 均可以看做概率图模型的不同表现形式 实体识别的标注问题 标签间的关系 手机套和手机外壳 手机壳和Iphone4S 手机壳 共同的购买人群(协同过滤)… 超薄和女士 合并 标签的结构化: 类目、来源、变化、内容 从属 关联 标签词语之间关系问题 产品框架 数据源 标签系统 搜 索 交 易 用 户 特 征 标 题 详 情 评 价 资 讯 专 辑 日 记 百 科 功能层: 模型层: 筛选 剔出 合并 打标商品范围确定 商品重合比例 人群选择 人群重合比例 管理层: 类目、来源、变化速度、内容… 业务场景 首页 频道 搜索 场景、主 题页 List … 其他文本标签问题 • 标签质量判定 • 标签排序、相关性展现 • 标签合并去重 内容相关、提取问题 U站内容推荐 相似Query查询 特定内容提取 如何分析相关内容 • 人的行为 • 词之间相关性 • 句子、段落之间相关性 同义词、近义词、词之间关系 • 基于统计 • 基于词法分析 • 基于行为 句法分析 □ 短语句法分析 head-rule, lexicalize, grammar-based un-lexicalize □ 依存句法分析 memory based,classifier-based, feature-verification 语义推荐 内容提取问题 • 关键词、中心词 • 特定场景地址、礼物 分类打标问题 分类打标问题 t2 t3 D1 D2 D10 D3 D9 D4 D7 D8 D5 D11 D6 Q 单词向量化问题 机器分类问题 ... C6 C7 C5 C4 C1 C3 Cn C2 d3 d1 dm 词库建设 小结 • 互联网环境下的语义 • 词库的构架和沉淀 • 基础相关算法 文本技术相关介绍 数据聚类、天然类目、类目团蔟 谱系、层次聚类 图片语义应用 谢谢
还剩37页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

后会有7

贡献于2016-11-14

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf