知识图谱:大数据语义链接的基石-李涓子


1 李涓子 清华大学 2014年10月17日 知识图谱: 大数据语义链接的基石 2 一段真实的经历 背景:9月中旬,法国航空公司发生飞行员为期10天以上的大规模罢工,多次 航班因此取消 法航罢工新闻 旅客行程安排 3 语义链接与信息主动推送 事件 法航 罢工 9月15日 未知 行程 旅客 AF107 9月28日 航班号 时间 结束 时间 开始 时间 主体 名称 日历 事件知识图谱 行程知识图谱 所属航空公司 航空 公司 航班 动态 航班号 拥有 取消 状态 航班知识图谱 影响 影响 决策 4 主要内容 一、知识图谱基础 二、知识图谱类型 三、知识图谱构建方法及关键技术 四、基于知识图谱的语义链接及其应用 5 知识图谱基础 Google KG 250概念 4M实例 6000属性 500M三元组 在线更新 350K概念 10M实例 100属性 120M三元组 15K概念 40M实例 4000属性 1B三元组 Google KB核心 850K概念 8M实例 70K属性 15K概念 600M实例 20B三元组 50M义项 50+种语言 262M三元组 WordNet 7种欧洲语言 跨语言链接 OpenIE (Reverb, OLLIE) NELL 6 知识图谱基础  知识图谱  Google知识图谱 知识图谱,也称为科学知识图谱,它通过将应用数 学、图形学、信息可视化技术、信息科学等学科的 理论与方法与计量学引文分析、共现分析等方法结 合,并利用可视化的图谱形象地展示学科的核心结 构、发展历史、前沿领域以及整体知识架构达到多 学科融合目的的现代理论。为学科研究提供切实的、 有价值的参考。 --- 百度百科 实体及其之间的关系图。 规模:5亿个对象,35亿个事实和关系 ---维基百科 知识图谱的本质:知识库?语义网络? 知识图谱的形式:RDF?Graph? 7 Tim Berners-Lee’s Proposal 1989 链接数据 链接信息系统 8 8 万维网信息描述语言塔 http://bbs.w3china.org/dispbbs.asp?boardID=2&ID=86430 2000 2002 2004 2007 2006 swui Candle 链接数据 We are here 9 从文档万维网到数据万维网 http://www.w3.org/2007/Talks/1211-whit-tbl/#%2828%29 文档万维网 数据万维网 10 10 • 特征: – Web上的事物拥有唯一的URI – 事物之间由链接关联(如人物、地点、 事件、建筑物) – 事物之间链接显式存在并拥有类型 – Web上数据的结构显式存在 “事物” 语义链接 数据万维网 • 全球开发的知识共享平台 11 The Web 1.0 Connects information Web of documents The Social Web (Web 2.0) Connects People Web of People The Semantic Web Web 3.0 Connects Knowledge Web of Data The Ubiquitous Web Connects Intelligence Web of Agents Increasing Connectivity Increasing Knowledge and reasoning Agent Webs that know, learn and reason as human do 万维网的发展 12 Bring structure to the meaningful content of Web pages Annotated Web ages Annotated Web pages Ontology Annotated Web pages Agents Agents The Semantic Web. Tim Berners-Lee, James Hendler, and Ora Lassila. Scientific American, 2001. 13 哲学中的本体  概念三角形 “Tank“ Referent Form Stands for Relates to activate s Concept [Ogden, Richards, 1923] ? Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations. --- Wikipedia 14 计算机领域本体定义  An ontology is a formal, explicit specification of a shared conceptualization – Gruber 1993  Conceptualization: an abstract model of phenomena in the world by having identified the relevant concepts of those phenomena.  Explicit: the type of concepts used, and the constraints on their use are explicitly defined.  Formal: the fact that the ontology should be machine readable.  Shared: ontology should capture consensual knowledge accepted by the communities 15 本体形式化  五元组表示 푂 = {퐶, 푅, 퐹, 퐴, 퐼}  C - concepts • 概念集合,通常以Taxonomy形式组织 • 球星,清华校友  R - relations • 描述概念或者实例之间语义关系的集合 • subClassOf,birthplace  F - functions • 一组特殊的关系,关系中第n个元素的值由其他n-1个元素的值确定 • Price-of-a-used-car 由 the car-model, manufacturing data 和 kilometers确定 16 本体的形式化  五元组表示 푂 = {퐶, 푅, 퐹, 퐴, 퐼}  A - axioms • 公理 • 如果A是B的子女,B是C的子女,则A是C的子孙  I - instances • 描述具体的个体 • 如:Peter是概念学生的实例 17 本体的描述方法  资源描述框架 RDF  Resource Description Framework  RDF数据模式  资源 Resource • 使用URI唯一标示一个资源 • 一个资源通常表示一个事物(Thing)  属性 Property • 一种特殊类型的资源,用以描述资源与资源见的关系  语句 Statement • 由3种资源组成的三元组(Triple) • 主语rdf:subject,谓语rdf:predicate以及宾语rdf:object 18 一个形式化示例  本体的简化形式 푂 = {퐶, 퐼, 푇, 푃}  C – concepts • 描述领域或任务中的抽象概念,通常以Taxonomy形式组织 • 如描述世界知识的本体中,学生和老师是两个概念  I - instances • 描述具体的实例 • 学生Peter是概念学生的实例  T - ISA • 概念与概念之间、实例与概念之间的关系 • subClassOf关系和instanceOf关系  P – properties • 本体中用于描述实例信息的其他语义关系 • 如:instance-attribute-value (AVP) Taxonomy知识 AVP知识 19 What’s in freebase? - Light type system  Topic: one concept or one entity with globally unique ID  Literal: string, numeric value, Boolean, or timestamp  Type: properties are grouped into types, an object that is used to semantically group topics  Property: attribute of a topic  Schema: Each type has collection of zero or more properties, known as the schema of that type  Domain: a collection of types which share namespace 20 本节总结  知识图谱实现对客观世界从字符串描述到结构化语义描述,是 对客观世界的知识映射(mapping world knowledge)  本体可以作为知识图谱表示的概念模型和逻辑基础  知识图谱可以描述不同层次和粒度的概念抽象  知识图谱可以作为互联网资源组织的基础 虽然语义Web的愿景还尚未发生,知识图谱的发 展是让互联网更好的具有世界知识的良好开端 21 知识图谱类型 一、领域无关知识图谱 • DBPedia, Yago, Freebase, Google KG, etc. 二、特定领域知识图谱 • FOAF, Geonames, Linked Movie Database, etc. 三、跨语言知识图谱 • DBPedia, Yago, Freebase, XLORE, etc. 22 领域无关知识图谱 类别 名称 其他 人工构建 ResearchCyc http://www.cyc.com/platform/researchcyc WordNet wordnet.princeton.edu 基于维基百科 DBPedia dbpedia.org YAGO yago-knowledge.org Freebase freebase.com WikiTaxonomy http://www.h- its.org/english/research/nlp/download/wikitaxono my.php BabelNet babelnet.org 开放知识抽取 KnowItAll openie.cs.washington.edu NELL rtw.ml.cmu.edu Probase http://research.microsoft.com/en- us/projects/probase/ 中文知识图谱 百度知心 www.baidu.com 搜狗知立方 www.sogou.com 23 领域无关知识图谱 概念数量对比 2010.12 http://research.microsoft.com/en-us/projects/probase/ 24 事件知识图谱  灾难> 自然灾害> 地震: 2014年鲁甸地震事件 0 属性 主题 infobox 25 事件知识图谱  事件学习:从多个相似事件实例中学习层次主题模式 主题 实体类型 关键词 26 计算知识图谱  计算知识引擎WolframAlpha http://www.wolframalpha.com/ 27 特定领域知识图谱 生命 科学 文献 社交 网络 地理 政府 语言 媒体 UGC 综合 28 影视领域本体 后会无期 The Continent 基本资料 导演 韩 寒 监制 方励 编剧 韩 寒 主演 冯绍峰、陈柏霖、钟汉良、 陈乔恩、王珞丹、袁 泉 [1] 配乐作曲 小林武史 摄影 廖拟 剪辑 肖洋 片长 106 分钟 制片商 北京劳雷影业有限公司 杭州果麦文化传媒有限公 司 博纳影业集团 产地 中国大陆 语言 现代标准汉语 上映及发行 上映日期 中国大陆2014年07月24 日 台湾2014年9月19日[1] 香港:2014年10月16日 发行商 天津博纳文化传媒有限公 司 华夏电影发行责任公司 中文名 后会无期 外文名 The Continent 导演 韩寒 制片人 方励 编剧 韩寒 主演 冯绍峰、陈柏霖、钟汉良、 陈乔恩、王珞丹、袁泉 出品时间 2014年 制片地区 中国 出品公司 劳雷影业、果麦文化、博 纳影业 片长 106 分钟 对白语言 普通话 上映时间 2014年07月24日 发行公司 天津博纳文化 华夏电影发行 类 型 喜剧,爱情,冒险 色 彩 彩色 制片成本 5000万人民币 拍摄地点 上海,四川西昌,内蒙古 赤峰,浙江舟山普陀,东 极岛 拍摄日期 2014年2月14日 属性数据补充 链接补充  多源影视知识 29 影视领域知识图谱 方 励 朴 树 韩 寒 钟汉良 冯绍峰 邓紫棋 中国合伙人 致青春 那些年, 小时代3 大话西游 白发魔女传 isA Film or TV? Film Film 食人女 isA关系验证: 相关实体: 双语文字对齐: movie:directed_by “Han Han”@en, “韩寒”@zh . movie:genres “Comedy”@en, “喜剧”@zh . movie:summary “The Continent is directed and written by Han Han…”@en, “《后会无期》是一部由 韩寒担任编剧及导演 …“@zh .  影视知识融合 30 跨语言知识图谱 演员/Actor Google KG http://babelnet.org/ 31 跨语言知识图谱XLORE  基于分布的在线异构百科资源,通过跨语言知识链接技术,构 建一个中英文知识量比较平衡的大规模跨语言知识图谱 跨语言知识链接 单语言百科知识抽取 跨语言结构化知识抽取 Virtuoso RDF 知识库 数据处理 知识图谱构建 知识查询 E1 E2是否是子概念? E1 属性 E1 E2是否等价? ? 分类系统 文章页面 XLORE: 集成百度百科、互动百科、中文维基和英文维基,包含856,146个概 念,71,596个属性,7,854,301个实例。 32 跨语言知识图谱XLORE http://xlore.org/ 33 跨语言知识图谱XLORE 34 本节总结  知识图谱是对处理数据的结构化结果表示  知识图谱可以表达:  实体及其关系知识  事件知识  计算知识  限定领域知识  面向特定任务的知识图谱  跨语言知识  ┅┅  知识图谱是实现语义互操作的基础 35 知识图谱构建关键技术 一、基于wiki百科资源的知识图谱构建 • Taxonomy知识抽取,AVP知识抽取 二、Beyond wiki百科资源的知识图谱 构建 • 结构化数据,半结构化数据,非结构化数据 36 基于Wiki资源的Taxonomy知识抽取  维基百科分类映射到WordNet American people of Syrian descent singer gr. person people descent WordNet American people of Syrian descent pre-modifier head post-modifier person Noungroup parsing Wikipedia Stemming person Most frequent meaning “person” “singer” “people” “descent” Head has to be plural Yago: a core of semantic knowledge. Suchanek et al. WWW 07. 37 基于Wiki资源的Taxonomy知识抽取  识别维基百科中正确的isA关系 Deriving a Large Scale Taxonomy from Wikipedia. Ponzetto et al. AAAI 07. Computer Scientists British Computer Scientists 中心词匹配 Crime Crime Comics Islam Islamic Mysticism Naturalized Citizens of US Albert Einstein √ × × √ 修饰成分分析 中心词单复数形式 WikiTaxonomy 38 基于Wiki资源的Taxonomy知识抽取  基于跨语言知识校验的isA关系识别 Cross-lingual Knowledge Validation Based Taxonomy Derivation from Heterogeneous Online Wikis. Wang et al. AAAI 14. Education Educational People 中心词单数 教育 教育人物 前缀子串 W1 W2 CL Cross-Lingual Knowledge Validation Taxonomy Derivation Taxonomy Derivation T1 T2 Boosting Process Online Wiki Cross-Lingual Links Online Wiki Taxonomy Taxonomy  文本特征  中心词关系  单复数形式  前后缀关系  结构特征  Normalized Google Distance × × 40 基于Wiki资源的AVP知识抽取  信息框(Infobox)抽取 http://en.wikipedia.org/wiki/Barack_Obama http://dbpedia.org/page/Barack_Obama 41 基于Wiki资源的AVP知识抽取  缺失信息框抽取 信息框“US County”属性使用比率 CRF特征 Autonomously Semantifying Wikipedia. Wu et al. CIKM 07. 42 基于Wiki资源的AVP知识抽取  信息框值中链接缺失 英文维基 中文维基 基于回归学习的实体链接方法 Discovering Missing Semantic Relations between Entities in Wikipedia. Xu et al. ISWC 13. 43 基于Wiki资源的AVP知识抽取  基于迁移学习的跨语言属性值抽取  信息框大量缺失  不同语言下差异较大  现有方法  基于翻译的方法  单语言信息抽取方法 能否利用丰富的英文知识帮助自动化抽取缺失的中文知识? 44 基于Wiki资源的AVP知识抽取  基于迁移学习的跨语言属性值抽取 与单语言抽取方法对比 与翻译方法对比 Transfer Learning Based Cross-lingual Knowledge Extraction for Wikipedia. Wang et al. ACL 13. 45  结构化数据  大部分结构化数据都被存储在关系型数据库中。  将结构化数据转化为知识的RDF描述—D2R  D2R是一种XML-based 语言,用来达到上面称述的映射目标。  D2R 映射步骤 • 从关系型数据库中选取一个或者一组相似的类 • 把选取中的记录按列分组 • 为每个类下的实例进行URI或者blank node分配 • 为每个instance 创建属性 结构化数据转化为语义资源 D2R映射过程 D2R MAP - A Database to RDF Mapping Language. WWW (Posters) 2003 46 半结构化知识抽取  Taxonomy知识抽取 从Web Table中提取实例与概念之间的上下位语义关系 演员 instanceOf 黄渤 演员 instanceOf 徐峥 47 半结构化知识抽取  Taxonomy知识抽取 1. 给出“种子(seeds)”作为搜索的起始。 cities = {Paris, Shanghai, Brisbane} 2. 搜索包含一个或多个“种子”的表格 Paris France Shanghai China Berlin Germany London UK Paris Iliad Helena Iliad Odysseus Odysee Rama Mahabaratha A semi-supervised method to learn and construct taxonomies using the web. Kozareva et al. EMNLP 10. 3. 从表格中抽取概念-实例关系 city instanceOf Berlin city instanceOf London 48 半结构化知识抽取  AVP知识抽取 • 目标:建立Web Table的实体关系链接,使在Web Table 上进行语义搜索成为可能 • 思路:利用YAGO知识库对网页表格进行标注 • 将列标题映射到YAGO类 • 将单元格的值映射到YAGO实体 • 利用因子图模型做AVP知识的联合计算 48 Annotating and Searching Web Tables Using Entities, Types and Relationships. Limaye et al. PVLDB 10. 49 非结构化资源的知识学习  Open Information Extraction  学习一般性模型来表示关系表示  学习领域相关正则表达式 Open information extraction using Wikipedia . ACL 10 50  NELL(Never Ending Language Learning)  大规模信息抽取系统  500-600个概念和关系  3.2M的“低可信度” fact, 500K高可信度的fact NELL系统图 Toward an Architecture for Never-Ending Language Learning. AAAI 2010 非结构化资源的知识学习 51  Probase (A Probabilistic Knowledgebase)  目标 • 通过注入“一般性知识”到计算机中,来更加了解人的交流,形成知识库  建立Probase • 先用迭代的方法建立核心的taxonomy • 找到哪些属性和哪些类可以用来回答哪些问题,比如(中国,人口,14亿) 可以用来回答“中国居住了多少人?”,虽然“人口”没有出现在问题中 • 用一个非监督的bootstrapping 算法反复扫描网页文档集合来得到很多 instance的关系 • 用一种概率的数据集成机制来融合目前已有的结构化数据,例如Freebase, IMDB, Amazon Probase: a probabilistic taxonomy for text understanding. SIGMOD 2012 非结构化资源的知识学习 52 Probase系统图 非结构化资源的知识学习 53 多资源知识融合  Google Knowledge Vault  Extractors  三元组抽取  Graph-based Priors  三元组先验概率学习  Knowledge Fusion  三元组正确性预测 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion. Dong et al. KDD 14. 54 本节总结  互联网海量数据中富含各类知识  对于不同类型的资源有不同的知识图谱获取方法  知识获取仍然面临很多挑战性问题  增量式知识获取  长尾知识获取  知识的演化  高精确度的知识获取  开放taxonomy 知识的建立  异构知识的处理  利用群体智慧的知识获取  推理规则的学习  ┅┅ 55 基于知识图谱的语义链接及其应用  基于知识图谱的语义标注 社交主页 图像 文本 56 实体链接 问题描述 系统架构 定义:为给定的一段文本(结构化,半结构化,长文本,短文本)中识别 出的实体名字m,找到其在知识库中对应的实体em 的过程 Candidate Generation Candidate Ranking Entity Linking System Linked Result Article (NEi) Knowledge Base 57 实体链接  候选集主要构建方法  基于名称字典的构建方法[1] • 维基百科中实体页面,重定向页面,排歧页面,页面内超链接(锚文本)等 • 查询记录和web文档寻找同义词  基于上下文环境的名称变体的构建方法[3] • 启发式匹配方法(临近括号,N-Gram,子串等) • 监督学习方法(通过训练数据集学习复杂缩写的实体全称)  基于搜索引擎的构建方法[4] • Google搜索返回结果中的wikipedia页面 • Wikipedia搜索引擎 W. Shen, J. Wang, P. Luo, and M. Wang, “Linden: linking named entities with knowledge base via semantic knowledge,”in WWW, 2012, pp. 449–458. W. Zhang, Y. C. Sim, J. Su, and C. L. Tan, “Entity linking with effective acronym expansion, instance selection and topic modeling,” in IJCAI, 2011, pp. 1909–1914. X. Han and J. Zhao, “Nlpr kbp in TAC 2009 KBP track: A two stage method to entity linking,” in TAC 2009 Workshop, 2009. 58 实体链接  特征选择  上下文无关的特征[1,2] • 字符串比较(edit distance, Dice coefficient score, skip bigram Dice) • 实体名称流行度(维基百科中命名实体出现频率) • 实体类别(类型一致)  上下文相关的特征[3] • 非结构化文本(Bag of words, Unigram language model) • 结构化信息(知识库中属性,概念,别名,上下位关系) M. Dredze, P. McNamee, D. Rao, A. Gerber, and T. Finin, "Entity disambiguation for knowledge base population," in COLING, 2010, pp. 277–285. J. Hoffart, M. A. Yosef, I. Bordino, H. F¨ urstenau, M. Pinkal, M. Spaniol, B. Taneva, S. Thater, and G. Weikum, "Robust disambiguation of named entities in text," in EMNLP, 2011, pp. 782–792. W. Shen, J. Wang, P. Luo, and M. Wang, “Linden: linking named entities with knowledge base via semantic knowledge,”in WWW, 2012, pp. 449–458. 59 实体链接  排歧主要方法(Ranking)  监督学习方法[5,6] • 二分类方法 – 给定一对实体名称和候选实体,分类器决定实体名称是否指向该候选实体 • 排序学习方法(SVM ranking) – 候选实体之间的偏序关系 • 图模型 – 多个实体名称与他们各自的候选集构建图模型进行联合推理(collective inference) • 模型组合 – 将多个学习算法进行集成(投票)  非监督学习方法[7] • 向量空间模型(VSM) – 将实体名称和候选实体向量化,进行向量相似度计算(如何向量化是关键) • 基于信息检索的方法 – 基于排序的信息检索技术的统计语言模型(KL-divergence 抽取模型) W. Zhang, Y. C. Sim, J. Su, and C. L. Tan, “Entity linking with effective acronym expansion, instance selection and topic modeling,” in IJCAI, 2011, pp. 1909–1914. S. Kulkarni, A. Singh, G. Ramakrishnan, and S. Chakrabarti, “Collective annotation of Wikipedia entities in web text,” in SIGKDD, 2009, pp. 457–466. S. Gottipati and J. Jiang, “Linking entities to a knowledge base with query expansion,” in EMNLP, 2011, pp. 804–813. 60 语义链接数据的应用 一、语义数据集成 二、互联网语义搜索 三、问答系统 四、基于知识的行业数据分析 61 语义数据集成 将知识图谱与图谱之外的数据源进行基于语义的集成。 搜狗、百度、谷歌等搜索引擎都实现了语义数据集成。 搜狗搜索 62 互联网语义搜索 在网络搜索时,经常会出现多义的词条。如“李娜”可表示网 球运动员李娜和歌手李娜。通常搜索结果会以结果列表的形式 给出。 知识图谱的语义链接,使得搜索引擎可以用基于实体的搜 索来代替基于字符串的搜索,从而实现搜索时的歧义消除。 63 互联网语义搜索 entity and relation summarization Entity search and ranking 64 问答系统 65 基于知识的行业大数据分析  影视大数据分析  最具影响力和市场价值的主力受众:中 年男性专业人士  受欢迎电视剧类型:政治惊悚剧  受欢迎导演:大卫•芬奇  受欢迎演员:凯文•史派西  观看偏好:一次观看多集  基于知识图谱的影视元素关系挖掘:预 测出凯文.史派西、大卫.芬奇和“BBC出 品”三种元素结合在一起的电视剧产品  相比传统文本的方式大大提高了影视数 据分析的精准度和可行性 66 基于知识的行业大数据分析  新闻事件—2010 智利地震:话题关系图与分布图 67 总结  知识图谱使互联网从字符串描述到客观世界的具体事物描述  互联网为知识图谱构建提供了丰富的资源  知识图谱是大数据语义链接的基石  知识图谱互联网理解世界的基础设施 A little semantic, a long way to go. We are on the way … 68 谢谢! Q&A 李涓子 清华大学 lijuanzi@tsinghua.edu.cn
还剩66页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

y8de

贡献于2015-07-27

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf