• 1. 垂直知识图谱构造工具与行业应用阮彤 自然语言处理与大数据挖掘实验室 主任 华东理工大学
  • 2. 主要内容为什么垂直行业需要知识图谱 垂直知识图谱的特点 垂直知识图谱工具——VKG Builder介绍 垂直知识图谱应用
  • 3. 我们从通用知识图谱开始。。。。1. SSCO http://ssco.zhishimofang.com/对不同的中文数据源进行合并,组成统一的知识库。共有621万实例, 73万类别,上亿的事实。成果在ISWC以及SCI期刊上发表。 使用机器学习获得的知识网络,包括260,345个概念,5,602,180个实例,526,219个同义关系,下图显示了网络的部分节点2.zhishi.me华东理工大学上海交大
  • 4. 为了让知识图谱有用,准备构造一个搜索引擎? 谷歌知识图谱01百度“知心” 搜狗“知立方” 02
  • 5. 为什么行业需要知识图谱1.图书馆行业的故事——地方图书馆与内容供应商之争 内容供应商超星万方链接舟山图书馆 门户数字图书馆 资源属于内容供应商 用户访问日志属于内容供应商! 读者谁能够提供更好的服务? 内容供应商!
  • 6. 为什么行业需要知识图谱1.图书馆行业的故事——地方图书馆之争 内容供应商超星万方维普链接链接链接舟山图书馆 门户数字图书馆谁拥有更多的资源? 大图书馆!浙江图书馆 门户国家图书馆 门户
  • 7. 地方图书馆利用知识图谱实现转型严重的内容相似缺乏内容控制缺乏竞争力寻觅新的机会!与地方经济结合自有内容专有技术
  • 8. 为什么行业需要知识图谱2.证券行业的故事——购买数据VS自己处理数据大智慧万德同花顺交易所购买模式平台模式集成并分析数据同花顺大智慧新闻网站证券公司研报内部交易数据
  • 9. 为什么行业需要知识图谱2.证券行业的故事——现有搜索引擎的困惑
  • 10. 搜牛问财——知识库结构化查询2.证券行业的故事——语义技术的渗透
  • 11. 不同来源知识库之间如何关联? 疾病、药品、检查的关联 中西医疾病名称关联 中西药成分关联电子病历搜索 某类患者,如心衰并患有高血压患者的患者? 与某病人相似的患者? 电子病历文本中有大量的数据,如何进行结构化,以更好地进行电子病历数据的大数据挖掘?为什么行业需要知识图谱3.医疗行业的例子——难点
  • 12. 为什么行业需要知识图谱3.医疗行业的例子——病历结构化的必要性 词汇二义性 传统非结构化病历数据,只能通过文本匹配来进行查询无法理解相同文字但不同 含义的词汇 关联查询无法精确切分查询词,理解 查询意图
  • 13. 为什么行业需要知识图谱3.医疗行业的例子——ICD-11的构造 ICD 11使用了类/子类关系,子属性,定义域与值域,等价类。ICD 11表达能力是 SHOIN(D)。可以使用DL 推理程序去推理系统之间的非一致性。 每个疾病有56个属性,而其中52个是用填实例的。ICD 10以及以前版本,基本上没有结构。分类码通常是一长串的疾病与它们相关的代码,以及少量属性,如同义词等。 WHO在11版的ICD开发中使用语义Web 技术,支持协同编辑的语义Web 平台。 4年中,有270个来自世界各地的领域专家使用 iCAT编辑了45,000个类,执行了260,000个变更。构造了17,000个链接,链到外部医学术语。
  • 14. 为什么行业需要知识图谱行业需要数据(语义)集成能力 文本 与 结构化数据的集成 不同来源、不同格式的大量数据 自动/半自动的集成 行业需要(语义)数据查询能力 更丰富的表达 更精准的结果 总结
  • 15. 为什么行业需要知识图谱知识图谱的技术优势渐增式数据模式设计初始设计的时候,很难清楚所有的概念,而知识图谱的动态可扩充性以及“无模式”特性使得用户很容易增加或修改模式。数据集成更轻松本体的语义互操作特性以及“链接数据”原则,使得来自不同供应商的数据集成更为方便。 现有标准支持有RDF(S),OWL, SPARQL等标准,可以逐渐要求内容供应商支持。语义搜索 用户可以查询具有某类特征的某类实体,比起基于基于关键词的搜索,更为精准。
  • 16. 主要内容为什么需要行业需要知识图谱 垂直知识图谱的特点 垂直知识图谱工具 垂直知识图谱应用
  • 17. 垂直知识图谱特点 领域对数据质量要求更高,例如 药品名称 处方当中,药品的克数 企业名称 企业股票价格 领域数据字段与数据关联更丰富 一个企业包含的信息字段可能有上百个字段 ICD11当中,每个疾病有56个属性,而其中52个是用填实例的。(不是随意填写一个文本,而是这个填的值本身也是RDF的一个实例。 只有满足了上述条件,才能用于商业分析与决策支持1. 更为丰富与精确的领域数据VS 姚明的身高?VS 电影的字段
  • 18. 垂直知识图谱特点普通的KG,使用一种自底向上的方法,更强调数据的宽度。如DBpedia在构造过程中,先有数据,后有本体。 对于行业本体来说,由于数据质量以及行业本身的规范要求,将使用自顶向下的方式。2. 自顶向下
  • 19. 垂直知识图谱特点企业/组织结构自有数据,如: 对证券公司而言,自有用户交易数据 医院,电子病历,付费、检查记录 图书馆 地方政府数据 行业数据 如行业标准、规范,如Medical Guideline 如第三方收集的企业数据 诸多以RDB方式存储3. 丰富的内部数据来源
  • 20. 垂直知识图谱特点比起互联网企业,垂直行业客户相对投入低,能力弱。 需要可配置、图形化界面。 需要容易地面向不同行业做客户化。4. 需要可扩充的第三方工具支持
  • 21. 垂直知识图谱特点医疗:如果我构造了医学知识图谱,下一步就是,如何基于这个图谱做诊疗? 证券:如何我构造了一个企业知识图谱,下一步就是,如何找到满足某一类条件的企业? 5. 与决策支持集成——语义搜索?Rule Engine?大数据挖掘?
  • 22. 主要内容为什么需要行业需要知识图谱 垂直知识图谱的特点 垂直知识图谱工具 垂直知识图谱应用
  • 23. 垂直知识图谱体系结构RDBLODUGCTextD2R ImporterLOD LinkerUGC WrapperInformation ExtractorSchema expansion and alignmentData EnrichmentSchema EditorData EditorRestful APISemantic Search With Nature Language Interface Visual Explorer (Card View,Wheel View)Incremental Schema Design and Data EnrichmentKnowledge Repository ModuleGraph DatabaseKnowledge Access ModuleSchema Inconsistency or Data ConflictKowledge Construction ModuleKG Architecture
  • 24. 以舟山海洋数字图书馆的例子,说明垂直知识图谱工具 http://kd.zsodl.cn
  • 25. 舟山海洋知识图谱首页
  • 26. 构造海洋KG的例子——多种数据来源Relational Database Owned By Zhou Shan Fishery Agency (2 attributes)Marine-related knowledge base published on the Web (10 attributes)Encyclopedic web sites and free text as complementary content构造KG
  • 27. 从Web抽取数据 Build KG配置文件用于 从HTML页面抽取结构化数据 Web数据和知识图谱中,实体与属性的匹配规则。 3) 将数据导入到图谱中.
  • 28. 从百科网站抽取数据Build KG选项 1) 当前实体学习/批处理学习 2) 三个百科:互动、维基与百度 3) 抽取部分: 摘要, Infobox, 类型标签
  • 29. 不同数据来源冲突解决Build KG当冲突发生的时候,会有一个红色惊叹号图标显示在相应字段。 用户点击这个图标,系统显示具体的冲突来源、不同来源的值、以及建议的数值 . 用户可以选择他们认为合适的方式。
  • 30. 2. Possible Intentions1. Query3. Answer4. Related Books5. Knowledge Card6. Related Contents语义检索Build KGUsers can submit any keyword query or natural language question. The query is interpreted into possible SPARQL queries with natural language descriptions. Once a SPARQL query is selected, the corresponding answers are returned. along with relevant documents which contain semantic annotations on these answers.
  • 31. 浏览KG——卡片视图Explore KG 卡片视图将所有实体(这幅图是鱼)展现在一个3D空间。 最终用户可以放大、缩小、左移动和右移动,或是点击特定实体,看到实体详情。
  • 32. 浏览KG——轮子视图搜索一个概念或实体上一页同一个实体关系名称Explore KG轮子视图使用两个轮子组织概念/实体。 对于左边的轮子,感兴趣的节点被放在中央,当相关实体或属性被点击的时候,点击的实体/概念就会成为右边轮子的中心,右边相关节点就会发生变化
  • 33. 未来产品框架1.大规模图数据支持 2. 自动探测数据来源 3. 多策略学习,提高数据抽取精度 4. 自动/半自动多源数据融合。 5. 基于规则与推理的决策支持
  • 34. 主要内容为什么垂直行业需要知识图谱 垂直知识图谱的特点 垂直知识图谱工具 垂直知识图谱应用
  • 35. 知识图谱帮助图书馆模式变迁Extract and Integrate Data From multiple SourcesContinuously provide up-to-date content内容供应商+平台运营商Role of KG
  • 36. ZhouShanECUSTZheJiangHeNan……ShangHaiFederated Thematic Resource Library……Port Economy Knowledge GraphTextile Industry Knowledge GraphAgro-Product Processing Knowledge GraphMarine Economy Knowledge GraphChemical Engineering Knowledge Graph未来互联与共享的图书馆资源库 http://semantic.lib.cn Future work
  • 37. 证券行业
  • 38. 基于知识图谱技术的医疗知识库——正在进行。。。。
  • 39. 病历结构化表示 ——正在进行【主诉】两周内便血2次 【现病史】患者2周前无明显诱因下出现大便带鲜红色液体2次,无肛门口异物感,肛门口无突出物, 大便色黄,无粘胨脓液,无恶心呕吐,无胃寒发热,无尿频尿急尿痛血尿,无腹痛腹泻里急后重,至我 院门诊查肠镜示“距肛9-12cm见一浸润性肿块,累及近2/3肠腔---直肠癌”,今为进一步诊治,门诊拟 “直肠癌”收入我科” 3.矛以西力欣、圣诺安抗感染、巴曲亭、捷凝止血,耐信制酸,潘金南、卫美佳、培尔吉、乐凡命、血 必净、天晴宁、力能、氯化钾等营养支持,环磷酰苷营养细胞,开顺化痰,贝科能保肝,甲硫氨酸维B1 保肝治疗,托烷司琼止吐治疗,丙帕他莫止痛。
  • 40. 总结垂直知识图谱有巨大的前景 垂直知识图谱有诸多难点问题 我们在图书馆、证券等行业做了部分探索
  • 41. 谢 谢 !ruantong@ecust.edu.cn