• 1. 基于Web挖掘的领域本体 自动学习 Automatic Ontology Learning Through Web Mining方卫东 袁华 刘卫红 华南理工大学网络工程研究中心 2005年9月26日
  • 2. 主要内容1. 概述 2. 本体主干的获取 本体与本体主干 识别显式的is_a关系 发现潜在的is_a关系 3. 识别概念间的一般关系 领域关系的发现 关系的修剪 4. 实验与结论
  • 3. 1. 本体学习概述1.1 本体学习 1.2 现有方法的局限 1.3 本文的学习模型
  • 4. 1.1 本体学习本体学习—Web信息提取的扩展 可以从文本、字典、知识库、半结构化以及关系模式中等资源中进行 基于文本的本体学习是最具有挑战性和最有意义的本体学习方式 基于句法分析的方法(如模式匹配法等) 基于统计的方法
  • 5. 1.2 现有方法的局限依赖于某些通用词典(如WordNet等)或核心本体(core ontology),侧重于扩展已有词典中概念之间的关系或者扩充核心本体; 对于所获取的概念之间的关系缺乏可信度量化
  • 6. 1.2 现有方法的局限(续)现有方法不适于从特定文本中学习领域本体: 效率低; 某些语言中适合本体学习的词典可能不存在; 概念关系可信度没有量化。
  • 7. 1.3 本文的学习模型本文所提出的本体学习模型: 扩展的模式匹配规则抽取候选本体主干 利用概念间共同出现的统计规律发现一般关联关系 使用了分布语义(Distributional Semantic)模型修剪、优化和合并所得到的候选本体
  • 8. 1.3 本文的学习模型(续)
  • 9. 1.3 本文的学习模型(续)充分利用模式匹配在特定上下文中所表示的特化/泛化关系的准确性,但又不使用复杂和低效的自然语言理解模型发现概念之间的一般关系; 模式库中的每条匹配规则都根据其语法特征和统计结果被赋予一个可信度值; 每对概念间关系的可信度取决于识别该关系所使用的模式、概念间的语义距离和各种统计特征; 循环递增的方式对领域本体进行扩充和完善。
  • 10. 2.本体主干的获取2.1 本体 2.2 本体主干 2.3 显式is_a关系 2.4 模式的扩充 2.5 潜在is_a关系
  • 11. 本体要素 概念 概念之间的特化/泛化关系 概念之间的其它关系 定义1:一个领域D上的本体O是一个四元组: 其中, 其中C是一个元素集合,这些元素称作概念;is_a是C上的一个偏序关系(即is_a是一个二元关系,满足自反、传递和反对称),R是一个包含所有关系名称的集合,是函数,定义为: 2.1 本体
  • 12. 直接确定定义1中的所有元素是非常困难的;因此,我们采取了首先确定本体主干,然后再发现本体概念间的其他关系的方法。 定义2:一个本体O的主干是它的一个子集: 其中,C,I,is_a的定义同定义1,h是函数,定义为:2.2本体主干
  • 13. 2.3显式is_a关系 概念之间的is_a关系可以通过简单的模式匹配在文本集中发现,而领域概念则可以通过命名实体识别获取。例如: 某些体育运动,如篮球、排球、足球等,… 概念:体育运动,篮球,排球和足球 模式:<某些> NP0 <如> NP1 {NP2,…,[及]NPi[等]} 该模式表达了以下语义: for all NPi,i≧1,kind-of (NPi,NP0)
  • 14. 2.4 模式的扩充如果本体主干中不存在未提取的概念对则退出 从本体主干中抽取术语对,其中t2 = h(t1) 从文本集中提取包含t1和t2的句子 对句子进行分析,提取共同模式 如果所提取模式已经存在于模式库中,转5;否则将模式加入模式库 转1算法1
  • 15. 2.5 潜在is_a关系 使用分布语义(Distributional Semantic)模型:两个在语义上相近的概念,与它们共同出现的词的规律(主题签名)和它们所处的上下文(上下文签名)也必定相似 主题签名(topic signatures):与概念c在同一上下文(比如同一句子)中出现的词的集合; 上下文签名(context signatures),包括: 主语签名(subject signatures):一个动词集,该集合中的动词以c作为主语; 宾语签名(object signatures):一个动词和介词集,c是该集合元素的动词宾语或介词宾语; 修饰词签名(modifier signatures):一个形容词和限定词的集合,集合中的元素在名词性短语中修饰c。
  • 16. 计算举例:主题签名
  • 17. 计算举例:主题签名(续)
  • 18. 3. 识别3.1 概念间的一般关系 3.2 领域关系的发现 3.3 关系的修剪
  • 19. 3.1 概念间的一般关系通用关系:这类关系在大多数领域概念间都是存在的,包括:一般属性关系(property_of)、整体-部分关系(part_of)、成员-集体关系(member_of)等。 基于可扩展的模式分析法 领域关系:指专门存在于某领域中的关系,例如 在新闻报道中的原因-事件关系(agent_event)、人物-事件关系(people-event)、时间-事件关系(time-event)… 在市场分析中的生产商-产品关系(producer-product),生产者-消费者关系(producer-consumer),商场-顾客关系(retailer-customer)…
  • 20. 3.2 领域关系的发现给定一个交易集T = {ti|i = 1...n},其中每一个交易是一个项目集ti = {ai,j|j = 1...n, ai,j∈C},C是项目名称的集合; 计算关联规则XkYk,使得该规则的支持度和信任度不小于用户指定的阈值; 支持度(support)被定义为交易集中包含Xk∪Yk的交易所占有的百分比; 可信度(confidence)被定义为当Xk在交易中出现时,Yk出现的频率 。
  • 21. 3.2 领域关系:公式
  • 22. 3.2 领域关系:算法从本体库中任意选取两个概念c1,c2,使得c1≠H(c2),且c2≠H(c1),若不存在这样的概念,转5 按公式(8)计算support(c1→c2),若support(c1→c2)< k¬support,转1 按公式(9)计算confidence(c1→c2),若confidence(c1→c2)< kconfidence,转1 将(c1→c2)加入规则库,转1 对关系进行修剪 结束 如果概念c1的出现总是伴随c2的出现,则我们推测c2可能与c1存在某种关系:领域关系的可信度:
  • 23. 3.3 关系的修剪算法2找出的概念关系中存在大量冗余,例如: 商品-质量和手机-质量之间都存在较强关联 事实上,因为手机是一种商品,所以手机-质量之间的关联是商品-质量的自然体现,不应该被视作新的关联。
  • 24. 3.3 关系的修剪:策略设定一个阈值kinterest 对于任意一对关联r :a→b和r‘:a’→b‘,若 a=H(a‘)且b=H(b’) ,则若support(r)> kinterest*support(r‘)且confidence(r)> kinterest*confidence(r’),则删除r‘,否则删除r; 否则,若a≠H(a')或b≠H(b') ,则令x = support(r) * confidence(r),y = support(r') * confidence(r')。若x > y则删除r',否则删除r。
  • 25. 3.3 关系的修剪:策略(续)
  • 26. 4. 实验与结论(1)使用Google从网络上搜集了850个与“手机市场”相关的网页作为初始领域文本; 使用了对照网页排除与待研究领域无关的概念 ; 本体学习&文本扩展
  • 27. 4. 实验与结论(2)
  • 28. 4. 实验与结论(3)
  • 29. 4. 实验与结论(4)手机市场概念可信度概念可信度价格0.92销售0.93品牌0.68竞争0.90市场0.85趋势0.50短信0.70分析0.82投诉0.69潜力0.44............
  • 30. 4. 实验与结论(5)本体知识应用日渐广泛 本文介绍的方法解决了以下问题 现有本体学习方法依赖通用词典 不能对所获得的关系进行可信度量化
  • 31. Maedche, A.; Staab, S. Ontology Learning for the Semantic Web [J], IEEE Intelligent Systems, Kluwer Academic Publishers, 2001, 16(2): 72-79. Navigli, R., Velardi, P., Gangemi, A. Ontology learning and its application to automated terminology translation [J]. IEEE Intelligent Systems, 2003, 18(1): 22-31. Kietz J.U., Maedche A., Volz R. A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet [A]. Proc EKAW-2000 Workshop "Ontologies and Text" [C]. Juan-Les-Pins, France. 2000. Maedche, A. and Staab, S. Discovering Conceptual Relations from Text [A]. Proc 14th Euro Conf on Artificial Intelligence [C]. Amsterdam: IOS Press. 2000. Hearst M. A. Automated Discovery of WordNet Relations [A]. C. Fellbaum (ed.): WordNet: An Electronic Lexical Database [C]. Cambridge, MA: MIT Press. 1998. 131-151. Agirre, E., Ansa, O., Hovy, E., and Martinez, D. Enriching very large ontologies using the WWW [A]. Proc 1st Workshop on Ontology Learning OL'2000 [C]. Berlin, Germany: CEUR Workshop, 2000. Maedche A. and Staab S. Mining ontologies from text. Proc EKAW-2000 [A], Springer Lecture Notes in Artificial Intelligence (LNAI-1937) [C]. London, UK: Springer-Verlag, 2000. Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [A]. Proc ACM SIGMOD Conf Management of Data [C], New York, USA: ACM Press, 1993. 207-216.References
  • 32. References (Cont.)Hearst M. A. Automatic acquisition of hyponyms from large text corpora [A]. Proc 14th Intl Conf Computational Linguistics [C]. Morristown, NJ, USA: Association for Computational Linguistics, 1992. 539-545. Hobbs J. The generic information extraction system [A]. Proc 5th Message Understanding Conf (MUC-5) [C], Baltimore, Maryland, USA: Morgan Kaufmann Publishers, 1993. 87-92. Maedche A., Staab S. Discovering conceptual relations from text [A]. Proc ECAI2000 [C]. Amsterdam: IOS Press, 2000. Srikant, R., Agrawal, R. Mining generalized association rules [A]. Proc VLDB [C]. San Francisco, CA, USA: Morgan Kaufmann Publishers, 1995. 407-419. SUN Jian, GAO Jianfeng, ZHANG Lei, et al. Chinese Named Entity Identification Using Class-based Language Model [A]. Proc 19th Intl Conf Computational Linguistics [C]. San Francisco: Morgan Kaufmann, 2002. 967-973. FANG Weidong, ZHANG Ling, WANG Yanxuan, et al, Toward a Semantic Search Engine Based on Ontologies [A]. Proc 4th Intl Conf Machine Learning and Cybernetics (ICMLC 2005) [C]. New York: Institute of Electrical and Electronics Engineers Inc, 2005. Stumme G., Madche A. FCA-Merge: Bottom-up merging of ontologies [A]. Proc 7th Intl. Conf Artificial Intelligence [C]. San Francisco: Morgan Kaufmann, 2001. 225-230.