关键词:
知识图谱
实体链接
注意力机制
知识扩容
摘要:
面对信息爆炸的时代,用于信息搜索的智能问答技术发展迅速。用户通过问答系统,从海量信息中检索出准确信息。传统问答算法利用浅层语义,获得简单问题的答案,但无法获得更深的语义层次,难以给出更加准确的信息。以知识图谱为基础的问答系统,结合知识图谱中的语义信息和知识结构,能够检索出更加准确的答案。但是,目前的研究多是在一个理想的状态下进行研究的,即用户所输入的问题,能够在知识图谱中通过推理全部得到答案。在实际应用中,知识库中的信息并不全面,故需要对知识库进行扩容。通过对海量文本信息进行清理、整合出所缺少的知识,将其扩充到知识库中。实体链接是进行知识库扩容的重要步骤,用来筛选出所缺失的知识。目前,实体链接模型大多缺乏文档与知识图谱之间的信息交互,实体链接的效果欠佳,无法准确进行实体匹配。为解决上述问题,本文展开相关研究,设计了基于注意力机制的实体链接模型,实现了文档与知识图谱的双向信息交互。本文的主要工作和贡献如下。本文提出了基于多角度双向注意力机制的实体链接模型。针对传统模型仅考虑输入文本与知识库之间的单向交互,通过得到的输入文档中实体指称上下文的每个单词的重要性,进行实体链接判断,这种模式可能导致信息缺失的问题。为解决上述问题本模型,首先,对实体指称与候选实体之间的特征进行双向交互,实现信息的双向“流动”。其次,为保证语义特征的全面性,本文从多个角度出发进行双向交互的特征计算,包含文本表面语义特征和文本上下文特征,从而获得全面的特征信息。最后,构建实体链接模型。实验结果表明,本文所提出的实体链接模型在多个公开数据集上的Micro得分有显著提高,同时该模型具备极高的泛化能力。本文基于以上成果,构建知识问答模型,实现该知识问答系统的知识扩容功能,满足知识问答系统需求,验证了算法的有效性。本文基于上述研究成果,构建了基于电影领域的知识问答系统,以豆瓣电影数据为基础定义实体和关系类型,实现各功能模块。该知识问答系统的构建帮助大众便捷获取所需要的电影信息,具有极强的应用价值。