关键词:
中文文本纠错
知识增强
对比学习
世界知识
定义知识
摘要:
中文文本纠错旨在检测并纠正文本中的拼写错误和语法错误,是一项重要的工作。现存的研究方法主要有以下问题:(1)现有的文本纠错方法大多使用BERT纠正拼写错误,但是由于BERT缺乏足够的世界知识,同时这些方法忽视了中文词典中定义知识的重要性,导致模型无法很好地联系上下文语境纠正拼写错误。(2)现有纠错模型没有很好地结合语义知识进行语法纠错,在解决词序不当、字词冗余和字词缺失等类型的语法错误时表现不佳。
针对中文文本纠错任务中存在的问题,提出了以下方法:
(1)提出了一种基于知识增强和对比学习的中文拼写纠错方法。在世界知识网络层中,通过构建知识树的形式,将知识图谱中实体和句子进行连接,从而把世界知识注入到模型中。通过绝对位置索引和相对位置索引保留句子树的结构信息,同时构建了可见矩阵用来防止知识噪声问题,辅助模型纠正由于缺乏世界知识而导致的拼写错误。在定义知识网络层中,利用对比学习的思想,为中文词典中的词语定义构造正负样例对,然后将对比损失反向传播给纠正网络层,充分利用中文词典中的定义知识提升模型的纠错能力。在SIGHAN基准数据集上的实验结果证明了提出的中文拼写纠错方法的有效性。
(2)提出了一种基于指针网络和语义知识的中文语法纠错方法。通过基于指针网络构建的交换模块,指示当前字符按照正确中文语法指向下一个字符,从而解决语法纠错任务中的词序不当问题。通过语义知识编码层,融合不同层级的语义知识。首先将语义词典中的语义类知识注入到语法纠错模型中,学习不同语义类之间的相关性。同时结合词性知识,纠正语义搭配错误。最后,词性序列预测子任务和纠正模块共同学习,达到提升语法纠错模型性能的目的。在NLPCC2018数据集上的实验结果表明,提出的中文语法纠错方法具有一定的合理性和有效性。