关注公众号【算法码上来】,每日算法干货马上就来!
论文链接:D17-1279
摘要
这篇论文研究的是科技论文的信息抽取问题,比如给你一篇paper,你要找出其中的Task(任务)、Process(过程方法)、Material(资料数据)三种实体。
这个问题可以归类为序列标注问题,但是科技论文的标注数据还是很少的,于是本文提出了一种基于图的半监督序列标注算法。
1 介绍
背景就是近几年来论文发表数量越来越多,要对这些论文进行信息抽取,概括这篇论文的摘要。
由于标注过的论文很少,大量论文那都是无标注的,所以需要一个半监督的方法来进行序列标注。本文有三大贡献:一是结果比以往的更好啦,二是提出一种半监督序列标注方法,使用基于图的标签传播和可信度数据选择,三是探索了不同的利用无标注数据的方法,比如无监督的表示初始化和半监督的模型训练。
以往的工作大多是基于迁移学习的,本文提出的模型比他们结果都要好(ps.迁移学习和半监督方法都说自己最好。。。)
2 模型
基本的模型就不用说了,就是传统的CNN+LSTM+CRF序列标注模型。
本文的重点就在于无标注数据的使用上,采用了基于图的标签传播算法,来对无标注数据进行标注,并添加到序列标注模型中进行训练。
3 半监督学习
具体是怎么标注的呢?
概括起来就是首先计算出每个无标注数据的后验概率,然后改进基本序列标注模型中的CRF,使它能够考虑到标签的不确定性。
基于图的后验估计
估计后验概率方法如下:
首先基于词的语义相似度构造出一个图,然后使用CRF边际函数作为正则化因子在图上进行标签传播,最后应用到神经网络中。
图的构造
图中的结点代表单词,边代表词之间的语义相似性。整个图的结点数量等于标注数据和未标注数据总单词数。
单词的表示是用前后共5个单词的词向量、和他最近的动词的词向量、一组离散特征例如词性和大写连接而成,然后用PCA降维到100维。
定义两个结点之间的边权重等于欧几里得距离,如果两个点中至少一个点在另一个点的K近邻里。