摘要

这篇论文研究的是科技论文的信息抽取问题，比如给你一篇paper，你要找出其中的Task（任务）、Process（过程方法）、Material（资料数据）三种实体。
这个问题可以归类为序列标注问题，但是科技论文的标注数据还是很少的，于是本文提出了一种基于图的半监督序列标注算法。

1 介绍

背景就是近几年来论文发表数量越来越多，要对这些论文进行信息抽取，概括这篇论文的摘要。
由于标注过的论文很少，大量论文那都是无标注的，所以需要一个半监督的方法来进行序列标注。本文有三大贡献：一是结果比以往的更好啦，二是提出一种半监督序列标注方法，使用基于图的标签传播和可信度数据选择，三是探索了不同的利用无标注数据的方法，比如无监督的表示初始化和半监督的模型训练。

以往的工作大多是基于迁移学习的，本文提出的模型比他们结果都要好（ps.迁移学习和半监督方法都说自己最好。。。）

2 模型

基本的模型就不用说了，就是传统的CNN+LSTM+CRF序列标注模型。
本文的重点就在于无标注数据的使用上，采用了基于图的标签传播算法，来对无标注数据进行标注，并添加到序列标注模型中进行训练。

3 半监督学习

具体是怎么标注的呢？
概括起来就是首先计算出每个无标注数据的后验概率，然后改进基本序列标注模型中的CRF，使它能够考虑到标签的不确定性。

基于图的后验估计

估计后验概率方法如下：
首先基于词的语义相似度构造出一个图，然后使用CRF边际函数作为正则化因子在图上进行标签传播，最后应用到神经网络中。

图的构造

图中的结点代表单词，边代表词之间的语义相似性。整个图的结点数量等于标注数据和未标注数据总单词数。
单词的表示是用前后共5个单词的词向量、和他最近的动词的词向量、一组离散特征例如词性和大写连接而成，然后用PCA降维到100维。
定义两个结点之间的边权重等于欧几里得距离，如果两个点中至少一个点在另一个点的K近邻里。