Scientific Information Extraction with Semi-supervised Neural Tagging

关注公众号【算法码上来】,每日算法干货马上就来!

论文链接:D17-1279

摘要


这篇论文研究的是科技论文的信息抽取问题,比如给你一篇paper,你要找出其中的Task(任务)、Process(过程方法)、Material(资料数据)三种实体。
这个问题可以归类为序列标注问题,但是科技论文的标注数据还是很少的,于是本文提出了一种基于图的半监督序列标注算法。

1 介绍


背景就是近几年来论文发表数量越来越多,要对这些论文进行信息抽取,概括这篇论文的摘要。
由于标注过的论文很少,大量论文那都是无标注的,所以需要一个半监督的方法来进行序列标注。本文有三大贡献:一是结果比以往的更好啦,二是提出一种半监督序列标注方法,使用基于图的标签传播和可信度数据选择,三是探索了不同的利用无标注数据的方法,比如无监督的表示初始化和半监督的模型训练。

以往的工作大多是基于迁移学习的,本文提出的模型比他们结果都要好(ps.迁移学习和半监督方法都说自己最好。。。)

2 模型


基本的模型就不用说了,就是传统的CNN+LSTM+CRF序列标注模型。
本文的重点就在于无标注数据的使用上,采用了基于图的标签传播算法,来对无标注数据进行标注,并添加到序列标注模型中进行训练。

3 半监督学习


具体是怎么标注的呢?
概括起来就是首先计算出每个无标注数据的后验概率,然后改进基本序列标注模型中的CRF,使它能够考虑到标签的不确定性。

基于图的后验估计

估计后验概率方法如下:
首先基于词的语义相似度构造出一个图,然后使用CRF边际函数作为正则化因子在图上进行标签传播,最后应用到神经网络中。

图的构造

图中的结点代表单词,边代表词之间的语义相似性。整个图的结点数量等于标注数据和未标注数据总单词数。
单词的表示是用前后共5个单词的词向量、和他最近的动词的词向量、一组离散特征例如词性和大写连接而成,然后用PCA降维到100维。
定义两个结点之间的边权重等于欧几里得距离,如果两个点中至少一个点在另一个点的K近邻里。


   转载规则


《Scientific Information Extraction with Semi-supervised Neural Tagging》 韦阳 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
华东师范大学LaTeX幻灯片模板 华东师范大学LaTeX幻灯片模板
关注公众号【算法码上来】,每日算法干货马上就来! 分享一套自用ppt模板,使用 XeLaTeX 编译链接地址:传送门 界面示例觉得还可以的下载了用哦,欢迎修改的更美观!
下一篇 
Cross-Lingual Transfer Learning for POS Tagging without Cross-Lingual Resources Cross-Lingual Transfer Learning for POS Tagging without Cross-Lingual Resources
关注公众号【算法码上来】,每日算法干货马上就来! 论文链接:D17-1302 摘要 本文介绍了一个跨语言的序列标注迁移模型,和以往不同的是,不需要大量的跨语言语料。 1 介绍 之前正好才看过一篇Yang et al. (2017)的论
2017-12-19
  目录