信息抽取技术

来自智慧安全引擎
跳转至: 导航搜索

研究者

研究团队

  • 北大
  • 哈尔滨工业大学
    • 智能技术与自然语言处理实验室
  • 中科院计算所

研究项目

  • 刘挺
    • 国家项目:
    • 2008.1-2011.12: 下一代信息检索研究,国家自然科学基金重点项目
    • 2008.1-2010.12: 基于实体关系的文本内容挖掘与集成技术平台,国家863计划探索类课题
    • 2009.1 - 2011.12: 中文依存分析, 国家自然科学基金青年基金
    • 2007.1 - 2009.12: 中文语义角色标注, 国家自然科学基金面上项目
    • 2007.1 - 2008.12: 基于XML的分层互动中文处理开放平台,国家863计划探索类课题
    • 2006.1 - 2008.12: 基于等价伪词的中文词义消歧,国家自然科学基金面上项目
    • 2006.1 - 2008.12: 中文短语及简单句复述技术,国家自然科学基金面上项目
    • 2005.1 - 2008.12: 问题理解与答案抽取,国家自然科学基金重点项目“问答式信息检索”的子课题
    • 2003.1 - 2004.12: 开放域问答式信息检索技术研究, 国家自然科学基金面上项目
    • 2003.2 - 2003.7: 中文信息模糊匹配技术,国家863课题
    • 2001.1 - 2002.12: 基于依存分析的中文自动校对,国家863课题“中文处理平台”的子课题

学术会议

  • MUC
    • Template Element
    • Template Relation
    • Scenario Template
  • ACE

相关工具

参考文献

  • 谭红叶. 中文事件抽取关键技术研究[D]. 哈尔滨工业大学博士学位论文,2008:6
  • 赵妍妍. 中文事件抽取的相关技术研究[D]. 哈尔滨工业大学硕士学位论文,2007:7
  • 徐霞. 半监督中文事件抽取方法的研究[D]. 苏州大学硕士学位论文,2014:5
  • 张奇. 信息抽取中实体关系识别研究[D]. 中国科学技术大学学位论文,2010:5
  • 胡博磊,何瑞芳,孙宏,王文俊. 基于条件随机域的中文事件类型识别[J]. 模式识别与人工智能,2012.6:445-449
  • Ping-Bo W U, Chen Q X, Liang M A. Research on Extraction and Integration of Developing Event Based on Analysis of Space-time Information[J]. Journal of Chinese Information Processing, 2006, 20(1):21-28.

事件抽取综述

  • 【先摘录,后整理】
  • 赵妍妍.秦兵.车万翔.刘挺.ZHAO Yan-yan.QIN Bing.CHE Wan-xiang.LIU Ting 中文事件抽取技术研究[期刊论文]-中文信息学报 2008(1)
    • 事件抽取主要有两种方法:模式匹配的方法和机器学习的方法。
    • 模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。例如Surdeanu和Harabagiu针对开放域的事件抽取系统——FSA等。这种方法准确率较高,但往往依赖于具体领域,可移植性差。
    • 机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。相对而言,这种方法较为客观,不需要太多的人工干预和领域知识,因此目前的事件抽取研究多数采用机器学习的方法。Hai Leong Chieu和Hwee TouNg于2002年首次在事件抽取中引人最大熵分类器,用于事件元素的识别;David Ahn 2006年结合MegaM和Timbl两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在ACE英文语料上均取得了不错的效果。但Ahn的方法由于将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡;此外,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一定的数据稀疏问题。
  • 高强,事件抽取技术研究综述[J],情报理论与实践,2013(36)114-128
    • 1概述
    • 事件抽取任务分为元事件抽取及主题事件抽取。
    • 元事件表示一个动作的发生或状态的变化。往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,包括参与该动作行为的主要成分(如事件、地点、人物等)。
    • 主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。
    • 2元事件抽取
    • 2.1基于模式匹配的元事件抽取
    • 通过各种模式匹配算法找出符合模式约束条件的信息。核心是抽取模式的构建。典型系统有ExDisco、GenPAM。
    • 2.2基于机器学习的元事件抽取
    • 将事件类别及事件元素的识别转化为分类问题。核心在于分类器的构造和特征的选择。
    • Chieu 等首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。H. Llorens等通过 CRF 模型进行语义角色标注,并应用于 TimeML 的事件抽取,提升了系统的性能。D. Ahn 结合 MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明,该方法优于采用单一算法。
    • 赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。
    • 3主题事件抽取
    • 一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。
    • 3.1基于事件框架的主题事件抽取
    • 采用基于语义角色的方法抽取元事件,进行篇章内的元事件串联,并提出一种基于摘要和改进向量的主题事件聚类方法,实现跨篇章的事件归并。
    • 3.2基于本体的主题事件抽取
    • 主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。

分类方法总结

  • 李航——《统计学习方法》
方法 适用 模型特点 学习策略 学习的损失函数 学习算法
  • 感知机
  • 二分类
  • 分离超平面
  • 极小化误分点到超平面距离
  • 误分点到超平面距离
  • 随机梯度下降法
  • K近邻法
  • 多类分类
  • 回归
  • 特征空间
  • 样本点
  • 朴素贝叶斯
  • 多类分类
  • 特征与类别的联合概率分布,条件独立假设
  • 极大似然估计
  • 对数似然损失
  • 概率计算公式
  • EM算法
  • 决策树
  • 多类分类
  • 回归
  • 分类树
  • 回归树
  • 正则的极大似然估计
  • 对数似然损失
  • 特征选择
  • 生成
  • 剪枝
  • Logistic回归&最大熵模型
  • 多类分类
  • 特征条件下类别的条件概率分布,对数线性模型
  • 极大似然估计
  • 正则化的极大似然估计
  • Logistic损失
  • 改进的迭代尺度算法
  • 梯度下降
  • 拟牛顿法
  • SVM
  • 二类分类
  • 分离超平面
  • 核函数
  • 极小化正则化合页损失
  • 软间隔最大化
  • 合页损失
  • 前向分布加法算法
  • 提升方法
  • 二类分类
  • 若分类器的线性组合
  • 极小化加法模型的指数损失
  • 指数损失
  • 前向分布加法算法
  • EM算法
  • 概率模型参数估计
  • 含隐变量概率模型
  • 极大似然估计
  • 极大后验概率估计
  • 对数似然损失
  • 迭代算法
  • 隐马尔科夫模型
  • 标注
  • 观测序列与状态序列的联合概率分布模型
  • 极大似然估计
  • 极大后验概率估计
  • 对数似然损失
  • 概率计算公式
  • EM算法
  • 条件随机场
  • 标注
  • 状态序列条件下观测序列的条件概率分布
  • 对数线性模型
  • 极大似然估计
  • 正则化极大似然估计
  • 对数似然损失
  • 改进的迭代尺度算法
  • 梯度下降
  • 拟牛顿法