期刊文献+

面向专业文献知识实体类型的抽取和标注 预览

Type Extraction and Labelling of Knowledge Entities in the Field of Professional Literature
在线阅读 下载PDF
分享 导出
摘要 知识实体的类型标注是专业文献的结构化管理和知识脉络挖掘中的一个重要问题。然而,由于知识实体具有专业性强、类型多样等特点,传统的实体抽取方法并不能很好地实现知识实体的类型标注。为了解决这一问题,该文从数据中发现并总结出知识实体类型的独有特性,根据这些特性首先提出一种基于启发式规则的类型抽取方法、实现部分知识实体的类型标注,进而通过多标签加权的标签传播方法实现对所有知识实体的类型标注。与传统方法相比,该方法能够从数据中获得最有可能的类型标签,在无需人工标注的情况下获得有效的知识实体类型标注。实验结果表明,所提出方法具有较好的灵活性,更适用于专业文献知识实体的类型标注。 Knowledge-entity type labeling is important for the structural management of literature data.However,since the knowledge entities are highly specialized and have diversified types,traditional entity-extraction and labeling methods do not produce good results on the literature data.To solve this problem,we summarize several characteristics of knowledge-entity by exploring the literature data.And then according to these characteristics,we propose a combination of unsupervised and semi-supervised method,which is based on some heuristic rules and multilabel weighted LPA propagation.This method is able to extract candidate labels from the data and does the knowledge-entity labeling work without manual annotation.Experimental results demonstrate that the proposed method is flexible,and more suitable for the literature data.
作者 温雯 伍思杰 蔡瑞初 郝志峰 WEN Wen1, WU Sijie1 , CAI Ruichu1, HAO Zhifeng1,2 ( 1. Computer School, Guangdong University of Technology, Guangzhou, Guangdong 510006, China ; 2. Foshan University,Foshan, Guangdong 528000, China)
出处 《中文信息学报》 CSCD 北大核心 2018年第1期102-115,共14页 Journal of Chinese Information Processing
基金 国家自然科学基金(61202269) 博士点基金项目(20134420110010)
关键词 类型抽取 类型标注 知识实体 多标签加权 标签传播 type extraction type labelling knowledge entityl multi-label weighting label propagation
作者简介 温雯(1981-),博士,副教授,主要研究领域为数据挖掘、机器学习、模式识别。E—mail:wwen@gdut.edu.cn;伍思杰(1991-),硕士研究生,主要研究领域为文本挖掘、信息抽取。E—mail:i@wusijie.net;蔡瑞初(1983-),博士,教授,主要研究领域为数据挖掘、机器学习、信息检索。E—mail:cairuichu@gmail.com
  • 相关文献

参考文献12

二级参考文献245

共引文献170

投稿分析

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部 意见反馈