期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于层次递进模式的“编译原理”课程教学研究与实践 预览
1
作者 于双元 徐金安 +1 位作者 丁丁 《工业和信息化教育》 2019年第3期51-55,共5页
'编译原理'课程是计算机科学与技术专业的重要专业课程之一,本文针对'编译原理'课程理论性强、抽象性强、实践性强、系统性强的特点,探讨了课程的目标定位,基于层次递进模式从课程教学内容设计、教学方法设计、教学实... '编译原理'课程是计算机科学与技术专业的重要专业课程之一,本文针对'编译原理'课程理论性强、抽象性强、实践性强、系统性强的特点,探讨了课程的目标定位,基于层次递进模式从课程教学内容设计、教学方法设计、教学实施等几个方面结合教学实际进行了研究和实践,阐述了相应的教学理解和教学体会。 展开更多
关键词 层次递进 编译原理 教学设计 教学方法 教学过程
在线阅读 下载PDF
采用Stack-Tree LSTM的汉语一体化依存分析模型 预览
2
作者 刘航 刘明童 +2 位作者 张玉洁 徐金安 《中文信息学报》 CSCD 北大核心 2019年第1期10-17,共8页
在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存... 在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的指导意义。该文在基于转移的依存分析框架下,提出Stack-Tree LSTM依存子树编码方法,通过对分析栈中所有依存子树的有效建模,获取任意时刻的依存子树的完整信息作为特征参与转移动作决策。利用该编码方式提出词性特征使用方法,融合N-gram特征构建汉语一体化依存分析神经网络模型。最后在宾州汉语树库上进行了验证实验,并与已有方法进行了比较。实验结果显示:该文提出的模型在分词、词性标注和依存分析任务上的性能非常接近特征工程最好的结果,并且均超过已有的一体化依存分析神经网络模型。 展开更多
关键词 中文分词、词性标注和依存分析 依存子树 神经网络
在线阅读 下载PDF
基于高层语义注意力机制的中文实体关系抽取 预览
3
作者 武文雅 +1 位作者 徐金安 张玉洁 《广西师范大学学报:自然科学版》 CAS 北大核心 2019年第1期32-41,共10页
实体关系抽取在挖掘结构化事实的信息抽取系统中扮演着重要的角色。近年来,深度学习在关系抽取任务中取得了显著的成果,同时,注意力机制也逐步地融入到神经网络中,进一步提高了关系抽取的性能。但是,目前的注意力机制主要关注一些低层... 实体关系抽取在挖掘结构化事实的信息抽取系统中扮演着重要的角色。近年来,深度学习在关系抽取任务中取得了显著的成果,同时,注意力机制也逐步地融入到神经网络中,进一步提高了关系抽取的性能。但是,目前的注意力机制主要关注一些低层次的特征,比如词汇等。本文提出一种基于高层语义注意力机制的分段卷积神经网络模型(PCNN_HSATT,high-level semantic attention-based piecewise convolutional neural networks),该模型将注意力机制设置在分段最大池化层后,动态地关注了高层次的语义信息。除此之外,由于中文实体关系语料稀疏性较大,本文利用同义词词林对COAE2016语料进行增强以扩大数据规模。最后在COAE2016和ACE2005的中文语料上进行实验,F1值分别达到了78.41%和73.94%,与效果最好的SVM方法相比分别提高了10.45%和0.67%,这充分证明了PCNN_HSATT模型在中文关系抽取上的有效性。 展开更多
关键词 关系抽取 卷积神经网络 注意力机制 数据增广 依存句法约束
在线阅读 下载PDF
融合Gate过滤机制与深度Bi-LSTM-CRF的汉语语义角色标注 预览
4
作者 张苗苗 刘明童 +2 位作者 张玉洁 徐金安 《情报工程》 2018年第2期45-53,共9页
语义角色标注的传统方法采用基于句法特征的统计机器学习方法.由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题.随着深度学习的兴起,研究者... 语义角色标注的传统方法采用基于句法特征的统计机器学习方法.由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题.随着深度学习的兴起,研究者将基于双向长短时记忆(BidirectionalLongShort-TermMemory,Bi-LSTM)神经网络模型用于语义角色标注.该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模.本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐.CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升. 展开更多
关键词 汉语语义角色标注 Gate过滤机制 Bi-LSTM-CRF 依存句法分析
在线阅读 下载PDF
中文实体关系抽取研究综述 预览 被引量:2
5
作者 武文雅 +1 位作者 徐金安 张玉洁 《计算机与现代化》 2018年第8期21-27,34共8页
作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为... 作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为必要。本文从实体关系抽取的产生和发展开始,对目前基于中文的实体关系抽取技术现状作了阐述;按照关系抽取方法对语料的依赖程度分为4类:有监督的实体关系抽取、无监督的实体关系抽取、半监督的实体关系抽取和开放域的实体关系抽取,并对这4类抽取方法进行具体的分析和比较;最后介绍深度学习在中文实体关系抽取上的应用成果和发展前景。 展开更多
关键词 中文实体关系抽取 有监督方法 无监督方法 半监督方法 开放域实体关系抽取方法 深度学习
在线阅读 下载PDF
基于多特征融合编码的神经网络依存句法分析模型 预览
6
作者 刘明童 张玉洁 +1 位作者 徐金安 《中文信息学报》 CSCD 北大核心 2018年第12期41-47,共7页
在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码... 在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。 展开更多
关键词 依存句法分析 多特征融合编码 依存子树 TreeLSTM神经网络
在线阅读 下载PDF
基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注 预览
7
作者 张苗苗 张玉洁 +2 位作者 刘明童 徐金安 《计算机与现代化》 2018年第4期1-6,31共7页
目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-... 目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-LSTM的深度进行扩展。此外,引入标签转移概率矩阵进行约束,并且使用条件随机场(CRF)融合全局标签信息得出最优标注序列。实验结果表明,该方法使得汉语语义角色标注的F1值提高1.71%。 展开更多
关键词 汉语语义角色标注 Gate机制 Bi-LSTM-CRF 标签转移概率矩阵
在线阅读 下载PDF
开放域上基于深度语义计算的复述模板获取方法 预览
8
作者 刘明童 张玉洁 +1 位作者 徐金安 《中文信息学报》 CSCD 北大核心 2018年第2期94-101,共8页
利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先... 利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。 展开更多
关键词 关系模板 复述模板 深度语义计算 自动聚类
在线阅读 下载PDF
基于网络文本的汉语多词表达抽取方法
9
作者 龚双双 +1 位作者 徐金安 张玉洁 《山东大学学报:理学版》 CSCD 北大核心 2018年第9期40-48,共9页
多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层... 多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84. 92%,第二层次多词表达识别的F值为89. 58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。 展开更多
关键词 多词表达 左右熵 增强互信息 SVM 分词
基于枢轴语言的平行语料构建方法 预览 被引量:1
10
作者 单华 张玉洁 +2 位作者 周雯 徐金安 《情报工程》 2017年第3期29-39,共11页
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标... 平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。 展开更多
关键词 枢轴语言 机器翻译 平行语料 主动学习
在线阅读 下载PDF
融合时态特征的日英层次短语翻译模型 预览
11
作者 明芳 徐金安 +2 位作者 王楠 张玉洁 《计算机与现代化》 2017年第6期1-7,共7页
针对基于层次短语翻译模型的统计机器翻译使用上下文信息有限,时态翻译质量不高的问题,提出一种融合时态特征的日英统计机器翻译方法。该方法通过引入翻译规则的时态分类约束信息,解码器可以根据每条规则的潜在时态分类,为相应时态的句... 针对基于层次短语翻译模型的统计机器翻译使用上下文信息有限,时态翻译质量不高的问题,提出一种融合时态特征的日英统计机器翻译方法。该方法通过引入翻译规则的时态分类约束信息,解码器可以根据每条规则的潜在时态分类,为相应时态的句子匹配到最合适的规则进行翻译。首先从双语训练语料中抽取时态特征构建最大熵分类模型,然后再抽取包含各类时态信息的层次短语规则的时态特征,最后将规则的时态分类结果作为一类新特征,融入基于层次短语的翻译系统中。实验结果表明,与基线系统相比,该方法在多个测试集上提高了翻译质量,在一定程度上解决了日英层次短语模型的时态翻译问题。 展开更多
关键词 层次短语翻译模型 时态特征 最大熵分类模型
在线阅读 下载PDF
融合规则与统计的微博新词发现方法 预览 被引量:6
12
作者 周霜霜 徐金安 +1 位作者 张玉洁 《计算机应用》 CSCD 北大核心 2017年第4期1044-1050,共7页
结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微... 结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面,人工启发式规则是指对微博新词的分类和归纳总结,并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则;另一方面,改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,并使用CRF模型训练和识别新词,最终达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,所提出的方法能有效地提高微博新词识别的F值。 展开更多
关键词 微博新词 构词规则 统计量特征 C/NC-value方法 条件随机场模型
在线阅读 下载PDF
基于随机行走N步的汉语复述短语获取方法
13
作者 马军 张玉洁 +1 位作者 徐金安 《中国科学:信息科学》 CSCD 北大核心 2017年第8期1066-1077,共12页
在利用大规模双语语料获取复述知识方面,传统的基于"枢轴"方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对构建翻译关系图,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在... 在利用大规模双语语料获取复述知识方面,传统的基于"枢轴"方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对构建翻译关系图,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在的复述知识.本文描述了由汉英短语翻译表构建翻译关系图的方法、基于N步的随机行走算法和基于期望步数的复述短语可信度计算方法.同时,本文提出面向多语言对的翻译关系图扩展方法.在NTCIR汉英和英日双语平行语料上进行了实验与评测,并与传统方法进行了对比.实验结果表明本文所提出的方法能够获取更多的复述知识,而且扩展语言对的翻译关系图能够有效获取更多潜在的复述知识. 展开更多
关键词 复述获取 短语翻译表 翻译关系图 随机行走 期望步数
融合词法句法分析联合模型的树到串EBMT方法 预览
14
作者 王丹丹 徐金安 +2 位作者 张玉洁 杨晓晖 《北京大学学报:自然科学版》 CSCD 北大核心 2017年第2期295-304,共10页
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为... 针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。 展开更多
关键词 基于实例的机器翻译 依存树到串模型 联合模型 泛化模板
在线阅读 免费下载
融合语态特征的日英层次短语翻译模型 预览 被引量:2
15
作者 王楠 徐金安 +2 位作者 明芳 张玉洁 《北京大学学报:自然科学版》 CSCD 北大核心 2017年第2期305-313,共9页
针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型... 针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型,将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。 展开更多
关键词 被动语态 可能语态 统计机器翻译 最大熵模型
在线阅读 免费下载
融合被动和可能态模型的日汉统计机器翻译 预览 被引量:1
16
作者 王楠 徐金安 +2 位作者 明芳 张玉洁 《中文信息学报》 CSCD 北大核心 2016年第6期201-207,共7页
日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译。因此,该文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到... 日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译。因此,该文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到对数线性模型中改进翻译模型的方法,以提高可能态和被动态翻译规则选择的准确性。实验结果表明,该方法可以有效提升日语可能态和被动态句子的翻译质量,在大规模日汉语料上,最高翻译BLEU值能够由41.50提高到42.01,并在人工评测中,翻译结果的整体可理解度得到了2.71%的提升。 展开更多
关键词 被动态 可能态 统计机器翻译 最大熵模型
在线阅读 下载PDF
基于字形与语音的音译单元对齐方法 预览
17
作者 刘博佳 徐金安 +1 位作者 张玉洁 《北京大学学报:自然科学版》 CAS CSCD 北大核心 2016年第1期75-80,共6页
为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地... 为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地提高机器音译的准确性。 展开更多
关键词 机器音译 对齐 N-GRAM模型 基于语音的音译方法 基于字形的音译方法
在线阅读 免费下载
基于Active Learning的中文分词领域自适应 预览 被引量:3
18
作者 许华婷 张玉洁 +3 位作者 杨晓晖 单华 徐金安 《中文信息学报》 CSCD 北大核心 2015年第5期55-62,共8页
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的... 在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实验结果显示,在科技文献测试语料上,基于Active Learning训练的分词系统在各项评测指标上均有提高。 展开更多
关键词 中文分词 领域自适应 主动学习
在线阅读 下载PDF
基于单语语料的面向日语假名的日汉人名翻译对抽取方法 预览
19
作者 王东明 徐金安 +1 位作者 张玉洁 《中文信息学报》 CSCD 北大核心 2015年第5期84-90,共7页
命名实体的翻译等价对在跨语言信息处理中非常重要。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表... 命名实体的翻译等价对在跨语言信息处理中非常重要。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,该文提出了一种基于单语语料的面向日语假名的日汉人名翻译对自动抽取方法。该方法首先使用条件随机场模型,分别从日语和汉语语料库中抽取日语和汉语人名;然后,采用基于实例的归纳学习法自动获取人名实体的日汉音译规则库,并通过反馈学习来迭代重构音译规则库。使用音译规则库计算日汉人名实体之间的相似度,给定阈值判定人名实体翻译等价对。实验结果表明,提出的方法简单高效,在实现系统高精度的同时,克服了传统方法对双语资源的依赖性。 展开更多
关键词 机器翻译 命名实体 日语假名 归纳学习法 音译
在线阅读 下载PDF
汉英双语命名实体识别与对齐的交互式方法 预览 被引量:11
20
作者 宗成庆 苏克毅 《计算机学报》 EI CSCD 北大核心 2011年第9期 1688-1696,共9页
基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具... 基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具有一定的修正作用,两方面的结合实现了双语实体识别与对齐之间的交互式互助过程.实验证明,这种交互式对齐模型不仅显著提高了汉英实体对齐的性能(F值从74.4%提高到81.2%),而且有效地提高了汉英实体识别的正确率和召回率. 展开更多
关键词 命名实体 识别 双语对齐 交互 机器翻译
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈