期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
图模型方法的演化式摘要研究 预览
1
作者 贾永辉 王捷 +3 位作者 王超 沈佳斌 袁涛 王红玲 《福建电脑》 2019年第5期16-20,共5页
面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本文针对该任务... 面向互联网新闻事件的演化式摘要是自然语言处理的一个新兴任务,其本质是多文档自动文摘。由于互联网新闻事件报道具有动态演化、内容关联和信息重复等特点,面向互联网新闻事件的演化式文摘与传统文摘相比存在诸多不同。本文针对该任务,提出了一种演化式摘要的方法,包括事件阶段划分方法和使用基于图模型的方法对演化式摘要进行建模。在实验过程中,本文选择了一个具有完整的发展过程的热点事件为实验对象,实验结果表明,与传统方法相比,使用基于图模型的方法取得了良好的性能。 展开更多
关键词 事件阶段划分 图模型 演化式摘要 PAGERANK 文档自动文摘
在线阅读 下载PDF
基于隐主题马尔科夫模型的多特征自动文摘 预览 被引量:3
2
作者 刘江鸣 徐金安 张玉洁 《北京大学学报:自然科学版》 CAS CSCD 北大核心 2014年第1期187-193,共7页
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善... 基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。 展开更多
关键词 隐主题马尔科夫模型 特征 文档自动文摘
在线阅读 免费下载
查询无关排序主题模型 预览
3
作者 肖智博 车丰 +2 位作者 吴镝 李庆丰 鲁明羽 《模式识别与人工智能》 CSCD 北大核心 2014年第7期623-630,共8页
主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按... 主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要性区分.文中提出查询无关排序主题模型框架,利用主题间各种关系排序主题,得到有序主题列表.主题关系从主题层面评价主题影响度,继而提出词项贡献度,从词项语义层面评价主题,削弱流行但语义空泛的排序主题.由于排序主题模型尚未有公认的评价标准,将有序主题作为特征进行多文档自动文摘生成,通过文摘效果间接评价主题排序的效果.实验结果证明有序主题模型优于非排序主题模型的结果. 展开更多
关键词 排序主题模型 主题模型评价 文档自动文摘 抽取性文摘 文摘句排序
在线阅读 下载PDF
基于局部主题关键句抽取的多文档自动文摘方法 预览
4
作者 徐超 王萌 《计算机光盘软件与应用》 2013年第18期305-306,309共3页
文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所... 文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。 展开更多
关键词 文档自动文摘 主题划分 局部主题
在线阅读 下载PDF
基于非完全吸收马尔科夫链的多文档自动文摘算法 预览
5
作者 高晶 房俊 《计算机科学》 CSCD 北大核心 2013年第5期201-205,共5页
吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一... 吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新的模型:非完全吸收马尔科夫链;并以此为基础提出了一个新的多文档文摘算法。证明了吸收马尔科夫链的平均期望历经次数与对应的非完全吸收马尔科夫链的稳态概率分布的等价性,而后者可通过迭代求解。同时,这个新的模型还可以引入除句子间相互关系以外的其它信息,从而生成更准确的文摘。在TAC2011上的实验证实了该模型的有效性。 展开更多
关键词 非完全吸收马尔科夫链 LexRank 面向主题的先验分布 文档自动文摘
在线阅读 免费下载
面向冗余度控制的中文多文档自动文摘 预览 被引量:2
6
作者 王红玲 周国栋 朱巧明 《中文信息学报》 CSCD 北大核心 2012年第2期 92-96,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文... 多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。 展开更多
关键词 冗余度控制 文档自动文摘 中文自动文摘
在线阅读 下载PDF
主题与子事件发现的多文档自动文摘 预览 被引量:1
7
作者 王萌 李春贵 +1 位作者 徐超 何婷婷 《计算机工程与应用》 CSCD 北大核心 2011年第18期 130-134,共5页
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影... 提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。 展开更多
关键词 深层词语挖掘 文档自动文摘 逻辑回归模型
在线阅读 下载PDF
基于子主题和用户查询的多文档摘要系统 预览 被引量:3
8
作者 徐晓丹 《计算机系统应用》 2011年第3期 112-115,共4页
文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个... 文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个主题中抽取句子生成摘要。实验结果表明生成的摘要冗余少,信息全面。 展开更多
关键词 文档自动文摘 子主题 句子相似度 用户查询
在线阅读 下载PDF
基于MapReduce的多文档自动文摘的设计与实现 预览
9
作者 胡琪 邹细勇 《计算机工程与应用》 CSCD 北大核心 2011年第35期 67-70,共4页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自... 多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。 展开更多
关键词 文档自动文摘 MAPREDUCE 并行计算
在线阅读 下载PDF
SSC软聚类算法在面向查询的多文档文摘中的应用 预览
10
作者 唐俊 《计算机工程与科学》 CSCD 北大核心 2010年第6期 112-114,共3页
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。
关键词 文档自动文摘 软聚类算法 文摘句抽取
在线阅读 下载PDF
主题模型LDA的多文档自动文摘 预览 被引量:21
11
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期 169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(1atent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(1atent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasie方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 文档自动文摘 句子分值计算 主题模型 LDA 主题数目
在线阅读 下载PDF
基于LSA和pLSA的多文档自动文摘 预览 被引量:4
12
作者 俞辉 《计算机工程与科学》 CSCD 北大核心 2009年第9期 108-111,共4页
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词一自然段矩阵,利用LSA对词一自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜... 本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词一自然段矩阵,利用LSA对词一自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。 展开更多
关键词 文档自动文摘 潜在语义分析 奇异值分解
在线阅读 下载PDF
改进的最小最大聚类方法在新闻主题来源追踪中的应用 预览
13
作者 周序生 《湖南工业大学学报》 2009年第1期 66-70,共5页
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法。实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程。
关键词 新闻主题 文档自动文摘 IMMC
在线阅读 下载PDF
多文档文摘中基于时间信息的句子排序策略研究 预览 被引量:7
14
作者 徐永东 王亚东 +2 位作者 刘杨 王伟 权光日 《中文信息学报》 CSCD 北大核心 2009年第4期 27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的... 文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 展开更多
关键词 计算机应用 中文信息处理 文档自动文摘 句子排序 中文时间信息处理
在线阅读 下载PDF
基于信息融合的多文档自动文摘技术 预览 被引量:22
15
作者 徐永东 徐志明 王晓龙 《计算机学报》 EI CSCD 北大核心 2007年第11期 2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前... 提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果. 展开更多
关键词 文本框架 文档自动文摘 信息融合 时间
在线阅读 下载PDF
基于时间戳的多文档自动文摘 预览 被引量:3
16
作者 索红光 梁玉环 刘玉树 《计算机工程》 CAS CSCD 北大核心 2007年第16期 164-165,共2页
  网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良...   网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。   展开更多
关键词 文档自动文摘 时间戳 信息抽取 句子相似度
在线阅读 下载PDF
基于基本要素向量空间的英文多文档自动摘要 预览 被引量:2
17
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《计算机工程》 CAS CSCD 北大核心 2007年第14期 166-167,170,共3页
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
关键词 文档自动文摘 基本要素 K-均值聚类
在线阅读 下载PDF
面向查询的多模式自动摘要研究 预览 被引量:2
18
作者 李芳 何婷婷 《中文信息学报》 CSCD 北大核心 2011年第2期 9-14,共6页
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,... 为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。 展开更多
关键词 面向查询的文档自动文摘 子主题发现 模式摘要
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈