期刊文献+
共找到225篇文章
< 1 2 12 >
每页显示 20 50 100
一种基于t-分布随机近邻嵌入的文本聚类方法 预览
1
作者 徐秀芳 徐森 +3 位作者 花小朋 徐静 皋军 安晶 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第2期264-271,共8页
文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间... 文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性. 展开更多
关键词 聚类分析 文本聚类 维数约简 随机近邻嵌入 聚类算法
在线阅读 免费下载
面向短文本的神经网络聚类算法研究 预览 被引量:1
2
作者 孙昭颖 刘功申 《计算机科学》 CSCD 北大核心 2018年第B06期392-395,共4页
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所... 词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。 展开更多
关键词 短文本 文本聚类 深度学习 卷积神经网络 word2vec
在线阅读 免费下载
一种基于频繁词集表示的新文本聚类方法 预览 被引量:2
3
作者 张雪松 贾彩燕 《计算机研究与发展》 CSCD 北大核心 2018年第1期102-112,共11页
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based ... 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系?实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库-搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果. 展开更多
关键词 文本聚类 频繁词集 复杂网络 社区划分 文本表示模型
在线阅读 下载PDF
区域相关融合纹理特征FDPC图书馆文档图像检索研究 预览
4
作者 赵峰涛 《电子设计工程》 2018年第21期190-193,共4页
当前在不同城市和地区,都在积极的进行数字图书馆建设。这一背景下,如何实现对各种图书馆资源的快速、准确检索,成为备受人们关注的重要问题。本文的研究过程中,以快速纹理密度极值的聚类算法为基础,提出一定的图像检索策略。文章对文... 当前在不同城市和地区,都在积极的进行数字图书馆建设。这一背景下,如何实现对各种图书馆资源的快速、准确检索,成为备受人们关注的重要问题。本文的研究过程中,以快速纹理密度极值的聚类算法为基础,提出一定的图像检索策略。文章对文档图像纹理特征检索与基于FDPC的文档图像纹理特征检索进行简要的分析,并通过实验,分析区域相关融合纹理特征FDPC图书馆文档图像检索问题。对图书馆图像资源检索问题进行基于内容的检索框架构建,然后采用直方均衡以及中值滤波策略实现图像资源的背景处理和噪声过滤,并通过二值化对图书馆馆藏图像资源进行处理,获得检索框架图像输入的预处理操作,并利用极值密度聚类算法对图像的分类问题进行研究。基于动态距离截断策略对其进行改进,以有效增强算法的聚类效果,进而获促进DPC算法性能的有效提高。最后对所提算法的性能进行实验验证,最终的结果证明,实验所提方法具有较高的检索精度和检索效率,具备一定的应用价值。 展开更多
关键词 数字图书馆 信息检索 文档图像 纹理特征 聚类算法
在线阅读 下载PDF
归并奇异值分解:一种快速更新隐含语义索引的方法 预览
5
作者 黄明 林家骏 《华东理工大学学报:自然科学版》 CSCD 北大核心 2018年第3期397-403,共7页
隐含语义索引(LSI)是一种解决信息检索中二义性问题和大规模文档分类的文档索引方法。为了提高LSI效率,应对大数据场景下文档量爆发式增长的问题,提出了一种通过归并奇异值分解来实现LSI快速更新的方法。该方法利用p-边宽单边对角矩... 隐含语义索引(LSI)是一种解决信息检索中二义性问题和大规模文档分类的文档索引方法。为了提高LSI效率,应对大数据场景下文档量爆发式增长的问题,提出了一种通过归并奇异值分解来实现LSI快速更新的方法。该方法利用p-边宽单边对角矩阵和箭头矩阵分解技术来加快中间矩阵的奇异值分解过程,并通过将新增文档矩阵的薄奇异值分解(PSVD)归并进主文档矩阵的PSVD以避免重复计算,加快LSI更新速度。通过数学证明论证了该方法的有效性,并讨论了该算法扩展到词条更新场景中的情形。在多个测试数据集上的实验验证了该方法可以在保证检索准确率的前提下有效提高LSI的更新效率。 展开更多
关键词 信息检索 隐含语义索引 奇异值分解 文档聚类 QR分解 箭头型矩阵
在线阅读 下载PDF
一种基于黑洞算法的模糊C均值文本聚类方法 预览
6
作者 柳玉辉 王伟超 孟磊 《东北大学学报:自然科学版》 CSCD 北大核心 2017年第8期1065-1068,1074共5页
FCM算法应用于文本聚类时,由于初始聚类中心点选择的随机性,以及容易陷入局部最优的问题,导致文本聚类效果较差.为了提高FCM算法的聚类精度,提出了采用黑洞算法寻找FCM最优初始聚类中心的方法.黑洞算法是一种启发式优化方法,在FCM初始... FCM算法应用于文本聚类时,由于初始聚类中心点选择的随机性,以及容易陷入局部最优的问题,导致文本聚类效果较差.为了提高FCM算法的聚类精度,提出了采用黑洞算法寻找FCM最优初始聚类中心的方法.黑洞算法是一种启发式优化方法,在FCM初始聚类中心寻优的过程中,始终保持黑洞为全局最优解,最终发现FCM的最优初始聚类中心.实验结果表明,基于黑洞算法的FCM文本聚类方法可以解决FCM算法对初始中心点敏感和容易陷入局部最优的问题,聚类精度明显提高. 展开更多
关键词 模糊C均值 黑洞算法 文本聚类 参数搜索 初始聚类中心
在线阅读 下载PDF
基于DBSACN聚类算法的XML文档聚类 预览
7
作者 张鑫 《电子测试》 2017年第8期72-73,共2页
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度... 为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度得到了很大的提高. 展开更多
关键词 XML文档 文档聚类 DBCSAN聚类算法 结构相似度
在线阅读 下载PDF
基于并行信息瓶颈的多语种文本聚类算法 预览 被引量:1
8
作者 闫小强 卢耀恩 +1 位作者 娄铮铮 叶阳东 《模式识别与人工智能》 CSCD 北大核心 2017年第6期559-568,共10页
聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构... 聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法. 展开更多
关键词 并行信息瓶颈 多语种 文本聚类 信息最大化
在线阅读 下载PDF
机器翻译自动评价中领域知识复述抽取研究 预览 被引量:3
9
作者 张丽林 李茂西 +2 位作者 肖文艳 万剑怡 王明文 《北京大学学报:自然科学版》 CSCD 北大核心 2017年第2期230-238,共9页
针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特... 针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特定领域训练语料,然后在训练语料中利用Markov网络模型,抽取特定领域复述表,最后将此复述表应用在机器译文自动评价中,以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明,利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。 展开更多
关键词 复述 机器译文自动评价 语言模型 MARKOV网络 文档聚类
在线阅读 免费下载
基于词条之间关联关系的文档聚类 预览 被引量:1
10
作者 任建华 沈炎彬 +1 位作者 孟祥福 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第7期86-90,共5页
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出... 针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。 展开更多
关键词 文档聚类 关联关系 词条同现 文档相似度 潜在语义
在线阅读 下载PDF
基于社交特征的多维度文本表示方法 预览 被引量:1
11
作者 陈功 黄瑞章 钟文良 《计算机工程与科学》 CSCD 北大核心 2016年第11期2348-2355,共8页
Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外部特征也可以用来表示文本。本文主要... Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外部特征也可以用来表示文本。本文主要研究文本的表层特征、隐含特征和社交特征,其中表层特征和隐含特征可以由文本内容中提取和学习得到,而文本的社交特征可以通过分析文档与用户的交互行为得到。所提出的多维度文本表示方法具有易用性,可以应用于各种文本分析模型中。在实验中,改进了两种常用的文本聚类算法——Kmeans和层次聚类算法,并命名为多维度Kmeans MDKM和多维度层次聚类算法MDHAC。通过大量的实验表明了本方法的高效性。此外,我们在各种特征的结合实验结果中还有一些深层次的发现。 展开更多
关键词 文本表示 文本聚类 社交特征
在线阅读 下载PDF
基于增强蜂群优化与K—means的文本聚类算法 预览 被引量:5
12
作者 柯钢 《计算机应用研究》 CSCD 北大核心 2016年第8期2298-2302,共5页
针对文本数据维度较高、空间分布稀疏及其聚类效果不佳的问题,提出一种基于增强蜂群优化搜索与K-means的高效文本聚类算法。首先为蜂群算法引入公平操作与克隆操作来提高全局搜索的能力,公平操作提高了样本多样性,并增强了蜂群搜索... 针对文本数据维度较高、空间分布稀疏及其聚类效果不佳的问题,提出一种基于增强蜂群优化搜索与K-means的高效文本聚类算法。首先为蜂群算法引入公平操作与克隆操作来提高全局搜索的能力,公平操作提高了样本多样性,并增强了蜂群搜索能力;克隆操作则增强了各代之间的信息交流,提高了求解质量。最终引入K-means进行局部质心的提炼,提高聚类质量。基于文本数据集的实验结果证明,相较于其他聚类算法,本算法具有更高的聚类质量。 展开更多
关键词 蜂群算法 公平操作 克隆操作 多样性 局部提炼 文本聚类
在线阅读 下载PDF
基于词条与语意差异度量的文档聚类算法 预览
13
作者 魏霖静 练智超 +1 位作者 王联国 侯振兴 《计算机科学》 CSCD 北大核心 2016年第12期229-233,259共6页
已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了... 已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条;最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。 展开更多
关键词 文档聚类 语意分析 贪婪算法 收敛性 可解释性
在线阅读 免费下载
基于后缀树的半监督自适应多密度文本聚类算法 被引量:1
14
作者 文平 刘渊 张春瑞 《小型微型计算机系统》 CSCD 北大核心 2016年第1期100-103,共4页
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之... 半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集. 展开更多
关键词 后缀树 半监督 多密度 文本聚类
一种改进K-means算法的聚类算法CARDBK 预览 被引量:8
15
作者 朱烨行 李艳玲 +1 位作者 崔梦天 杨献文 《计算机科学》 CSCD 北大核心 2015年第3期201-205,共5页
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。从聚类结果的熵、纯度、F1值、Rand Index... CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比,该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。 展开更多
关键词 聚类 文档聚类 文本聚类 K-MEANS 算法
在线阅读 免费下载
一种改进CHAMELEON算法的聚类算法COCK
16
作者 朱烨行 李艳玲 杨献文 《微电子学与计算机》 CSCD 北大核心 2015年第12期173-176,共4页
通过对现有的CHAMELEON算法进行改进,并借鉴ROCK算法的计算步聚,提出了一个新的层次聚类算法COCK.改进之处在于:合并的簇的内部紧密性、合并的簇的内部互连性、相对紧密性和相对互连性的计算方法进行了改变,并取消了CHAMELEON算法原有... 通过对现有的CHAMELEON算法进行改进,并借鉴ROCK算法的计算步聚,提出了一个新的层次聚类算法COCK.改进之处在于:合并的簇的内部紧密性、合并的簇的内部互连性、相对紧密性和相对互连性的计算方法进行了改变,并取消了CHAMELEON算法原有两个阶段的第一个阶段.由簇U和簇V合并构成的簇W的内部紧密性由两个因素决定,一个是簇U和簇V本身的内部紧密性的加权和,另一个是簇U和簇V之间的绝对紧密性;簇W的内部互连性由两个因素决定,一个是簇U和簇V本身的内部互连性的加权和,另一个是簇U和簇V之间的绝对互连性;由簇W和簇J合起来的簇的相对紧密性的计算方法是,先求出簇W和簇J内部紧密性的加权和,用这个加权和去除簇W和簇J之间的绝对紧密性;计算两个簇W和J之间的相对互连性的方法是,把簇W和簇J之间的绝对互连性除以簇W和簇J内部互连性的加权和. 展开更多
关键词 文本聚类 文档聚类 CHAMELEON ROCK 算法
基于混合模型的文本聚类研究综述 预览
17
作者 王方 成颖 柯青 《情报学报》 CSSCI 北大核心 2015年第5期536-548,共13页
相较于其他聚类算法,模型聚类的实证研究结果表现出了独特的优势,越来越受到学界的关注。本文梳理了混合模型文本聚类的相关研究,根据聚类分析的技术路线,主要综述了文本建模、参数建模以及模型推理等三个主要模块,在此基础上总结... 相较于其他聚类算法,模型聚类的实证研究结果表现出了独特的优势,越来越受到学界的关注。本文梳理了混合模型文本聚类的相关研究,根据聚类分析的技术路线,主要综述了文本建模、参数建模以及模型推理等三个主要模块,在此基础上总结了特征降维、半监督聚类以及聚类过程的系统整合等不同研究中的共性问题。最后,提出了本领域未来可能的研究方向。 展开更多
关键词 模型聚类 混合模型 文本聚类
在线阅读 下载PDF
XML文档的聚类研究 预览
18
作者 尹路修 《湖南师范大学自然科学学报》 CAS 北大核心 2015年第5期91-94,共4页
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象... 随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果. 展开更多
关键词 XML 文档聚类 相似度计算
在线阅读 下载PDF
一种基于狄利克雷过程混合模型的文本聚类算法 预览 被引量:7
19
作者 高悦 王文贤 杨淑贤 《信息网络安全》 2015年第11期60-65,共6页
随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和发布信息的重要渠道,而网络中的这些文本数据,由于文本数目和内容的不确定性,给网络舆情聚类分析工作带来了很大的挑战。在文本聚类分析中,选择合适的聚类数目一直是... 随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和发布信息的重要渠道,而网络中的这些文本数据,由于文本数目和内容的不确定性,给网络舆情聚类分析工作带来了很大的挑战。在文本聚类分析中,选择合适的聚类数目一直是一个难点。文章提出了一种基于狄利克雷过程混合模型的文本聚类算法,该算法基于非参数贝叶斯框架,可以将有限混合模型扩展成无限混合分量的混合模型,使用狄利克雷过程中的中国餐馆过程构造方式,实现了基于中国餐馆过程的狄利克雷混合模型,然后采用吉布斯采样算法近似求解模型,能够在不断的迭代过程中确定文本的聚类数目。实验结果表明,文章提出的聚类算法,和经典的K-means聚类算法相比,不仅能更好的动态确定文本主题聚类数目,而且该算法的聚类质量(纯度、F-score和轮廓系数)明显好于K-means聚类算法。 展开更多
关键词 文本聚类 狄利克雷过程混合模型 非参数贝叶斯 吉布斯采样
在线阅读 下载PDF
一种基于文本聚类的web军事情报挖掘系统设计与实现 预览 被引量:5
20
作者 傅畅 宋佳庆 《中国电子科学研究院学报》 北大核心 2015年第5期541-545,共5页
为了解决在海量web资源中提取出有用军事情报的问题,本文在分析军事情报和互联网信息特点的基础上,设计并实现了一个包括采集、处理、存储与检索的web军事情报挖掘模型,然后提出了一种面向军事情报应用的文本聚类方法,最后通过实验对聚... 为了解决在海量web资源中提取出有用军事情报的问题,本文在分析军事情报和互联网信息特点的基础上,设计并实现了一个包括采集、处理、存储与检索的web军事情报挖掘模型,然后提出了一种面向军事情报应用的文本聚类方法,最后通过实验对聚类效果进行了评估,实验结果表明该方法在聚类纯度、准确率、召回率、F-score指标上有不同程度的提升。 展开更多
关键词 军事情报 WEB信息 网络爬虫 k-means算法 文本聚类
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部 意见反馈