期刊文献+
共找到1,065篇文章
< 1 2 54 >
每页显示 20 50 100
基于结构张量空间模型的文本分类 预览
1
作者 庄建昌 武娇 +1 位作者 洪彩凤 顾兴全 《统计与信息论坛》 CSSCI 北大核心 2019年第7期10-18,共9页
在自然语言处理中,将非结构化的文本数据表示成结构化数据是文本处理工作的基础,文本表示的优劣对后期文本处理的效果有直接的影响。提出一种新的结构化文本表示模型——结构张量空间模型,该模型将文本按照其自身的层次含义进行分层表示... 在自然语言处理中,将非结构化的文本数据表示成结构化数据是文本处理工作的基础,文本表示的优劣对后期文本处理的效果有直接的影响。提出一种新的结构化文本表示模型——结构张量空间模型,该模型将文本按照其自身的层次含义进行分层表示,相比较于传统的文本表示模型,更充分地体现文本的结构信息。研究了基于结构张量空间模型的文本分类问题,实验结果表明,在小样本数据下,结合结构张量空间模型的分类器性能更好。 展开更多
关键词 向量空间模型 结构张量空间模型 文本分类 支持张量机
在线阅读 下载PDF
基于VSM和Bisecting K-means聚类的新闻推荐方法 被引量:2
2
作者 袁仁进 陈刚 +1 位作者 李锋 魏双建 《北京邮电大学学报》 EI CAS CSCD 北大核心 2019年第1期114-119,共6页
针对海量新闻数据给用户带来的困扰,为提升用户阅读新闻的个性化体验,提出了融合向量空间模型和Bisecting K-means聚类的新闻推荐方法.首先进行新闻文本向量化,使用向量空间模型和TF-IDF算法构建出新闻特征向量;采用Bisecting K-means... 针对海量新闻数据给用户带来的困扰,为提升用户阅读新闻的个性化体验,提出了融合向量空间模型和Bisecting K-means聚类的新闻推荐方法.首先进行新闻文本向量化,使用向量空间模型和TF-IDF算法构建出新闻特征向量;采用Bisecting K-means聚类算法对新闻特征向量集进行聚类;然后将已聚类的新闻集分为训练集和测试集,根据训练集构建'用户—新闻类别—新闻'三层层次结构的用户兴趣模型;最后采用余弦相似度方法得出新闻推荐结果,并与测试集进行对比分析.实验以基于用户的协同过滤算法、基于物品的协同过滤算法、结合向量空间模型和K-means聚类的推荐方法为基准,实验结果表明,该方法具有可行性,在准确率、召回率和F值上都有所提高. 展开更多
关键词 个性化推荐 向量空间模型 Bisecting K-MEANS聚类算法 用户兴趣模型
一种基于两阶段聚类的用户兴趣聚类算法研究 预览
3
作者 樊丽辉 《科技通报》 2019年第9期85-89,共5页
通过在处理大型数据集合方面具有明显优势的数据挖掘技术,以某论坛里面现有的全部信息作为数据来源进行聚类分析,并对论坛用户的分布、回复帖子的数量及其时间的分布状况进行综合性分析,最终的结论是即使同为注册用户在访问某论坛、发... 通过在处理大型数据集合方面具有明显优势的数据挖掘技术,以某论坛里面现有的全部信息作为数据来源进行聚类分析,并对论坛用户的分布、回复帖子的数量及其时间的分布状况进行综合性分析,最终的结论是即使同为注册用户在访问某论坛、发布、回复帖子的时间间隔方面仍然存在着相当大的差异,也就是说以人类正常遗忘曲线为基础建立起来的兴趣更新模型在某论坛上并不适用,所以我们基于以上对网络用户访问论坛的时间间隔分析所得的结果建立一种新的兴趣更新模型,并以此为依据预测用户的兴趣。并对兴趣更新模型以及这种推荐算法是否有效、其运行结果是否可靠进行了验证。 展开更多
关键词 向量空间模型 两阶段聚类 兴趣特征向量 兴趣更新模型
在线阅读 下载PDF
面向新闻推荐的用户兴趣模型构建与更新 预览
4
作者 袁仁进 陈刚 李锋 《计算机应用研究》 CSCD 北大核心 2019年第12期3593-3596,共4页
针对新闻推荐系统中用户兴趣模型构建与用户兴趣漂移问题,提出了一种面向新闻推荐的用户兴趣模型构建与更新方法。首先采用向量空间模型与bisecting K-means聚类算法构建了原始用户兴趣模型;然后以艾宾浩斯遗忘曲线为基础构造了遗忘函数... 针对新闻推荐系统中用户兴趣模型构建与用户兴趣漂移问题,提出了一种面向新闻推荐的用户兴趣模型构建与更新方法。首先采用向量空间模型与bisecting K-means聚类算法构建了原始用户兴趣模型;然后以艾宾浩斯遗忘曲线为基础构造了遗忘函数,并以此对用户兴趣模型进行时间加权,从而达到对用户兴趣模型更新的目的。实验以基于用户的协同过滤推荐、基于物品的协同过滤推荐为baseline,实验结果表明所构建的原始用户兴趣模型推荐性能更优,在F值上提升了4%,更新后的模型与原始模型相比F值提高了1. 3%。 展开更多
关键词 个性化推荐 向量空间模型 用户兴趣模型 用户兴趣漂移 遗忘函数
在线阅读 下载PDF
基于DBN的多模态音乐情感分类研究 预览
5
作者 赵勇飞 王宇 +1 位作者 周义凯 袁燕 《信息技术》 2019年第2期102-106,110共6页
文中提出了一种将音频与歌词两种模态结合并利用深度置信网络进行音乐情感分类的方法。在分类器的选择上,将传统的分类器用DBN进行了替换,且改进了子任务结合晚融合法(LFSM)来完成多模态的融合,并验证了该方法的可行性。实验结果表明,... 文中提出了一种将音频与歌词两种模态结合并利用深度置信网络进行音乐情感分类的方法。在分类器的选择上,将传统的分类器用DBN进行了替换,且改进了子任务结合晚融合法(LFSM)来完成多模态的融合,并验证了该方法的可行性。实验结果表明,该方法对音乐情感分类效果较好,高于基于单一模态和传统分类器的分类方法。 展开更多
关键词 音乐情感分类 向量空间模型 潜在语义分析 多模态融合 DBN
在线阅读 下载PDF
基于文档结构的特征权重计算方法研究 预览
6
作者 罗衎 马佳佳 《软件导刊》 2019年第5期65-68,共4页
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验... 针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。 展开更多
关键词 文本分类 向量空间模型 文档结构 特征权重 特征选择
在线阅读 免费下载
基于Spark的新闻大数据分析研究 预览
7
作者 李伟 孙新杰 张毓福 《六盘水师范学院学报》 2019年第3期20-22,共3页
随着大数据时代的到来,面对海量新闻数据,用户很难获得有用的信息。提出基于Spark技术构建新闻大数据分析系统,使用Scrapy采集新闻数据,利用向量空间模型对数据进行特征化,选择K-Means算法进行新闻聚类,对新闻进行实时分析,帮助用户获... 随着大数据时代的到来,面对海量新闻数据,用户很难获得有用的信息。提出基于Spark技术构建新闻大数据分析系统,使用Scrapy采集新闻数据,利用向量空间模型对数据进行特征化,选择K-Means算法进行新闻聚类,对新闻进行实时分析,帮助用户获取新闻热点。系统运行结果表明,该方法对新闻大数据分析效果较好。 展开更多
关键词 新闻大数据 SPARK 新闻热点 向量空间模型 K-MEANS算法
在线阅读 下载PDF
《如何用R开展语言学研究:数据探索和统计分析》述评
8
作者 刘磊 《语料库语言学》 2019年第1期110-114,共5页
Natalia Levshina 2015. How to Do Linguistics with R:Data Exploration and Statistical Analysis.Amsterdam:John Benjamins. xii+443pp.1.引言R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自... Natalia Levshina 2015. How to Do Linguistics with R:Data Exploration and Statistical Analysis.Amsterdam:John Benjamins. xii+443pp.1.引言R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自行编写和运行脚本程序,具有较大的灵活性。 展开更多
关键词 相关系数 搭配强度 《如何用R开展语言学研究:数据探索和统计分析》 可视化分析 随机森林算法 精确检验 心理语言学 向量空间模型 正态分布 搭配词 多维尺度 推断性统计 多元逻辑回归 使令结构 多因素方差分析 统计分析
一种基于词义和词频的向量空间模型改进方法 预览
9
作者 邓晓衡 杨子荣 关培源 《计算机应用研究》 CSCD 北大核心 2019年第5期1390-1395,共6页
文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多... 文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文本特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。 展开更多
关键词 文本分类 特征选择 卡方分布 向量空间模型
在线阅读 下载PDF
文本分类TF-IDF算法的改进研究 预览 被引量:8
10
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-逆文档频率(TF-IDF) 向量空间模型 文本分类
在线阅读 下载PDF
VSM在旅游自动问答系统中的应用研究 预览
11
作者 欧阳林艳 《山西能源学院学报》 2019年第2期97-99,共3页
自动问答系统是一种特殊的信息检索系统,传统的搜索引擎的检索方法主要是基于关键词的检索,而问答系统则是由用户输入自然语言的问题,系统将用户输入的问题与知识库中"问题-答案对"中的问题进行文本相似度比较,来进行直接而... 自动问答系统是一种特殊的信息检索系统,传统的搜索引擎的检索方法主要是基于关键词的检索,而问答系统则是由用户输入自然语言的问题,系统将用户输入的问题与知识库中"问题-答案对"中的问题进行文本相似度比较,来进行直接而准确的答案的抽取。根据自动问答系统的构建原理,分析文本权值的求解思路,采用向量空间模型(VSM)进行用户问题与问答库问题进行相似度比较,实现基于特定领域自动问答系统模型的建立。相对于传统的关键词搜索求解问题更为灵活和人性化。 展开更多
关键词 自动问答系统 相似度 向量空间模型
在线阅读 下载PDF
基于LDA和word2vec的英文作文跑题检测 预览
12
作者 曲强 崔荣一 赵亚慧 《计算机应用研究》 CSCD 北大核心 2019年第2期415-419,共5页
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中... 针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到不同的F值,确定了最佳主题数。实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。 展开更多
关键词 作文跑题检测 向量空间模型 潜在狄利克雷分配 词语间语义关系
在线阅读 下载PDF
基于告警信号文本挖掘的电力调度故障诊断
13
作者 汪崔洋 江全元 +3 位作者 唐雅洁 朱炳铨 项中明 唐剑 《电力自动化设备》 EI CSCD 北大核心 2019年第4期126-132,共7页
电力调度系统在电力系统故障过程中会收到大量告警信号,若调度员无法在短时间内做出决策,则可能使故障扩大,为此提出基于告警信号文本挖掘的电力调度故障诊断方法,该方法包括告警信号文本预处理和故障诊断2个阶段。在第一阶段,基于隐马... 电力调度系统在电力系统故障过程中会收到大量告警信号,若调度员无法在短时间内做出决策,则可能使故障扩大,为此提出基于告警信号文本挖掘的电力调度故障诊断方法,该方法包括告警信号文本预处理和故障诊断2个阶段。在第一阶段,基于隐马尔可夫模型(HMM)对告警信号文本进行分词并去除其中的停用词以构建本体词典,并采用向量空间模型(VSM)使文本向量化;在第二阶段,使用滑动时间窗读取实时告警信号,提出一种2层算法,第一层采用支持向量机(SVM)对滑窗内的告警信号进行分类,若分类结果判断为发生故障,则启动第二层k-均值聚类法提取较高可能性的故障供调度员参考。以某电力调度系统实际告警信号作为算例,验证了所提方法的可行性。 展开更多
关键词 电力调度 文本挖掘 向量空间模型 支持向量 K-均值聚类
一种基于特征加权的文本相似度计算算法 预览 被引量:1
14
作者 邱先标 陈笑蓉 《贵州大学学报:自然科学版》 2018年第1期63-68,共6页
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值... 文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。 展开更多
关键词 文本相似度 向量空间模型 LDA模型 特征加权 文本挖掘
在线阅读 下载PDF
结合点评信息辅助的POI自动分类方法研究
15
作者 万幼 王茹涵 《测绘地理信息》 2018年第5期120-123,共4页
提出了一种基于机器学习算法,利用点评信息辅助实现POI(point of interest)自动分类的新方法。实验证明,点评信息辅助的POI自动分类方法与单纯利用POI名称分类的方法相比,在准确性上有显著提高。
关键词 向量空间模型 信息增益 POI分类 朴素贝叶斯模型
符号序列的概率向量聚类方法 预览
16
作者 程铃钫 陈黎飞 《计算机应用研究》 CSCD 北大核心 2018年第6期1676-1680,共5页
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数... 针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,在有效提高聚类精度的同时降低聚类时间50%以上。 展开更多
关键词 数据聚类 符号序列 向量空间模型 概率向量 马尔可夫模型
在线阅读 下载PDF
顾及事件地理位置的新闻推荐方法研究 预览 被引量:1
17
作者 袁仁进 陈刚 《计算机科学》 CSCD 北大核心 2018年第B11期462-467,共6页
为研究新闻事件发生地对新闻推荐系统性能的影响,提出了一种顾及事件地理位置的新闻推荐算法。首先,设计了提取新闻事件发生地的相关算法;其次,结合向量空间模型、TF-IDF算法和word2vec工具构建了新闻特征向量;接着,着重讨论了用户兴趣... 为研究新闻事件发生地对新闻推荐系统性能的影响,提出了一种顾及事件地理位置的新闻推荐算法。首先,设计了提取新闻事件发生地的相关算法;其次,结合向量空间模型、TF-IDF算法和word2vec工具构建了新闻特征向量;接着,着重讨论了用户兴趣模型的构建问题;最后,运用余弦相似度方法计算用户兴趣模型与候选新闻集之间的相似性,从而完成推荐。实验结果表明,设计的新闻事件发生地抽取算法的性能较好,准确率达到93.6%,以此为基础构建的新闻推荐算法与协同过滤推荐算法相比仅考虑新闻内容的推荐算法在F值上有所提高。 展开更多
关键词 推荐系统 地理位置 用户兴趣模型 信息抽取 向量空间模型
在线阅读 免费下载
改进的HMM模型在特征抽取上的应用 预览
18
作者 陈昌浩 范太华 《计算机测量与控制》 2018年第4期217-220,224共5页
目前,情感分类常用的特征抽取方法是基于词典的向量空间模型(VSM),潜在的语义分析(LSA)和基于无监督算法的词嵌入(word2vec),随机词向量法,这些方法都是对单个词语进行处理;通过哈工大词云对采集的豆瓣评论数据集进行语义角色进行的标... 目前,情感分类常用的特征抽取方法是基于词典的向量空间模型(VSM),潜在的语义分析(LSA)和基于无监督算法的词嵌入(word2vec),随机词向量法,这些方法都是对单个词语进行处理;通过哈工大词云对采集的豆瓣评论数据集进行语义角色进行的标记以后,采用了改进的隐马尔科夫模型(MHMM)对词对向量进行特征构建,并将其作为一个序列片段作为长短记忆门(LSTM)的输入,最后使用softmax函数对动态循环神经网络输出的序列进行分类;实验使用了交叉熵作为优化函数,采用了随机梯度下降法对优化函数进行迭代产生最优解;实验结果证明了该方法对豆瓣影评数据进行情感分类产生了更好的效果。 展开更多
关键词 向量空间模型 词嵌入 改进的隐马尔科夫模型 情感分析
在线阅读 下载PDF
基于文献共被引特征的文献相似度计算优化研究 预览
19
作者 韩青 周晓英 《情报学报》 CSSCI CSCD 北大核心 2018年第9期905-911,共7页
文献相似度计算是文献检索、文献分析等应用的基础性工作,计算结果将直接影响相关应用的最终效果。文献共被引信息是其区别于普通文本的重要特征,它能有效显示文本之间的关联特征,可以充分利用该特征信息来提高文献相似度计算的有效性... 文献相似度计算是文献检索、文献分析等应用的基础性工作,计算结果将直接影响相关应用的最终效果。文献共被引信息是其区别于普通文本的重要特征,它能有效显示文本之间的关联特征,可以充分利用该特征信息来提高文献相似度计算的有效性与可靠性。本文将文献语义特征与共被引特征引入文献相似度计算过程,在向量空间模型的基础上,提出了一种旨在优化文献相似度计算的混合模型。通过对高校图书馆、网络舆情、信息质量等七个情报学细分领域文献进行计算验证,结果显示本文提出的模型能充分利用文献特有的共被引特征,弥补向量空间模型特征量不足的问题,改善文献相似度计算的整体性能。 展开更多
关键词 文献相似度 共被引 向量空间模型 混合模型 算法优化
在线阅读 下载PDF
基于同态加密的多关键词检索方案 预览
20
作者 向广利 李安康 +1 位作者 林香 熊彬 《计算机工程与应用》 CSCD 北大核心 2018年第2期97-101,共5页
随着云存储服务的发展,越来越多的数据拥有者选择将数据外包给云服务商存储。为了保证数据的安全性,云服务器上的数据应该以密文形式存储。现有的多关键词密文检索技术不能兼顾准确性和安全性的问题,提出一种利用改进的向量空间模型和... 随着云存储服务的发展,越来越多的数据拥有者选择将数据外包给云服务商存储。为了保证数据的安全性,云服务器上的数据应该以密文形式存储。现有的多关键词密文检索技术不能兼顾准确性和安全性的问题,提出一种利用改进的向量空间模型和同态加密技术进行多关键词检索的方案。性能分析表明该方案能够有效地解决密文的多关键词检索问题。 展开更多
关键词 同态加密 向量空间模型 密文检索 多关键词
在线阅读 下载PDF
上一页 1 2 54 下一页 到第
使用帮助 返回顶部 意见反馈