期刊文献+
共找到742篇文章
< 1 2 38 >
每页显示 20 50 100
基于话题标签的微博热点话题演化研究
1
作者 李慧 王丽婷 《情报科学》 CSSCI 北大核心 2019年第1期30-36,共7页
【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演... 【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演化的优势以及微博的"话题标签"的特性提出适合微博的热点话题演化模型LOLDA(Label On-line Latent Dirichlet Allocation),然后通过Python编程爬取了新浪微博的数据,从话题内容和强度两方面分析了话题演化规律,并对话题内容演化规律进行了可视化展示。【结果/结论】改进的LOLDA模型可以准确地发现微博话题演化规律,通过实验验证了本文提出的模型较传统模型具有更好地泛化能力。 展开更多
关键词 话题演化 话题标签 主题模型 微博话题
社交媒体话题检测与追踪技术研究综述 预览
2
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
在线阅读 下载PDF
基于频繁主题集偏好的学术论文推荐算法 预览
3
作者 李冉 林泓 《计算机应用研究》 CSCD 北大核心 2019年第9期2675-2678,共4页
针对学术论文推荐中项目冷启动问题,提出了一种基于频繁主题集偏好的协同主题回归模型。该算法考虑到用户在选择学术论文时对研究热点的偏好,使用频繁主题集代表研究热点,将用户对研究热点的偏好表示成用户对频繁主题集的偏好。通过潜... 针对学术论文推荐中项目冷启动问题,提出了一种基于频繁主题集偏好的协同主题回归模型。该算法考虑到用户在选择学术论文时对研究热点的偏好,使用频繁主题集代表研究热点,将用户对研究热点的偏好表示成用户对频繁主题集的偏好。通过潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵,并筛选出论文中概率较高的主题;然后挖掘出频繁出现的主题集合,并得到论文-频繁主题集矩阵;最后在预测未知评分时融入用户对频繁主题集的偏好。在CiteULike数据集上的实验表明,相比于矩阵分解模型和协同主题回归模型,该算法在召回率、准确率和RMSE三个指标上都有所提升。 展开更多
关键词 论文推荐 主题模型 频繁主题集
在线阅读 下载PDF
专业社交媒体中的主题知识元抽取方法研究
4
作者 林杰 苗润生 张振宇 《图书情报工作》 CSSCI 北大核心 2019年第14期101-110,共10页
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本... [目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。 展开更多
关键词 主题知识元 主题抽取 长短期记忆神经网络 情感分析
面向跨语言文本分类与标签推荐的带标签双语主题模型的研究 预览
5
作者 田明杰 崔荣一 《计算机应用研究》 CSCD 北大核心 2019年第10期2911-2915,共5页
针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内... 针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内容上的相关性,对关键词进行提取,并进行标签化,进而把标签对应于主题模型中的主题,实例化“潜在”的主题;其次,利用带标签双语主题模型对摘要部分进行了训练迭代;最后,对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明,跨语言文本分类任务中micro-F1达到94.81%,推荐的标签也能较好地体现出语义上的相关性。 展开更多
关键词 主题模型 标签 跨语言文本分类 标签推荐 潜在主题
在线阅读 下载PDF
基于文本聚类的网络微博舆情话题识别与追踪技术研究 预览
6
作者 闫俊伢 马尚才 《重庆理工大学学报:自然科学》 CAS 北大核心 2019年第9期176-181,共6页
为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇... 为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。 展开更多
关键词 微博舆情 本文聚类 K-MEANS 主题词 主题模型 聚类算法 话题识别
在线阅读 免费下载
结合字词向量的主题向量模型
7
作者 张青 韩立新 刘合兵 《电子测量技术》 2019年第3期49-53,共5页
为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题... 为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。 展开更多
关键词 主题模型 字向量 主题向量 词向量 文档向量 字词嵌入
基于层次聚类的子话题检测算法 预览
8
作者 代翔 黄细凤 +4 位作者 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 《华南理工大学学报:自然科学版》 EI CAS CSCD 北大核心 2019年第8期84-95,共12页
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对... 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性. 展开更多
关键词 话题模型 子话题 层次聚类 隐狄利克雷分布 话题检测
在线阅读 免费下载
面向多标签文本分类的深度主题特征提取 预览
9
作者 陈文实 刘心惠 鲁明羽 《模式识别与人工智能》 CSCD 北大核心 2019年第9期785-792,共8页
针对单标签特征提取方法不能有效解决多标签文本分类的问题,文中提出融合主题模型(LDA)与长短时记忆网络(LSTM)的双通道深度主题特征提取模型(DTFEM).LDA与LSTM分别作为两个通道,通过LDA为文本的全局特征建模,利用LSTM为文本的局部特征... 针对单标签特征提取方法不能有效解决多标签文本分类的问题,文中提出融合主题模型(LDA)与长短时记忆网络(LSTM)的双通道深度主题特征提取模型(DTFEM).LDA与LSTM分别作为两个通道,通过LDA为文本的全局特征建模,利用LSTM为文本的局部特征建模,使模型能同时表达文本的全局特征和局部特征,实现有监督学习与无监督学习的有效结合,得到文本不同层次的特征提取.实验表明,相比文本特征提取模型,文中模型在多标签分类结果上的多项指标均有明显提升. 展开更多
关键词 多标签文本分类 深度主题特征提取 主题模型 长短时记忆网络
在线阅读 下载PDF
结合全局和局部约束的sLDA铁路扣件分类模型 预览
10
作者 杨飞 罗建桥 李柏林 《计算机应用》 CSCD 北大核心 2019年第3期888-893,共6页
针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分... 针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分布;然后,计算测试主题分布,将测试图像的类别概率作为全局约束,将测试图像子块与训练图像子块的主题相似程度作为局部约束;最后,以全局和局部约束的乘积为更新权值,对训练主题分布加权求和得到新的测试主题分布,并在Softmax分类器中得到测试图像的分类结果。实验结果表明,glc-sLDA模型能表达扣件结构信息,与sLDA相比,各类别的扣件图像区分性增强,分类误检率减小了55%。 展开更多
关键词 铁路扣件分类 监督潜在狄利克雷分布 主题模型 单词标注 目标结构 更新主题分布
在线阅读 下载PDF
主题模型在基于社交媒体的灾害分类中的应用及比较
11
作者 苏凯 程昌秀 +1 位作者 Nikita Murzintcev 张婷 《地球信息科学学报》 CSCD 北大核心 2019年第8期1152-1160,共9页
“一带一路”沿线为自然灾害高发地区,且多为经济欠发达、抗灾能力弱的发展中国家。灾害发生时,挖掘和分析相关推特数据有助于开展应急救援、灾情评估、减灾防灾等工作,为中国国际救援与救助工作提供重要支撑。主题模型能在没有经验语... “一带一路”沿线为自然灾害高发地区,且多为经济欠发达、抗灾能力弱的发展中国家。灾害发生时,挖掘和分析相关推特数据有助于开展应急救援、灾情评估、减灾防灾等工作,为中国国际救援与救助工作提供重要支撑。主题模型能在没有经验语料库的情况下,从海量灾害相关推文中快速聚合出对灾害救援、评估有价值的信息。本文采用BTM模型和LDA模型,对2013年海燕台风相关推文进行细粒度的主题聚类,分析2个模型的精度并测试它们对近似灾害主题的区分能力,并基于“需求相关”主题类的推文,通过地名匹配,分析了海燕台风发生过程中菲律宾物资、医疗等需求程度的空间分布。结果表明:①在区分主题近似的短文本时,BTM总体精度为0.598.LDA的总体精度仅为0.321,说明在海燕台风灾害推文的主题识别中,BTM模型的精度高于LDA模型;②BTM能够较好识别出“灾害地点相关”、“祈福相关”等较为精细的灾害主题;③经初步验证,基于“需求相关”主题文本生成的物资、医疗等需求的需求程度空间分布与实际需求情况基本相符。 展开更多
关键词 主题模型 BTM LDA 推文 主题分类 自然灾害 应急管理
面向复杂主题建模的流式层次狄里克雷过程 预览
12
作者 韩忠明 张梦玫 +2 位作者 李梦琪 段大高 陈谊 《计算机学报》 EI CSCD 北大核心 2019年第7期1539-1552,共14页
互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基... 互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基于LDA的方法没有考虑到主题之间的层次关系,且需要预先提供主题个数.作为LDA模型的扩展,层次狄里克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯主题模型,HDP能够自动确定主题个数.对于具有层次等特性的复杂主题,HDP难以挖掘出隐式层次结构,且容易产生噪音主题.为了解决这个问题,该文提出了基于HDP改进的非参数贝叶斯模型:流式层次狄里利克雷过程(Flow Hierarchical Dirichlet Process,FHDP),FHDP通过在HDP模型中加入流动操作,加强了对主题之间的同属领域信息的利用,以便于更好的对主题进行层次分析.利用加入了流动操作的中国连锁餐馆模型(Chinese Restaurant Franchise,CRF)对数据进行建模,设计相应的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)采样方法,以推导FHDP模型的分布参数分布.FHDP的主要贡献在于:(1)对含有层次关系的主题建模时,减少了无意义信息.解决了HDP得到主题不明确的问题,扩大了HDP的应用领域;(2)由于在FHDP中加强了对主题隐含领域信息的利用,主题的层次关系变得更加明确.为了客观衡量FHDP和HDP的性能差异,利用模拟和真实数据进行了大量实验.实验表明,在轮廓系数、主题覆盖度、单字对数似然等指标上,FHDP模型明显优于HDP模型。 展开更多
关键词 层次狄里克雷过程 主题模型 非参数贝叶斯模型 马尔可夫蒙特卡罗 流式层次狄里克雷过程
在线阅读 下载PDF
基于虚拟学术社区的知识聚合模型构建研究
13
作者 张连峰 李慧 遆云鹤 《情报科学》 CSSCI 北大核心 2019年第6期55-60,74共7页
【目的/意义】优化虚拟学术社区的知识聚合模型能够构建优质的资源获取平台,实现知识的共享和创新。【方法/过程】结合学术社区用户的相关知识需求分析,提出了虚拟学术社区知识聚合的目标--知识共享、知识管理、知识创新和知识推送;进... 【目的/意义】优化虚拟学术社区的知识聚合模型能够构建优质的资源获取平台,实现知识的共享和创新。【方法/过程】结合学术社区用户的相关知识需求分析,提出了虚拟学术社区知识聚合的目标--知识共享、知识管理、知识创新和知识推送;进而又提出了基于主题的虚拟学术社区知识聚合模型和基于SECI的虚拟学术社区知识聚合模型,并对这两种模型的相关理论进行了深入细致的剖析,在结合理论学习与创新的基础上建立了融合主题与SECI模型的虚拟学术社区知识聚合整体模型构架。【结果/结论】实现了对当前的知识聚合模型的优化,推动虚拟学术社区知识聚合模型理论的深入性和普适性发展,为提升虚拟学术社区知识聚合的水平提供实践参考。 展开更多
关键词 虚拟学术社区 知识聚合 聚合模型 主题模型
融合主题模型和卷积神经网络的APP推荐研究
14
作者 王杰 唐菁荟 +1 位作者 王昊 邓三鸿 《情报理论与实践》 CSSCI 北大核心 2019年第4期158-165,共8页
[目的/意义]将主题模型与卷积神经网络进行结合,以实现APP的个性化推荐,并缓解评分数据稀疏性问题。[方法/过程]提出TMCNN模型,针对文本内容,通过用户和APP双通道的卷积神经网络获取卷积语义特征,同时使用LDA模型获取主题特征,并与用户... [目的/意义]将主题模型与卷积神经网络进行结合,以实现APP的个性化推荐,并缓解评分数据稀疏性问题。[方法/过程]提出TMCNN模型,针对文本内容,通过用户和APP双通道的卷积神经网络获取卷积语义特征,同时使用LDA模型获取主题特征,并与用户和APP的数值特征组合,从而预测用户对APP的评分,进而推荐。[结果/结论]通过360手机助手数据集的测试,从RMSE,召回率,NDCG三个指标进行分析,TMCNN模型不仅具有良好的评分预测效果,而且APP的推荐结果也相对较好。同时,TMCNN模型也丰富了APP推荐的研究方法。[局限]没有考虑APP的权限信息,评论信息的有用性,以及TMCNN模型的优化函数有待改进。 展开更多
关键词 APP推荐 LDA模型 卷积神经网络 主题模型
政府数据开放平台用户评论情感差异分析 预览
15
作者 刘桂琴 《数字图书馆论坛》 CSSCI 2019年第2期18-23,共6页
根据用户在政府数据开放平台的评论反馈,通过主题分类进行情感分析,明确平台提供服务的用户满意度及存在的问题,为优化开放数据平台的建设提供新的分析思路。利用LDA模型对武汉市政府数据开放网站的用户评论数据进行主题提取,结合深度... 根据用户在政府数据开放平台的评论反馈,通过主题分类进行情感分析,明确平台提供服务的用户满意度及存在的问题,为优化开放数据平台的建设提供新的分析思路。利用LDA模型对武汉市政府数据开放网站的用户评论数据进行主题提取,结合深度神经网络进行评论分类,并在此基础上进行情感分析,对不同类型的评论情感差异进行探讨。LDA模型共提取9个分类主题,结合情感分析结果,2个主题的情感趋向是满意状态,7个主题的情感趋向是一般或不满意状态,根据分析结果总结平台服务中存在的不足,并提出相应的优化策略。 展开更多
关键词 主题模型 政府数据开放平台 情感分析 情感差异
在线阅读 下载PDF
有监督主题模型的SLDA-TC文本分类新方法 预览
16
作者 唐焕玲 窦全胜 +2 位作者 于立萍 宋英杰 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1300-1308,共9页
本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其... 本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 展开更多
关键词 文本分类 主题模型 隐含Dirichlet分布 吉布斯采样
在线阅读 下载PDF
基于nBD-SVM模型的投诉短文本分类
17
作者 余本功 陈杨楠 杨颖 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第5期77-85,共9页
【目的】对投诉短文本进行有效分类以提高问题处理效率。【方法】针对投诉文本所呈现出的弱结构化、长度较短等特征,提出一种结合主题模型和词向量方法构建SVM输入空间向量,并融入集成学习方法的nBD-SVM文本分类模型。【结果】采用企业... 【目的】对投诉短文本进行有效分类以提高问题处理效率。【方法】针对投诉文本所呈现出的弱结构化、长度较短等特征,提出一种结合主题模型和词向量方法构建SVM输入空间向量,并融入集成学习方法的nBD-SVM文本分类模型。【结果】采用企业投诉文本进行实证分析,对比相关分类方法,nBD-SVM准确率可达81.13%,说明其能够有效提升投诉文本分类的准确性和效率。【局限】实验仅以某公司投诉文本为例。【结论】nBD-SVM分类模型能够适应企业投诉文本分类任务,满足企业的分类应用需求。 展开更多
关键词 投诉短文本分类 主题模型 词向量方法 集成学习 nBD-SVM
基于动态权重的LDA算法 预览
18
作者 居亚亚 杨璐 严建峰 《计算机科学》 CSCD 北大核心 2019年第8期260-265,共6页
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的三层概率主题模型,其实现了文本与文本中的单词在主题层次上的聚类。该模型以词袋(Bag of Words,BOW)模型为假设,所有单词的重要性相同,简化了建模的复杂度,但使得主题... 潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的三层概率主题模型,其实现了文本与文本中的单词在主题层次上的聚类。该模型以词袋(Bag of Words,BOW)模型为假设,所有单词的重要性相同,简化了建模的复杂度,但使得主题分布倾向于高频词,影响了主题模型的语义连贯性。针对此问题,提出了一种基于动态权重的LDA算法,该算法的基本思想是每个单词在建模中具有不同的重要性,在迭代过程中根据单词的主题分布动态生成相应的权重并反作用于主题建模,降低了高频词对建模的影响,提高了关键词:的重要性。在4个公开数据集上的实验表明,基于动态权重的LDA算法在主题语义连贯性、文本分类准确率、泛化性能和精度方面比目前流行的LDA推理算法表现得更加优越。 展开更多
关键词 潜在狄利克雷分布 主题模型 动态权重
在线阅读 免费下载
基于主题模型的网络信息源可视化分析研究 预览
19
作者 刘少俊 方延风 《图书情报导刊》 2019年第3期32-39,共8页
在科技情报收集过程中,网络信息源来源广泛且数据量庞大,对人工分析造成了巨大的压力。对从网络信息源采集的网页进行文本提取,过滤无关信息,使用主题模型对文本进行主题抽取,对抽取的主题进行可视化分析,提取出与需求相关的主题后对信... 在科技情报收集过程中,网络信息源来源广泛且数据量庞大,对人工分析造成了巨大的压力。对从网络信息源采集的网页进行文本提取,过滤无关信息,使用主题模型对文本进行主题抽取,对抽取的主题进行可视化分析,提取出与需求相关的主题后对信息源进行分类分析。这一流程增强了信息处理能力,提高了情报收集的效率。 展开更多
关键词 科技情报 信息源 主题模型 爬虫 自然语言处理
在线阅读 下载PDF
融合语义线索和时空主题的社交媒体动态话题提取 预览
20
作者 万红新 《现代信息科技》 2019年第5期27-29,共3页
基于中文文本的复杂语境结构,同时考虑话题的动态变化性,利用语义线索和时空主题模型来提取话题的关键词语链。结合语义知识和时间约束的主题模型可以有效对社交媒体文本大数据进行分析和处理,以获取潜在的话题知识。
关键词 语义线索 主题模型 社交媒体 动态话题
在线阅读 下载PDF
上一页 1 2 38 下一页 到第
使用帮助 返回顶部 意见反馈