期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
面向任职教育的“数据挖掘与机器学习”课程教学研究 预览
1
作者 李莎莎 刘丹 《高等教育研究学报》 2019年第1期108-113,共6页
随着军队信息化、智能化建设的深入,人工智能技术逐渐渗透到军队武器装备保障、指挥作战、情报分析等各个方面。本文所要探讨的'数据挖掘与机器学习'课程属于军队初级指挥军官的任职培训课程。本课程针对参与培训人员专业多样,... 随着军队信息化、智能化建设的深入,人工智能技术逐渐渗透到军队武器装备保障、指挥作战、情报分析等各个方面。本文所要探讨的'数据挖掘与机器学习'课程属于军队初级指挥军官的任职培训课程。本课程针对参与培训人员专业多样,学习基础参差不齐等问题,设计了有针对性的教学内容和教学手段,实践结果表明了教学设计的有效性。 展开更多
关键词 任职教育 数据挖掘与机器学习 课程
在线阅读 下载PDF
数据科学与大数据人才专业课程体系分析 预览 被引量:1
2
作者 李莎莎 周竞文 +1 位作者 王挺 《计算机工程与科学》 CSCD 北大核心 2018年第A01期109-113,共5页
针对数据科学与大数据专业的重要性日益凸显,数据科学与大数据专业人才培养方案各异,质量参差不齐的问题,选取国内外14所有代表性的高校,对其本科专业及硕士研究生专业中与数据学科相关的专业进行分析,将其培养目标和课程设置进行... 针对数据科学与大数据专业的重要性日益凸显,数据科学与大数据专业人才培养方案各异,质量参差不齐的问题,选取国内外14所有代表性的高校,对其本科专业及硕士研究生专业中与数据学科相关的专业进行分析,将其培养目标和课程设置进行对比,以期能对目前国内外大数据人才培养现状进行总结,并提出数据科学与大数据专业人才培养的建议。 展开更多
关键词 数据科学 人才培养方案 大数据
在线阅读 下载PDF
关系抽取中远监督错误标注消除 预览
3
作者 汝承森 +2 位作者 谢松县 李莎莎 王挺 《国防科技大学学报》 CSCD 北大核心 2018年第3期148-152,共5页
目前远监督方法被广泛应用于关系抽取任务.然而,远监督方法中存在大量错误标注现象,给 远监督方法的学习效果带来了很大的影响.提出利用语义Jcad 度量关系短语与依存词间语义相似性的错 误标注消除方法.消除错误标注后的训练数据用于训... 目前远监督方法被广泛应用于关系抽取任务.然而,远监督方法中存在大量错误标注现象,给 远监督方法的学习效果带来了很大的影响.提出利用语义Jcad 度量关系短语与依存词间语义相似性的错 误标注消除方法.消除错误标注后的训练数据用于训练模型,完成关系抽取.实验结果表明:该方法可以有 效消除错误标注,提高关系抽取的性能. 展开更多
关键词 关系抽取 远监督 错误标注 语义相似性
在线阅读 下载PDF
基于词向量语义聚类的微博热点挖掘方法 预览
4
作者 刘培磊 +3 位作者 王挺 谢松县 岳大鹏 刘海池 《计算机工程与科学》 CSCD 北大核心 2018年第2期313-319,共7页
随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与... 随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。 展开更多
关键词 热点挖掘 社交媒体 词向量 语义聚类
在线阅读 下载PDF
实体消歧中特征文本选取研究 预览
5
作者 庞焜元 +1 位作者 李莎莎 王挺 《计算机与数字工程》 2017年第8期1543-1547,共5页
在实体消歧问题中,特征文本是指输入实体消歧系统的用于表征实体指称和候选实体的文本,其质量对于实体消歧的性能有重要的影响.论文对特征文本的选取问题进行研究,针对网络文本的特点,综合考虑文本中的特殊字符、特征文本的位置、特征... 在实体消歧问题中,特征文本是指输入实体消歧系统的用于表征实体指称和候选实体的文本,其质量对于实体消歧的性能有重要的影响.论文对特征文本的选取问题进行研究,针对网络文本的特点,综合考虑文本中的特殊字符、特征文本的位置、特征文本是否包含实体指称和特征文本的单句长度等因素,对文本进行筛选和处理,产生特征文本,以提高实体消歧的效果.论文在深度结构语义网(Deep Structured Semantic Model,DSSM)和向量相似度模型(Vector Similarity Mod-el,VSM)两个实体排序模型上验证了特征文本选取方法的效果.结果显示特征文本筛选提高了DSSM上排序准确性,在P@3、P@5和P@10上分别有12.2%、12.3%和12.2%的提高.其中特殊字符处理对VSM有5.5%的提高.实验结果表明,对特征文本进行合理的筛选及清洗,有助于提高实体消岐中候选实体排序步骤的效果. 展开更多
关键词 实体消歧 特征文本 数据清洗
在线阅读 下载PDF
Linked Data数据集的主题模型建立方法 预览
6
作者 刘海池 王挺 +3 位作者 宁洪 魏登萍 刘培磊 《东北师大学报:自然科学版》 CSCD 北大核心 2017年第2期77-83,共7页
提出了建立Linked Data数据集主题模型的方法.首先,将数据集中的RDF陈述三元组转换成主谓宾结构的语句,从而将Linked Data数据集转化为文本文档;然后,使用LDA算法对所有数据集的文本文档进行主题建模,即可得到每个数据集的主题向... 提出了建立Linked Data数据集主题模型的方法.首先,将数据集中的RDF陈述三元组转换成主谓宾结构的语句,从而将Linked Data数据集转化为文本文档;然后,使用LDA算法对所有数据集的文本文档进行主题建模,即可得到每个数据集的主题向量,该向量就是描述数据集内容主题的特征.在Linked Data数据集链接目标推荐问题上,引入数据集的主题特征进行实验.使用数据集主题向量的余弦相似度替换基于记忆的协同过滤推荐算法中的相似度计算模块.结果表明,推荐效果比原始的协同过滤算法有很大提升. 展开更多
关键词 Linked DATA 数据集 主题模型 LDA 推荐系统 协同过滤
在线阅读 下载PDF
基于神经网络纠正器的领域分词方法 预览
7
作者 吴佳林 +1 位作者 李莎莎 王挺 《中文信息学报》 CSCD 北大核心 2017年第6期41-49,共9页
提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性。该文方法采用了对现有分词器分词结果进行纠正的思路。这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖。然而... 提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性。该文方法采用了对现有分词器分词结果进行纠正的思路。这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖。然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域。该文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应。实验表明,与当前方法相比,该文方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著。 展开更多
关键词 中文分词 领域适应 神经网络
在线阅读 下载PDF
一种高效的分布式相似短文本聚类算法 预览 被引量:2
8
作者 原默晗 王挺 《计算机与数字工程》 2016年第5期895-900,943共7页
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效... 近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效的短文本聚类方法。该方法通过将文本表示成连续短字符串集合,并应用最小哈希将集合简化成一组由数字组成的文本签名,通过局部敏感哈希算法得到符合相似度条件的文本聚类。为了适应网络信息规模大的特点,论文进一步利用Apache Spark集群计算框架对聚类算法进行了并行化,提高了数据处理的效率,并分析了影响算法性能的因素。 展开更多
关键词 文本聚类 最小哈希 局部敏感哈希 shingling SPARK
在线阅读 下载PDF
增量式神经网络聚类算法 预览
9
作者 刘培磊 谢松县 +1 位作者 王挺 《国防科技大学学报》 EI CAS CSCD 北大核心 2016年第5期137-142,共6页
神经网络模型具有强大的问题建模能力,但是传统的反向传播算法只能进行批量监督学习,并且训练开销很大。针对传统算法的不足,提出全新的增量式神经网络模型及其聚类算法。该模型基于生物神经学实验证据,引人新的神经元激励函数和突触... 神经网络模型具有强大的问题建模能力,但是传统的反向传播算法只能进行批量监督学习,并且训练开销很大。针对传统算法的不足,提出全新的增量式神经网络模型及其聚类算法。该模型基于生物神经学实验证据,引人新的神经元激励函数和突触调节函数,赋予模型以坚实的统计理论基础。在此基础上,提出一种自适应的增量式神经网络聚类算法。算法中引人“胜者得全”式竞争等学习机制,在增量聚类过程中成功避免了“遗忘灾难”问题。在经典数据集上的实验结果表明:该聚类算法与K-means等传统聚类算法效果相当,特别是在增量学习任务的时空开销方面具有较大优势。 展开更多
关键词 神经网络 增量学习 聚类算法 时间开销
在线阅读 下载PDF
面向大规模在线学习平台的教育数据分析研究综述 预览 被引量:3
10
作者 刘越 +1 位作者 宁洪 王挺 《计算机教育》 2015年第21期37-40,共4页
随着MOOC等在线学习平台的飞速发展,针对在线教育数据的挖掘与分析正成为教育学与数据挖掘领域相结合的新研究热点,为分析学习规律和构建课程知识体系提供了新的思路。文章对面向大规模在线学习平台的教育数据分析的一些相关方法进行综... 随着MOOC等在线学习平台的飞速发展,针对在线教育数据的挖掘与分析正成为教育学与数据挖掘领域相结合的新研究热点,为分析学习规律和构建课程知识体系提供了新的思路。文章对面向大规模在线学习平台的教育数据分析的一些相关方法进行综述,并对该领域的一些最新发展趋势进行探讨。 展开更多
关键词 在线学习平台 教育分析学 教育数据挖掘
在线阅读 下载PDF
一种基于动态网页解析的微博数据抓取方法 预览 被引量:2
11
作者 钟明翔 +1 位作者 谢松县 王挺 《舰船电子工程》 2015年第10期95-99,共5页
微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博... 微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。 展开更多
关键词 新浪微博 数据挖掘 动态网页 爬虫
在线阅读 下载PDF
面向微博文本的命名实体识别 预览 被引量:7
12
作者 姜仁会 王挺 《计算机与数字工程》 2014年第4期647-651,共5页
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相... 命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果. 展开更多
关键词 命名实体识别 微博 短文本
在线阅读 下载PDF
有向在线社交网络中信息传播监测节点的选择 被引量:2
13
作者 李永成 黄曙光 +1 位作者 刘金红 《小型微型计算机系统》 CSCD 北大核心 2014年第2期277-281,共5页
网络传播在病毒营销、谣言扩散、舆情控制等多个领域中都具有重要的研究价值.不同于传统的最大化传播研究,本文的研究目的是如何在网络中选择有效的监测节点,以获得更大的监测效果.基于独立级联模型,通过在有向网络中模拟起源于不... 网络传播在病毒营销、谣言扩散、舆情控制等多个领域中都具有重要的研究价值.不同于传统的最大化传播研究,本文的研究目的是如何在网络中选择有效的监测节点,以获得更大的监测效果.基于独立级联模型,通过在有向网络中模拟起源于不同节点的传播,能够获得各节点监测能力的仿真结果.在对两个真实的有向社交网络的试验中发现,相比较于节点的K-core索引值和出度值,节点的监测能力更依赖于其D—core索引值.进而,本文通过结合D-core索引值和节点出度值提出了一种节点监测中心Mc的计算方法,与PageRank、HIT等传统的有向图中心性算法相比,监测中心Me值可以更好地反应节点的监测能力. 展开更多
关键词 传播监测 信息传播模型 在线社交网络 监测中心
中文微博的Hashtag话题相关性分析 预览 被引量:2
14
作者 胡长龙 王挺 《计算机科学》 CSCD 北大核心 2013年第11A期235-237,245共4页
Hashtag(微博话题词)是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现和聚合展... Hashtag(微博话题词)是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现和聚合展示。研究了Hashtag之间相关性分析问题,抽取了Hashtag文本特征、微博内容、Hashtag的出现次数一时间分布以及Hashtag共现等一系列特征,以分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag相关性分析。 展开更多
关键词 微博 话题相关性 Hashtag 特征抽取
在线阅读 免费下载
基于路标的最短路径长度快速估计算法 预览 被引量:2
15
作者 韩卫国 彭伟 《重庆理工大学学报:自然科学版》 CAS 2013年第7期96-102,118共8页
针对大规模复杂网络中最短路径精确算法计算复杂的问题,提出一种基于路标的最短路径长度快速估计算法——SSPS算法。论证了SSPS算法的估计精度优于已有的Potamias算法;采用多种路标选择策略,使用多个数据集对比了SSPS算法与Potamias算... 针对大规模复杂网络中最短路径精确算法计算复杂的问题,提出一种基于路标的最短路径长度快速估计算法——SSPS算法。论证了SSPS算法的估计精度优于已有的Potamias算法;采用多种路标选择策略,使用多个数据集对比了SSPS算法与Potamias算法的性能。实验结果表明:SSPS算法的估计精度优于Potamias算法,且在最简单的随机路标选择策略中表现出良好的估计精度,可以较好地应用于大规模复杂网络最短路径长度的估算中。 展开更多
关键词 复杂网络 近似算法 路标方法 最短路径问题
在线阅读 免费下载
编译课程教学相关工具资源分析 预览
16
作者 王挺 +1 位作者 周会平 李梦君 《计算机教育》 2013年第17期15-18,33共5页
结合编译课程教学特点,收集当前常用的编译资源,并从编程语言和教学知识点两个角度对这些资源进行归类分析;在此基础上,探讨如何利用这些资源开展编译课程的课堂教学和实践教学。
关键词 编译原理 工具资源 实践教学
在线阅读 下载PDF
适合复杂网络分析的最短路径近似算法 预览 被引量:34
17
作者 王挺 王戟 《软件学报》 EI CSCD 北大核心 2011年第10期 2279-2290,共12页
基于互联网抽取的社会网络往往具有较大的规模,这对社会网络分析算法的性能提出了更高的要求.许多网络性质的度量都依赖于最短路径信息,社会网络等现实网络往往表现出“无标度”等复杂网络特征,这些特征指示了现实网络中最短路径的... 基于互联网抽取的社会网络往往具有较大的规模,这对社会网络分析算法的性能提出了更高的要求.许多网络性质的度量都依赖于最短路径信息,社会网络等现实网络往往表现出“无标度”等复杂网络特征,这些特征指示了现实网络中最短路径的分布规律.基于现实网络的拓扑特征,提出了一种适合于复杂网络的最短路径近似算法,利用通过局部中心节点的一条路径近似最短路径,该算法能够方便地用于需要最短路径信息的社会网络性质的估算,为复杂网络的近似分析提供了一种新的思路.在各种生成网络与现实网络上的实验结果表明磁算法在复杂网络上能够大幅降低计算复杂性并保持较高的近似准确性. 展开更多
关键词 社会网络 近似算法 网络性质 最短路径问题
在线阅读 下载PDF
利用复杂网络分析方法研究基因本体隐藏结构信息(英文) 预览 被引量:1
18
作者 王挺 王戟 《东南大学学报:英文版》 EI CAS 2010年第1期 31-35,共5页
为解决大规模本体理解问题,提出了一个从复杂网络分析的角度研究大规模本体结构信息和重要概念挖掘的方法.通过将基因本体的各种视图转换为网络进行全面分析,证明了整个基因本体具有明显的复杂网络特征,尤其是"小世界特性"和"无标度... 为解决大规模本体理解问题,提出了一个从复杂网络分析的角度研究大规模本体结构信息和重要概念挖掘的方法.通过将基因本体的各种视图转换为网络进行全面分析,证明了整个基因本体具有明显的复杂网络特征,尤其是"小世界特性"和"无标度特性";但其子本体的复杂网络特性没有这么明显,往往只具有"无标度特性"而没有"小世界特性".同时,利用网络分析中常用的节点重要性度量算法对本体中的重要概念进行挖掘.在此基础上,提出了基于MEDLINE信息检索结果的概念重要性评价算法,评估几种节点重要性算法用于本体重要概念挖掘任务的正确性.实验结果表明介数中心性算法在各种节点重要性度量算法中最适合于本体重要概念挖掘. 展开更多
关键词 基因本体 复杂网络分析 中心性度量
在线阅读 下载PDF
基于减少语义标注偏差的语义Web服务发现(英文) 预览 被引量:1
19
作者 魏登萍 王挺 +1 位作者 王戟 《东南大学学报:英文版》 EI CAS 2010年第1期 48-52,共5页
为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本... 为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本进行句法分析;然后,根据约束模板,从句法分析树中抽取语义标注的约束信息,并构造新的概念表达式作为对应参数的新的语义标注.最后,提出了一种新的语义相似度度量方法以度量概念表达式的相似度.实验结果表明:该方法能够提高语义Web服务发现的平均准确率,且计算代价相对较小.从描述文本中抽取概念的约束信息,能够减少标注的语义偏差,更精确地表达语义Web服务的语义,提高Web服务的发现性能. 展开更多
关键词 语义WEB服务发现 语义偏差 向下文 约束模板 相似度度量
在线阅读 下载PDF
复杂社会网络的介数性质近似计算方法研究 预览 被引量:14
20
作者 王挺 《计算机工程与科学》 CSCD 2008年第12期 9-14,18,共7页
随着计算机和互联网的迅猛发展,面向互联网的社会网络挖掘和分析成为一个新的课题。从互联网挖掘的社会网络往往规模巨大,这对网络分析算法的性能提出了更高的要求。介数值作为图的重要结构性质,广泛应用于基于图的聚类、分类算法,... 随着计算机和互联网的迅猛发展,面向互联网的社会网络挖掘和分析成为一个新的课题。从互联网挖掘的社会网络往往规模巨大,这对网络分析算法的性能提出了更高的要求。介数值作为图的重要结构性质,广泛应用于基于图的聚类、分类算法,如何降低其计算的复杂性是急需解决的问题。目前,常用的方法是利用对最短路径长度的近似来降低网络分析算法的复杂性,但已有的近似方法没有考虑现实大规模网络的复杂网络特性,对最短路径长度的近似方法也不能直接用于介数值的近似。本文提出了一种新的介数近似计算方法,其基本思想是结合复杂网络的结构特性,利用通过网络中枢节点的路径来近似最短路径,以近似的最短路径求得介数的近似值。这为图的结构性质的近似估算提供了一种新颖的思路。通过与传统的介数计算方法和近似方法进行实验比较,验证了本文的算法能够大幅降低计算复杂性,并保持较高的近似有效性,并通过对实验数据的分析得到了若干有益的结论,为进一步的研究工作奠定了基础。 展开更多
关键词 复杂网络 介数值 最短路径 计算复杂度 近似算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈
新型冠状病毒肺炎防控与诊疗专栏