期刊文献+
共找到193篇文章
< 1 2 10 >
每页显示 20 50 100
大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 被引量:995
1
作者 李国杰 《中国科学院院刊》 2012年第6期647-657,共11页
近来,大数据引起了产业界、科技界和政府部门的高度关注。本文简要阐述了大数据的研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据应用与研究所面临的问题与挑战。最后,对大数据发展战略提出了几点建议。
关键词 大数据 数据科学 数据工程 第四范式
网络大数据:现状与展望 预览 被引量:480
2
作者 王元卓 靳小龙 《计算机学报》 EI CSCD 北大核心 2013年第6期1125-1138,共14页
网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战... 网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 展开更多
关键词 大数据 网络大数据 网络空间感知 大数据存储 数据挖掘 社会计算
在线阅读 下载PDF
大数据系统和分析技术综述 预览 被引量:354
3
作者 靳小龙 +3 位作者 王元卓 郭嘉丰 张铁赢 李国杰 《软件学报》 EI CSCD 北大核心 2014年第9期1889-1908,共20页
首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)... 首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策。 展开更多
关键词 大数据 数据分析 深度学习 知识计算 社会计算 可视化
在线阅读 下载PDF
基于层叠隐马模型的汉语词法分析 预览 被引量:166
4
作者 刘群 张华平 +1 位作者 俞鸿魁 《计算机研究与发展》 EI CSCD 北大核心 2004年第8期 1421-1429,共9页
提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录... 提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度.在切分排歧方面,提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用.实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的"九七三"专家组评测中获得第1名,在2003年汉语特别兴趣研究组(ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第1届国际汉语分词大赛中综合得分获得两项第1名、一项第2名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题. 展开更多
关键词 汉语词法分析 分词 词性标注 未登录词识别 层叠隐马模型 ICTCLAS
在线阅读 下载PDF
基于监督学习的中文情感分类技术比较研究 预览 被引量:98
5
作者 唐慧丰 谭松波 《中文信息学报》 CSCD 北大核心 2007年第6期 88-94,108,共8页
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制... 情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Naive Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。 展开更多
关键词 计算机应用 中文信息处理 情感分类 文本分类 语言模型 中文信息处理
在线阅读 下载PDF
大数据时代的个人隐私保护 预览 被引量:122
6
作者 刘雅辉 张铁赢 +1 位作者 靳小龙 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期229-247,共19页
随着信息技术的发展,以Web2.0技术为基础的博客、微博、社交网络等新兴服务和物联网以前所未有的发展速度产生了类型繁多的数据,而云计算为数据的存储提供了基础平台,这一切造就了大数据时代的正式到来.大数据中蕴藏着巨大的价值,是企... 随着信息技术的发展,以Web2.0技术为基础的博客、微博、社交网络等新兴服务和物联网以前所未有的发展速度产生了类型繁多的数据,而云计算为数据的存储提供了基础平台,这一切造就了大数据时代的正式到来.大数据中蕴藏着巨大的价值,是企业的宝贵财富.但大数据同时也带来了巨大的挑战,个人隐私保护问题就是其中之一.迅速发展的互联网已经成为人们生活中不可或缺的一部分,人们在网络上留下了许多数据足迹,这些数据足迹具有累积性和关联性,将多处数据足迹聚集在一起,就可以发现个人的隐私信息.恶意分子利用这些信息进行欺诈等行为,给个人的生活带来了许多麻烦或经济损失,因此大数据的个人隐私问题引起了工业界和学术界的广泛关注.首先介绍了大数据时代个人隐私保护的相关概念,讨论了个人隐私保护面临的挑战和研究问题;然后从数据层、应用层以及数据展示层叙述了个人隐私保护所使用的技术,探讨了个人隐私保护的相关法律以及行业规范的几个重要方面;最后提出了大数据个人隐私保护的进一步研究方向. 展开更多
关键词 个人隐私保护 个人隐私问题 隐私保护技术 大数据隐私 大数据
在线阅读 下载PDF
基于特征选择的轻量级入侵检测系统 预览 被引量:66
7
作者 陈友 +1 位作者 李洋 戴磊 《软件学报》 EI CSCD 北大核心 2007年第7期 1639-1651,共13页
基于特征选择的入侵检测系统处理的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长、实时性差,检测效果不好.特征选择算法能够很好地消除冗余和噪音特征,为了提高入侵检测系统的检测速度和效果,对... 基于特征选择的入侵检测系统处理的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长、实时性差,检测效果不好.特征选择算法能够很好地消除冗余和噪音特征,为了提高入侵检测系统的检测速度和效果,对基于特征选择的入侵检测系统进行研究是必要的.综述了这一领域的研究进展,从过滤器、封装器、混合器3种模式对基于特征选择的轻量级入侵检测系统进行分类比较,分析和总结各种系统的优缺点以及它们各自适用的条件,最后指出入侵检测领域特征选择的发展趋势.特征选择不仅可以提升入侵检测系统的性能,而且使得对入侵检测的研究向特征提取算法的方向转移。 展开更多
关键词 特征选择 轻量级入侵检测系统 过滤器 封装器 混合器
在线阅读 下载PDF
基于开放网络知识的信息检索与数据挖掘 预览 被引量:60
8
作者 王元卓 贾岩涛 +2 位作者 刘大伟 靳小龙 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期456-474,共19页
网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网... 网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望. 展开更多
关键词 网络大数据 开放网络知识 本体 信息检索 数据挖掘
在线阅读 下载PDF
一种高效的面向轻量级入侵检测系统的特征选择算法 预览 被引量:43
9
作者 陈友 沈华伟 +1 位作者 李洋 《计算机学报》 EI CSCD 北大核心 2007年第8期 1398-1408,共11页
特征选择是网络安全、模式识别、数据挖掘等领域的重要问题之一.针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集.文中提出一种wrapper型的特征选择算法来构建轻量级入侵检测系统.该... 特征选择是网络安全、模式识别、数据挖掘等领域的重要问题之一.针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集.文中提出一种wrapper型的特征选择算法来构建轻量级入侵检测系统.该算法采用遗传算法和禁忌搜索相混合的搜索策略对特征子集空间进行随机搜索,然后利用提供的数据在无约束优化线性支持向量机上的平均分类正确率作为特征子集的评价标准来获取最优特征子集.文中按照DOS,PROBE,R2L,U2R4个类别对KDD1999数据集进行分类,并且在每一类上进行了大量的实验.实验结果表明,对每一类攻击文中提出的特征选择算法不仅可以加快特征选择的速度,而且基于该算法构建的入侵检测系统在建模时间、检测时间、检测已知攻击、检测未知攻击上,与没有运用特征选择的入侵检测系统相比具有更好的性能. 展开更多
关键词 特征选择 遗传算法 禁忌搜索 线性支持向量机 入侵检测系统
在线阅读 下载PDF
一种改进的Wu—Manber多关键词匹配算法 预览 被引量:26
10
作者 张鑫 谭建龙 《计算机应用》 CSCD 北大核心 2003年第7期 29-31,共3页
文章提出了一种改进的Wu-Manber多关键词匹配算法。Wu-Manber算法是在Boyer-Moore单关键词匹配算法基础上派生的多关键词匹配算法。文中对这两种算法进行了比较分析,提出了对Wu-Manber算法的两点改进方法:精确的不良字符转移和弱化良... 文章提出了一种改进的Wu-Manber多关键词匹配算法。Wu-Manber算法是在Boyer-Moore单关键词匹配算法基础上派生的多关键词匹配算法。文中对这两种算法进行了比较分析,提出了对Wu-Manber算法的两点改进方法:精确的不良字符转移和弱化良好后缀转移。对原始的Wu-Manber算法和改进的算法进行对比实验,改进算法在处理大规模数据时比Wu-Manber算法的所用时间减少了8~15%. 展开更多
关键词 多关键词匹配 信息扫描 字符串匹配 匹配
在线阅读 下载PDF
Web信息采集研究进展 被引量:25
11
作者 李盛韬 余智华 +1 位作者 白硕 《计算机科学》 CSCD 北大核心 2003年第2期 151-157,171,共8页
As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents a... As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents and following links from page to page. This article detailedly explains the principles and difficulties on the Web crawler,comprehensively argues several hot directions of Web crawler,and at last views the new direction of Web crawler. 展开更多
关键词 WEB 信息采集 信息发布 INTERNET INTRANET 计算机网络
在线阅读 免费下载
基于多策略优化的分治多层聚类算法的话题发现研究 预览 被引量:34
12
作者 骆卫华 于满泉 +2 位作者 许洪波 王斌 《中文信息学报》 CSCD 北大核心 2006年第1期 29-36,共8页
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数... 话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。 展开更多
关键词 计算机应用 中文信息处理 话题发现与跟踪 分治多层聚类 系统聚类
在线阅读 下载PDF
元搜索引擎及其实现 预览 被引量:19
13
作者 朱茂盛 王斌 《计算机工程》 CAS CSCD 北大核心 2002年第11期 11-12,共2页
单个搜索引擎的索引和处理能力的提高赶不上Web数据的快速增长,结果是任何单个搜索引擎只能索引Web的一部分文档,用户需要的文档分布在许多搜索引擎的文档数据库中.元搜索引擎是架构在许多搜索引擎之上的搜索引擎,它利用各个成员搜索引... 单个搜索引擎的索引和处理能力的提高赶不上Web数据的快速增长,结果是任何单个搜索引擎只能索引Web的一部分文档,用户需要的文档分布在许多搜索引擎的文档数据库中.元搜索引擎是架构在许多搜索引擎之上的搜索引擎,它利用各个成员搜索引擎提供的服务,能够高效方便地找到这些文档,然后合并成员搜索引擎返回的结果呈现给用户.实现了一个元搜索引擎系统,并给出建立一个高效的元搜索引擎的关键技术和经验. 展开更多
关键词 元搜索引擎 信息检索 WEB INTERNET 数据库
在线阅读 下载PDF
复杂网络的社区结构 预览 被引量:43
14
作者 沈华伟 《复杂系统与复杂性科学》 EI CSCD 2011年第1期 57-70,共14页
社区结构作为真实复杂网络所普遍具有的一个重要拓扑特性,在最近10年内得到了广泛而深入的研究。回顾了近几年国内外社区结构研究的主要进展,重点介绍社区发现的研究历程和研究成果,并结合社会计算的背景展望了社区结构研究的未来发展... 社区结构作为真实复杂网络所普遍具有的一个重要拓扑特性,在最近10年内得到了广泛而深入的研究。回顾了近几年国内外社区结构研究的主要进展,重点介绍社区发现的研究历程和研究成果,并结合社会计算的背景展望了社区结构研究的未来发展方向和潜在的应用价值。 展开更多
关键词 社区结构 社区发现 模块度 社会计算
在线阅读 下载PDF
基于随机博弈模型的网络攻防量化分析方法 预览 被引量:40
15
作者 王元卓 林闯 +1 位作者 方滨兴 《计算机学报》 EI CSCD 北大核心 2010年第9期 1748-1762,共15页
针对日益普遍和多样的网络攻击和破坏行为,如何利用模拟真实网络的虚拟环境,实现对网络各种攻防过程的实验推演,并分析评价网络系统安全性,已逐渐成为热点研究方向.对此文中提出了采用随机博弈模型的网络攻防实验整体架构,提出了... 针对日益普遍和多样的网络攻击和破坏行为,如何利用模拟真实网络的虚拟环境,实现对网络各种攻防过程的实验推演,并分析评价网络系统安全性,已逐渐成为热点研究方向.对此文中提出了采用随机博弈模型的网络攻防实验整体架构,提出了由网络连接关系、脆弱性信息等输入数据到网络攻防博弈模型的快速建模方法,基于最终生成的攻防模型可以对目标网络的攻击成功率、平均攻击时间、脆弱节点以及潜在攻击路径等方面进行安全分析与评价.最后,应用研究所得的网络攻防模型与分析方法对一个典型的企业网络攻防过程进行分析和推演.结果表明了模型和分析方法的有效性. 展开更多
关键词 网络安全 攻防模型 脆弱性 随机PETRI网 随机博弈网
在线阅读 下载PDF
一种基于大规模语料的新词识别方法 预览 被引量:22
16
作者 贺敏 龚才春 +1 位作者 张华平 《计算机工程与应用》 CSCD 北大核心 2007年第21期 157-159,共3页
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方... 提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。 展开更多
关键词 新词 邻接类别 单字成词概率 双字耦合度
在线阅读 下载PDF
基于信息瓶颈的社区发现 预览 被引量:23
17
作者 沈华伟 +1 位作者 陈海强 刘悦 《计算机学报》 EI CSCD 北大核心 2008年第4期 677-686,共10页
该文提出一种映射方法,把单部网络变换成二部图网络.针对得到的二部图网络,在信息论的框架下,提出了一种基于信息瓶颈的社区发现方法.该方法通过寻找网络的最优压缩表示来发现网络的社区结构,最优压缩表示尽可能多地保留原始网络的拓扑... 该文提出一种映射方法,把单部网络变换成二部图网络.针对得到的二部图网络,在信息论的框架下,提出了一种基于信息瓶颈的社区发现方法.该方法通过寻找网络的最优压缩表示来发现网络的社区结构,最优压缩表示尽可能多地保留原始网络的拓扑特征.在真实数据集和计算机产生的数据集上的实验表明,该方法能够有效地发现网络的社区结构.另外,对于有向网络的社区发现,现有方法忽略有向网络中边的方向而作为无向网络来处理,损失了有向的网络的方向信息,文中提出的社区发现方法能够很好地解决这一问题,并能从有向网络中挖掘出一些现有方法无法发现的知识,这一特点使得该文的方法比现有方法更适用于解决像WWW这样的有向网络.同时,真实世界的许多网络本身就是二部图网络,相对于现有的社区发现方法,文中的方法可以直接应用于这类网络. 展开更多
关键词 社区发现 信息瓶颈 聚团性
在线阅读 下载PDF
大数据的研究体系与现状 预览 被引量:28
18
作者 靳小龙 王元卓 《信息通信技术》 2013年第6期35-43,共9页
阐述大数据在基础理论与关键技术两个层面的重要研究问题,包括大数据复杂性的解析、大数据计算模型、多源异构大数据的融合与表示、大数据建模与理解等,并针对问题逐一简要介绍了相应的研究现状。
关键词 大数据 数据复杂性 内容建模 语义理解
在线阅读 下载PDF
网络群体行为的演化博弈模型与分析方法 预览 被引量:28
19
作者 王元卓 于建业 +3 位作者 邱雯 沈华伟 林闯 《计算机学报》 EI CSCD 北大核心 2015年第2期282-300,共19页
随着社会关系网络和在线社会网络应用的不断发展,如何理解和分析群体合作行为的稳定维持和演化是社会关系网络研究中面临的最大的挑战之一.文中综述了网络群体行为和随机演化博弈模型与分析方法等方面的研究工作,介绍了可用于网络群体... 随着社会关系网络和在线社会网络应用的不断发展,如何理解和分析群体合作行为的稳定维持和演化是社会关系网络研究中面临的最大的挑战之一.文中综述了网络群体行为和随机演化博弈模型与分析方法等方面的研究工作,介绍了可用于网络群体行为分析评价的指标和模型,总结了网络群体行为和随机演化博弈模型的若干研究和分析方法,探讨了应用随机演化博弈模型进行网络群体行为研究的可行性.基于这些讨论,展望了社会关系网络中的网络群体行为研究所面临的主要挑战. 展开更多
关键词 社会关系网络 随机模型 演化博弈 网络群体行为 评价技术 社交网络 社会计算
在线阅读 下载PDF
一种全自动生成网页信息抽取Wrapper的方法 预览 被引量:17
20
作者 梅雪 +2 位作者 郭岩 张刚 丁国栋 《中文信息学报》 CSCD 北大核心 2008年第1期 22-29,共8页
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网... Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 展开更多
关键词 计算机应用 中文信息处理 网页信息抽取 网页结构分离 包装器
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部 意见反馈