期刊文献+
共找到123篇文章
< 1 2 7 >
每页显示 20 50 100
基于编辑距离的中文组织机构名简称-全称匹配算法 被引量:7
1
作者 黄林晟 邓志鸿 +2 位作者 王文清 陈凌 《山东大学学报:理学版》 CAS CSCD 北大核心 2012年第5期 43-48,共6页
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结... 在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。 展开更多
关键词 文本挖掘 机器学习 编辑距离 组织机构名 简称-全称匹配
带学习的同步隐私保护频繁模式挖掘 预览 被引量:1
2
作者 郭宇红 童云海 +1 位作者 吴冷冬 《软件学报》 EI CSCD 北大核心 2011年第8期 1749-1760,共12页
为了提高挖掘结果的准确性,提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法(learning and synchronized privacy preserving frequent pattern mining,简称LS-PPFM).该方法充分利用不需要隐私保护的个体数据,首先... 为了提高挖掘结果的准确性,提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法(learning and synchronized privacy preserving frequent pattern mining,简称LS-PPFM).该方法充分利用不需要隐私保护的个体数据,首先对不需要保护的数据学习,得到样例数据中蕴涵的强关联项,然后在对数据随机化时,将强关联项绑定在一起作同步随机化变换,以保持项与项之间的潜在关联性.实验结果表明,相对于项独立随机化,LS-PPFM能够在略微牺牲一定的隐私保护性的情况下,显著提高频繁模式挖掘结果的准确性. 展开更多
关键词 有指导的 基于学习的 随机化 隐私保护 频繁模式挖掘
在线阅读 下载PDF
XSLC:分层编码并面向查询的XML数据压缩算法 预览
3
作者 付强 王腾蛟 +2 位作者 李红燕 杨冬青 《计算机科学与探索》 CSCD 2010年第2期 145-152,共8页
XML(extensible markup language)文档已经被广泛用作应用程序的一个数据交换格式,针对XML数据的压缩技术也逐渐成为新的研究领域。提出XSLC(XML stream layered—coding compression)算法,通过预先扫描DTD对数据模式进行分析,... XML(extensible markup language)文档已经被广泛用作应用程序的一个数据交换格式,针对XML数据的压缩技术也逐渐成为新的研究领域。提出XSLC(XML stream layered—coding compression)算法,通过预先扫描DTD对数据模式进行分析,继而根据元素的父子关系进行子元素层面的编码;同时根据数据类型进行数据压缩,能够在压缩之后的文档上进行查询,因为仅需一遍压缩扫描所以可以应用于数据流环境。实验表明:XSLC算法的压缩比率和压缩时间均优于传统算法。 展开更多
关键词 可扩展标记语言 压缩 文档类型定义 数据流
在线阅读 下载PDF
面向高维数据的低冗余top-k异常点发现方法 预览 被引量:2
4
作者 陈冠华 马秀莉 +3 位作者 杨冬青 帅猛 谢昆青 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期 788-795,共8页
异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支... 异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式. 展开更多
关键词 数据挖掘 异常检测 高维数据 低冗余 异常度量
在线阅读 下载PDF
数据仓库技术在金融行业的深度应用和发展趋势 预览 被引量:1
5
作者 童云海 《中国金融电脑》 2010年第7期 22-25,共4页
数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映时间变化(Time-Variant)的数据集合,主要用于支持全局的信息共享和高层的管理决策。20世纪90年代中期以来,数据仓库技术受到学术... 数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映时间变化(Time-Variant)的数据集合,主要用于支持全局的信息共享和高层的管理决策。20世纪90年代中期以来,数据仓库技术受到学术界和产业界的广泛关注,逐渐成为企业信息化建设的主流技术之一,并为企业开发决策支持系统应用提供了重要基础。 展开更多
关键词 数据仓库技术 发展趋势 金融行业 应用 企业信息化建设 决策支持系统 面向主题 相对稳定
在线阅读 下载PDF
隐私保护数据发布中身份保持的匿名方法 预览 被引量:35
6
作者 童云海 陶有东 +1 位作者 杨冬青 《软件学报》 EI CSCD 北大核心 2010年第4期 771-781,共11页
在隐私保护的数据发布研究中,目前的方法通常都是先删除身份标识属性,然后对准标识属性进行匿名处理.分析了单一个体对应多个记录的情况,提出了一种保持身份标识属性的匿名方法,它在保持隐私的同时进一步提高了信息有效性.采用概... 在隐私保护的数据发布研究中,目前的方法通常都是先删除身份标识属性,然后对准标识属性进行匿名处理.分析了单一个体对应多个记录的情况,提出了一种保持身份标识属性的匿名方法,它在保持隐私的同时进一步提高了信息有效性.采用概化和有损连接两种实现方式.实验结果表明,该方法提高了信息有效性,具有很好的实用性.. 展开更多
关键词 隐私保护 数据发布 匿名 身份保持 有损连接 概化
在线阅读 下载PDF
基于Nearest Pair的XML关键词检索算法 预览 被引量:4
7
作者 吉聪睿 邓志鸿 《软件学报》 EI CSCD 北大核心 2009年第4期 910-917,共8页
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在... 随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础上提出了Nearest Pair算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法. 展开更多
关键词 XML 关键词检索 最小公共祖先集合
在线阅读 下载PDF
基于实体识别的在线主题检测方法 预览 被引量:3
8
作者 付艳 杨冬青 +3 位作者 伍伟 王腾蛟 高军 《北京大学学报:自然科学版》 CAS CSCD 北大核心 2009年第2期227-232,共6页
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准... 为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。 展开更多
关键词 在线主题检测 命名实体 实体识别 增量聚类 后缀树聚类
在线阅读 免费下载
基于概念相似度的文本相似计算 被引量:16
9
作者 彭京 杨冬青 +2 位作者 王腾蛟 高军 《中国科学:信息科学》 CSCD 2009年第5期534-544,共11页
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1... 根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性. 展开更多
关键词 概念相似度 相似计算 向量空间 内积空间
一种挖掘压缩序列模式的高效算法 预览
10
作者 常雷 杨冬青 +1 位作者 王腾蛟 《计算机科学与探索》 CSCD 2008年第1期 60-76,共17页
研究了如何使用SP-Feature来压缩序列模式。SP-Feature是一种简洁表示序列模式的新颖结构。一种新的相似性度量被用来聚类SP-Feature,同时也给出了SP-Feature的合并方法。基于层次聚类框架,设计了一种有效的挖掘压缩序列模式的算法CSP... 研究了如何使用SP-Feature来压缩序列模式。SP-Feature是一种简洁表示序列模式的新颖结构。一种新的相似性度量被用来聚类SP-Feature,同时也给出了SP-Feature的合并方法。基于层次聚类框架,设计了一种有效的挖掘压缩序列模式的算法CSP。在真实和模拟数据上的大量实验表明CSP能够快速有效地压缩序列模式(在稠密数据集上的恢复误差小于4%)。 展开更多
关键词 数据挖掘 序列模式压缩 SP—Feature
在线阅读 下载PDF
DAPPIC:保持约束的发布规则生成机制 预览
11
作者 刘云峰 李庭晏 +2 位作者 王腾蛟 杨冬青 《计算机工程》 CAS CSCD 北大核心 2008年第8期 32-34,共3页
提出一种在数据映射方式下保持完整性约束的数据发布方法,设计了一套保持完整性约束的数据发布规则生成机制DAPPIC。简述DAPPIC机制中的关键技术和总体设计,并且通过CoXML系统的实现和应用验证了DAPPIC机制的有效性。
关键词 完整性约束 数据发布 数据模式
在线阅读 下载PDF
基于不均匀密度的自动聚类算法 预览 被引量:2
12
作者 崔尚卿 马秀莉 +1 位作者 王文清 《计算机工程》 CAS CSCD 北大核心 2008年第23期 86-88,共3页
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法。该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据。实验结果表明,该算法是有效的。
关键词 聚类 密度 不均匀 数据挖掘
在线阅读 下载PDF
一种实现OLAP数据隐私保护的方法 预览
13
作者 陶有东 童云海 +2 位作者 谭少华 杨冬青 《北京大学学报:自然科学版》 EI CAS CSCD 北大核心 2008年第5期705-710,共6页
提出一种对于联机分析处理(OLAP)数据的隐私保护方法。首先采用多项式回归的方法对查询数据进行初步模拟,在初步模拟基础上提出了两类有效的规则进行优化处理。该方法在隐私保护的同时保持了较好的信息有效性。同时利用Kullback-Leib... 提出一种对于联机分析处理(OLAP)数据的隐私保护方法。首先采用多项式回归的方法对查询数据进行初步模拟,在初步模拟基础上提出了两类有效的规则进行优化处理。该方法在隐私保护的同时保持了较好的信息有效性。同时利用Kullback-Leibler信息量来描述OLAP模拟数据的信息有效性,解决了有效性难以评价的问题。实验表明该方法在隐私保护和信息有效性两个方面均取得了满意的结果。 展开更多
关键词 隐私保护 联机分析处理 多项式回归
在线阅读 免费下载
实时主动数据仓库中多维数据实视图的选择 预览 被引量:10
14
作者 林子雨 杨冬青 +2 位作者 宋国杰 王腾蛟 《软件学报》 EI CSCD 北大核心 2008年第2期 301-313,共13页
通过基于主动决策引擎日志的数据挖掘来找到分析规则的CUBE使用模式,从而为多维数据实视图选择算法提供重要依据;在此基础上设计了3A概率模型,并给出考虑CUBE受访概率分布的视图选择贪婪算法PGreedy(probability greedy),以及结... 通过基于主动决策引擎日志的数据挖掘来找到分析规则的CUBE使用模式,从而为多维数据实视图选择算法提供重要依据;在此基础上设计了3A概率模型,并给出考虑CUBE受访概率分布的视图选择贪婪算法PGreedy(probability greedy),以及结合视图挽留原则的视图动态调整算法.实验结果表明,在实时主动数据仓库环境下,PGreedy算法比BPUS(benefit per unit space)算法具有更好的性能. 展开更多
关键词 视图选择 实视图 数据仓库 主动决策引擎 分析规则 联机分析处理
在线阅读 下载PDF
基于FP-Tree的反向频繁项集挖掘 预览 被引量:19
15
作者 郭宇红 童云海 +1 位作者 杨冬青 《软件学报》 EI CSCD 北大核心 2008年第2期 338-350,共13页
在拓展现有反向频繁挖掘问题定义,探索反向频繁项集的3个具体应用后,提出了一种基于FP-tree的反向频繁项集挖掘方法.该方法首先采用分治思想,将目标约束划分为若干子约束,每步求解一个子线性约束问题,经过若干步迭代后找到一个满... 在拓展现有反向频繁挖掘问题定义,探索反向频繁项集的3个具体应用后,提出了一种基于FP-tree的反向频繁项集挖掘方法.该方法首先采用分治思想,将目标约束划分为若干子约束,每步求解一个子线性约束问题,经过若干步迭代后找到一个满足整个给定约束的目标FP-tree;然后根据目标FP-tree生成一个仅含频繁项的临时事务数据库TempD;最后通过向TempD中撒入非频繁项得到目标数据集.理论分析和实验表明该方法是正确的、高效的,且与现有方法仅能输出1个目标数据集相比,该方法能够输出较多的目标数据集. 展开更多
关键词 反向挖掘 FP树 频繁项集 隐私保护 知识隐藏
在线阅读 下载PDF
一种基于语义内积空间模型的文本聚类算法 预览 被引量:42
16
作者 彭京 杨冬青 +2 位作者 付艳 蒋汉奎 《计算机学报》 EI CSCD 北大核心 2007年第8期 1354-1363,共10页
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积... 现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 展开更多
关键词 内积空间 文本聚类 概念相似度 相似计算 数据挖掘
在线阅读 下载PDF
XML信息检索中最小子树根节点问题的分层算法 预览 被引量:22
17
作者 孔令波 +2 位作者 杨冬青 王腾蛟 高军 《软件学报》 EI CSCD 北大核心 2007年第4期 919-932,共14页
最小子树根节点问题(smallest lowest commonancestor,简称SLCA)是实现XML信息检索研究中关键字查询的一个基本问题,其主旨就是求解所有包含给定关键字的紧致子树的根节点.XU等人给出了3种算法一基于索引的搜索算法(indexed lookup... 最小子树根节点问题(smallest lowest commonancestor,简称SLCA)是实现XML信息检索研究中关键字查询的一个基本问题,其主旨就是求解所有包含给定关键字的紧致子树的根节点.XU等人给出了3种算法一基于索引的搜索算法(indexed lookup eager,简称ILE)、基于堆栈的算法以及基于扫描的算法(scan eagcr,简称SE),并通过实验证明ILE算法具有最好的表现.与基于B+树索引结构的ILE算法不同,所给出的新算法,称为LISA(1ayrered intersection scan algorithm)方法.该方法基于SLCA节点按“层”分布的规律,采取了逐层求解SLCA节点的思路,即在获取了包含关键字的节点的Dewey码集合后,通过计算对应于不同关键字、不同层次的Dewey码前缀集合的交集,可以得到对应不同层的SLCA节点与ILE相比,LISA除了只需对应于关键字的节点集合信息以外,不再需要其他复杂的辅助数据结构——全部的信息只是对应不同关键字的Dewey码集合以及排序操作.同时,给出了两种实际的算法:LISAⅠ和LISAⅡ,二者的区别在于是否采用Dewey编码到整数的转换.其中,LISAⅡ更具有满意的性能. 展开更多
关键词 XML索引 DEWEY编码 XML信息检索 关键字查询 SLCA ILE
在线阅读 下载PDF
朴素贝叶斯分类中的隐私保护方法研究 预览 被引量:16
18
作者 张鹏 《计算机学报》 EI CSCD 北大核心 2007年第8期 1267-1276,共10页
数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对... 数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法——扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方法——转换的随机化回答(TransformingRandomizedResponse,TRR)方法,并在此基础上实现了一个完整的隐私保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性、高效性和适用性. 展开更多
关键词 数据挖掘 隐私保护 朴素贝叶斯分类 随机处理 特征重构
在线阅读 下载PDF
数据库中的知识隐藏 预览 被引量:14
19
作者 郭宇红 童云海 +1 位作者 杨冬青 《软件学报》 EI CSCD 北大核心 2007年第11期 2782-2799,共18页
伴随着数据共享、隐私保护、知识发现等多重需求而产生的PPDM(privacy preserving data mining).成为数据挖掘和信息安全领域近几年来的研究热点.PPDM中主要考虑两个层面的问题:一是敏感数据的隐藏与保护:二是数据中蕴涵的敏感知... 伴随着数据共享、隐私保护、知识发现等多重需求而产生的PPDM(privacy preserving data mining).成为数据挖掘和信息安全领域近几年来的研究热点.PPDM中主要考虑两个层面的问题:一是敏感数据的隐藏与保护:二是数据中蕴涵的敏感知识的隐藏与保护(howledge hiding in database,简称KHD).对目前的KHD技术进行分类和综述.首先介绍KHD产生的背景,然后着重讨论敏感关联规则隐藏技术和分类规则隐藏技术,接着探讨KHD方法的评估指标,最后归结出KHD后续研究的3个方向:数据修改技巧中基于目标距离的优化测度函数设计、数据重构技巧中的反向频繁项集挖掘以及基于数据抽样技巧的通用知识隐藏方法设计. 展开更多
关键词 知识隐藏 KHD(knowledge hiding in database) 敏感规则 隐私保护 反向挖掘
在线阅读 下载PDF
Web仓储中视图变化频率的自适应估测 预览
20
作者 张岩 +1 位作者 杨冬青 李晓明 《软件学报》 EI CSCD 北大核心 2007年第2期 303-310,共8页
物化视图的刷新是Web仓储进行系统维护的一项主要任务,而基础数据变化频率则是刷新方案中的重要因素.在已有文献中,研究者已经给出一些关于基础数据变化规律的算法和估测器.虽然这些估测器取得了不错的效果,然而他们却忽略了这些... 物化视图的刷新是Web仓储进行系统维护的一项主要任务,而基础数据变化频率则是刷新方案中的重要因素.在已有文献中,研究者已经给出一些关于基础数据变化规律的算法和估测器.虽然这些估测器取得了不错的效果,然而他们却忽略了这些估测器都有一定的适用范围,超出这个范围则效果急剧下降.在此,基于泊松过程进行分析,对估测器的适用范围进行了讨论。根据估测结果的偏离值和有效性对估测公式进行参数调整,同时根据估测值的大小不断调整数据源的访问频率和次数,从而使数据源访问模式和估测器互相适应,使估测器在最佳估测范围内获得估测值.实验结果表明,与已有文献中的方法相比,新提出的自适应估测算法能够取得更好的效果. 展开更多
关键词 Web仓储 WEB视图 基础数据 变化频率 泊松过程
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部 意见反馈
新型冠状病毒肺炎防控与诊疗专栏