期刊文献+
共找到29,871篇文章
< 1 2 250 >
每页显示 20 50 100
聚类算法综述 预览
1
作者 章永来 周耀鉴 《计算机应用》 CSCD 北大核心 2019年第7期1869-1882,共14页
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大... 大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。 展开更多
关键词 聚类 相似性度量 大数据聚类 小数据聚类 聚类评价
在线阅读 下载PDF
基于KL散度的密度峰值聚类算法 预览
2
作者 丁志成 葛洪伟 周竞 《重庆邮电大学学报:自然科学版》 CSCD 北大核心 2019年第3期367-374,共8页
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动... 快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。 展开更多
关键词 聚类 密度峰值聚类(DPC) 密度聚类 自动聚类
在线阅读 免费下载
MapReduce框架下常用聚类算法比较研究 预览
3
作者 张占峰 耿珊珊 《河北省科学院学报》 CAS 2019年第2期1-6,共6页
大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原... 大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原理与优缺点,并对这些算法的进一步优化进行了分析。 展开更多
关键词 大数据处理 MAPREDUCE 聚类 聚类算法 算法描述
在线阅读 下载PDF
k近邻约束的稀疏子空间聚类 预览
4
作者 刘玉馨 何光辉 《计算机工程与应用》 CSCD 北大核心 2019年第3期39-45,共7页
稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符... 稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性。在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS上的聚类实验表明提出的算法具有良好的性能。 展开更多
关键词 子空间 聚类 稀疏表示 K近邻 人脸聚类
在线阅读 下载PDF
基于密度最大值聚类的奶酪风味鉴别模型 预览
5
作者 干佳俪 谭励 +2 位作者 宁晓辉 王蓓 孙践知 《中国乳品工业》 CAS 北大核心 2019年第2期10-14,共5页
针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先... 针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先用改进的密度最大值聚类算法对风味物质进行聚类,自动获取聚类中心形成具有风味表征的特征,然后利用支持向量机算法进行分类鉴别。结果表明,通过改进的密度最大值聚类算法得到风味物质特征后,分类器模型更加稳健,均适用于切达奶酪和马苏里拉奶酪的类别鉴定,准确率均在95%以上,高于原始特征、DBSCAN聚类特征、K-means聚类特征的分类结果。 展开更多
关键词 聚类 密度最大值聚类 SVM算法 机器学习
在线阅读 下载PDF
基于VOSviewer的富血小板血浆研究热点主题分析 预览
6
作者 王海焦 黄锐娜 +3 位作者 王小俊 郑碧莉 陈佩娜 曾秀娟 《中国组织工程研究》 CAS 北大核心 2019年第18期2947-2952,共6页
背景:富血小板血浆为自体全血经离心之后所得的血小板浓缩物,含有大量生长因子及蛋白质。血小板活化后能够释放多种生长因子,加快细胞增殖及分化,能有效促进组织修复,且富血小板血浆取材方便,制备简单,被广泛应用于临床各领域应用。国... 背景:富血小板血浆为自体全血经离心之后所得的血小板浓缩物,含有大量生长因子及蛋白质。血小板活化后能够释放多种生长因子,加快细胞增殖及分化,能有效促进组织修复,且富血小板血浆取材方便,制备简单,被广泛应用于临床各领域应用。国外对于富血小板血浆的研究开展已久,并取得一定的研究成果。目的:综述并分析国外关于富血小板血浆近5年的研究进展。方法:由第一作者用计算机检索PubMed数据库,检索词为'Plasma,Platelet-Rich,Platelet Rich Plasma,Platelet-RichPlasma',检索时限为2014至2018年。利用可视化工具VOSviewer对检索所得研究论文的题录信息进行深度挖掘,从年度发文量、国家发文量以及研究主题等方面对其展开讨论,利用软件生成的知识图谱直观展示国外富血小板血浆研究的热点主题。结果与结论:检索得到相关文献38篇。结果表明,国外近5年关于富血小板血浆的研究论文发表量逐年递增,美国发文量最多,通过进行共词聚类分析可知关于富血小板血浆的研究热点主要集中在以下5个方面:动物实验、骨关节科、细胞学实验、口腔科、慢性伤口。研究结果为中国富血小板血浆领域的研究方向及热点选择提供了参考。 展开更多
关键词 富血小板血浆 聚类 VOSviewer 知识图谱 文献计量 共词聚类分析 骨关节科 口腔科 慢性伤口
在线阅读 下载PDF
一种多粒度增量属性的聚类方法
7
作者 刘杭雨 于洪 《小型微型计算机系统》 CSCD 北大核心 2019年第3期618-622,共5页
聚类分析作为一种统计分析方法,以无监督的优势广泛地应用在数据挖掘等领域.随着时代的发展,传统聚类算法不能很好对数据属性增加的情况进行处理.因此,结合人类认知特点,本文提出了一种多粒度增量属性的聚类方法,这是一种新的解决问题... 聚类分析作为一种统计分析方法,以无监督的优势广泛地应用在数据挖掘等领域.随着时代的发展,传统聚类算法不能很好对数据属性增加的情况进行处理.因此,结合人类认知特点,本文提出了一种多粒度增量属性的聚类方法,这是一种新的解决问题的机制,利用多粒度的思想对不确定性数据进行处理.首先利用密度峰值聚类方法对原始数据进行聚类,得到一个初始结果,然后对于某时刻新增加的属性粒集合,将新的属性粒集合对应地增添到原有的属性粒集合的尾部以融合成新的粒度,在不重复聚类的前提下以新粒度为基础,利用邻域的思想动态地更新原有聚类结果以得到新粒度的增量聚类结果.实验结果表明新方法是有效的. 展开更多
关键词 聚类 多粒度 邻域 增量属性
基于样本对加权共协关系矩阵的聚类集成算法 预览
8
作者 王彤 魏巍 王锋 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第4期592-600,共9页
聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使... 聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k.means算法产生多个基聚类结果,然后对于其中的每个类再利用k.means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果.在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法。 展开更多
关键词 聚类 聚类集成 共协矩阵 加权策略
在线阅读 免费下载
一种基于谱聚类算法的高光谱遥感图像分类方法 预览
9
作者 杨随心 耿修瑞 +2 位作者 杨炜暾 赵永超 卢晓军 《中国科学院大学学报》 CSCD 北大核心 2019年第2期267-274,共8页
结合K-means算法和谱聚类方法的优点,提出一种新的高光谱图像聚类方法。该方法在对高光谱图像数据进行特征降维的基础上,采用K-means算法对图像进行粗聚类处理,然后采用谱聚类方法对粗聚类结果进行较高精度的聚类。与K-means聚类算法相... 结合K-means算法和谱聚类方法的优点,提出一种新的高光谱图像聚类方法。该方法在对高光谱图像数据进行特征降维的基础上,采用K-means算法对图像进行粗聚类处理,然后采用谱聚类方法对粗聚类结果进行较高精度的聚类。与K-means聚类算法相比,该方法有效提高了高光谱图像聚类的分类精度。对模拟数据和真实的高光谱数据的对比实验表明,相对于K-means和谱聚类方法,该方法具有良好的聚类性能。 展开更多
关键词 高光谱图像 聚类 谱聚类 K均值聚类
在线阅读 免费下载
Condition Recognition of High-Speed Train Bogie Based on Multi-View Kernel FCM
10
作者 Qi Rao Yan Yang Yongquan Jiang 《大数据挖掘与分析(英文)》 2019年第1期1-11,共11页
Monitoring the operating status of a High-Speed Train(HST) at any moment is necessary to ensure its security. Multi-channel vibration signals are collected by sensors installed on bogies and beneficial information are... Monitoring the operating status of a High-Speed Train(HST) at any moment is necessary to ensure its security. Multi-channel vibration signals are collected by sensors installed on bogies and beneficial information are extracted to determine the running condition. Based on multi-view clustering and considering different views of complementary information, this study proposes a Multi-view Kernel Fuzzy C-Means(MvKFCM) model for condition recognition of the HST bogie. First, fast Fourier transform coefficients of HST vibration signals of all channels are extracted. Then, the fuzzy classification coefficient of every channel is calculated after clustering to select the appropriate channels. Finally, the selected channels are used to cluster by MvKFCM and the conditions of HST are determined. Experimental results show that the selection is effective to maintain rich feature information and remove redundancy. Furthermore, the condition recognition rate of MvKFCM is higher than that of single-view and four other multiple-view clustering algorithms. 展开更多
关键词 HIGH-SPEED Train(HST) CONDITION RECOGNITION MULTI-VIEW CLUSTERING fuzzy CLUSTERING
融合K-means和CFSFDP的聚类算法 预览
11
作者 李新运 王嘉梅 +1 位作者 张晨阳 王儒 《福建电脑》 2019年第3期1-5,共5页
在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并... 在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并将其作为数据新的特征向量,再次使用CFSFDP算法,对新的ρ_i进行升序排列,以斜率的变化自动选择聚类中心点;再运用K-means算法进行迭代聚类。该算法在UCI数据集上能够又好又快又稳定的聚类。 展开更多
关键词 聚类 斜率变化 初始聚类中心 K均值算法 快速峰值搜索算法
在线阅读 下载PDF
基于马尔科夫的聚类算法仿真分析 预览
12
作者 王振宇 《信息技术》 2019年第5期58-60,共3页
针对传统k均值聚类算法易受初始条件影响的问题,文中在已有聚类算法的基础上提出了一个新型的图型聚类算法:马尔科夫(MCL)聚类算法。通过MATLAB仿真软件对空手道俱乐部数据用马尔科夫聚类算法进行仿真分析,得出聚类结果,并同时分析参数... 针对传统k均值聚类算法易受初始条件影响的问题,文中在已有聚类算法的基础上提出了一个新型的图型聚类算法:马尔科夫(MCL)聚类算法。通过MATLAB仿真软件对空手道俱乐部数据用马尔科夫聚类算法进行仿真分析,得出聚类结果,并同时分析参数对算法性能的影响。实验结果表明,马尔科夫聚类算法可以应用于对图的聚类中,但同时也会受到参数的影响。 展开更多
关键词 聚类 马尔科夫算法 K均值
在线阅读 下载PDF
基于Spark平台的K-means算法的设计与优化 预览
13
作者 王义武 杨余旺 +2 位作者 于天鹏 沈兴鑫 李猛坤 《计算机技术与发展》 2019年第3期72-76,共5页
聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最... 聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最大最小距离算法对数据点进行筛选,得到可以反映数据分布特征的点,并作为初始的聚类中心,以提高聚类的精度。从两次的实验结果可以对比出,在不同的数据集上,改进算法在衡量聚类效果的准确率、召回率、F-测量值上的表现要优于传统K-means算法。这是因为OCC算法选择的中心点来自于不同的且数据密集的区域,并在筛选的过程中排除了噪声数据、边缘数据对实验的干扰;同时为了契合大数据发展潮流,使用Scala语言在Spark平台进行了并行化实现,提高了算法处理海量数据的能力,并通过实验指标验证了算法具有良好的并行化能力。 展开更多
关键词 聚类 聚类中心 K-MEANS 最大最小距离算法 非加权组平均法
在线阅读 下载PDF
自动确定聚类中心的移动时间势能聚类算法 预览
14
作者 陆慎涛 葛洪伟 周竞 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第1期143-153,共11页
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一... 移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果. 展开更多
关键词 聚类 TTHC 移动时间 自动确定聚类数目
在线阅读 免费下载
基于聚类的多目标演化算法在航迹规划中的应用研究 预览
15
作者 王立晶 李桂英 李欣 《黑龙江大学工程学报》 2019年第2期77-83,共7页
巡航导弹的航迹规划问题是一类复杂的多目标优化问题,利用多目标演化算法可以很好地求解此类问题。考虑到聚类算法的数据挖掘功能可以提高多目标演化算法的局部搜索能力,并能恰当地平衡搜索过程中的开采与勘探以获得均匀分布的逼近前沿... 巡航导弹的航迹规划问题是一类复杂的多目标优化问题,利用多目标演化算法可以很好地求解此类问题。考虑到聚类算法的数据挖掘功能可以提高多目标演化算法的局部搜索能力,并能恰当地平衡搜索过程中的开采与勘探以获得均匀分布的逼近前沿,提出了一种基于聚类的多目标演化算法(HCEA)。HCEA算法利用层次聚类算法挖掘种群分布信息,然后利用配对控制概率平衡全局搜索与局部搜索,并在局部搜索与全局搜索中分别采用不同的差分系数,使算法的搜索能力进一步加强。实验结果表明HCEA能够有效地求解巡航导弹的航迹规划问题。 展开更多
关键词 多目标优化 演化算法 聚类 导弹航迹规划
在线阅读 下载PDF
大数据聚类专题序言 预览
16
作者 陈国良 《深圳大学学报:理工版》 CAS CSCD 北大核心 2019年第1期1-3,共3页
2013年被称为“大数据元年”.经过近5年的飞速发展,大数据已经成为大众最为关注的一门新技术,大数据的应用预示着信息时代进入了一个新阶段.目前,大数据应用已经渗透到人类社会的各个角落,高效的大数据分析和运用,将会对未来中国经济发... 2013年被称为“大数据元年”.经过近5年的飞速发展,大数据已经成为大众最为关注的一门新技术,大数据的应用预示着信息时代进入了一个新阶段.目前,大数据应用已经渗透到人类社会的各个角落,高效的大数据分析和运用,将会对未来中国经济发展、社会治理、国家管理、人民生活产生积极重大的影响.我以“big data”和“大数据”为关键词,对2013年至今发表在Web of Science(WOS)和中国知网CNKI平台(计算机软件及计算机应用领域内的期刊论文)上的文献进行了检索(超16 000篇文献),并通过对其中WOS的约100篇高被引和热点论文以及CNKI中下载量超过10000次的学术论文进行分析,总结归纳发现,大数据的研究主要经历了以下3个关键时期. 展开更多
关键词 人工智能 大数据 存储管理 系统计算 聚类
在线阅读 免费下载
图优化的低秩双随机分解聚类 预览
17
作者 张涛 胡恩良 余景丽 《计算机应用研究》 CSCD 北大核心 2019年第2期355-357,共3页
低秩双随机矩阵分解聚类(low-rank doubly stochastic matrix decomposition for cluster analysis,DCD)通过最小化KL(Kullback-Leibler)散度准则:KL(A,S),从图关联矩阵S中获得一个非负低秩双随机矩阵分解:A=UUT(U≥0),并以U作为类标签... 低秩双随机矩阵分解聚类(low-rank doubly stochastic matrix decomposition for cluster analysis,DCD)通过最小化KL(Kullback-Leibler)散度准则:KL(A,S),从图关联矩阵S中获得一个非负低秩双随机矩阵分解:A=UUT(U≥0),并以U作为类标签矩阵进行聚类。在DCD方法中,因矩阵S是固定不可变的,故S初始取值选取的好坏对聚类结果有极大影响,这导致了它缺乏稳定性。针对这一问题,提出了一种基于图优化的DCD方法,将图关联矩阵S和DCD的优化集成在统一框架中,这改进和拓展了原始的DCD方法。实验结果表明,与DCD方法相比,图优化的DCD方法具有更好的聚类精确度和稳定性。 展开更多
关键词 低秩双随机矩阵分解 图优化 稳定性 聚类
在线阅读 下载PDF
大规模数据集聚类算法的研究进展 预览
18
作者 何玉林 黄哲学 《深圳大学学报:理工版》 CAS CSCD 北大核心 2019年第1期4-17,共14页
聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得... 聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得令人满意的效果.随着大数据时代的到来,数据的采集和存储变得相对容易和便捷,但数据量也与日俱增,因此,针对各种实际应用的聚类问题应运而生,使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点,对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析,重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法,给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论,包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解. 展开更多
关键词 人工智能 大规模数据 聚类 串行计算 并行计算 数据挖掘 综述
在线阅读 免费下载
基于二部图的快速聚类算法 预览
19
作者 聂飞平 王成龙 王榕 《深圳大学学报:理工版》 CAS CSCD 北大核心 2019年第1期18-23,共6页
谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),... 谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),通过对数据采样降低原有数据结构规模,然后基于二部图学习采样数据和原有数据关系.通过对二部图对应的拉普拉斯矩阵施加秩约束,FCBG算法可在优化二部图的边的权重的同时,保持二部图的类簇结构,最终直接给出聚类结果,不依赖构图时每条边的初始权重分配.算法计算复杂度与数据大小呈线性关系.实验表明,FCBG算法可有效学习二部图的权重,并在较少的时间消耗下获得高质量的聚类结果. 展开更多
关键词 计算机应用技术 聚类 大数据 谱图理论 二部图 秩约束
在线阅读 免费下载
基于分层抽样的不均衡数据集成分类 预览
20
作者 王馨月 景丽萍 《深圳大学学报:理工版》 CAS CSCD 北大核心 2019年第1期24-32,共9页
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构... 不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法(简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能. 展开更多
关键词 人工智能 不均衡分类 分层抽样 集成学习 聚类 数据挖掘
在线阅读 免费下载
上一页 1 2 250 下一页 到第
使用帮助 返回顶部 意见反馈