期刊文献+
共找到598篇文章
< 1 2 30 >
每页显示 20 50 100
基于多时间尺度的深层说话人特征提取研究 预览
1
作者 王文超 黎塔 《网络新媒体技术》 2019年第5期21-26,共6页
在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺... 在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺度的处理模式对声音信息进行解析的。基于这些研究,本文提出了一种双通道神经网络模型,其中一条通道处理短时间尺度(即局部)特征,另一条处理长时间尺度(即全局)特征。两种局部特征融合形成可用于说话人识别的声纹特征,称之为t-vector。在RSR2015 Part3文本相关数据集上进行的检测说话人识别系统性能的实验结果表明,不同时间尺度的特征可以互补,并且融合的t-vector特征也优于i-vector和d-vector特征。 展开更多
关键词 说话人识别 深层说话人特征 不同时间尺度 t-vector
在线阅读 下载PDF
基于特征语谱图和自适应聚类SOM的快速说话人识别 预览
2
作者 贾艳洁 陈曦 +1 位作者 于洁琼 王连明 《科学技术与工程》 北大核心 2019年第15期211-218,共8页
为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自... 为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。 展开更多
关键词 说话人识别 特征语谱图 自适应聚类 神经网络 统计 深度学习
在线阅读 免费下载
面向说话人识别的甘肃临夏少数民族方言语音库的建设 预览
3
作者 谭萍 邢玉娟 《兰州文理学院学报:自然科学版》 2019年第6期88-91,共4页
面向方言的说话人识别研究刚刚起步,因此建设一个用于说话人识别的、符合地域特色的方言语音库迫在眉睫.本文结合甘肃临夏回族自治州方言的特点,构建一个面向说话人识别的方言语音库.语音库包含普通话和方言音频资料,使用电脑和手机两... 面向方言的说话人识别研究刚刚起步,因此建设一个用于说话人识别的、符合地域特色的方言语音库迫在眉睫.本文结合甘肃临夏回族自治州方言的特点,构建一个面向说话人识别的方言语音库.语音库包含普通话和方言音频资料,使用电脑和手机两种方式采集,所有语料内容涉及文化、教育、生活、情感、历史、新闻、评论等,录音者由来自临夏回族自治州的100人组成,共产生了语音语料2400条,为基于甘肃少数民族方言的说话人识别研究奠定了基础. 展开更多
关键词 少数民族方言 说话人识别 语音库
在线阅读 下载PDF
基于MFCC与GFCC混合特征参数的说话人识别 预览 被引量:1
4
作者 周萍 沈昊 郑凯鹏 《应用科学学报》 CAS CSCD 北大核心 2019年第1期24-32,共9页
针对说话人识别中单一参数表征不够全面的特点,将抗噪性能一般的传统MFCC参数与鲁棒性更强的GFCC参数相互融合,并结合它们的动态特性构成一种新的混合参数.针对特征参数维数过高造成的冗余,研究了每种特征参数各分量与识别结果的关系,... 针对说话人识别中单一参数表征不够全面的特点,将抗噪性能一般的传统MFCC参数与鲁棒性更强的GFCC参数相互融合,并结合它们的动态特性构成一种新的混合参数.针对特征参数维数过高造成的冗余,研究了每种特征参数各分量与识别结果的关系,舍弃其中贡献较低的分量以实现特征参数降维的目的,并将混合参数应用于基于高斯混合模型的说话人识别系统.仿真实验表明,该混合特征参数具有更好的识别性能和抗噪性. 展开更多
关键词 说话人识别 混合特征参数 MEL频率倒谱系数 Gammatone滤波器
在线阅读 下载PDF
PSO与PCA融合优化核极限学习机说话人识别算法仿真 预览
5
作者 苗凤娟 孙同日 +3 位作者 陶佰睿 李敬有 张光妲 刘凯达 《科学技术与工程》 北大核心 2019年第21期195-199,共5页
基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal comp... 基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal component analysis,PCA)对MFCC进行降维优化、粒子群优化算法(particle swarm optimization,PSO)对KELM初始输入参数进行优化开展基于PSO和PCA融合优化KELM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过,并与MATLAB语音工具箱提供的神经网络和支持向量机说话人识别算法做了性能对比分析。仿真研究结果表明:通过PSO和PCA融合优化改进的KELM,初始输入参数可以任意确定并且不需要迭代更新,并能有效克服因初始权重随机确定导致的性能不稳定,进一步提高分类匹配和运算速度,具有很好的推广应用价值。 展开更多
关键词 说话人声纹识别 核极限学习机 主成分分析 粒子群优化
在线阅读 免费下载
数据挖掘技术在语音识别中的应用 预览
6
作者 许元洪 郭琼 《应用技术学报》 2019年第1期84-87,共4页
通过数据挖掘技术实现对语音来源的识别,从而完成对说话人身份的认证以及操作权限的分配,具有非常重要的理论和实际意义。主要针对相同和不同语音内容两个类别的说话人语音识别进行了研究。通过在说话人识别领域广泛应用的梅尔频率倒谱... 通过数据挖掘技术实现对语音来源的识别,从而完成对说话人身份的认证以及操作权限的分配,具有非常重要的理论和实际意义。主要针对相同和不同语音内容两个类别的说话人语音识别进行了研究。通过在说话人识别领域广泛应用的梅尔频率倒谱系数进行语音的特征提取,并结合动态时间规整算法进行模式匹配分类。特别地,在不同的语音内容识别探究中,在采用动态时间规整算法前,结合了K-means++算法以及主成分分析算法来对梅尔频率倒谱系数矩阵进行降维和聚类,以保证待匹配模板的维度相近或相同。结果表明,在相同语音内容的识别过程中,选择合适的阈值可以获得较好的识别效果。 展开更多
关键词 说话人识别 梅尔频率倒谱系数 动态时间规整算法 K-means++算法 主成分分析算法
在线阅读 下载PDF
基于Fisher比的Bark倒谱系数混合特征参数提取方法 预览
7
作者 倪纪伟 彭妙颜 《电声技术》 2019年第1期30-33,39共5页
在说话人识别应用中,本文针对传统的Bark尺度特征参数提取过程中的不足,利用高斯滤波器组(Gaussian shaped filters,GF)代替三角滤波器组,对输入的能量进行滤波,其相比三角滤波器滤波结果更加平滑。由于巴克倒谱系数(BFCC)在高频精度不... 在说话人识别应用中,本文针对传统的Bark尺度特征参数提取过程中的不足,利用高斯滤波器组(Gaussian shaped filters,GF)代替三角滤波器组,对输入的能量进行滤波,其相比三角滤波器滤波结果更加平滑。由于巴克倒谱系数(BFCC)在高频精度不足,再利用Fisher准则将BFCC与IBFCC相结合,构造了一种新的混合特征参数。实验结果表明,在纯净语音及噪声环境下,本文提出的使用高斯滤波器组的BFCC比使用三角滤波器组的MFCC识别率高,而新的混合特征参数识别性能更优。 展开更多
关键词 巴克倒谱系数 MFCC 高斯滤波器组(GF) FISHER准则 说话人识别
在线阅读 下载PDF
基于深度学习及核典型相关分析的多特征融合说话人识别 预览
8
作者 卜禹 陆璐璐 《计算机与数字工程》 2019年第9期2185-2189,2205共6页
论文提出一种基于深度学习以及核典型相关分析(kernel canonical correlation analysis,CCA)的多特征融合说话人识别方法。针对说话人的音频和视频信息,利用深度信念网络和卷积神经网络这两种不同深度的神经网络对音频信息和视频信息分... 论文提出一种基于深度学习以及核典型相关分析(kernel canonical correlation analysis,CCA)的多特征融合说话人识别方法。针对说话人的音频和视频信息,利用深度信念网络和卷积神经网络这两种不同深度的神经网络对音频信息和视频信息分别并行处理,得到两种不同模态的生物特征向量。采用核典型相关分析方法对这两种非线性相关的特征向量进行特征级融合,使用它们的相关性判别函数抽取多个相关性顺次下降但又互不相关的典型变量对按照给定的特征级融合策略构成最后的判别特征,同时去除了冗余信息。最后生成的基于核典型关联分析的融合特征输入最近邻分类器,输出说话人识别结果。使用BANCA数据库对该方法进行实验,结果表明:该方法能显著提高说话人识别的准确率。 展开更多
关键词 深度信念网络 卷积神经网络 核典型关联分析 最近邻分类器 说话人识别
在线阅读 下载PDF
Android平台下OpenCL加速的说话人识别系统 预览
9
作者 张竞丹 韩俊刚 《计算机与数字工程》 2019年第7期1725-1727,1826共4页
如今,人工智能正在图像、自然语言处理等诸多领域迅速发展,同时随着移动设备的广泛使用,人们的生活习惯正在逐步的改变。所以,将人工智能技术运用到移动互联网中已经成为必然趋势。但由于移动设备因密集的计算带来的功耗提升和存储带宽... 如今,人工智能正在图像、自然语言处理等诸多领域迅速发展,同时随着移动设备的广泛使用,人们的生活习惯正在逐步的改变。所以,将人工智能技术运用到移动互联网中已经成为必然趋势。但由于移动设备因密集的计算带来的功耗提升和存储带宽的增加,使得在移动设备中实现神经网络算法面临着巨大的挑战。说话人识别技术作为一种安全可靠的生物认证技术,将其运用到移动设备平台中有着其他生物认证技术没有的便捷性和安全性,同时为了提高效率,论文提出在Android平台下,通过提取说话人的梅尔倒谱特征(MFCC),使用OpenCL对基于BP神经网络的说话人识别系统进行加速,通过实验对比加速前后的运行效率,可以发现在Android平台下使用OpenCL加速,可以提升计算速度。 展开更多
关键词 说话人识别 OPENCL ANDROID MFCC特征 BP神经网络
在线阅读 下载PDF
基于语音增强的远场说话人识别技术 预览
10
作者 覃晓逸 蔡丹蔚 +2 位作者 胡伟湘 苗磊 李明 《网络新媒体技术》 2019年第4期1-10,共10页
随着声纹技术的发展并逐渐应用于智能家居领域,尤其是智能音箱已经开始影响着人们的生活,远场环境下的说话人识别技术提升迫在眉睫。本文针对说话人识别技术的发展现状以及远场环境下语音信号的处理,包括麦克风阵列技术的应用,抗噪、抗... 随着声纹技术的发展并逐渐应用于智能家居领域,尤其是智能音箱已经开始影响着人们的生活,远场环境下的说话人识别技术提升迫在眉睫。本文针对说话人识别技术的发展现状以及远场环境下语音信号的处理,包括麦克风阵列技术的应用,抗噪、抗混响技术的发展与应用等两个主要方面进行阐述。 展开更多
关键词 说话人识别 语音增强 麦克风阵列 远场环境
在线阅读 下载PDF
非线性幂变换Gammachirp滤波器的鲁棒语音特征提取 预览
11
作者 李聪 葛洪伟 《计算机科学与探索》 CSCD 北大核心 2019年第8期1351-1359,共9页
针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gam... 针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。 展开更多
关键词 特征提取 说话人识别 伽马啁啾滤波器 高斯混合模型-通用背景模型(GMM-UBM) 辨识向量(i-vector) 概率线性判别分析(PLDA)
在线阅读 下载PDF
基于判别邻域嵌入算法的说话人识别 预览
12
作者 梁春燕 袁文浩 +2 位作者 李艳玲 夏斌 孙文珠 《电子与信息学报》 EI CSCD 北大核心 2019年第7期1774-1778,共5页
该文提出一种基于判别邻域嵌入(DNE)算法的说话人识别。判别邻域嵌入算法作为流形学习方法的一种,可以通过构建邻接图获取数据的局部邻域结构信息;同时该算法可以充分利用类间判别信息,具有更强的判别能力。在美国国家标准技术研究院201... 该文提出一种基于判别邻域嵌入(DNE)算法的说话人识别。判别邻域嵌入算法作为流形学习方法的一种,可以通过构建邻接图获取数据的局部邻域结构信息;同时该算法可以充分利用类间判别信息,具有更强的判别能力。在美国国家标准技术研究院2010年说话人识别评测(NISTSRE2010)电话-电话核心测试集上的实验结果表明了该算法的有效性。 展开更多
关键词 说话人识别 总变化因子分析 邻域保持嵌入 判别邻域嵌入
在线阅读 免费下载
基于具有深度门的多模态长短期记忆网络的说话人识别
13
作者 陈湟康 陈莹 《激光与光电子学进展》 CSCD 北大核心 2019年第3期130-136,共7页
为了在说话人识别任务中有效融合音视频特征,提出一种基于深度门的多模态长短期记忆(LSTM)网络。首先对每一类单独的特征建立一个多层LSTM模型,并通过深度门连接上下层的记忆存储单元,增强上下层的联系,提升该特征本身的分类性能。同时... 为了在说话人识别任务中有效融合音视频特征,提出一种基于深度门的多模态长短期记忆(LSTM)网络。首先对每一类单独的特征建立一个多层LSTM模型,并通过深度门连接上下层的记忆存储单元,增强上下层的联系,提升该特征本身的分类性能。同时,通过在不同模型之间共享连接隐藏层输出与各个门单元的权重,学习每一层模型之间的联系。实验结果表明,该方法能有效融合音视频特征,提高说话人识别的准确率,并且对干扰具有一定的稳健性。 展开更多
关键词 图像处理 说话人识别 长短期记忆网络 融合 深度门 权重共享
利用谐波显著度和语者音色特征的混合语音中目标人基频轨迹提取 预览
14
作者 后方帅 黎美琪 刘若伦 《声学技术》 CSCD 北大核心 2019年第4期408-413,共6页
从混合语音中提取出目标语者的基频轨迹,是语音监听、语音门禁、对话管理等应用的关键技术。为提高基频轨迹跟踪的准确率、增强抗八度误差的能力、降低系统复杂度,多基频估计以谐波乘积谱为核心,八度校正与基频分组均以元音段为基本单元... 从混合语音中提取出目标语者的基频轨迹,是语音监听、语音门禁、对话管理等应用的关键技术。为提高基频轨迹跟踪的准确率、增强抗八度误差的能力、降低系统复杂度,多基频估计以谐波乘积谱为核心,八度校正与基频分组均以元音段为基本单元,并结合了谐波显著度和语者音色特征。基于MIREX2005语音数据集的实验表明,MIREX的4种多基频估计性能指标均在75%以上,基频分组在混合语音中的判断准确率可达92%。 展开更多
关键词 多基频轨迹 谐波乘积谱 语者识别
在线阅读 下载PDF
基于信号质量动态加权的多模生物特征识别研究 预览
15
作者 张闻彬 刘培顺 薛峰会 《网络与信息安全学报》 2018年第3期59-67,共9页
摘要:将人脸识别和说话人识别进行决策层级的融合,为应对外界环境对识别结果的影响,引入图像质量和声音质量评价方法,通过对信息质量进行评估,去除信息质量较差的特征,根据信息质量动态调整模块的权重比例,并对单模特征识别匹配... 摘要:将人脸识别和说话人识别进行决策层级的融合,为应对外界环境对识别结果的影响,引入图像质量和声音质量评价方法,通过对信息质量进行评估,去除信息质量较差的特征,根据信息质量动态调整模块的权重比例,并对单模特征识别匹配度低的个体做拒绝处理,然后根据D-S理论将各个证据合并成为一个新的证据体,实现对用户身份识别。实验结果显示,这种考虑特征信号质量的融合方法可以有效提升识别的准确率和安全性。 展开更多
关键词 人脸识别 说话人识别 特征信号质量评估 D-S证据理论 多生物特征识别融合
在线阅读 免费下载
基于图像信息的话者识别 预览
16
作者 刘培培 杨祥来 《中国科技论文》 北大核心 2018年第20期2388-2393,共6页
提出了一种使用图像信息进行话者识别的方案,建立了一个共计916个样本、每个样本包含连续20帧图片的实验数据集。将基于图像信息的话者识别分为借助人脸识别技术找出人脸的嘴唇部分并执行唇动检测和对被检测出唇动的人脸进行人脸识别2... 提出了一种使用图像信息进行话者识别的方案,建立了一个共计916个样本、每个样本包含连续20帧图片的实验数据集。将基于图像信息的话者识别分为借助人脸识别技术找出人脸的嘴唇部分并执行唇动检测和对被检测出唇动的人脸进行人脸识别2个阶段。唇动检测模型通过2种方法获得:计算样本中每帧图片的人脸上下嘴唇间距与鼻部宽度的比例,并将该比例作为该帧图像的特征,基于总体样本特征使用支持向量机进行模型训练;对人脸的嘴唇部分进行裁剪,使用卷积神经网络对裁剪后的嘴唇图片提取特征,并将特征作为长短时记忆网络的输入进行模型的训练。实验结果表明,基于图像信息的话者识别能够达到较高的准确率。 展开更多
关键词 人脸识别 话者识别 唇动检测 支持向量机 卷积神经网络 长短时记忆网络
在线阅读 下载PDF
基于多特征i-vector的短语音说话人识别算法 预览
17
作者 孙念 张毅 +1 位作者 林海波 黄超 《计算机应用》 CSCD 北大核心 2018年第10期2839-2843,共5页
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i... 当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。 展开更多
关键词 说话人识别 i-vector 短语音 多特征 主成分分析 线性判别分析
在线阅读 下载PDF
基于深度神经网络的说话人识别模型研究 预览 被引量:1
18
作者 李浩 鲍鸿 张晶 《电脑与信息技术》 2018年第5期1-3,8共4页
在传统的说话人识别中, 普遍采用的是高斯混合模型 (GMM) 及GMM-UBM 模型.然而 GMM及 GMM-UBM模型由于对噪声非常敏感及对语音的长度有一定的要求, 所以对说话人数据库质量要求很高.并且传统的机器学习算法(GMM, GMM-UBM) 属于浅层... 在传统的说话人识别中, 普遍采用的是高斯混合模型 (GMM) 及GMM-UBM 模型.然而 GMM及 GMM-UBM模型由于对噪声非常敏感及对语音的长度有一定的要求, 所以对说话人数据库质量要求很高.并且传统的机器学习算法(GMM, GMM-UBM) 属于浅层以及不完全的学习, 识别率随着识别人数的增加下降的剧烈, 模型的鲁棒性相对较差.并且存在训练时间长, 收敛困难的缺点, 从而限制了说话人识别在实际中的应用.深度神经网络(DNN)具有强大的非线性特性以及对数据具有良好的模式分类能力, 对语音信号的质量及长度要求不高, 并且对噪声的容忍度较高, 所以论文把深度神经网络引入到了说话人识别中. 展开更多
关键词 说话人识别 高斯混合模型 鲁棒性 深度神经网络
在线阅读 下载PDF
基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统 预览 被引量:1
19
作者 茅正冲 王俊俊 《南京理工大学学报:自然科学版》 CSCD 北大核心 2018年第1期82-88,共7页
为了提高说话人识别系统的性能,该文在传统特征的基础上提出利用相位特征对听觉倒谱特征进行补偿的方法。该方法利用Teager能量算子(Teager energy operator,TEO)能够真实反映气流在通过声道系统呈现的涡流非线性作用的模型,再利用希... 为了提高说话人识别系统的性能,该文在传统特征的基础上提出利用相位特征对听觉倒谱特征进行补偿的方法。该方法利用Teager能量算子(Teager energy operator,TEO)能够真实反映气流在通过声道系统呈现的涡流非线性作用的模型,再利用希尔伯特变换从TEO导出分析信号的瞬时相位信息,结合耳蜗倒谱系数(Cochlear filter cepstral coefficients,CFCC)得到融合特征参数。实现了对特征参数的补偿,提高了说话人识别系统的识别率。使用NIST-2002说话者识别评估(Speakers recognition evaluation,SRE)数据库,在高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)的说话人识别系统上进行实验。实验结果表明TEO相位与CFCC的结合比单独CFCC更好,其识别精度比现有的CFCC特征和线性预测梅尔频率倒谱系数(Linear prediction Meyer frequency cepstral coefficient,LPMFCC)分别提高了8.32%和3.15%。这表明TEO相位包含与CFCC特征互补的信息,且具有较高的识别率。 展开更多
关键词 能量算子 耳蜗倒谱系数 高斯混合模型-通用背景模型 说话人识别
在线阅读 下载PDF
基于修正Fukunaga-Koontz变换的说话人识别方法 预览
20
作者 赵艳 吕亮 赵力 《电子器件》 北大核心 2018年第4期1050-1054,共5页
研究了修正Fukunaga-Koontz变换在说话人识别中的应用方法。通过修正Fukunaga-Koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模。采用NIST2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-... 研究了修正Fukunaga-Koontz变换在说话人识别中的应用方法。通过修正Fukunaga-Koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模。采用NIST2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-Koontz变换在说话人识别中的识别性能。结果证实,将修正Fukunaga-Koontz变换用于说话人识别获得了理想的效果,与传统的LDA降维方法相比,识别性能得到了较大的提升。 展开更多
关键词 说话人识别 修正Fukunaga-Koontz变换 特征优化
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部 意见反馈