当前位置: 东星资源网 > 大学生 > 情感 > 正文

语音情感分析

时间:2017-04-12 来源:东星资源网 本文已影响 手机版

篇一:语音情感识别

人机交互中的语音情感识别

一. 研究内容及其意义 随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。

包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。例如,同样一句话,由于说话人表现的情感不同,在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样利用各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。

语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而,情感的变化能够通过语音的特征参数来反映,研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生

理上的变化会对语音带来直接的影响,而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外,语音情感识别中所采用的识别方法也会对结果产生影响。

目前,关于情感信息处理的研究正处在不断的深入之中,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如,用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。

二. 国内外的研究现状

语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。

在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感[1]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[2]。2009年4月,日本产业技术综合研究所(AIST)研制

一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等[3]。

在国内,语音情感识别的研究起步较晚。2001年,东南大学赵力等人提出语音信号中的情感识别研究。2003年,北京科技大学的谷学静等人将BDI Agent技术应用与情感机器人的语音识别技术研究中。另外,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议。2005年10月又在北京主办了首届国际情感计算及智能交互学术会议。

三. 采用的研究方法

语音情感识别关注语音中的隐层情感信息,是一门涉及心理学、生理学、信号处理和模式识别等领域的交叉学科,主要任务是通过对语音信号的感知和分析,剥离出情感表达相关的声学特征,进而识别出话者所处的情感状态。整个识别系统中,对情感特征数据的处理能至关重要。通常地,语音情感特征向量少则数十维多则上百维,且随着语料数量的增多,特征数据的数量将变得十分可观。而我们受到所处的三维物理空间的限制,对高维空间中的数据的理解已经十分困难。因此,面对这批数量庞大的高维数据,如何找出相同情感类别的特征数据之间的共性和不同情感类别的特征数据之间的差异变成一项复杂的工程。目前常用的特征处理方法实际上是对传统模式识别手段的沿用(如支持向量机、神经网络、隐马尔可夫模型等),然而由此得到的非特定人语音情感识别性能并不理想。下面从几个方面对语音情感识别的研究方法加以说明。 ⒈ 情感的分类

要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。人类的情感是相当复杂的,常见的是喜、怒、哀、乐等.目前语音情感识别研究中对于情感

的分类没有一个统一的标准,研究者一般针对研究对象而做出不同的分类。目前使用较多的是四种基本情感类型:愤怒、高兴、悲伤、惊奇。在心理学领域被普遍接受的是Robert Plutchik教授提出的八种原型情感模型,八种情感为:恐惧、惊奇、悲伤、厌恶、愤怒、期望、高兴、接受。对于情感的分类,研究者始终没有达成共识。

⒉ 情感语音库的建立

情感语音库是语音情感识别研究的基础,如何建立一个有效的情感语音库对于提高语音情感识别率具有重要影响。语音库的建立大体上分为三种形式.第一种数据库来自专业或业余演员的表演,朗读预先准备的句子或段落。由于这种方法操作简单,目前大部分情感语音数据库都是用这种方法获得的。第二种数据库是让录音者置身于一个虚拟场景,从虚拟环境中诱引出语音。第三种数据库来自现实生活,是人们在现实生活中表现出最真实情感的语音,但要用这种方法获得情感语音数据库非常困难。

用三种方法获取的数据库其自然度各不相同,文献[4]通过试验发现,在使用同样特征参数的情况下,用不同方法获得的数据库其情感识别率不同。Batliner等人使用线性判别分析(LDA)法结合韵律特征,对三种不同自然度的情感语音数据库进行了分类试验,结果表明,情感语音的自然度越高,识别率越低。 ⒊ 语音信号的情感特征提取 一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数有基频(Pitch),其次才是能量(Energy)、语速(Speech Rate)、共振峰

频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。

基于心理学和韵律学研究的结果,说话者的情感在语音中最直观的表现就是韵律特征和语音质量的变化。因此对语音情感识别的研究普遍从韵律特征和音质特征开始,尤其是韵律特征,被认为是最主要的语音情感特征。下面是采用MFCC参数的具体提取过程。

MFCC 系数是基于人耳听觉特性提取的特征参数,对人类听觉系统的研究表明,人耳对不同频率的声音信号的响应是非线性的。不同频率声音形成的波,在沿着耳蜗基底膜传播的过程中,峰值出现在耳蜗基底膜的不同位置,且与声音频率呈对数关系。为模拟人耳的这种非线性特点,提出了各种频率弯折方法,如Bark 度、等效矩形带宽度和Mel 频率尺度,其中Mel 频率尺度是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点,所谓Mel 频率尺度,它的值大体上对应于实际频率的对数关系。其与实际频率的具体关系如下:

Mel?f??2595lg?1?f700? ( 3-1)

其中实际频率f 的单位为Hz。下面是本文进行MFCC 计算的具体过程,用短时分析技术,应用了窗长为21.33ms(256),帧移为10ms 的汉明窗。计算过程如下图3-1 所示:

篇二:语音情感识别综述

1前言.....................................................................................................................................................................1

2研究现状 ............................................................................................................................................................1

2.1概述.............................................................................................................................................................1

2.2情感分类与情感化智能计算 ................................................................................................................2

2.3语音情感的特征提取..............................................................................................................................2

2.4语音情感识别的方法与手段 ................................................................................................................3

2.5语音情感识别的工作流程和语音库的获取......................................................................................4

3.总结与研究展望...............................................................................................................................................4

3.1情感分类与情感识别..............................................................................................................................4

3.2非线性计算方法与语音情感的识别 ...................................................................................................4

3.3语音情感的分级识别..............................................................................................................................5

3.4组合多模式情感识别..............................................................................................................................5

3.5语音库的选取 ...........................................................................................................................................5 1前言

随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。

顾名思义,语音情感识别包括语音识别和情感识别两大领域,而情感识别中又包括诸如心理学、生理学等多个学科,所以如果要想使计算机准确的在语音中提取出说话人所表达的感情,就必须要从多方面知识领域着手。目前有许多关于语音和情感之间相互联系的研究,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛,可以用来设计人性化的语音人机界面;可以用于互动影视;可以用于辅助语音识别;可以用于情感翻译;还可以用在测谎、电子游戏和辅助心理治疗等方面。

2研究现状

2.1概述

1967年,诺贝尔奖得主Simon H A.在认知基础领域强调[1]:“思想和解决问题的基础理论都不能忽视情感对他们的影响。”情感的传达和描述对于信息的理解和交互是非常重要的。在日常生活中,人们可通过人的面部表情、声音、手势、体态、心跳、步态、体温、呼吸、血压和心肌电流图等来交流情感,其中,人的声音起着非常重要的作用。

人的情感是可以通过语音信号反应出来的。从语音中提取情感的基本思路就是找出能反映情感的声学参数,分析其与情感之间的关系。传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽略了包含在语音信号中的情感因素,所以它只能反映信息的某个方面。情感的识别和表达对于语言信息的交流和理解是非常必要的,也是人们最大的心理需要之一。而作为认知情感研究的第一步,就是要识别各种情感的表

现形式,然后才能有效地在实际中利用情感因素,并进而对心智活动的其他方面进行深入研究。

2.2情感分类与情感化智能计算

情感的分类是一个有趣而复杂的问题,己有许多学者对这个问题展开讨论[2]。学术界提出的关于情感的定义大概就有100多种。为了让计算机能够更好地完成情感识别任务,必须对人类的情感状态有一种合理而清晰的分类。早在1962年,Tomkins曾提出人类的基本感情有8种,分别是愤怒、害怕、苦恼、厌恶、欢乐、惊奇、关爱和羞愧。1980年,Plutchik提出了与之不同的另外8种基本情感[2]:害怕、愤怒、哀伤、欢乐、厌恶、惊奇、容忍和期待。在1988年的时候,Ortony,Clore和Collins对之前所提出的基本情感分类进行了一个汇总[3],其中最常见的四种基本情感是害怕、愤怒、悲伤和欢乐,其次常见的四种情感是厌恶和惊奇。除去这六种情感之后,其余的情感分类就比较分散,不同的研究者所提出来的基本情感分别有2~20种不等。除了定义基本情感外,也有通过定义情感的n维取值来描述不同的情感,比如常见的二维取值,是程度(平静/兴奋)和取向(负的/正的)。Lang认为,根据n维取值方法进行分类比根据离散的分类更可信[4]。另外,情感在感觉上可能是“模糊的”,即一个元素可以同时属于一个以上的类[5]。当人们处于相互交织的情感之中时,是很难将其归入某种特定的情感状态的,很明显,情感状态越纯、越单一的情感,计算机进行分析和识别的效果就会越好。任何表示法都有自己的适用性和局限性,在语音情感识别中,采用哪种情感分类方法取决于具体问题,不能一概而论。

情感计算的目标是使计算机拥有人类的情感。如果计算机能够有效的对情感做出判断,就必须拥有与规则系统相一致的情感或类似的情感机制。对于语音情感的识别也是一样,只有更好的考虑情感因素,才能更好地实现各种情感的分析与计算,因此现在越来越多的研究工作者致力于情感的智能计算方面的研究。在传统的刺激-反映学习理论中,通常不考虑情感对适应性的参与利用。但Mower发现[6],学习不仅仅只有刺激-反映的发展过程,而且还应该有一个牵涉到情感发生的过程。他所提出的双过程模型理论指出,在情感状态中可以更灵活地学习,并提供新的学习方法动机来源。MIT媒体实验室的B.Blumberg对仿真狗的研究首先将情感因素引入到学习之中,并且近年来正致力于对于情感机器人的研究。基于情感智能计算的另一个方面就是关于情感化决策的研究,也就是让计算机可以自动的对某些特定的事物做出灵活而明智的决定。1994年,A.Araujo提出了一种将低层生理情感反映与其所影响的认知相结合的模型[7]。该模型通过激励和倾向性的量化来描述情感。该模型由“情感网络”和“认知网络”两个相互作用的网络构成,分别用来模仿人脑中的边缘结构和皮层结构,该模型在情感与记忆的结合研究方面迈出了具有重大意义的一步。

2.3语音情感的特征提取

一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数有基频(Pitch),其次才是能量(Energy)、语速(Speech Rate)、共振峰频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线,来区分悲伤、生气、高兴和害怕,识别率能达到60-65%。Seppanen等人在利用韵律学对芬兰语进行语音情感识别时,提出了共43种情感参数,其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数,对于单个确定人的情感识别取得了80.7%的识别率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果,平均识别率达到70%。McGilloway等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类,从能量、基音的运动轨迹

中抽取了32个潜在的特征,得到了55%的识别率。以下比较详细地分析一下常用的特征。

下表中总结了有声情感与五种基本情感之间最普遍的联系[8]。

表1 人类声音特征与情感之间的一般联系

2.4语音情感识别的方法与手段

各种模式识别方法,如线性判别分类(Linear Discriminant Classifier),K最近邻法(K-Nearest Neighborhood)、支持向量机(Support Vector Machine)、高斯混合模型(Gaussian Mixtures)、隐马尔可夫模型(Hidden Markov Model)等,都被应用于语音的情感识别。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果。在这些分类方法中,人工神经网络和隐马尔可夫模型的性能比较出色。

在模式识别方面,各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段,新的方法的应用和对比层出不穷。Chul Min Lee等把语音情感识别归结为模式识别问题,并提出了三种方法[9]:线性判别分类(LDC),K最近邻法(k-NN),支持向量机(SVC)。LDC是带有高斯概率分布的参数方法,估算完参数的均值和方差后,LDC利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN方法通过计算k领域的平均均值估算每类情感的局部后验概率。在SVC方法中,用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。Tin Lay New等采用了Mel频率语音能量系数和HMM分类方法[10],将语音信号分成16ms一帧的互相重叠的窗口,每一段语音帧都用12Mel频率下边带能量评价准则来进行参数化,对参数化后的再用矢量量化器进行编码。在系统的训练阶段,按照分类情感训练生成的码本,训练产生4状态各态历经HMM。在识别阶段,把没有经过事先分类的语音进行特征编码,之后用已经训练好的HMM进行识别,识别后的输出有五类,第一类输出是愤怒,第二类为伤心,愤怒与惊讶被作为一个输出分到了第三类,第四类为恐惧和高兴,第五类为厌恶和悲伤。Tin共做了三次实验,第一次只对第一组和第二组进行识别,其平均识别准确率达到了95%;第二次实验,对第三类和第五类进行了识别,其平均识别率达到了87.5%,第三次实验,对第三、第四、第五类进行识别,其平均识别率达到了82.22%。Tin从一个新的角度提出了语音情感识别的方法。

在基于神经网络的分类方法方面,Nicholson所研究的系统的整个神经网络由8个子网构成,其处理流程分两部分:语音处理(包括特征计算、句点提取和特征提取)情感识别(包括神经网络训练和识别情感)。其每个子网处理一种特定的情感。测试发现[11],负面的情感,如愤怒和悲伤容易识别,但正面的情感(比如喜悦)不易识别。H. Sato等也采用神经网络,但是只能把平静时的情感和其他3种情感区分开来,还不能具体识别每一种情感[12]。McGilloway等人利用几位不同乘客的抽取语音作为研究对象,情感同样是高兴、生气、悲伤、害怕和正常状态,从强度、基音的运动轨迹中抽取了32个潜在的特征,使用了两个不同的分类器,其中的神经网络分类器采用90%作训练,10%作测试,得到了55%的识别率[13]。

赵力等人[14]提出了一种利用全局和时序结构的组合特征以及MMD进行情感特征识别的方法,对10名话者采集了带有欢乐、愤怒、惊奇和悲伤的1000句话进行识别,并取得了94%的平均情感识别率。

2.5语音情感识别的工作流程和语音库的获取

一般地,语音情感识别的工作流程大致可以分为以下几个步骤:1.对语音信号根据需要进行接收和预处理;

2.对预处理后的语音信号进行特征提取和分类;3.根据情感的发生和表达等知识预见话音中所隐含的潜在的感情;4.让计算机通过学习,认识各个情感的重要特征,积累情感识别的经验;5.纠正情感识别中的偏差,加强计算机对不确定性情感的识别能力;6.输出计算机最终的识别结果。

如果让计算机能有效的对情感进行识别,那么就必须对情感信息进行有效的选取。情感信息的主要表达方式有内在型和外在型两种,而声音属于外在型情感信息范畴。语音数据的采集一般是请专业的演员在特定的环境下按照要求朗读事先给定的句子或词组,使之听起来带有特定的情感色彩,此时通常要求以16khz速率采样,一般存储为.wav格式,语音库的大小由几百到几千句不等。这些数据还需要通过听取试验进行验证,验证方法是由参与语音情感录取之外的几个人,在不参看文本的情况下对听到的随机播放的话音中所包含的情感进行判断,根据每个人判断的结果,对于那些含有感情歧义的话音进行修改或者删除,留下感情特征明显的语句用来让计算机进行情感的分析与识别。由于大多数情感语音都是先由演员来模拟产生的,因此毫无疑问存在着一个问题,这就是演员模拟的情感语音是否真正反映了普通人会将本是情感的状态进行激励的掩饰,而有些人会将本不是某种情感的状态进行扩张,极力装出所指定的情感状态。因此,由演员来录制模拟情感语音,有可能错误地表达了语音中情感的特点。

3.总结与研究展望

许多学者已经把语音情感识别和人脸表情识别结合起来研究,并取得了比较理想的效果。另外,语音中情感的识别和合成带有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率,通过修改平静时语音的发音持续时间,基音和振幅来产生带有情感的语音。对这些特征的分析,不仅有助于语音情感识别,还有助于情感语音合成。这些方面的研究将有助于人工智能向更人性化方向发展。尽管语音情感信息处理已经在很多方面取得了一系列的进展,但是面对真正的人机交互,还有许多的问题值得研究。

3.1情感分类与情感识别

目前的研究大多数将情感分为2~20种不同的基本情感。有人认为,其他的情感可以有这些基本情感派生出来,那么到底基本情感是哪些,其他的情感怎么由这些基本情感进行派生,仍然是一个有待研究的问题。人的情感复杂多样,也许只有在人们对情感计算和情感模型的领域的了解不断深入之后,才能更可靠的对语音中所含有的情感进行识别。

3.2非线性计算方法与语音情感的识别

情感是如何与语音相互作用的,每种情感的基本特征是什么,怎样才能得到又少又准确的语音特征,这些都是尚未解决的问题。目前,在提取表征说话人特征时,都是按帧提取的,认为语音信号是短时平稳的,然后再按帧进行特征提取。但是语音信号的特性是随时间而变化的,是一个非平稳过程。如果从整体上把握一段语音,可能对情感的提取与分析更加有利。那么如果把非线性分析方法引入语音情感的识别中,可能会达到很好的效果。1998年提出来的希尔伯特-黄(Hilbert-Huang)变换现在被越来越多的用来进行语音识别和说话人识别的研究,也许这也将成为语音情感识别的一个新的手段。我们有理由相信,随着非线性理论的不断发展,人们对语音情感的分析与识别的认识也会更深一步。

3.3语音情感的分级识别

在人们表达的情感中除了有较纯的情感之外,还有交织情感,如悲喜交加等,当人们处于交织情感之中时,很难将其归入某种特定的情感状态。也许可以利用分级识别的方法,如第一级识别,先把情感分为几组,把情感特征比较相似的分为一组;在第二级识别的时候,可以利用语法分析或特定情感中的关键字识别,把分组后的情感进行细分。如果发现最终得到较为满意的识别结果,那么分类结束。

3.4组合多模式情感识别

人的情感主要体现为内在和外在两种类型。外在型情感信息主要指声音、手势、体势和面部表情等信号,是可以通过外部自然观察到的。而内在的情感信息则不同,主要是指外部观察不到的内部生理反应,如心跳速率、舒张压和收缩压、脉冲、血管扩张、呼吸、皮肤传导色的颜色和温度等等,因此人与人之间情感的交流是多个方面的组合。对情感识别的深入研究必将沿着多模式信息组合的方式进行,在以往进行的单模式研究的基础上,发掘各模式之间的联系,利用信息之间的相互关联来识别情感。已有的研究表明,组合多模式情感识别能大大提高识别的效率。但是如何对这些模式进行组合,如何确定语音模式同其它模式之间的相互关系,都是语音情感识别中需要继续研究的课题。

3.5语音库的选取

已有的语音情感识别的成果大都建立在一个较小的语音库之上[15]。由于研究的语音样本大多属于人工材料,有的是采用专业演员朗读制定的语句,有的是从这种媒体中选取具有明显情感倾向的语句。采用这种素材作为试验的样本,使样本的收集工作变得简单,但是同自然人的情感表达毕竟有一定的差异。情感识别的对象一般都是自然人,不能仅仅局限于具有表演天赋的演员或专业的播音员等人。所以将来的研究将努力扩展情感语音库的范畴,由特定人群到普通人群,由特定环境到普通环境。

从语音中提取情感的研究才刚刚起步,许多方法尚处于试验阶段。从上面所论述的方法中可以看出,目前的研究主要集中在从语音韵律中提取情感特征信息,大多数试验都是基于某种特定的语言,而且一般将男声和女声分开研究。人的情感是十分复杂的,所以在这方面还要做大量艰苦细致的工作

篇三:情感语音识别开题报告

太原理工大学信息工程学院

本科毕业设计(论文)开题报告

毕业设计(论文)题目

语音情感识别及其特征提取的研究

学生姓名

专 业

班 级

付建梅 通信工程 导师姓名 报告日期 张雪英 2011.4 0701

指导教

师意见

签字 年 月 日

专业(教

研室)主

任意见

年 月 日 系主任 意 见 年 月 日

1. 国内外研究现状及课题意义

1.1课题研究意义

现在社会,人类跟计算机的交往越来越受到研究者的重视。自然和谐的人机界面的沟通应该能理解用户的情绪和意图,对不同用户、不同环境、不同任务给予不同的反馈和支持。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样地观察、理解和生成各种情感特征的能力,使计算机能够更加自动适应操作者。实现这些,首先必须能够识别操作者的情感,而后根据情感的判断来调整交互对话的方式。

情感计算研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。情感计算,受到越来越多的国内外学者和研究机构的重视。美国的各大信息技术实验室正加紧进行情感计算系统的研究。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人的情感。目前国内的情感计算研究重点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而创建个人的情感计算系统。情感计算已经应用到生活中的各个领域:在信息家电和智能仪器中增加自动感知人们情绪状态的功能,可以提供更好的服务:在信息检索过程中,通过情感分析解析功能,则可提高智能信息检索的精度和效率:在远程教育平台中,情感计算技术的应用能提升教学效果;利用多模式的情感交换技术,还可以构筑更贴近人们生活的智能空间和虚拟场景。此外,情感计算还能应用在机器人、智能玩具、可视会议、唇读系统、可视电话系统的应用场合,在传输语音信号的时候能够显示视频动画,将有助于人类特别是听力有障碍的人对语音的理解。

正是基于以上课题对于科研、社会的重要意义,我的毕业论文的主要任务是建立带有情感的音视频数据库,研究音频信号中能体现情感的特征,分析哪些特征可以有效地表达情感,进行特征提取并进行情感识别实验。这些工作是为后面进行带有感情的音视频合成动画系统建立基础。

1.2国内外研究现状

语音信号处理中,语音识别作为一个重要的研究领域,已经有很长的研究历史,其中语音特征提取与情感识别又是其中的一个重要方面。

在1972 年,Williams 发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990 年,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感。1996 年日本东京Seikei 大学提出情感空间的概念并建立了语音情感模型。2000 年,Maribor 大学的Vladimir Hozjan 研究了基于多种语言的语音情感识别。2009 年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等。在国内,语音情感识别的研究起步较晚。2001 年,东南大学赵力等人提出语音信号中的情感识别研究。2003 年,北京科技大学谷学静等人将BDI Agent 技术应用与情感机器人的语音识别技术研究中。另外,2003 年12 月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005 年10 月又在北京主办了首届国际情感计算及智能交互学术会议。

心理学和语言心理学的研究人员提供了大量的关于语音学和韵律学的研究成果,可以用来分析情感语音特征。纵观近几十年的各类文献及各国工作人员的研究,针对情感识别所采用的特征几乎大都是基于韵律特征,比如基音121、强度、持续时间这几个类型。以及这些特征的基础上衍生的大量的参数,比如这些基本特征的均值、范围、中值、方差、轮廓变化等。在有的文献中也考虑了语音特征的情况,比如共振峰信息等。Paeschke等研究了平均基频、基频最大值、基频变化范围、基频曲线斜率、重音中基频上升和下降的速度以及时长等韵律特征,发现韵律特征在不同情感之间均有较为可靠的区别特性。Dellaert等仅利用韵律特征,实现了包括高兴、悲伤、愤怒、害怕四类情感的情感分类。从总的结果和应用情况来看,在语音情感信息处理中所采用的特征总是局限于一个较小的范畴,而到底何种特征能够较好的反应情感的信息还没有一个明确的结论,关于这些特征以(本文来自:Www.dXF5.com 东星资源 网:语音情感分析)及这些特征的衍生特征的有效性评价也和情感识别在同步研究进行之中。

现在用于语音情感识别的方法很多,如主元素分析(PCA)、最大似然Bayes分类器和K最近邻分类器、人工神经网络(NN),下面就现阶段国内外语音情感识别方法作一概括的介绍。

人工神经网络是一种在模拟人脑神经组织的基础上发展起来的,它是由大量的计算单元(神经元)相互连接而成的网络,可以通过训练获得知识并解决问题。ANN是一种应用广泛的模式识别方法,Nicholson等人使用一种称为One-Class-in-one的网络拓扑结构,为每一种情感训练一个子网络,根据各个子网络的输出结果判断情感类别。Park等人使用一个具有一个输入节点、两个隐层节点和四个输出节点的RNN网络进行情感识别。

隐马尔科夫模型(Hidden Markov Model)是一种统计信号模型,它用特征矢量序列作为输入训练得到。Schuller等人分别使用了连续的HMM模型、短时特征序列,进行了情感识别实验,他的方法中,使用的特征为一个包括基音和能量轮廓及其导数的六维特征矢量序列,New等人在文献中使用了基于矢量量化的离散HMM模型对六种情感进行分类,作者使用了一种称为LFPC系数的特征作为特征矢量。试验得到六种情感状态的平均识别率为78%,此外作者还将LFPC参数与语音识别中常用的LPCC和MFCC系数进行比较,结果表明LFPC性能优于其他两种参数。

另外的方法有,Ververidis等人使用了基于Parzen窗函数估计和高斯分布的两种贝叶斯分类算法,研究了87种基于频谱、基音和能量的语音统计特征参数对五种情感状态的识别能力。Dellaert等人比较了最大似然贝叶斯分类、核回归和KNN等三种方法的识别性能,结果KNN方法的识别性能最优。

2.主要研究内容

2.1语音情感识别存在的问题

虽然世界各国的研究人员在语音情感识别研究领域取得了许多的研究成果,采用的特征以及识别模型各种各样,但是究竟应该选择什么特征?用什么建模方法?由于目前各文献使用的情感语音数据库不同,得到的识别结果也相去甚远,不具有可比性,因而很难客观地判别特征及建模方法的优劣,现阶段存在的问题有:

1.情感数据库是进行语音情感识别的基础,目前没有一个标准的多语言情感数据库供大家研究。

2.现阶段用于情感识别的特征各种各样,概括起来,分为两类,即基于全局的静态特征和基于局部变化的动态特征。基频作为描述情感的最重要特征,很多文献都采用基

于基频的统计特征,如峰值、均值、方差等。虽然这些特征描述了语音信号在不同情感状态下的变化,但是没有进一步详细描述摹频曲线的变化趋势,针对这种现状,本文中增加了基频的整体斜率,以及句子前端变化的斜率等特征,来提高情感的判断力.

3.其次,对于语音情感识别,虽然有不同的识别方法,但是对这些识别方法很少进行比较。我们对近几年的语音情感文献的结果进行了对比,研究发现他们的研究对象相差极大,结果各异,仅从识别率而言,就形成了从53%到90%这样悬殊的情况,本文在录制的情感数据库上,用语音处理中成熟的方法高斯混合模型和隐马尔科夫模型进行实验,并对它们的识别结果进行比较。

2.2主要工作内容

1.录制情感语音数据库。我们录制了带有高兴、生气、中性3种情感的语音数据库。

2.情感语音数据的前端处理。对语句进行预加重、加窗和端点检测。

3.提取了情感语音的MFCC和ZCPA两种特征参数,并用支持向量机进行分类识别。

3.拟采用的研究思路(方法、技术路线、可行性论证等)

通过阅读文献以及对该课题在国内外的研究现状和存在的主要问题,进而我确定了论文研究的主要内容,进而确定了论文的提纲:

第一章为绪论,介绍课题的来源和意义,以及国内外的研究现状,语音情感识别中面临的问题和困难和主要的章节安排。

第二章介绍语音情感识别的预处理过程和详细介绍了两种特征参数:MFCC和ZCPA。

第三章介绍情感语音库。大致介绍了当今国际上比较有名的语音库,并详细介绍本设计所使用的语音库。

第四章介绍支持向量机的基本原理,并用支持向量机对提取的语音参数进行识别。

4.设计工作安排及进度

第五周:继续查阅文献资料的同时开始对提纲中的研究方向进行可行性的论证; 第六周:重点熟悉该课题的概念及其理论成果,为论文第一章节做准备;

第七周:阅读文献,重点理解语音情感识别的概念,特性及其发展现状;

第八周:搜集整理语音情感特征提取方法的资料;

第九周:洛阳实习;

第十周:搜集整理并熟悉特征参数;

第十一周:完成中期检查表并开始写作前言部分;

第十二周:完成语音信号处理基本理论知识的写作;

第十三周:完成三、四章节的写作;

第十四周:完成第五章节的写作;

第十五周:收尾及其参考文献;

第十六周:根据指导老师的建议修改订正;

第十七周:修改及其完稿;

5.参考文献

[1]Batliner A,Fischer K, Huber R, et al.How to Find Trouble inCommunication[J].Speech Communication, 2003,40(1-2): 117-143.

[2]Cowie R,Douglas-Cowie E, Tsapatsoulis N,et al.Emotion Recognitionin Human Computer Interaction[J].IEEE Signal Processingmagazine,2001,18(1):32-80.

[3]S Chennoukh,A Gerrits,G Miet,R Sluijter. Speech Enhancement viaFrequency Extension using Spectral Frequency[A]. Proc. ICASSP[C].Salt Lake City, 2001.5.

[4]陈建厦.语音情感识别综述[A].第一届中国情感计算会议[C].北京,2003.

[5]方恨少.日本新型女机器人HRP-4C 会说话表情丰富[EB/OL].

https://info.china.alibaba.com/news/detail/v5000441-d1004571420.html,2009-3-16.

[6]赵力,钱向民,邹采荣等.语音信号中的情感识别研究[J].软件学报,2001,12(7):1050-1055.

[7]林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1): 90-98.

[8]Ortony A,Turner T J.(1990).What’s Basic about Basic Emotions.Psychological Review.1997,3:315-331.

[9]Küstner D,Tato R,Kemp T,et al.Towards Real Life Applications inEmotion Recognition:Comparing Different Databases,Feature Sets,and Reinforcement Methods for Recognizing Emotions from

Speech[A].In:Andr E,Dybkj L,Minker W, et al.,Editors. Affective Dialogue Systems,Tutorial and Research Workshop, Ads 2004,Kloster Irsee, Germany, 2004, Proceedings.Kloster Irsee,Germany:Springer, 2004,06:25-35.

[10]Bhatti M W, Wang Y,Guan L. A Neural Network Approach forHuman Emotion Recognition in Speech[A]. ISCAS’04[C].2004.181-184.

[11]Zhao Li, Kobayashi Y, Niimi Y. Tone recognition of Chinesecontinuous speech using continuous HMMs[J]. Journal of the Acoustical Society of Japan, 1997, 53(12): 933~940.

[12]詹永照,曹鹏.语音情感特征提取和识别的研究与实现[J].江苏大学学报(自然科学版),2005,26(1):72-75.

[13]周迪伟.计算机语音处理[M].北京:国防工业出版社,1987,130-146.

[14]马静.基于HMM 模型的汉语数字语音识别算法的研究[D].太原理工大学,2008.

[15]余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84.

标签:语音 情感 分析 语音情感分析的应用 casia 语音情感分析