语音识别技术及应用

期刊名字：温州职业技术学院学报
文件大小：504kb
论文作者：刘向华
作者单位：温州职业技术学院
更新时间：2020-06-12
下载次数：次

论文简介

第6卷第3期温州职业技术学院学报Vol 6 No. 32006年9月Journal of wenzhou vocational Technical college语音识别技术及应用刘向华(温州职业技术学院计算机系,浙江温州325035)[摘要]语音识别技术近年来得到了飞速的发展并且在越来越多的领域得到了广泛的应用。隐马尔可夫模型(HM语音识别技术是一种基于训练数据提供的概率自动构造识别系统的技术,主要用于大量词汇的语音识别,而且具有良好的识别性能和抗噪性能。因此,一般的语音识别系统都采用基于HM旳识别方法作为其基本算法。本文列举了语音识别在教学中的应用示例来分析其基本算法。[关键词]语音识别技术;隐马尔可夫模型(HM;语音模型[中图分类号]TN12.34[文献标识码]A[文章编号]1671-4326(2006)03-0033-03Speech Recognition Technology and its applicationLIU Xiang-huaComputer Science Department, Wenzhou Vocational Technical College, Wenzhou, 325035, China)Abstract: The speech recognition technology has boomed in recent years and is widely used in more andmore fields. The speech recognition technology of HMM is the technology that is based on the recognition systerof the auto-construction probability provided by the practical digit. It is mainly used in speech recognition of a largenumber of vocabularies with the fine property of recognition and anti-noise. Therefore, the common speech recog-nition system usually adopts the recognition approach based on HMM as its basic algorithm. This paper, demonKey words: Speech recognition technology; HMM; Language modey ysis on its basic algorithmstrating the application of the speech recognition in teaching, makes an ana0引言语音输入识别结果特征提取语音识别技术是2000~2010年间信息技术领域重要的十大科技发展技术之一。语音识别是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语图1语音识别系统的实现过程1音识别技术与语音合成技术结合使人们能够甩掉键隐马尔可夫模型( Hi dden mar kov Model s,简称盘,通过语音命令进行相应的操作。语音技术的应用HMM语音识别技术是一种统计技术,它提供了一种基已经成为一个具有竞争性的新兴高技术产业。于训练数据提供的概率自动构造识别系统的技术。这语音识别技术是 Rabi ner等人在20世纪80年代引入语音识别领域与机器进行语音交流,让机器明白你说什么,这的一种语音识别算法。该算法通过对大量语音数据进是人们长期以来梦寐以求的事情。近20年来,语音识行数据统计,建立识别条的统计模型,然后从待识别别技术取得显著进步,开始从实验室走向市场。预计语音中提取特征,与这些模型匹配,通过比较匹配分在未来10年内,语音识别技术将进入工业、家电、通数以获得识别结果。通过大量的语音,就能够荻得信、汽车电子、医疗、家庭服务、消费电子产品等各个稳健的统计模型,能够适应实际语音中的各种突发个领域。一个完整的语音识别系统可大致分为三部情况。基于HM的算法23,主要用于大量词汇的语音分,如图1所示。识别系统,而且其算法具有良好的识别性能和抗噪性1.1隐马尔可夫语音识别技术能,故现在[收稿日期]2006-01-15TH中国煤化工HMM的识CNMHG[作者简介刘向华(1977一),女,湖南隆回人,温州职业技术学院计算机系助教温州职业技术学院学报2006年9月别方法作为基本算法。一个典型的HMM语音识别过程=argnax[ B()≤i≤T包括以下几个方面返回结果(1)利用前向、后向算法计算模型的形成观察概S=B.(s-)t=T-1,T-2T-3,…,0率集p(X/中)。其计算方法如下:s=(S。51S2…,S)是最佳序列。初始状态:a(i)=丌1≤i≤N(4)根据最佳状态序列对应的值,给出候选音节%(9.1)ab(x)1t≤1可≤N声韵母。(5)通过语言模型形成词和句子1.2隐马尔可夫语音识别技术的改进队x4)=a(i)随着语音识别研究工作的深入开展,HMM语音识那么p(x/中)=a(S)(S是最后的状态)别方法愈来愈受到人们的重视,基于HMM技术的识别(2)利用 Baum Wel ch算法求出最优解 ar gax{p系统的缺点就在于统计模型的建立需要依赖一个较大(X/φ)}。其方法描述如下:的语音库。这在实际工作中占有很大的工作量。且模5(i,j)表示t时状态为i以及t+1时状态为j的型所需要的存储量和匹配计算(包括特征矢量的输出概率,即i,j)=p(q=,q,,)概率计算)的运算量相对较大,通常需要具有一定容5(1,/D(q=,q,Wλ)量SRAM的DSP才能完成。另外,它的一个最主要的缺p( A)点是根据词模型推出的状态段长分布是指数分布,这q()a1b(0)(j)不符合语音的本质属性,因此,现在推出了一种非齐p(dλ)次的HM晤音识别模型( Dur at i on d stri but i on BasedHi dden№ br kov model,简称DDBH№M。在此模型中用q(1)ab(0-)9.(j)状态的段长分布函数替代了齐次HMM中的状态转移矩点q()a(0,),)阵,彻底抛弃了“平稳的假设”,而从非平稳的角度考虑问题,使模型成为一种基于状态段长分布的隐含Y()+i,)表示t时状态为的概率,元= Mar kov模型。段长分布函数的引入澄清了经典HM语(i)表示时刻1经过状态ⅰ次数,a表示在时刻T内,音识别模型的许多矛盾, DB BHM比国际上流行的HMM状态ⅰ转移到状态j的总次数,除以在时刻T内,状语音识别模型有更好的识别性能和更低的计算复杂度态i被经过的总次数,其公式如下(训练算法比流行的Baum算法复杂度低两个数量级)由于该模型解除了对语音信号状态的齐次性和对语音白(1,j)a, i特征的非相关性的限制,因此,为语音识别研究的深入发展提供了一个和谐的框架。1.3语音识别在教学中的应用示例5(k)表示在时刻T内,经过状态j,并且状态j对假设要为学校课件资源库设立一个门卫,对要进应的观测事件为vx的总数除以时刻T内,经过状态入课件资源库者进行口令验证,当学生对麦克风发出的总数,其公式如下:“主人,请开门吧!”声音时,打开课件资源库,为用户提供可利用的课件资源,否则在屏幕上显示“口令不正确,请重输。”的警告提示。而当连续3次发出错(误口令时,则提示“您已3次输入错误口令,谢绝访问!”,关闭系统结束运行。利用ⅤB开发的门卫模块(3)利用 Vi ter bi算法解出最佳状态转移序列。其如下:界面为课件资源库背景;主要对象为 Direct方法描述如下Speech Recogni ti on,其№ne属性设为 Direct sr;V(i)=n≤i≤ N Comand1按钮,其 Pi ctur e属性设为人耳图片,用于B(0激活口令监听; Text boⅹ,其Text属性设为空,用于V, (j)=xlv.1(i)a,b, (X )显示语音命令短语。(1≤t≤;1≤j≤N其语音识别程序如下B()=ar gnax[,(i)a, b, (Y)mret vallo凵中国煤化工(1≤t≤T;1≤j≤NPri vate sCNMHG最佳记录=ax[v,(i)]1≤i≤TDirect SR ur anar UI IIDL 1 I ng i Gr ammar第6卷第3期刘向华:语音识别技术及应用35+vbNewli ne查统计表明,多达85%以上的人对语音识别的信息查+"type=cgf"vb№ WLi ne+"[< star t丬]"+vb№ elI ne询服务系统的性能表示满意。可以预测,在近5~10+"< star t>=主人,请开门吧!"+ vbNewli ne年内,语音识别系统的应用将更加广泛,各种各样的End Sub语音识别系统产品将不断出现在市场上。语音识别技Conmand1. Cl i cko术在人工邮件分拣中的作用也日益显现,发展前景诱I=I+1人。一些发达国家的邮政部门已经使用了这一系统,D rect sR Acti vat e语音识别技术逐渐成为邮件分拣的新技术。它可以克End sub服手工分拣单纯依靠分拣员记忆力的不足,解决人员Pri vate Sub di rect sr phr asefi ni sh( Byval科lags成本过高的问题,提高邮件处理的效率和效益。就教As Long, Byval begi nhi As Long, Byval begi nl o As育领域来讲,语音识别技术的最直接的应用就是帮助ong, Byval enshi As Long, Byval endl o As Long,用户更好地练习语言技巧。如一家美国公司开发了一Byval Phrase As String, Byval parsed As String, Byal套《Ta|ktoM》,当用户跟着计算机说完一句话后resul ts As Long计算机会同时显示标准发音和用户发音的波形比照Txt Command. t ext=phr ase图,并给出分数。用户可以反复对比倾听来体会这种Sel ect Case phr ase差异。不难想象,将语音技术应用于教育方面的空间Case i主人,请开门吧!是极其巨大的。就娱乐方面来讲,也可以激发出许多Ret val Shel I ("C: \sour ce\ sour ce. exe", 1)的新应用。如通过电话进行电视MV点播时,可以直Case El se接说出哪个歌手的哪首歌,电视台就接受语音输入而IfI>=3 Then txt command.text="您已3次输入播放相应的曲目。随着网络技术的进一步发展,电子错误口令,谢绝访问!":End商务也正在日渐流行。语音识别技术和电子商务的结Txt Corand.text="口令不正确,请重输。合,将创造一种全新的交易方式,我们可以做到足不End Sel ect出户就能够“逛”商场,购买到我们所需要的东西。而End Sub且,这种语音交流的方式比起网上购物更具有亲和2语音识别技术的应用前景力,同时也为人类的工作和生活带来极大的便利语音识别技术发展到今天,特别是中小词汇量非3结束语特定人语音识别系统识别精度已经大于98%,对特定语音识别技术在现代社会中已经得到了广泛的应人语音识别系统的识别精度就更高。这些技术已经能用,几乎可以延伸到各个领域。随着研究的深入,会够满足通常应用的要求。由于大规模集成电路技术的有更多的服务、设备等与此项技术相结合,人们将不发展,这些复杂的语音识别系统也已经完全可以制成必再通过按键来输入,也不必使用鼠标和键盘,只需专用芯片,大量生产。在西方经济发达国家,大量的要我们开口说话。与人类进步过程中其他任何一种技语音识别产品已经进入市场和服务领域。一些用户交术的发展历程一样,语音和语言处理技术在不同的成换机、电话机、手机已经包含了语音识别拨号功能、语熟阶段都有一个不同的应用形式和不同的市场定位音记事本、语音智能玩具等产品,同时也包括语音识在经历从技术到市场、再从市场到技术的螺旋式上升别与语音合成功能。人们可以通过电话网络用语音识的过程中,这种技术将变得越来越成熟,市场也将越别口语对话系统查询有关的机票、旅游、银行信息。调来越广。[参考文献[1]D G St or k and ME. Hennecke, edi t or s, Speeng by Hunans and Machi nes[ M. BerI i n: Comput er and Syst erms Sci ences, 1996. 331-3502] Zhan Puni ng, Wang Zuoyi ng. I mpr ovement ofMarkow nodel for speech recogni ti on[J] Act a El ectroni ca Si ni ca, 1994, (1):9-15.[3]P. L. Si l sbee and A. C. Bovi k, Comput er I i pr eadi ng for i mpr oved accur acy i n aut omat ic speech recogni ti on[J]. I EEE Trans acti ons on Speech and Audi o Pr ocessi ng, 1996, 4(5): 337-3514]何好义,计算机语音识别技术及其应用[].大众科技,2005,(6)5]谭保华,熊健民,刘么和,湖北工学院招生语音应答系统[J].湖北工学院学报,2003,(5)6]朱民雄,闻新,黄健群,等,计箅机语音技术[M.北京:北京航空航天大学出版社,2002YH化号

论文截图