听觉场景分析简析

期刊名字：技术与市场
文件大小：892kb
论文作者：王想实
作者单位：无锡职业技术学院计算机技术系
更新时间：2020-09-25
下载次数：次

论文简介

_专题研究TECHNOLOGY AND MARKETVol.18,No.6,2011听觉场景分析简析王想实(无锡职业技术学院计算机技术系,江苏无锡214121)摘要:介绍了听觉场景分析中的一些准则,听觉场景的分类及应用目标。关键词:信号;听觉场景;识别do:103969/jissn. 10068554.2011.06.1610引賣步性,如果BC的开始与结束都是同步的,那么人的听觉系统就近年语音信号处理已取得引人注目的成绩,但是,人类听趋向于BC是- -个单独的复音。三是音调A,B之间的接近程度。觉系统对语音信号的感知能力大大地超过了目前的信号处理他们之间在频率上越接近,听者就越容易把AB听成是-一个与水平。70'代以前，听觉生理学或听觉心理学在人耳的低层C相独立的声音流。四是声音的强度,来自不同声源的声音往次检测分:取得了较大的成功,例如,耳间时间差，耳间声级往具有不同的声音强度，强度大的声音不易受掩蔽效应影响。差,以及耳螨的滤波特性等,但是,听觉与环境有关的生态研究五是声音的空间方位,人的听觉系统倾向于将来自相同空间方进展远不如视觉那样大, 70年代以后,听觉研究转向了更深的位的声音组合在-起。层次,如双耳效应,听觉的空定位与跟踪以及多信息流的分离1.2 序列组合等。加拿大心理学家Albert s. Bregman总结二十年的研究成果,这种组合是将-串声音分量按时间先后组合到一个或多从人的听觉生理及心理特性出发研究声音识别过程中的规律,个声音流中,每一个声音流中的声音分量都被认为来自同一个提出了听觉场景分析的理论,就人类听觉系统多信息流的检测声源，声音流的时序分割与组合是人的一种听觉心理现象,主分离给出了一-系列的准则。在后来许多听觉系统的数学模型要有两个因素影响着人对声音流的时序分割与组合。-是频中,都体现着这些规律。率差，高低音调间的频率差越大,声音流分离的现象越明显。1声音分量的组合原则二是高低音间变化的速度,高低音间变化的速度越快,声音流认为人对声音的感知过程也就是对声音分量的组合过程，分离的现象越明显。大致说来有两种组合原则:2计算听觉场景的分类1.1 同时组合根据信息的流向形成了两大类别。- 类称为数据驱动型经过大量的研究, Bregman认为人对声音的感知过程也就CASA,这类系统的特点是信息由低级向高级单向流动,另-类是对声音分量的组合过程,而正是这一种组合过程使得人可以CASA系统称为图式(Schema)驱动型CASA,在这一模型中信息将混合声音中同一人所发出的声音分量组合到同一个声音流的流向是双向的,这种方法实现起来较为复杂,但更接近于人中。如图1所示:类对听觉感知的机制。2.1数据驱动型CASA(uR2)CASA系统的处理过程的每一步都模拟了人类听觉系统处B理声音的机制并直接利用了心理和生理听觉研究的成果。其中,信息的流向是从下而上的单向流动方式,这是传统的处理方法部分:典型的数据驱动型的CASA系统可分为四大部分:第一部分听觉外周系统模型:该部分由外-中耳模型、耳时间面蜗模型及Meddis毛细胞/神经传导模型组成。声音信号进人耳團1声音流的频谱分解与合成示意圉蜗滤波器处理后将各种频率的机械振动由毛细胞转换为神经由单音A与两个单音BC组成的复音所构成的循环声音流,脉冲的发生概率,完成初级信号转换的过程。第二部分听觉图A的频率最高,B其次,C最低,BC同时开始,同时结束,在每次的表述:利用前一阶段处理结果 ,再加上对另外的声音归类线循环中,A在时间上先于BC,当听者听这一段循环声音时 ,他既索进行处理,形成自相关图、互相关图、频率转移图声源起始1可以认为存在一个单独的A和一个BC组成的复音,也可以认为结束图等声音归类线索。第三部分场最分析(声源分离):结合是一个AB组成的声音流与另一个单音C。实际t ,这两种情况第二部分得到的各种信自困佰可以进行听觉场景分析。第四部都有可能发生。主要取决于以下几个因素:分声源HH中国煤化工洛归类声源的再合成一是谐波之间的调和度,在现实中,同-声源所发声音的技术来C N M H G信噪比以及各种CASA各个谱分量都大约是-一个基音的频率的整数倍,因此很自然地的结果比较。就会想到把基音作为分组的一一个原则。二是音调BC之间的同(下转第224页)222专题研究TECHNOLOGY AND MARKETVolL18,No.6,2011要来看,居住空间的无障碍设计应该注意- - 下几点:右，并且起点终点应该延伸0.3-~0.5m,在扶手上安装盲向标2.1 便捷的居住建筑入口志,写明通行过程中的注意事项。在居住空间的电梯设计当中，居住建筑人口是老年人残疾人生活的必经之地,因此,对电梯、电梯前厅及轿厢尺要符和各种型号的轮椅进出要求,无障碍设计的要求更高。在居住建筑人口无障碍设计当中应该电梯门开启时间应该不少于15s。并在电梯门口设置光幕感应设置人口标志牌,并要适当加大人口面积,尽量减少高差和地装置,确保残疾人老年人的进出安全。在电梯内部1m左右应面坡度,并设计轮椅坡道和进出扶手,以方便残疾人和老人的该安装报警语音装置电视监控系统.呼叫按钮等等,保证乘坐进出。在无障碍人口和轮椅通行平台处应设置防雨、防雪、防滑电梯时的安全。装置,避免雨天等恶劣天气对老年人残疾人出行安全的影响。2.4 居住建筑房间内部无障碍设计要突出老年人和残疾人的.在坡道设计上尽量选择直线型、直角形或折返型,避免轮椅使生活要求用者在使用过程中因弧度导致失去重心，威胁他们出行的安居住建筑房间内部无障碍设计应该以方便残疾人或老年全,坡道两旁的扶手应该形成- -体,坡度控制在的1:20。人的居住和生活为主要目的,在厨房设计上应该尽量增加厨房2.2公共走道应控制落差和凹室深度的长宽,不能低于1500x 1 500 mm,操作台的高度控制在80 cm居住建筑公共走道最小宽度为1.2 m,其表面如使用不同左右,宽度为50 cm左右;卫生间也应该预留出轮椅活动空间，铺装应相互取平,高差不应大于15 mm,并以斜面过渡。当门扇座便器应该考虑轮椅高度,保持在40 cm左右;洗涮台高度控制开向走道时,为了不影响通行和防止碰撞的危险,应设凹室,将门在80cm左右,墙面两侧加装扶手;玲热水管道要设计水温探测设在凹室内,凹室深度不应小于900 mm,长度不应小于1300 mm,器,设置冷水、温水、高温指示器和报警器,水龙头出水温度超开启后的]扇和乘轮椅者的位置均不影响走道的通行在公共过六十度时要用疝气闪烁或报警声音报警,提醒老年人或残疾走廊内两侧墙壁上应该尽量避免突出物,拐角处的墙壁应该设人注意水温。计成弧形或者切面型,避免老年人残疾人出行时撞到墙角,损总之,随着老龄化社会的到来和残疾人数量的增多,将来伤老年人残疾人的身体。另外,在公共走道上的顶部尽量避免公共建筑和居住建筑的无障碍设计要求将越来越高,无障碍设悬挂物,走廊顶部灯光、防火设计应该进行加固处理。计和施工人员应该充分考虑到老年人和残疾人的实际生活需2.3楼梯和电梯应考虑老年人、残疾人的实际生活需要 .要,不断完善公共建筑和居住建筑中的无障碍设计。居住建筑的楼梯和电梯应该充分考虑到老年人残疾人的参考文献:实际生活需要,体现出无障碍设计的要求。在楼道、楼梯设计中[1] 周勇.探析城市公共空间中公共设施的无障碍设计一以应该采用垂直交通的方式,选择楼道内光线比较好的位置。在成都为例[].艺术与设计(理论),2010,(5).楼道设计中可采用2跑或3跑直线型梯段设计方式，并在坡道、[2] 王宜勤.谈居住建筑的无障碍设计[].工程建设与设计,台阶楼梯走廊两侧设置通行扶手,扶手高度应该在0.8 m左2011,(1).(上接第222页)的国际标准，由于声音信息的内容往往是许多不同声音的组2.2围式驱动型(信息双向流动)CASA合,这就需要听觉场最分析作为检索的基础技术。Mar的视觉计算理论认为,信息的表述是有层次的,是-(3)声音信号的增强。计算听觉场景分析模仿人类听觉系个由低级向高级的单向过程,称为“纯视觉'理论.Charchland等统的非线性处理方法,建立在非线性的听觉场最分析基础上的人对此提出了质疑,系统中信息流动是双向的,具有自适应调模型将能更好地分离或增强声音信号。整及某些高层次的推理功能。尽管计算机视觉取得了很大的进展,研究人员注意到了信息流动的双向性。Varga和More提出[1] 丁晓亮.利用片段分配提高Ex2文件系统存储空间利用率用两个H M M模型来进行语音和噪声的分离,Cooke等用Koho-[].微计算机应用,002(5).nen神经元及H M M对信息不全的语音进行识别，不少研究人2] 彭宇新,Ngo Chong- _Wah,董庆杰,等.一种通过视频片段进员利用黑板系统建立CASA系统,允许用期望来控制感知过程，行视频检索的方法[].软件学报,2003,(8).这类双向流动信息的系统被Bregman称为“图式驱动型”系统[3] 李鹏,关勇,刘文举,等.基于多基音跟踪的单声道混合语音(有的文献称“假设驱动型”、“预测驱动型"或‘期望驱动型"等)。分离[小.计算机应用研究,008./6).3计算听觉场最分析的应用目标4] Slaney M A entique of pure adition .In Proceddings of the对听觉场景分析研究的- -个最重要的目的就是揭示人自first Workshop on CASA. Int Joint Conf AL. Montreal: 1995.身的听觉感知机理,并用机器去模仿实现它,它有很多实际应$5] Marr D.Vision.New York:W .H.Freeman.1982.用前景。[6] Churchland P.Ramachandran V S,Sejnowski P.A critique of(1 )语音识别系统。听觉场最分析的研究可以帮助语音识中国煤化工别系统排除千扰找出目标信息或识别新近出现的声源,这一-点作者是非常重要的。:IYHCNMHG锡职业技术学院计算(2)多媒体检索。国际上正在制订多媒体音视频信息检索机技术系,主要研究多媒体技术、数据库、软件工程。224

论文截图