语言分类系统的设计 语言分类系统的设计

语言分类系统的设计

  • 期刊名字:电子科技
  • 文件大小:780kb
  • 论文作者:邵泽国
  • 作者单位:上海师范大学人文传播学院
  • 更新时间:2020-11-03
  • 下载次数:
论文简介

电子科技2012 年第25卷第12期图像.编码与软件Electronic Sci. & Tech. /Dec. 15, 2012语言分类系统的设计邵泽国',2(1. 上海师范大学人文传播学院,上海200234; 2.上海电子信息职业技术学院院长办公室,上海201411)摘要在语言研究过程中,依据语言的某一或某些属性和特征对其进行分类、归纳,是观测和捕获语言现象及规律的必要环节和有效方法。对语言进行分类也是将其在语言地图上渲染与描绘的前提步骤。语言特征分类系统是汉语方言地理信息系统的一个子系统,适用于语音及词汇分类。文中以汉语方言字音分类为例,介绍了语言分类系统的设计思想和方法,以及如何把语言规律、语言特性等语言学知识同计算机技术相融合,系统可以帮助语言研究者对语言进行有效、快速的分类。关键词语言分类; 方言特征;分配项中图分类号TP391.1 文献标识码 A文章编号1007-7820(2012)12-130 -04Design of a Language Classification SystemSHAO Zeguo',2(1. College of Humanities and Communication,Shanghai Normal University ,Shanghai 20034,China;2. Dean's Office, Shanghai Technical Institute of Electronics & Information, Shanghai 201411, China)Abstract In the process of language research, language classification and induction ( according to one or moreattributes or characteristics of a language) is a necessary part of and an effective method for observing and capturingthe phenomenon and rules of language. To classify a language is also a precious step to render and portray itself inthe GIS system. The classification system designed by the author is a sub-module of Chinese dialeet geography infor-mation system, which has a general adaptability to various follow up classifications. This paper, on the basis of theChinese dialect phonetic system, discusses how to shift the computer technology into a powerful tool on the languageresearch in terms of language features and language rules. The system helps language researchers in classifying lan-guages fast and eficiently.Keywords language classification; dialect feature; allocation term“汉语方言地理信息系统平台建设"是由潘悟云.两个个体。因此,要研究、认识事物,必须对所研究的先生主持的一项教育部哲学社会科学研究重大课题攻事物进行分类,没有分类就没有科学[”。关项目,该系统“以地理空间数据库(Geographical对语言的研究、分析、比较,特别是要将语言特征Database )和方言数据库( Dialectical Database)为基础,在电子地图上直观地描绘出来,往往要按照一定规则通过程序对方言数据库进行处理,真正实现自动提取方对语言进行分类。而文中所要讨论的语言分类系统是言特征,自动绘制语言地图,真正成为方言地理研究和汉语方言地理信息系统的-一个子系统,它可以帮助语语言政策制定服务的方言地理信息系统(Geographical言研究者对语言进行有效、快速的分类。Informnation System of Dialect)[1-6)"。众所周知,分类是人类认识客观世界的一种基本1系统结构与功能介绍的方法。人类最初对事物的命名就是一种分类活动。在汉语方言地理信息系统中,语言特征提取子系统从科学研究的角度说,之所以要研究一种事物, 目的是按照用户设置的条件自动提取出各个语言点的语言特为了认识这种事物,以便可以能动地驾驭和利用这种征数据。此时的语言特征数据往往是一个个数据集。事物,使之为人类服务。而所要认识、研究的事物往往一般来讲,不会用原始的数据集来作为待分配项,而是是纷繁复杂的,群体中的个体从外形到属性,千差万将数据集交给特征主体层提取子系统,得到的主体层数别,各不相同。可以这样说,世界上找不到完全相同的据归并后作为待分配项。分类系统通过系统预设的分类规则或中国煤化I)完成对待分配项进收稿日期: 2012-06-25 .行分类。YHCNMHG,再加上语言点的地作者简介:邵泽国(1978-),男,博士,讲师。研究方向:理坐标值一开提父给地埋信息系玩( Geographic Informa-计算语言。tion System,GIS),以供GIS处理后画出语言分类地图。130www. dianzikeji. org.邵泽国:语言分类系统的设计图像.编码与软件|语言特征提取系统|特征数据丈艺主体特征归并,形成待分配项列表第一级分类(颇色选择)|用户自由分配|机器自动分配特 征规则表][人机交互调整- I第一级分类,进入第二级待分配列表第二级分类(图例选捅)用户自由分配机器自动分配-特 征规则表人机交互调整地理空间数据库第二级类[分类结果显示回归语盲点、匹配空间信息一. 分类数据CIS系统图1分类系统功能流程图第一级分类,用颜色来标记,操作是即为待分配项据库设计,所以这里的DB设计只是涉及到与分类系指定颜色,未指定的待分配项系统将分配其默认颜色,统相关的几个数据表设计。这样就形成了第-级分类的结果。在指定颜色时,提2.1.1主体层特征表 If mf供了两种方式。--是用户自由分配,用户可以自由单该表用来存储主体层提取的结果。在该表上归并mf选或多选待分配项指定到某一颜色;二是机器 自动分指段,取唯一值作为待分配项 ,写人表tb _clas的ef字段。配,用户只要在特征规则表中选择符合要求的特征规表1 If_mf 表结构则,系统将会把符合规则条件的待分配项自动指定到字段pb_jfnamem用户选择的颜色下。无论用户选用哪种方式,如果对类型bigintnvarchar说明方言点编号方言点名称主体层特征值此时的分类结果不满意,可以进行人机交互调整。身-级分类的结果可以作为第二级分类的待分配项,第2.1.2分类数据表 lf. _clas .二级分类的操作方法同- -级分类,第二级分类的结果该表中id字段由“0”开始每写人一个cf的值自用图例来标记。用户可以在完成第- -级分类后就结束动加1,字段clid、c2id的所有值在分类操作前初始化分类工作,此时每个类别里的特征项对应的图例与图为“00”。 字段ph_ .type 存储分类的结果,其值形如标由系统默认。分类操作过程中,每个操作的结果都“02 -01 -01”图标编号。会在结果显示框里同步显示。最后的分类结果数据通表2 If_clas 表结构过匹配重新回到各自的语言点,类别内的不同语言点icclidc2idph. _typenvarchara用不同的图标来标记。然后从地理空间数据库中取得语言点地理空间坐标值,这些信息一并传给 GIS系统。说明待分配项编 待分配项大类编号小类编号 类 别标识其功能流程如图1所示。本分类系统通用于语音特2.1.3特征规则表If ftype征、义项特征以及语法特征的分类。在自定义分类时系统提供了“条件分类”的快捷方法,即对待分配项按条件自动选择。过滤条件存储2设计与实现在特征规则表Iffype中。特征类型指的是语音的发系统前台使用Microsoft Visual Studio 2008 C#语音方法、发音部中国煤化工征类型有:鼻言,后台使用Microsoft SQL Server2008系统。音、边近音、边闪YHCNMH G欧清、次浊、近2.1DB设计与实现音、清音、全清、全浊、塞擦音、墨音、闪音、送气、响音、由于之前已经完成了汉语方言地理信息系统的数浊音、阻音。sql 字段中的SQL语句是生成对应的特征www. dianzikeji. org131.图像.编码与软件邵泽国:语言分类系统的设计类型在元数据表中对应的标记。配项从Ib3(对应控件C)移入到lb2(C或A)。如果该分表3 If ftype表结构类名下有子类,同时删除子类名(嵌套调用delname)。一字段id_typeql个Ibl的项的value对应- -个cid,这时将数据表If clas类型bigintnvarchar中值为cid的clid(或c2id)初始化为“00”。说明特征规则编号特征类型生 成规则的SQL语句2.3.3添加分 类项函数2.2用户界 面设计控件G调用,用户先选中lb1中的某- -项( 对应控通过用户界面用户可以对待分配项划分为两级3件B),再选择lb2(对应控件A或C)中的一些项,系层,即对待分配项可分为两个级别,大类和小类;同时统将Ib2中选中的分配项移入lb3(对应控件C或C2)为绘制地图提供颜色图例、图标3层标识信息。中,这些分配项归为-类,用lbl的选中项命名。同时对数据表If _clas 的操作是将ef与lb2选中项匹配的记汉语方言特征分类系统录的clid(或c2id)字段值改为lb1的选中项的值。2.3.4移出 分类项函数控件H调用,用户选择lb1 (对应控件C)中的某些项,系统将选中项移人到lb2中(对应控件C或A)。如选中项中包含-一个类下的所有项,则调用函数delname:将这个类名删除。对数据表If_ clas 的操作是将cf与lbl选中项匹配的记录的c1id(或c2id)字段初始化。图2用户界面2.3.5条件分 类函数AB、C为ListBox控件;A用于接收和显示待分配用户选择lb1 (对应控件J)中的某- -项,其值与数项数据;B(从左向右分别称为B B2 )用来接收和显示据表Ifftype中的type字段匹配,得到相应的SQL字分类命名数据;B,用颜色表示;B2用图例表示;C(从.段的值,即一一个SQL语句,系统执行SQL得到一个数左向右分别称为C、C2)用来接收和显示对应类别下据集,让后经Ib2(对应控件A或C.)中出现在这个数据集中的项标志为选中状态。的已分配项数据。D为TextBox控件,用于接收和显示分类结果数据。3结束语E、F、G、H为Button 控件;E为添加分类名;F为从系统的处理机制看,除了系统开始运行时要装删除分类名;G为添加分配项;H为移除已分配项。I、J为DropDownList控件。I( 从左向右分别称为1、载待分配项数据和分类完成后要输出分类结果,这两12)静态获取Items ,第~ -个为颜色选择序列:褐色、蓝色、个动作要访问数据库,其中间运行过程可以避免系统红色绿色、粉色黑色;第二个为图例选择序列:实心空对数据库的写操作。所以用一个DataTable实例来存心、上实下空、上空下实、左实右空、左空右实、中心实点。储据表If_clas,同时该系统与其他系统间数据集的传K均为Button控件,“取消”为取消之前所有分类送借助session实现。操作,并清空控件B、C、D的显示信息,同时改写表lf_参考文献clas。“确定”将分类结果数据写人到表lf_ _clas ,并传值[1] JOHN C. Introducing speech and langwage processing [ M].给GIS系统。“返回”为返回到“方言特征提取”页面。北京:北京大学出版社,2010.2] 曹志耘汉语方言地图集[M].上海:商务印书馆,2008.2.3功能实现[3] CHRISTIAN N. Peoessional C# ( programmer to program-这里仅介绍功能实现的几个核心函数。mer) [M]. 北京:清华大学出版社,2010.4]郭郑州. SQL Server 2008完全学习手册[ M].北京:清华2.3.1分类命名 函数大学出版社,2011控件E调用。其功能是将用户选择的drl中的项[5]陆俭明.现代汉语语法研究教程[M].北京:北京大学出,2003.(text)写入lb2,清除当前lb1的所有项。如做- -级分[6]潘悟云. 教育部哲学社会科学研究重大课题攻关项目投类时,将用户选中的控件1中的项(褐色、蓝色、红色、标评审书[ R].上海:上海师范大学,2009.林焘.语音学教程[ M].北京:北京大学出版社, 1992.绿色粉色黑色之- -)写人B,,清除C,的内容。[8] PETER L.语音学教程( A course in phonetics)[M].张维佳,译.北京:北京大学出版社.2011.2.3.2删除分类 名函数[9] 朱晓中国煤化工书馆.2010.控件F调用,其功能是删除一个已 经分配的类(大[10][据库设计二阶分析模式[ JYHC N M H G2003,28(1);:98 -101.类或小类)。用户选择Ibl (对应控件B)一些项,系统将[11] 雷特. SQL Server 2008 DBA人门经典[M].张德群,译.北lb1中选中的项清除,并将清除项(作为类名)下的所有分京:清华大学出版社,2010.132www. dianzikeji. org.

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。