论语言科学与语言技术

宣传动员范文 发布时间:2010/10/30

论语言科学与语言技术第3页

第二个问题,给出每一义项的显性和潜性语义特征清单。对于第三个问题,给出义项或义场之间的语义关联模式。由此可见,必须在以往的经验语感法和先验演绎法基础上,引进实验归纳法和结构优化法,消除语义“泥潭”情结,潜心于冰海中的语义“冰山”,才能逐步建构造语义结构网络。
就世界各种语言来说,语言的计算机理解的深层次难点可能还在于:1.至今尚未揭示出人类理解语言的机制,计算机只能局部模拟自然语言理解的某些简单过程;2.至今尚未完成人类理解语言所凭借的知识系统,建立人类进行语言表达的完整理论,计算机尚无从掌握人类语言的知识系统以及语言表达机制;3.至今尚未对人类语言所兼具的规则性和离散性、精确性和模糊性做出定量和定性的系统分析,计算机尚无从掌握语言系统的复杂性和语言使用的随机性。(傅永和1999,p.238—239)既然语言的理解和表达是一个以知识系统为基础的综合性行为,因此语言系统的计算机模拟必须进行跨学科的研究,特别需要语言学、计算机科学、数学和认知科学以及百科知识学者的合作。与侧重于面对自然人语言学习的语形语法学不同,如果面向语言信息处理,那么就需要以计算机智能模式来重新确定语言学的理论基础、研究重点和研究方法。
面向自然语言处理的计算语言学理论基础,目前主要有基于语言规则性的理性主义理论(即先验主义)和基于语言随机性的经验主义理论。依据理性主义的语言学理论主要有:短语结构语法(psg)、扩充转移网络(atn)、配价语法(vg)、格语法(cg)、范畴语法(cg)、概念从属理论(cd)、多叉多标记树形图分析法(mmt)、词汇功能语法(lfg)和蒙塔古语法(mg)等。这些理论和方法,因为从“理性”出发,因此不可能反映以感受性为基础的自然语言的真实面貌,其缺失已经日益明显。为了克服理性主义理论的不足,采取经验主义理论处理大规模真实文本的语料库语言学应运而生。在收集语言资源或建立语料库的基础上,运用统计方法进行语言信息处理,语言交际过程的随机性由此得到关注。面对传统语形语法学对自然语言过程的不相适应和语义研究的复杂性,甚至有人尝试撇开语言学家的语言研究,以借助语料库逐步实现自然语言系统模拟。虽然借助语料库可以解决语言信息处理的一些问题,但是仅仅依赖语料库实现自然语言系统模拟注定此路不通。因为自然语言不是一个语料仓库,而是一个语义和语形复合性结构系统。无论是理性主义还是经验主义,都必须意识到:语言信息处理中所处理的是定域受限语言。这一研究的理论基础既不应是纯粹基于语言规则性的理性主义,也不应是完全依赖语言随机性的经验主义,而应是突出语言受限性的实验主义。世界语言学的发展经历了从经验科学到先验科学的漫长过程,计算机的发明必将促使当代语言学成为一门实验科学。强调计算语言学的实验主义,并非一概否定理性主义和经验主义,而是要在实验主义的基础上运用理性和经验的理论方法。
自然语言处理的语言理论,目前主要有基于语形的语言理解系统和基于语义的语言理解系统。前者是以语形语法研究的成果为出发点,从句法形式入手;后者是以语义研究的成果为出发点,从语义关系入手。两种理解系统在文本输入、预处理和自动分词等早期环节上基本相同,不同的是基于语形的理解系统先进行词法和句法分析,后进行语义和语用分析,基于语义的理解系统先进行语义分析和语义结构生成,后进行目标语的形式组合。生成语义学认为句子的句法特点取决于语义,语义部分才具有生成能力。认知语义学把意义看作一个植根于知识网络和信仰系统中的认知结构,理解一个语言形式的意义必须激发相关认知领域中的其他认知结构。既然语形结构只是语义结构的表层投影,既然基于语义的理解系统才符合语言的生成机制,既然语义处理才是语言信息处理的关键,那么只有基于语义的理解系统才能满足计算机对自然语言的理解和生成。
李葆嘉:论语言科学与语言技术(下)


四、人脑语言和电脑语言的性质异同

根据与“人脑语言学”的对应关系,计算语言学也可以称之为“电脑语言学”。从人脑角度出发,电脑语言学的研究是将人脑语言系统移植电脑工具的电子工程;从电脑角度出发,电脑语言学是电脑程序模拟人脑语言能力的仿生工程。
不管是系统移植还是能力仿生,首先必须认识到人脑和电脑的异同。1.构造机制的不同:人脑是生物神经系统,具有生物认知机制,而电脑是电子计算系统,具有电子运算程序。2.伴随情感的有无:人脑具有驱动感觉、思维和表达进行的情感性,而电脑只具有执行程序运算的机械性。3.经验基础的有无:人脑具有以感受性为特征的经验基础以及知识系统,而电脑即使配备了一定的知识背景,也不可能具有人脑一样的认知经验基础。4.认知理性的异同:人脑的感受和认知可以区别为非语言层次和语言符号层次,非语言层次包括直觉和感觉,语言符号层次包括知觉(游移性印象)、象觉(清晰性意象)和统觉(逻辑性抽象)。电脑的认知理性只能够定位于语言符号的象觉和统觉层次,难以具备丰富的认知层级系统。5.交流对象的异同:人脑的交流对象分别为对象世界和人际关系之间,具有交流的二重性;而电脑的交流对象只有执行程序的人或“人—机对话”的一重性,所谓“机—机对话”的实质仍然是“人—机对话”的连网,互联网交流仍然是执行者之间的交流。由于计算机永远不可能直接认知人所面对的对象世界,必须以人类的认知为中介,因此计算机永远不可能超越人类的智慧,计算机统治人类世界永远是一种不必要的担忧。
其次,必须认识人脑语言系统和电脑语言系统的差别。人脑语法或自然语言法则是在历史上逐步形成的,具有随机性、规约性、类推性和耗散性特点;而电脑语法或机用语言法则只是自然语法的再抽象化和再规范化,具有受限性、是否性、程序性和封闭性的特点。即使将来研究出适合于语言信息处理的机用语法,也不等同于自然语法。电脑所能获得的语言能力,只是自然语言的一部分或有限语言能力。因此,移植进电脑的语言系统必须进行界定:1.定域化语言:因为人脑语言是一个可以分为不同语域的复合性层级系统,所以必须首先确定电脑语言与人脑语言的对应层级,最佳选择就是规范性的日常语域。2.受限化语言:只能采取有限网络模式,才能将自然语言裁剪成适合计算机运算模式的机用语言。3.形式化语言:必须将定域受限语言的语义结构和语形规则分别形式化。4.算法化语言:借助一定的数学模型,将形式化语义和语形系统数字化。5.编程化语言:依据一定的程序语言,将数字化语义和语形系统编程化。
语言信息处理的目标,就是在受限性语言层面上逐步实现人—机对话。归根结底,自然语法≠电脑语法,电脑语言系统是通过建立形式化的计算模型进行处理的定域自然语言系统。电脑的运算速度可以远远超过人脑的思维速度,但是电脑不可能具备人的能动性认知行为。语形语法学面对是人—人对话,人们在语言习得过程中不知不觉地形成了建立在认知能力之上的语义结构网络,为语形语法规则提供了一份语义可选性清单。语言信息处理面对的是人—机对话,而语言“白板”的计算机并不具备这份语义可选性清单。语形语法规则,在教计算机如何说话的过程中顿时陷入困境。几千年来的西方语法学之所以能够延续下来,全赖人们具有基于认知能力的语义结构网络的自建构功能。反之,正是这一语义结构网络的存在,致使以往的语言学家误以为语形语法就是语法的全部或主要,而将语义结构法则长期放逐出语法学领域。
自然语言系统的计算机处理对西方具有两千多年传统的语形语法学提出了根本性的挑战,也为东西方语言学的合流带来了新的契机。回顾20世纪东西方语言学合流的历程,之所以出现西方语法学框架和汉语事实的错位,是因为合流基点的选择陷入误区。西语具有丰富的语形结构(这里指形态变化)而汉语基本没有(汉语主要依靠语序、虚词、韵律和语气,另外对语境或语用具有极大依赖性)。选择建立在形态变化基础上的西方语法学框架作为合流的基点,必然导致这一过程的曲折。反思的结果显示,东西方语言学合流的基点应当是建立在人类语言所共有的语义结构基础上的语义语法学理论。随着对语言能力研究的进一步深入和语言信息处理对传统语言学的挑战,传统语义研究在新的形势下得以复活。随着世界语言学从20世纪60年代以来出现了从语形研究向语义研究的转移,东西方语言学研究的合流将在新的基点上逐步实现。

五、面向语言系统模拟的语义语法学

尽管乔姆斯基理论认识到语言形式化的重要性,但生成语义学才是语言研究本体的转向。虽然配价语法和格语法的引进和对汉语语法意合性的认定,促使语义句法研究成为当代中国语法学界的热点,但迄今为止,中文信息处理应用系统自觉而全面地运用语义研究成果的鲜见。这一现状的表象似乎是语义研究成果不多,其根源却在于没有彻底认识到——必须从人类(不限于印欧族群)普通(不限于欧洲唯理主义)语法(不限于形态语言)的高度,来解决语言理论和研究方法的创新。无论是语言信息处理,还是语言机制揭示,汉语研究都需要既能反映汉语个性又植根于人类语言共性的原创理论。
人类的认知表现为对象世界的符号化(认知对象的符号化形成语义单元)、范畴化(语义单元的范畴化形成语义类别)和关联化(语义类别的关联化形成语义结构)。西方语言中的词法范畴原型是先民通过语音形式所表现出来的认知范畴或语义类别。语言的形态标记性、单位分布性和结构层次性都是语义类别关联化在表达层面的投影或者制约。一方面,随着人们认知的发展,反映原始认知足迹的形态范畴(如原始生物观的“性”、原始计算法的“数”)的价值日益消解;另一方面,随着语言系统的演化,表现原始认知足迹的语法手段又不可避免地合并、弱化和丧失。语序、功能词等手段的补偿,导致语言结构类型从综合型向分析型方向嬗变。这一过程证明,原始词法范畴在句法结构中并不具有充分必要性。一种语言可以没有词法形态变化,但不可能没有语义结构规则。不同的自然语言之间之所以可能互译,其基础就是存在可互通性语义,尽管结构类型迥然不同。(李葆嘉)
由此可见,