 2003-10-8 自然语言理解广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态, 机器的指令、命令、程序, 排版时的格式说明, 公路上的交通图标……都属于这种广义的 “语言”。其中, 最重要的两类语言, 是自然语言和形式语言。
狭义的“语言”指“自然语言”, 即人类在其社会生活中发展出来的用来互相交际的声音符号系统。现已发现数千种不同的自然语言。“自然语言理解”指的就是使计算机来按照这种语言所表达的意义作出相应的反应的机制。
语言学上对语言有这样的层次划分: 第一层次是语音和文字, 即基本语言信号的构成; 第二层次是词法和句法(合称“语法”), 即语言基本运用单位的构成和组合的形式规律; 第三层次是语义, 即语言所要表达的概念结构; 第四层次是语用,即语言与语言使用环境的相互作用。一般说来, 人和计算机打交道, 目前是采用键盘输入字符的方式, 但语音的文字方式由于语音和文字的识别的进展也已经开始进入实用的水平; 自然语言理解的关键, 仍然是文字进入计算机以后的词法和句法分析、语义分析和语用分析。现在已经有一些计算机程序能在受限制的领域内“懂得”英语等自然语言, 比如根据数据库里的信息回答问题或处理事务, 按照自然语言的命令做一些简单的事情等等。要实现不限领域的自然语言理解, 目前在技术上还面临很艰巨的挑战。
首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。
其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多音、一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不确定性问题; 在语义和语用层次上, 也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决, 而必须借助于更大的语言单位乃至非语言的环境背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性的能力和常识推理能力, 体现在语言上就是利用语境信息和常识消除歧义的能力。使计算机获得同样强大的能力, 是从事自然语言理解的学者梦寐以求的目标。
另外, 自然语言不是一成不变的死的语言, 它在社会生活中发展, 在操不同语言和同一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在一夜之间突然流行起来; 特殊的人群结构变化会导致新的语言或新的语言变体 (如方言) 的出现。这些都要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。
最后一点, 自然语言是人们交流思想的工具。既然交流的是思想, 那思想本身在计算机里的组织结构就显得格外重要。在人工智能里, 这就是“知识表示”的问题。可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的影响。
在上述四个方面, 都有许多学者在勇敢地迎接挑战, 使计算机程序一步步地朝着不限领域的自然语言理解的远大目标前进。善解人意的计算机系统一定会在不远的将来造福人类。
PS:作者 walt (瓦尔特) 23:43, #, By xp  2003-10-8 中文信息处理技术发展简史LINMI推荐一篇文章,由中国科学院计算技术研究所软件实验室张华平发表的“中文信息处理技术发展简史”,对中文信息处理领域20多年发展历史作了简要介绍及评述。
所谓“中文信息处理”,是指用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言;但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
中文信息处理发展史
1. 学习和理论探索的萌芽阶段 这一阶段以介绍国外计算语言学领域的理论方法为主。
2. 汉字信息处理为主的早期阶段 1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段——汉字信息处理时代。
3. 字、词等表层处理为特征的初级阶段 汉字信息处理成功解决之后,面对的是更为复杂的词法分析问题。这一阶段主要研究和解决的问题是字、词等表层问题。
4. 句法和语义等深层处理为代表的中期阶段 “八五”期间,中文信息处理技术的研究开发重点逐步由字、词的表层处理转向了以句法、语义分析为核心的深层处理。
5. 语料库统计方法兴起的近期阶段 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科-- 语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
6. 以Internet为主要应用对象、大规模真实文本、智能信息访问的现阶段 现阶段中文信息处理的特征主要表现为:统计方法与规则方法相结合、基础理论研究与实用系统并重、面向Internet的大规模真实文本的智能信息访问。 1) 统计与规则结合 2) 基础理论研究与实用系统并重 3) 面向Internet的大规模真实文本的智能信息访问
中文信息处理技术发展的问题与应对
相对于日益发展的Internet,相对于快速膨胀的中文信息、相对于十几亿中文语种用户来说,现代中文信息处理技术依然滞后,很多技术和系统依然是实验室的原型,离实际的应用还有较大差距。主要问题体现在: 1. 汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。 2. 中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。 3. 现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。 23:10, #, By xp |
|