统计学语言论文合集12篇

时间：2023-03-28 15:08:58

统计学语言论文

统计学语言论文篇1

我常常想，如果有计算语言学家能够用一般语言学家可以理解的方式，深入浅出地阐述计算语言学的原理和方法，一定会吸引更多的语言学家参加到计算语言学的队伍中，更好地推动我国计算语言学的教学和研究。

2004年我在英国伯明翰大学访问时，在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》，很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作，非常适合文科背景的语言学家阅读，决心把这本书引进到国内来。

2005年回国之后，我马上找到外语教学与研究出版社的朋友，向他们介绍这本书的价值。他们被我的诚意感动，很快就决定引进这本书，并且与牛津大学出版社商量，双方一致同意合作在国内出版。2009年9月，《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事！

本书由Ruslan Mitkov教授主编，收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章，各章的写作风格力求一致，使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出，全面地反映了国外计算语言学的最新成果，是我们了解国外计算语言学发展动向的一个窗口，正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。

本书主编Ruslan Mitkov是计算语言学家及语言工程专家，毕业于德国德累斯顿大学（Dresden University），现为英国伍尔弗汉普顿大学（University of Wolverhampton）教授。他的研究兴趣是回指消解、机器翻译和自动索引，曾于2002年出版过名为《回指消解》（Anaphora Resolution）的专著。著名计算语言学家Martin Kay（马丁?凯伊）为本书作序。Martin Kay是美国斯坦福大学语言学教授，曾任计算语言学会主席、国际计算语言学委员会主席，是国际计算语言学界的领军人物。

二、内容简介

本书内容分三大部分：1.与计算语言学有关的语言学基础理论（1～9章）;2.计算语言学中自然语言的处理、方法与资源（10～26章）;3.计算语言学的应用（27～38章），几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表，每个术语均有简要的定义和解释，便于读者查询。下面分别介绍各章的内容。

第1章“音系学”（phonology）介绍了描写音系学和计算音系学的基本知识，着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。

第2章“形态学”（morphology）介绍了诸如语素、词、屈折、派生等形态学的基本知识，分析了形态学对于音系学的影响，着重介绍计算形态学中的有限状态分析方法，并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。

第3章“词典学”（lexicography）首先简要地回顾了词典学的发展历史，接着讨论了人编词典在计算机应用中的不足，说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌，为新型词典的编纂提供了有力的技术手段。本章强调指出，计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。

第4章“句法学”（syntax）首先列举了一些有趣的句法现象，分析了这些现象在计算上的意义，接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法（功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法）。最后，介绍了两种在语言学和计算上有意义的句法框架（广义短语结构语法、树邻接语法）。

第5章“语义学”（semantics）集中介绍了计算语义学的基本内容。首先讨论语义的表示问题，介绍了语义的高阶逻辑（higher-order-logic）表示法和语义的特征值矩阵（Attribute-Value Matrix）表示法。其次讨论句法语义接口，介绍了“并行对应模型”（Parallel Correspondence Model，简称PCM）;针对 Frege的“组成性原则”（principle of compositionality），介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。

第6章“话语”（discourse）首先列举了一些话语平面的现象，阐明“话语”研究的对象是句子之间的关联问题，计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示（referring expressions）和话语结构（discourse structure），说明参照表示的工作原理和参照表示的选择方法，并讨论主题（theme）与述题（rheme）、话题（topic）与焦点（focus），以及预设（presupposition）、蕴含（implicature）等问题。最后讨论“话语树”（discourse tree），介绍了“修辞结构理论”（rhetorical structure theory）和“中心理论”（centering theory）。

第7章“语用学和对话”（pragmatics and dialogue）讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为（speech act）、言外语力（illocutionary force）、合作原则（cooperative principle，简称CP）、关联（relevance）等语用学的基本概念，并且介绍了意图（intention）、信念（belief）、知识（knowledge）和推论（inference）等与概念表达有关的问题。着重讨论了计算语用学中的对话模型（dialogue model），说明了从话语行为到对话行为的计算机制，并介绍了对话的管理模型（dialogue management models）。

第8章“形式语法与形式语言”（formal grammars and languages）介绍形式语言理论的基本知识，分别论述了形式语法和自动机，把形式语法看成是语言的生成装置，把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容，对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理，对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法，给出了形式语法的Chomsky分类，分别讨论了上下文无关语言（context-free languages）、线性和正则语言（linear and regular languages）、半线性语言（semilinear languages）、上下文有关语言（context-sensitive languages）、柔性上下文有关语言（mildly context-sensitive languages）。接着介绍自动机理论，分别讨论了有限自动机（finite automata）、下推自动机（pushdown automata）、线性有界自动机（linear bounded automata）、图灵机（Turing machine）。

第9章“计算复杂性”（complexity）介绍自然语言处理中的计算复杂性问题。首先介绍计算复杂性的度量方法和计算复杂性的类别，分别讨论了多项式算法（Polynomial algorithm，简称P）和非确定多项式算法（Nondeterministic Polynomial algorithm，简称NP），并介绍了自然语言处理中关于“NP完全问题”（NP-complete problem）的一些研究。接着讨论正则语言问题的计算复杂性，介绍了确定性（determinism）和非确定性（non-determinism）的概念、线性（linearity）和有限状态特性（finite-stateness）的概念，说明了有限状态方法的可应用性。然后讨论上下文无关语言的计算复杂性，介绍了基于搜索的上下文无关识别（search-based context-free recognition）、自顶向下识别（top-down recognition）、线性时间与空间中的确定性语法识别（deterministic grammar recognition in linear time and space）。最后讨论了概率语法和启发式搜索、并行处理和实际效用等问题，说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。

第10章“文本切分”（text segmentation）介绍两方面的内容：一方面是“词例还原”（tokenization），一方面是“句子分离”（sentence splitting）。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来，以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分（例如：“Mr.，Dr.，kg.”中的小黑点）、连字符处理（例如：“self-asessment，forty-two，F-16”中的连字符）的技术，并且讨论了汉语和日语等东方语言中有关“词例还原”（也就是“切词”）的特殊问题。句子分离的目标是把文本中的句子分离出来，在很多自然语言处理系统中，都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。

第11章“词类标注”（part-of-speech tagging）介绍了词类标注器（POS tagger）的设计技术以及兼类词的排歧（disambiguation）方法。简要回顾了词类标注发展的历史，介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型（Hidden Markov Models）的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器，重点介绍了手工排歧语法（handwritten disambiguation grammars）。

第12章“句法剖析”（parsing）介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同，有浅层的句法剖析（shallow parsing），也有深层的句法剖析（deep parsing）。本章首先介绍了浅层句法剖析，这种剖析只要把句子剖析为语块（chunks）就可以了。之后，介绍了依存剖析（dependency parsing）。在介绍上下文无关剖析（context-free parsing）时，比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法（bottom-up active chart）。在介绍基于合一的剖析（unification-based parsing）时，讨论了特征-值矩阵。剖析时可能得到若干个结果，因此，本章还讨论了剖析结果的排歧问题。最后，讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。

第13章“词义排歧”（word-sense disambiguation，简称WSD）讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源，出现了“知识获取的瓶颈问题”（knowledge acquisition bottleneck）。这些问题由于大规模词汇库和知识库的出现而得到缓解，又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据。近年来，在WSD中普遍使用基于词典的方法、联结主义方法（connectionist）、统计方法、机器学习方法，取得了很大的进步。最后讨论WSD的评测，介绍了SENSEVAL的评测活动，并介绍WSD的一些实际应用。

第14章“回指消解”（anaphora resolution）首先列举了一些回指现象，说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状，讨论了今后回指消解研究中应当注意的问题。

第15章“自然语言生成”（natural language generation，简称NLG）介绍了自然语言生成研究的理论和实践问题，力图说明在人们的心智上以及在计算机中，语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题，可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题，也可以把它看成一个选择问题，还可以把它看成一个规划问题。自然语言生成可以分为四个问题：宏观规划（macroplanning）、微观规划（microplanning）、表层实现（surface realization）、物理表达（physical presentation）。对于宏观规划，介绍了说话内容的规划、文本的规划，以及使用修辞结构理论的规划方法;对于微观规划，着重介绍了词汇生成的问题。最后介绍了表层生成的技术。

第16章“语音识别”（speech recognition）研究如何把作为声学信号的声波转换为单词的序列。现在，最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术：声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别（large-vocabulary continuous speech recognition，简称LVCSR）的最新的技术。目前，语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。

第17章“文本-语音合成”（text-to-speech synthesis，简称TTS）介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术，也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分，TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成，说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术：规则合成技术（synthesis by rules）与毗连合成技术（concatenative synthesis）。

第18章“有限状态技术”（finite-state technology）首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念，然后介绍基本正则表达式的运算方法和复杂的正则表达式，最后讨论有限状态网络的形式特性。

第19章“统计方法”（statistical methods）介绍了计算语言学中的统计方法。目前，统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念（如：样本空间、概率测度、随机变量、条件概率、熵、随机过程）以及如何把它们应用于自然语言的模拟问题，分别介绍了隐马尔科夫模型（hidden Markov models）和最大熵模型（maximum-entropy models），最后介绍了这些模型的一些技术细节，如：韦特比搜索（Viterbi search）、最大熵方程（maximum-entropy equation）等。

第20章“机器学习”（machine learning）介绍了如何通过有指导的训练实例（supervised training examples）来自动地获取语言资源中蕴含的决策树（decision-tree）和规则（rules），描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术，并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法（instance-based categorization），较详细地介绍了k-邻近分类算法（k nearest-neighbour categorization algorithm）。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。

第21章“词汇知识的获取”（lexical knowledge acquisition）首先介绍了词汇知识自动获取的一些背景，包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系（lexical collocation）和联想关系（lexical association）的方法，词汇相似度（similarity）计算与叙词表（thesaurus）构建的方法，动词的次范畴框架（subcategorization frame）的获取方法;分析了词汇语义学（lexical semantics）和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用，自然语言处理的形式模型中越来越多地采用“词汇化”（lexicalized）的方法，词汇知识的自动获取是当前计算语言学研究的亮点之一。

第22章“评测”（evaluation）专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段，评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测（technology-based evaluation），在自然语言处理技术比较成熟时，就可以使用以用户为中心的评测（user-centred evaluation）。根据评测时的输入与输出，评测技术又可以分为分析成分的评测（evaluation of analysis components）、输出技术的评测（evaluation of output technologies）和交互系统的评测（evaluation of interactive systems）。分析成分的评测把语言映射为它的内部表达作为输出（例如：有标记的片段、树形图、抽象的意义表达式等）。输出技术的评测要把处理的结果用具体的语言表示出来（例如：文摘、生成的文本、翻译的译文等）。这种评测可以分别使用内部评测指标（intrinsic measures）和外部评测指标（extrinsic measures）来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术，并指出它们的优点和缺点。

第23章“子语言和可控语言”（sublanguage and controlled language）首先讨论了在限定语义领域中的计算语言学，指出了在当前的水平之下，在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言，分析了子语言的特性，讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言，分析了使用可控语言的必要性和局限性，介绍了可控语言的一个实例――简化英语AECMA。最后讨论子语言与可控语言的关系，分析了把子语言转变为可控语言的途径。

第24章“语料库语言学”（corpus linguistics）主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求，简要地回顾了语料库的发展历史，然后着重地讨论了语料库的标注（annotation）问题。标注过的语料库的优点是：开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面：一方面认为，语料库经过标注之后失去了客观性，所得到的语料库是不纯粹的;另一方面认为，手工标注的语料库准确性高而一致性差，自动或半自动的标注一致性高而准确性差，语料库的标注难以做到两全其美，而目前大多数的语料库标注都需要人工参与，因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后，作者指出，不论标注过的语料库，还是没有标注过的语料库，在自然语言处理中都是有用的，语料库语言学有助于计算语言学的发展。

第25章“知识本体”（ontology）讨论了知识本体及其在自然语言处理中的应用。首先，分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体，并讨论了语言学中的知识本体与词汇语义学的关系;然后，说明在自然语言处理中，知识本体可以用来帮助系统进行语言的结构分析（例如：英语中的PP附着问题、错拼更正、句法检错、语音识别），也可以用来进行局部的自然语言理解（例如：信息检索中的问题搜索、文本分类），并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。

第26章“树邻接语法”（tree-adjoining grammar，简称TAG）介绍一种局部化的语法形式模型：树邻接语法（TAG）和词汇化的树邻接语法（lexicalized tree-adjoining grammar，简称LTAG）。首先讨论上下文无关语法CFG的局部化问题，说明TAG与CFG的不同：TAG以句法结构树作为核心操作对象，在树的基础上来组织语言知识，它的产生式规则也对应着树结构，它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象，CFG是一个基于符号串的形式语法，而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题，介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树（initial tree）和辅助树（auxiliary tree）都与某一个或某一些叫作“锚点”（anchor）的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。

第27章“机器翻译：总体回顾”（machine translation：general overview）介绍了从20世纪50年代到90年代的基于规则的机器翻译系统（rule-based machine translation，简称rule-based MT）的主要概念和方法：直接翻译方法、中间语言方法、转换方法、基于知识的方法，并介绍了主要的机器翻译工具，简要回顾了机器翻译的历史。

第28章“机器翻译：新近的发展”（machine translation：latest developments）介绍了当前机器翻译系统的研究、开发和应用的情况，讨论了经验主义的机器翻译系统：基于实例的机器翻译（example-based MT）和统计机器翻译（statistical MT），并把它们与传统的基于规则的机器翻译系统进行了对比，同时还介绍了把各种方法融为一炉的混合机器翻译系统（hybrid MT）。当前基于规则的机器翻译的开发中，回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展，本章也做了介绍;此外，还介绍了口语的机器翻译，讨论了少数民族语言和不发达语言的机器翻译前景，讨论了因特网上的机器翻译（特别是网页翻译）问题。最后，本章介绍了译者的电子翻译工具，特别讨论了双语语料库、翻译记忆、双语上下文索引等问题，并介绍了一些面向译者的词处理工具。

第29章“信息检索”（information retrieval）主要介绍了文本的信息检索。信息检索系统的任务在于，对于用户提出的提问或者命题，给出与之有关的文献集合，作为检索的结果。首先分析了信息检索系统的软件组成成分，包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用，讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术，并且指出，当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。

第30章“信息抽取”（information extraction，简称IE）讨论如何从自由文本中自动地识别特定的实体（entities）、关系（relation）和事件（events）的方法和技术。本章主要讨论两种类型的信息抽取：一种是名称的自动抽取（extraction of names），一种是事件的自动抽取（extraction of events），并介绍书写抽取规则的方法。对于名称的自动抽取，本章介绍了名称标注器（name tagger）;对于事件的自动抽取，介绍了事件识别器（event recognizer）。同时，还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法，这种方法也就是信息抽取的统计模型。最后，介绍了信息抽取的评测和应用。

第31章“问答系统”（question answering，简称QA）讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术，这是文本信息处理的一个新的发展趋向。由于QA要对指定的提问给出一套数量不多的准确回答，在技术上，它更接近于信息检索（information retrieval），而与传统的文献检索（document retrieval）有较大的区别――QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比，QA要回答的提问可以是任何提问，而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA系统中，使用有限状态技术和领域知识，把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来，这样，就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA系统的类别和QA系统的体系结构，接着介绍了开放领域QA系统中的提问处理、开放领域QA系统中的提问类型以及关键词抽取技术，并讨论了开放领域QA系统中的文献处理方法和提问抽取方法，最后展示了QA系统的发展前景。

第32章“自动文摘”（text summarization）介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段：第一阶段是主题辨认（topic identification），第二阶段是主题融合（topic fusion），第三阶段是文摘生成（summary generation）;并介绍了多文本的自动文摘。最后，介绍自动文摘的评测方法，讨论了自动文摘评测的两个指标：压缩比（compression ratio，简称CR）和内容保留率（retention ratio，简称RR）。

第33章“术语抽取和自动索引”（term extraction and automatic indexing）介绍术语自动处理的技术。术语广泛地出现在科技文献中，术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展，出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多，术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现（term discovery）和术语识别（term recognition）两个部门，分别介绍了主要的技术和系统，最后介绍了双语言术语的自动抽取技术。

第34章“文本数据挖掘”（text data mining，简称TDM）介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息，找出文本数据集合的模型，发现文本数据中所隐含的趋势，从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别，分析了文本数据挖掘与计算语言学和范畴元数据（category metadata）的关系。本章举出实例，具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛（migraine headaches）的病因，怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系，并介绍了LINDI（Linking Information for Novel Discovery and Insight）系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。

第35章“自然语言接口”（natural language interaction简称NLI）介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言（meaning representation language，简称MRL）、同义互训软件（paraphraser）、问题生成软件（response generator）以及可移植工具（portability tools）。然后介绍口语对话系统（spoken dialogue systems，简称SDS），分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。

第36章“多模态和多媒体系统中的自然语言”（natural language in multimodal and multimedia systems）讨论自然语言在多模态系统和多媒体系统应用中的重要作用，说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体，怎样把自然语言与其他的媒体结合起来以生成更加有效的输出，怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题，讨论了怎样把自然语言处理技术作为多模态分析的基础，怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题，讨论了怎样把自然语言处理技术作为多媒体生成的基础，并讨论了不同模态的协调问题（包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合）。还讨论了用于多媒体数据存取的自然语言处理技术（包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要）。最后讨论在多媒体环境中使用语言的问题。

第37章“计算机辅助语言教学中的自然语言处理”（natural language processing in computer-assisted language learning）介绍在计算机辅助语言教学（computer-assisted language learning，简称CALL）中使用自然语言处理技术的问题。首先介绍CALL的发展历史，接着介绍在自然语言处理背景下的CALL，语料库与CALL，双语语料库，讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。

第38章“多语言的在线自然语言处理”（multilingual on-line natural language processing）讨论在因特网上的多语言处理问题。因特网现在已经发展成多语言的网络，英语独霸互联网天下的局面已经成为历史，非英语的网站越来越多，语言障碍日益严重。为了克服语言障碍，机器翻译当然是一个最重要的手段，除了机器翻译之外的各种使用自然语言处理技术的多语言处理工具也雨后春笋般地开发出来。本章介绍了语种辨别（language identification）、跨语言信息检索（cross-language information retrieval，简称CLIR）、双语言术语对齐（bilingual terminology alignment）和语言理解助手（comprehension aids）4个方面的研究情况。语种辨别的目的在于让计算机自动地判断书面文本是用什么语言写的，这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR中的译文发现技术（finding translation）、翻译变体的修剪技术（pruning translation alternatives）和翻译变体的加权技术（weighting translation alternatives）。在这些应用中，双语言词典或多语言词典是最重要的资源，而这些词典的覆盖面可以通过使用双语言术语对齐的技术来加以提升。语言理解助手的功能在于给用户提供软件工具来理解外语书写的文本，而不必使用全自动机器翻译的技术。本章介绍了施乐公司欧洲研究中心（Xerox Research Centre Europe，简称XRCE）的语言理解助手LocoLex和语义模型，并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque的技术。

本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引，便于读者查阅。

三、简评

本书是手册性的专著，有如下三个明显特点：

1.深入浅出。本书各章写作风格一致，内容协调，浑然一体，特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题，尤其适合文科背景的读者阅读。

2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔，由于这些专家具有所属领域的精湛知识，对于自己的领域有深刻的理解，有力地保证了本书的学术质量和专业水平。

3.涵盖全面。本书几乎涵盖了计算语言学的所有领域，反映了当前计算语言学的最新成就，使我们对计算语言学能够获得全面而系统的认识。

统计学语言论文篇2

虽然当代语言学家不可能也不必要都转向计算语言学研究，但具有一定的语言信息处理意识却非常必要。早在1964年11月，美国科学院语言自动处理咨询委员会就在《语言与机器》的报告中明确指出：机器翻译遇到了难以克服的semanticbarrier（义障）。然而这一警告，除了致使机器翻译研究热的暂时消退以外，并没有引起语言学界的足够重视。1982年，日本制订了一个为期10年面向ai（人工智能）的“第五代计算机”即智能机的研制计划，其中包括自然语言处理装置。1992年结束时，只部分达到了预定目标。随后又公布了另一个为期10年的“真实世界计算机（rwc）计划”即“新信息处理技术计划”。（许万增1996，p.61－62）据说，90年代后期日本不得不宣布暂停研制，其根本原因就在于未能穿过语言研究的“瓶颈”。自然语言处理装置的任务无法实现，计算机谈何“真实世界”或“人工智能”。时至今日，这一“义障”仍然没有跨越。在《新世纪将对人类产生重大影响的十大科技趋势》（新华社北京2000年12月30日电）的报道中，列出21世纪的“认知神经科学领域”和“信息技术领域”，并分别提出来“探索意识、思维活动的本质”和“计算机向智能化方向发展”的任务，然而没有语言科技领域的合作——关键是认知语义结构网络研究的根本性突破——则不可能实现。

无论从手段还是就目标，对准自然语言处理的当代语言学研究，其性质都应界定为“语言科技”。“语言科技”的内涵是以理论研究为指导，以描写研究为基础，以应用研究为枢纽，促使语言研究向计算机应用、数学、认知科学和现代教育技术领域延伸，沟通文理工相关学科以实现语言研究过程及其成果的技术化；“语言科技”的外延表现为语言工程科技、语言教育科技和语言研究科技。语言学和计算机科学等学科相结合的“语言工程科技”，研究领域是“人—机对话”，其目标主要是自然语言能力的模拟。语言学与现代教育技术相结合的“语言教育科技”，研究领域是“人—人对话”，其主要目标是实现语言教育的多媒体和网络化。“语言研究科技”是将语言研究活动与计算机工具相结合，其主要目标是实现语言学自身的计算机化，包括语料库、词库和句库的研制，语言研究的分析性、统计性、比较性和实验性软件的开发等。这一新思维既突出了当代科技发展所要求的“语言学的技术化”，又体现了以语言学为本而沟通文理工相关学科的研究旨趣。

二、计算语言学的界定要突出技术性

20世纪50年代以后，在理论方法交叉渗透而形成诸多边缘语言学的同时，语言学与计算机结合的趋势开始出现。1954年，在美国乔治敦大学所进行的世界上首次机器翻译试验，标志着计算机科学与语言学的结合已经起步。在这一研究领域，立足于不同的学科视角或知识结构，先后出现了一系列名称术语，如“语言工程”、“语言工程学”、“自然语言的计算机处理”（工科视角）、“语言信息处理”（信息学视角）、“数理语言学”（数学视角）等等。20世纪60年代以后，计算机和语言学的结合逐步深入到语言学的各个领域，形成了包括计算语音学、计算词汇学、计算语法学、计算语义学等分支学科在内的计算语言学（computationallinguistics）。其中“计算语音学”等名词，虽然计算语言学界没人提过，因为已经存在着“言语识别”、“言语合成”等计算机应用专业术语，但是从“语言工程学”到“计算语言学”的术语演变中，透露出“语言学立场”在这门交叉学科中的日益强化。虽然目前的计算机运算速度已经可以满足语言信息处理的技术要求，但是之所以“人—机对话”尚未实现，其“瓶颈”就在于现有的语言研究成果无法满足计算机处理的要求。归根结底，语言信息处理的最终目标就是“计算机模拟语言能力工程”或“语言能力移植计算机工程”。探索语言能力的性质和描写语言系统的结构，这些艰巨性工作还得由语言学家先来完成。语言信息处理或计算语言学务必以语言学为本而以计算机为用。语言学家必须具备“数字化”意识，了解计算机需要怎样的语言描写成果，然后才可能将研究目标对准语言工程。

迄今为止，正如许多发展中学科一样，“计算语言学”的定义尚无一致认定，归纳起来盖有四种观点（侯敏1999，p.2—p.6）：

第一种，计算语言学是以计算机为工具研究语言学。侯敏认为，任何一个学科在使用工具方面都是自由的，使用不同工具研究一个学科会带来不同特点，但不因为使用了新工具就产生了新学科。虽然并不排除新工具的使用没有导致新学科的产生，但同样不能否认工具的变革有可能带来学科体系的革命，以致于产生新的分支或交叉学科。现代自然科学之所以能够建立，无疑得益于望远镜和显微镜的应用，前者打开了人类认知的宏观世界之门，后者打开了人类认知的微观世界之门。望远镜和显微镜带来的不仅仅是“这一个工具”，而是人类认知方式的巨大变革，从而引起了天文学、生物学等自然科学的一系列革命，产生了一系列新学科。因此，问题在于如何使用新的工具或新认知方式。如果仅仅利用计算机做语言研究的统计工具，也许不会产生新的分支学科，但是利用计算机作为语音分析和合成的工具，则形成了计算语音学。

第二种，计算语言学是把语言学成果应用于计算机。侯敏认为，计算机的应用领域几乎没有限度，什么学科的成果都可以在计算机上应用，因此在计算机上应用语言学的研究成果不足以建立新学科。问题不在于在什么学科的成果能在计算机上应用，而在于在计算机上所应用的成果的性质。与其他学科研究对象的性质迥然不同，语言学科的研究对象——语言——是人类最重要的认知符号系统和知识载体，因此面向信息处理的语言成果应用于计算机足以建立新的学科。以往的语言学研究是面向人际交流，而计算语言学研究是面向人机交流，两者具有截然不同的性质。版权所有

第三种，计算语言学是研究语言中的可计算问题。侯敏认为，虽然利用可计算理论研究语言符号是建立了一个新学科，但是这种说法偏于保守，没有把计算语言学推进语言学发展的作用充分体现出来。问题在于面向信息处理的计算语言学研究，其显著特点就是语言的可计算性。“推进语言学发展的作用”这不是计算语言学的定义，强调“研究语言中的可计算问题”未必保守，反而突出了计算语言学的显著特点。

第四种，计算语言学是建立基于计算机科学理论的语言学理论。侯敏认为，把计算机科学的基本思想和方法引进语言学领域，不但可以产生许多应用性课题，而且能够促使研究者从新的角度观察语言学，建立与传统语言学不同的理论。因此计算语言学是一种基于计算机科学理论所建立的语言学理论。问题在于：一方面计算语言学需要理论但本质上不是一门理论科学，同时并非所有的计算语言学家都乐意或适合从事理论研究，另一方面计算语言学的应用性质决定了研究成果的技术性特征，而绝大多数人可能更适合于——实际上也更需要——语言信息处理的技术性研究。

第一种和第二种是欧洲流行的广义定义，主张计算语言学是计算机和语言学的交叉，第三种和第四种是盛行于美国的狭义定义，主张计算语言学是计算机科学和语言学的交叉。也就是说，前者仅仅把计算机当成语言学研究中的一种新工具应用，而后者强调计算机学科的要求和理论对语言学的影响。陈小荷（2001）认为，计算语言学就是以计算机为手段来研究自然语言，较严格的定义是“通过建立形式化的计算模型来处理自然语言的一门科学”。要建立形式化的计算模型来处理自然语言，首先要完成适合于计算机使用的自然语言系统的描写。这一面向“人—机对话”的机用语言系统，与以往面向“人—人对话”的日常语法系统不同。因此机用语言系统的描写应当纳入计算语言学的研究范围，即完成了“机用语言系统”以后，才能“建立形式化的计算模型”使计算机获得自然语言能力。综上所论，计算语言学可以定义为——利用计算机作为工具研究语言、研究机用自然语言系统、研究语言系统或语言能力的计算性，同时建构基于计算机应用、数学模型、认知科学等相关学科基础之上的语言理论的新学科。姑且图示如下：

工具性：利用计算机研究语言

计算语言学描写性：研究机用自然语言系统

技术性：研究语言系统的计算性

理论性：建构新的语言学理论

虽然计算语言学的关键任务是研究人机之间的语言交际问题，即“如何教计算机学会说话”。但是从本质上来说，研究语言系统或语言能力的可计算性和利用计算机工具来研究语言是相通的，只是前者探索的是适合于人－机对话的语言能力，而后者讨论的是适合于人－人对话的语言规则。

依据目前的语言研究成果和信息处理技术路线，计算语言学包括应用基础研究、应用研究和理论研究三个方面。（陈小荷2001）应用基础研究指语言处理的基本技术研究。现阶段的主要进展是：1．自动分词技术：这是计算机理解自然语言的第一步。目前汉语书面语自动分词的正确率达到95%以上。2．词语特征标注技术：现阶段的词语特征包括词性和义项，这是句法结构理解的基础。两种标注可采用相似的计算模型但后者要复杂得多，目前尚无大规模的实验结果报道。3．语句分析技术：句法结构和语义结构是自然语言理解的关键技术，目前分析真实文本句子的正确率仅在40%左右。4．语料库建设技术：语料库是为特定目的而收集的言语作品集，包括语料处理和检索。研究语句分析需要存放句法分析树的“树库”，但目前的汉语语料库加工程度较低，所建立的树库很少且规模不大。5．语言知识库建设技术：语言知识包括词汇知识、语法知识和语义知识等，事实性和规则性知识分别放在机读词典和规则库中。语句分析技术之所以不能取得突破，主要原因就是目前尚无适合于中文信息处理的大规模语言知识库。

应用研究指自然语言处理的应用工具的研制。现阶段的热点主要有：1．机器翻译工具：半个多世纪过去了，机器翻译的质量仍然令人失望。现在通行的是有限范围翻译和机器辅助翻译。2．自动文摘工具：微软公司的词处理器word有用于英语的文摘功能，哈工大研制的hit-863i型中文自动文摘系统可按用户设定的比例压缩原文。3．自动校对工具：现在存在的主要问题是误报率过高，并且深层错误难以发现。4．信息检索工具：有主题词检索、全文检索两种。前者需要预先有一个主题词表；后者任意字符串都可成为检索对象。另外从语料库中自动获取各种知识的“信息抽取”在线工具的研究刚刚兴起。5．言语识别和言语合成工具：言语识别（或语音识别）可分为词语识别（计算机口语命令）、有限词汇识别（电话订票）和无限词汇识别（将成段说话转为文字）。言语合成（或语音合成）指用计算机将书面语转换为口语即“文语转换”，存在的问题主要是断词不当且语调刻板，仿真度亟待提高。

然而，如果以为应用性特征明显的计算语言学仅仅是技术，则未免失之于偏颇。计算语言学有着相应的理论研究，大致包括人工智能理论（含计算模型理论。目前的人工智能研究，主要还是集中在人工体能、人工技能。在语言能力移植电脑过程未取得实质性进展以前，还谈不上真正的人工智能）和语言学理论两个方面。例如计算机如何或是否可以模拟人脑和语言能力，如何寻找合适的语言计算模型等，就是计算语言学家特别关心的理论问题。除此之外，还有对自然语言本质属性的重新认定、面向信息处理的机用语法学理论、语言系统与数学模型的关系、语言结构和数理逻辑的关系、语言符号的数字化可能性及其局限性、语言的异质性和受限性或语域理论、元语言理论和研究方法等一系列问题。总体而言，一方面，由于牵涉的学科太多，计算语言学的理论研究还相当薄弱，另一方面，与科技发展息息相关的计算语言学不容过多地沉醉于理论探索。计算语言学的强大发展动力植根于鲜明的应用性，必须通过实践推动理论探索。

三、语言系统的计算机模式化要求

从语言学家的立场出发，语言系统的计算机模式化要求，就是要了解计算机需要怎样的语言描写成果，传统语言学（此处指非面向语言信息处理的语言学）的研究是经验描写解释型，而计算语言学的研究是实验操作技术型，自然语言系统要能进行操作技术化处理，首先必须实现语言的计算机模式化。冯志伟（1999，p.215）认为自然语言处理一般应经过三个过程：1.形式化，将所研究的自然语言问题以一定的数学形式表示出来；2.算法化，把自然语言的数学形式转换为算法形式；3.程序化，根据自然语言的算法形式编写计算机程序。侯敏(1999，p.30)认为语言系统的形式化或计算机模式化必须满足三个要求：1.高度抽象化，即从语言现象中抽象出一般规则；2.元语言的形式化，即采取形式逻辑、数学公式、程序语言等形式语言作为元语言；3.运用过程的严密化，即运用过程必须具有数学与逻辑的严密性。

袁毓林(1993)认为形式语言至少具有三个特点：基本单元的明确性、基本运算和基本关系的明确性、运算优先级别的明确性，但是自然语言在这三方面皆不明确。具体而言，1.语法范畴的边界不明，例如语素、词和词组之间、词类之间的界限不明；2.结构关系难以定义，通常所说的结构关系，如主谓、动宾等往往很难明确界定；3.层次关系不外显，人们通常根据语感和语境等来识别结构层次。侯敏(1999，p.36—40)不赞同这种分析，针锋相对地提出：1.可以根据实际需要或应用目的来确立词项或划分词类；2.结构关系分析需要深入到语义平面；3.形式语法已经给出了体现层次的结构树，在分析歧义结构中可加入语义限制，至于有些连人都解决不了的层次歧义结构也不必要求计算机解决。侯敏的观点是“理论追求的是完美，工程追求的是适用”，避开理论困难而采取工程方法，可以建立一个语言分析的近似模型。

所谓“语法范畴的边界不明”，主要是因为这些“范畴”的设置从某种程度上肢解了语言事实；所谓“结构关系难以定义”，主要是因为这些“结构”难以反映语言的本质结构；而所谓“层次关系不外显”，恰恰是语言结构的特点之一。这些探索和争论，实际上反映了三个根本性的问题：1.汉语结构语法学中长期存在的一些困扰，不仅是套用西方语法学框架框范汉语事实所产生的龃龉，而且也是语形语法学自身无法克服的固有问题。几千年来的西方语形语法学研究之所以能够存在，就是因为人脑在发育过程中逐步自建构了与认知能力协同发展的语义结构网络，为语形语法规则提供了语义选择清单与路径。虽然这些语形语法规则在人际交流中可以使用，但是在语言能力的计算机移植中却顿时陷入困境，因为计算机不存在语义网络结构的自建构功能，缺少语义激活路径。根据语形语法规则，计算机造出来的符合自然语句标准的概率极低，多为与对象世界不存在一致性的随机词语串。2.计算语言学所要求的自然语言的形式化，是基于计算机运算模式的语言研究成果。移植进计算机的“定域受限语言系统”和自然语言系统并不完全相等，严格说来，只是一种接近自然语言的计算机模式化符号系统。3.计算语言学的理论和方法，必须建立在语言的本质共性语义性和和计算机数字化运算模式的基础之上。如果对人类语言的认知语义性没有足够的认识，依然安居于语形语法窠臼而迟迟未能建构语义结构网络，语言信息处理的目标则不可能实现。

中国信息科学界有一种看法，计算机对于形态结构的印欧语言处理具有良好的支撑能力，而对中文信息处理则不然（陈力为2000）。之所以计算机对印欧语文信息处理具有良好的支撑能力，是因为印欧语文结构类型便于建立计算机处理模型。从历史上来看，谷登堡印刷术和打字机键盘都是基于字母的简约性而发明的。一方面，字母系统的符号简约性便于进行数据化处理，汉字符号的繁复性难以进行数据化处理；另一方面，印欧语的形态变化为形式化提供了识别标志，而汉语的孤立结构却没有明显的标志。依据现在的计算机处理模型，汉字的繁复性和汉语的非形态性必然导致中文信息处理中存在一些特殊问题：1.中文信息处理的第一个“瓶颈”。汉语的常用汉字数量繁多，汉字需要解决键盘输入、内部代码、汉字识别和显示、程序语言的数据类型、数据库的排序和检索等一系列问题。2.中文信息处理的第二个“瓶颈”。印欧书面语采取词分写形式，而汉语书面语采取单字连写形式。由于采用西方词法学框架，因此必须研制自动分词技术。假定考虑以“字”和“字义块”等作为汉语的结构单位，自动分词技术将相应改为“字义块”切分技术。3.印欧语的同音词较少，而汉语的同音字较多，同义词和量词也十分丰富，这些都给中文信息处理带来必须解决的难题。4.印欧语可以借助实词的形态变化即在词法层面上进行处理，汉语只有在句法和语义层面上进行处理，需要把语序和虚字的语法信息归纳出来再让计算机掌握。5.印欧语的句子结构是以动词性词语为核心的“主—谓”结构，而汉语的句子结构是以体词性词语为核心的“话题—说明”结构。印欧语的句子结构划一而句界分明，汉语的句子结构多样、成分缺省并且前后句义缠绵。

如果说语言系统是一座“冰山”，那么以上这些语言信息处理中遇到的难题还都是语言系统浮在海水上面的那一小部分，真正的障碍是隐没在海水下面的那一大部分。无论哪一种结构类型的自然语言系统的计算机模拟，包括形态语言，迟早会无可避免地碰撞上坚硬实在而又难以捉摸的“语义结构”。语言研究需要敢于在冰海下持续探索“语义结构”的潜水员。从自然语言系统来说，要让计算机理解语言通常认为必须使电脑能够解决三个问题：1．消除自然语言的一词多义；2．揭示自然语言的潜在意义；3．掌握自然语言的联想推理。这些问题都离不开语义分析，而语义分析技术尚处于探索阶段。（侯敏1999，p.247）对于第一个问题，一词多义可给出不同义项的清单。对于第二个问题，给出每一义项的显性和潜性语义特征清单。对于第三个问题，给出义项或义场之间的语义关联模式。由此可见，必须在以往的经验语感法和先验演绎法基础上，引进实验归纳法和结构优化法，消除语义“泥潭”情结，潜心于冰海中的语义“冰山”，才能逐步建构造语义结构网络。

就世界各种语言来说，语言的计算机理解的深层次难点可能还在于：1．至今尚未揭示出人类理解语言的机制，计算机只能局部模拟自然语言理解的某些简单过程；2．至今尚未完成人类理解语言所凭借的知识系统，建立人类进行语言表达的完整理论，计算机尚无从掌握人类语言的知识系统以及语言表达机制；3．至今尚未对人类语言所兼具的规则性和离散性、精确性和模糊性做出定量和定性的系统分析，计算机尚无从掌握语言系统的复杂性和语言使用的随机性。(傅永和1999，p.238—239)既然语言的理解和表达是一个以知识系统为基础的综合，因此语言系统的计算机模拟必须进行跨学科的研究，特别需要语言学、计算机科学、数学和认知科学以及百科知识学者的合作。与侧重于面对自然人语言学习的语形语法学不同，如果面向语言信息处理，那么就需要以计算机智能模式来重新确定语言学的理论基础、研究重点和研究方法。

面向自然语言处理的计算语言学理论基础，目前主要有基于语言规则性的理性主义理论（即先验主义）和基于语言随机性的经验主义理论。依据理性主义的语言学理论主要有：短语结构语法（psg）、扩充转移网络（atn）、配价语法（vg）、格语法（cg）、范畴语法（cg）、概念从属理论（cd）、多叉多标记树形图分析法（mmt）、词汇功能语法（lfg）和蒙塔古语法（mg）等。这些理论和方法，因为从“理性”出发，因此不可能反映以感受性为基础的自然语言的真实面貌，其缺失已经日益明显。为了克服理性主义理论的不足，采取经验主义理论处理大规模真实文本的语料库语言学应运而生。在收集语言资源或建立语料库的基础上，运用统计方法进行语言信息处理，语言交际过程的随机性由此得到关注。面对传统语形语法学对自然语言过程的不相适应和语义研究的复杂性，甚至有人尝试撇开语言学家的语言研究，以借助语料库逐步实现自然语言系统模拟。虽然借助语料库可以解决语言信息处理的一些问题，但是仅仅依赖语料库实现自然语言系统模拟注定此路不通。因为自然语言不是一个语料仓库，而是一个语义和语形复合性结构系统。无论是理性主义还是经验主义，都必须意识到：语言信息处理中所处理的是定域受限语言。这一研究的理论基础既不应是纯粹基于语言规则性的理性主义，也不应是完全依赖语言随机性的经验主义，而应是突出语言受限性的实验主义。世界语言学的发展经历了从经验科学到先验科学的漫长过程，计算机的发明必将促使当代语言学成为一门实验科学。强调计算语言学的实验主义，并非一概否定理性主义和经验主义，而是要在实验主义的基础上运用理性和经验的理论方法。

自然语言处理的语言理论，目前主要有基于语形的语言理解系统和基于语义的语言理解系统。前者是以语形语法研究的成果为出发点，从句法形式入手；后者是以语义研究的成果为出发点，从语义关系入手。两种理解系统在文本输入、预处理和自动分词等早期环节上基本相同，不同的是基于语形的理解系统先进行词法和句法分析，后进行语义和语用分析，基于语义的理解系统先进行语义分析和语义结构生成，后进行目标语的形式组合。生成语义学认为句子的句法特点取决于语义，语义部分才具有生成能力。认知语义学把意义看作一个植根于知识网络和信仰系统中的认知结构，理解一个语言形式的意义必须激发相关认知领域中的其他认知结构。既然语形结构只是语义结构的表层投影，既然基于语义的理解系统才符合语言的生成机制，既然语义处理才是语言信息处理的关键，那么只有基于语义的理解系统才能满足计算机对自然语言的理解和生成。

李葆嘉：论语言科学与语言技术（下）

四、人脑语言和电脑语言的性质异同

根据与“人脑语言学”的对应关系，计算语言学也可以称之为“电脑语言学”。从人脑角度出发，电脑语言学的研究是将人脑语言系统移植电脑工具的电子工程；从电脑角度出发，电脑语言学是电脑程序模拟人脑语言能力的仿生工程。

不管是系统移植还是能力仿生，首先必须认识到人脑和电脑的异同。1.构造机制的不同：人脑是生物神经系统，具有生物认知机制，而电脑是电子计算系统，具有电子运算程序。2.伴随情感的有无：人脑具有驱动感觉、思维和表达进行的情感性，而电脑只具有执行程序运算的机械性。3.经验基础的有无：人脑具有以感受性为特征的经验基础以及知识系统，而电脑即使配备了一定的知识背景，也不可能具有人脑一样的认知经验基础。4.认知理性的异同：人脑的感受和认知可以区别为非语言层次和语言符号层次，非语言层次包括直觉和感觉，语言符号层次包括知觉（游移性印象）、象觉（清晰性意象）和统觉（逻辑性抽象）。电脑的认知理性只能够定位于语言符号的象觉和统觉层次，难以具备丰富的认知层级系统。5.交流对象的异同：人脑的交流对象分别为对象世界和人际关系之间，具有交流的二重性；而电脑的交流对象只有执行程序的人或“人—机对话”的一重性，所谓“机—机对话”的实质仍然是“人—机对话”的连网，互联网交流仍然是执行者之间的交流。由于计算机永远不可能直接认知人所面对的对象世界，必须以人类的认知为中介，因此计算机永远不可能超越人类的智慧，计算机统治人类世界永远是一种不必要的担忧。

其次，必须认识人脑语言系统和电脑语言系统的差别。人脑语法或自然语言法则是在历史上逐步形成的，具有随机性、规约性、类推性和耗散性特点；而电脑语法或机用语言法则只是自然语法的再抽象化和再规范化，具有受限性、是否性、程序性和封闭性的特点。即使将来研究出适合于语言信息处理的机用语法，也不等同于自然语法。电脑所能获得的语言能力，只是自然语言的一部分或有限语言能力。因此，移植进电脑的语言系统必须进行界定：1.定域化语言：因为人脑语言是一个可以分为不同语域的复合性层级系统，所以必须首先确定电脑语言与人脑语言的对应层级，最佳选择就是规范性的日常语域。2.受限化语言：只能采取有限网络模式，才能将自然语言裁剪成适合计算机运算模式的机用语言。3.形式化语言：必须将定域受限语言的语义结构和语形规则分别形式化。4.算法化语言：借助一定的数学模型，将形式化语义和语形系统数字化。5.编程化语言：依据一定的程序语言，将数字化语义和语形系统编程化。

语言信息处理的目标，就是在受限性语言层面上逐步实现人—机对话。归根结底，自然语法≠电脑语法，电脑语言系统是通过建立形式化的计算模型进行处理的定域自然语言系统。电脑的运算速度可以远远超过人脑的思维速度，但是电脑不可能具备人的能动性认知行为。语形语法学面对是人—人对话，人们在语言习得过程中不知不觉地形成了建立在认知能力之上的语义结构网络，为语形语法规则提供了一份语义可选性清单。语言信息处理面对的是人—机对话，而语言“白板”的计算机并不具备这份语义可选性清单。语形语法规则，在教计算机如何说话的过程中顿时陷入困境。几千年来的西方语法学之所以能够延续下来，全赖人们具有基于认知能力的语义结构网络的自建构功能。反之，正是这一语义结构网络的存在，致使以往的语言学家误以为语形语法就是语法的全部或主要，而将语义结构法则长期放逐出语法学领域。

自然语言系统的计算机处理对西方具有两千多年传统的语形语法学提出了根本性的挑战，也为东西方语言学的合流带来了新的契机。回顾20世纪东西方语言学合流的历程，之所以出现西方语法学框架和汉语事实的错位，是因为合流基点的选择陷入误区。西语具有丰富的语形结构（这里指形态变化）而汉语基本没有（汉语主要依靠语序、虚词、韵律和语气，另外对语境或语用具有极大依赖性）。选择建立在形态变化基础上的西方语法学框架作为合流的基点，必然导致这一过程的曲折。反思的结果显示，东西方语言学合流的基点应当是建立在人类语言所共有的语义结构基础上的语义语法学理论。随着对语言能力研究的进一步深入和语言信息处理对传统语言学的挑战，传统语义研究在新的形势下得以复活。随着世界语言学从20世纪60年代以来出现了从语形研究向语义研究的转移，东西方语言学研究的合流将在新的基点上逐步实现。

五、面向语言系统模拟的语义语法学

尽管乔姆斯基理论认识到语言形式化的重要性，但生成语义学才是语言研究本体的转向。虽然配价语法和格语法的引进和对汉语语法意合性的认定，促使语义句法研究成为当代中国语法学界的热点，但迄今为止，中文信息处理应用系统自觉而全面地运用语义研究成果的鲜见。这一现状的表象似乎是语义研究成果不多，其根源却在于没有彻底认识到——必须从人类（不限于印欧族群）普通（不限于欧洲唯理主义）语法（不限于形态语言）的高度，来解决语言理论和研究方法的创新。无论是语言信息处理，还是语言机制揭示，汉语研究都需要既能反映汉语个性又植根于人类语言共性的原创理论。

人类的认知表现为对象世界的符号化（认知对象的符号化形成语义单元）、范畴化（语义单元的范畴化形成语义类别）和关联化（语义类别的关联化形成语义结构）。西方语言中的词法范畴原型是先民通过语音形式所表现出来的认知范畴或语义类别。语言的形态标记性、单位分布性和结构层次性都是语义类别关联化在表达层面的投影或者制约。一方面，随着人们认知的发展，反映原始认知足迹的形态范畴（如原始生物观的“性”、原始计算法的“数”）的价值日益消解；另一方面，随着语言系统的演化，表现原始认知足迹的语法手段又不可避免地合并、弱化和丧失。语序、功能词等手段的补偿，导致语言结构类型从综合型向分析型方向嬗变。这一过程证明，原始词法范畴在句法结构中并不具有充分必要性。一种语言可以没有词法形态变化，但不可能没有语义结构规则。不同的自然语言之间之所以可能互译，其基础就是存在可互通性语义，尽管结构类型迥然不同。（李葆嘉2001）

由此可见，人类语言的本质属性是语义性，其他属性都是语义性的派生。人类语言的共性可以概括为：在人类感知对象世界的过程中，神经机制依据象似性模式促使对象世界语符化，音义一体化的语符具有实体性和范畴性，由此组成的语义结构具有语境性和关联性，语义结构的语境性表现为语用、语义结构的关联性投影为语形，而语义结构模式具有生成性。图示如下：

神经机制语义实体语境-语用性

象似性认知过程语符语义结构生成性

对象世界语音范畴关联-语形性

在自然语言能力移植工程中，计算机需要的是具有语言本质共性的语义结构网络，由此有必要首先建构语义语法学。所谓“语义语法学”不是“语义＋语法的学”，而是以语义为研究对象的语法学。把语义结构的表层投影——语形作为语法研究的纯正对象，有悖于语言结构的真实本体。乔姆斯基试图在语形结构进行数理化描写的基础上，建构反映语言能力的生成语法体系势必捉襟见肘。这一初始思路必然导致“抛开语义——深层语义——语义解释——逻辑表达——逻辑式”这样的“不断革命”。虽然乔姆斯基强调语言研究的目的在于揭示语言天赋，但依据其理论思路：普遍语法（研究对象）——语言能力（哲学基础）——自然主义（学科性质）——数学方法（方法借鉴）——符号描写（形式载体）——形式语法（研究成果），显然缺少人类天赋中最关键的认知性语义能力这一环节。完全排斥语义的经典理论阶段，其句法结构规则必然导致生成出一批语言事实中并不存在的语符串。即使在不得不引进语义解释的标准理论阶段，也没有放弃把形式结构作为句法生成的基础规则。然而，任何脱离语义的语法形式化注定流产，不可能达到揭示语言生成机制或普遍语法的目标。

如果说语义语法学的语言观强调人类语言的本质共性是语义性，那么语义语法学的语法观则突出语义结构是语法的主要研究对象。在欧洲传统语文学中，“语法”主要指基于形态变化的词法和句法规则。在历史比较语言学时代，“语法”包括语音法则，因此才有“青年语法学派”之称。20世纪的结构主义和描写主义促使“语法”研究的对象日益窄化。依据语言是音义符号系统这一论断，所谓“语法”即语言结构之法，当包括语音结构法和语义结构法。在语言系统的第一次划分中没有通常所说的“语法”即语形结构法的位置。语形结构是语义结构的表层投射或制约，语形结构法依附于语义结构法。语言系统的音义二分以及相关研究学科，图示如下：

语音分析（生理语音学、物理语音学）

自然语音解析

语言（语音学）语音结构（音位系统学、语流节律学）

符号语形结构（语形语法学）

系统语义投影聚合性义场（词类）

（语义学）语义结构（语义语法学）

组合性义场（句模）

以往的“语音、词汇、语法”三分法，迷糊了研究者的视线。虽然语形语法研究在语言交际和语言教学中具有一定或者相当用途，但是从研究角度而言，却避开了关键的语义结构法则。

人类认知的本质是对世界图式的语义符号化，人所认识的世界就是存在于语言符号系统中的世界。语义结构网络表现为“实体范畴化”（聚合性义场）和“关系模式化”（组合性义场）的相互交错。广义语义不仅包括实体范畴化的词汇语义和关系模式化的结构语义，而且包括语境范畴化的语用语义。语法的真实本体或语法研究的切实对象应当是语义范畴及其关联模式。结构语法和生成语言的不同之处，在于前者强调“语言系统”，而后者强调“语言能力”，但其共通之处却在于皆以语义结构的虚象——语形作为研究实相，始终游离于语法真实本体之外。依据语形语法学的有限范畴和简略框架（词类划分、语形成分、短语结构、句子成分等），既难以深入分析句法结构，更不可能有效驾驭语言结构的生成机制。从表达来说，语义编码是一切语言编码的基础，要揭示语言的奥秘必须从语义入手。语形型语言（并非只有语形，而是语形隐含或遮蔽了语义语法）和语义型语言（并非没有语法，而是没有形态变化语法）的研究基础，都应是语符的语义性。语义语法学的语法观突出语义结构，表面上突出汉语的个性特征，实质上受制于人类语言的本质共性。关于语形型语言和语义型语言的大致异同，图示如下：

语形型语言：形态手段

语义范畴——语义网络（知识世界）——元语言（日常认知）

人类的语言符号系统，本质上是一个意义隐喻系统。作为人类认知基本能力的隐喻，其更深层次是源于动物性感受的模仿（基于事物的相似性）与借代（基于事物的相关性）这两种认知能力。关于语言符号系统的形成大致流程，图示如下：

神经机制情绪模式

认知机制具体感受元语言（日常认知）——语义网络（知识世界）

对象世界经验框架

西方语法学源于古希腊的“语言·哲学·逻辑”混沌母体，西方哲人的逻辑研究基于思辩性语言活动。因为逻辑的基本单位是概念和命题，因此人们往往把注重语义的语法研究混同于逻辑的研究。汉语实词的义类划分不是根据逻辑意义，而是借助日常语义；汉语句读之间的语法关系不是根据逻辑关系，而是遵循事理关系。虽然逻辑规则是语法规则的部分再抽象化，但泛逻辑主义却致使人们误以为语法规则都可以逻辑化。自然语言首先具有本能传情性和日常认知性，语言结构法则主要依据广泛存在于日常生活中的事理关系。这一事理关系包括：时序先后性、空间位置性、主观因果性、主观目的性和评估好恶性等等。不是日常语法以思辩逻辑为基础，而是思辩逻辑以日常语法为基础。同样，虽然可以借用数理符号转写具有算法性的语言结构法则，但不可把语言法则混同于数理逻辑规则。

语义语法学的技术路线，是从建构现代汉语元语言系统到建构现代汉语语义网络。虽然自然语言信息处理依赖于语义结构的形式化，但是一些语言学家往往视语义研究成果为“非语法”，并且对其形式化的可能性持怀疑态度。一方面语义单元不具备语形变化的显著标记，而包含较多的意会性；另一方面语义单元并非没有范畴标准，也具有感受或认知的一致性。所谓语义的客观性和主观性就是语义的集体认同性和个人联想性，其本质是个体使用的“素单位”和集体认同的“位单位”之间的矛盾。语义语法学的研究对象首先是具有集体认同性的“义位”（标准体），然后才有可能是仅具个人使用性的“义素”（义位变体）。尽管语义单元或语元数量众多，语义结构关系复杂，但它们以潜在的元语言系统为基础。语义结构网络由语元实体和语义关系组成。同类语元之间具有聚合性语义关系，异类语元之间具有组合性语义关系。换而言之，每一语元都具有两种互相制约着的语义关系，一是同一义场内的各个“义位”之间的“义征”（语义特征）异同，一是不同义场的“义位”之间的“义联”（语义关联）异同。由此，可以依据义征和义联的异同而建立聚合性义位系统和组合性义联系统，在两者基础上在编织语义结构网络。句法结构的形式化应当是语义结构的形式化，而语义结构的形式化就是义场关联模式。

现代汉语语义语法的基础研究是建立“现代汉语元语言系统”，这一研究可比喻为“语言基因图谱分析工程”。其研究思路是：首先归纳出现代汉语词典中用于释义的最低限量词汇，以建构释义元语言系统；其次依据日常语言交际和语言教学中的用词，参照释义元语言以建立词汇元语言系统；再次抽象出义征范畴以建立析义元语言系统，完成语义标记集。在以上成果基础上，一方面可以结合认知心理学和神经语言学的成果进一步研究认知元语言系统，另一方面可以依据语言信息处理的要求，建立机用元语言系统。（李葆嘉等2002）

在现代汉语元语言系统这一基础性工作完成以后，才可以逐步建构现代汉语语义结构网络。研究程序和主要方法大致如下：1.义征对比法。依据有限网络模型，借助析义元语言系统对义元进行形式化描写即标注义征。给出义元在义场内的语义特征，其目标是建构聚合性义场。2.义联配比法。依据有限网络模式，对语义符号的配比关系进行形式化描写即标注义联，在分析和描写过程中归纳出关联性元语言系统和语义结构关联框架。语义句法的本质是相关义场之间的配比，因此义联标记体现着义场配比。给出义场之间的语义选择或语义制约规则，其目标是建立组合性义场。3.语形标记法。汉语具有词序、虚词和韵律等形式手段。韵律手段属于语音句法，可姑且不论。汉语的语形大致可以概括为两种：附着在词或词组上的词语级语形是完构成分；附着在句干上的句子级语形是完句成分。在进行汉语语形范畴化研究的同时，寻找语义关联和语形成分之间的对应性，然后对语形系统进行层级性形式化描写。4.合成建构法。在义征、义联和语形研究成果的基础上，通过相关标记的合成以建构语义结构句模系统。

“语言能力移植工程”的语言学部分主要是语义结构网络研究。通过建立形式化的计算模型，可以将语义结构网络进一步形式化、算法化和程序化。语义语法系统研究的每一结果，都可以也应当用计算机操作作为验证。以往的语法学研究，除了执著于语形研究以外，还有一个根本性的缺憾，就是不具备自然科学研究中的实验手段，因此难免经验性、臆断性和游移性等。采取计算机作为研究和验证手段，从而使语法研究具有鲜明的技术性和可证伪性。人们常说，只有学会一门外语，人们才真正了解自己的母语。与此同理，只有计算机掌握了自然语言，人类才深入揭示出自然语言的奥秘。换而言之，根据语言学习对象的不同，可能存在三种教学语法：一种是母语教学语法（着重于语形语法，因为人类对语义结构网络和语言知识库具有自建构能力），一种是对外语言教学语法（需要在语形语法的基础上增加与语言理解相关的社会文化知识，因为不同语言的语义结构网络具有不同的文化性），一种是计算机模拟语言能力的语法（需要语义语法和语言知识库，因为计算机不具备语义结构网络自建构能力以及与语言理解相关的知识系统的自学习能力）。也只有揭示出语义结构网络，语法学研究才能够在语形语法研究的基础上取得全面突破，语法形式、语形语法意义和语义语法意义，才能够全面贯通。

尽管语义研究及其形式化相当困难，但是在语义语法学理论的指导下，根据定域（语言定域）、定量（词语定量）、定性（义元定性）、定式（义联定式）的“四定”原则逐层实施，自然语言的理解与生成有可能在单句模式系统中首先实现。只要对语言本质的探索和人脑语言移植电脑的目标不变，就必须穿越语义研究的沼泽地。如果说20世纪是语形语法学的世纪，那么可以预言21世纪将是语义语法学的世纪。

六、语言科技复合型人才的培养

自然语言的计算机理解和生成已经成为国际语言学研究的聚焦，语言信息处理的技术水平已经成为当前衡量一个国家现代化水平的重要标志之一，尽快培养兼通语言学、计算机科学、数学和认知科学的复合型人才迫在眉睫。据《美国计算语言学杂志》1986年统计，全球设置计算语言学博士学位的大学已有105所，其中美国63所。在英国曼彻斯特大学已有计算语言学的学士和硕士专业。（侯敏1999，p.27）

统计学语言论文篇3

10月20日（星期日）

上午

下午

上午

下午

9：00—11：30

14：30—17：00

9：00—11：30

14：30—17：00

公共课　（03706）思想道德修养与法律基础（03709）马克思主义基本原理概论（00009）政治经济学（财经类）（00031）心理学（04183）概率论与数理统计（经管类）（00018）计算机应用基础　（00429）教育学（一）（00020）高等数学（一）（00023）高等数学（工本）（00022）高等数学（工专）（00065）国民经济统计概论　（03708）中国近现代史纲要（04729）大学语文（03707）毛泽东思想、邓小平理论和“三个代表”重要思想概论（04184）线性代数（经管类）（02198）线性代数

（00012）英语（一）（00015）英语（二）（00420）物理（工）（00043）经济法概论（财经类）（00051）管理系统中计算机应用

教师资格考试（990001）　（99052）小教教育学（99054）中教教育学　（99053）小教心理学（99055）中教心理学

专

科汉语言文学（050114）　（00529）文学概论（一）　（00536）古代汉语　（00534）外国文学作品选（00531）中国当代文学作品选　（00533）中国古代文学作品选（二）　会计（020203）　（00067）财务管理学　（00065）国民经济统计概论　（00156）成本会计（00070）政府与事业单位会计　（00043）经济法概论（财经类）　法律（030112）　（00242）民法学　（00261）行政法学（00223）中国法制史　（00243）民事诉讼法学　（00244）经济法概论　英语（050207）　（00596）英语阅读（二）　（00795）综合英语（二）　（00597）英语写作基础　（00794）综合英语（一）　行政管理（030301）　（00147）人力资源管理（一）（00163）管理心理学　（00341）公文写作与处理（03349）政府经济管理概论　（03350）社会研究方法（00182）公共关系学　（00312）政治学概论　公安管理（030403）　（00359）保卫学　（00361）公安法规（00354）公安学基础理论　（00356）公安管理学　（00358）刑事侦察学　工商企业管理（020201）　（00147）人力资源管理（一）　（00148）国际企业管理（00065）国民经济统计概论　（00055）企业会计学　（00043）经济法概论（财经类）　计算机信息理（082207）　（04754）电子商务与电子政务　（00342）高级语言程序设计（一）　（02384）计算机原理　（02120）数据库及其应用（02382）管理信息系统　护理学（100701）　（02901）病理学　（02903）药理学（一）（02996）护理伦理学　（02998）内科护理学（一）（02113）医学心理学　（03001）外科护理（一）（03002）妇产科护理学（一）　秘书（050102）　（00067）财务管理学

（00341）公文写作与处理　（00182）公共关系学

（00509）机关管理　计算机及应用（080701）　（02142）数据结构导论　（00342）高级语言程序设计（一）　（04732）微型计算机及其接口技术　（02120）数据库及其应用　律师（030111）　（00922）经济法原理与实务　（00918）民事诉讼法原理与实务（一）　（00921）商法原理与实务　（00917）民法原理与实务　藏语言文学（050120）　（03706）思想道德修养与法律基础　（04964）公共关系学（藏）　（03707）毛泽东思想、邓小平理论和“三个代表”重要思想概论　（00542文学概论（藏）（二）　电力系统及自动化（080604）　（03706）思想道德修养与法律基础　（00022）高等数学（工专）　（02300）电力系统基础　（00012）英语（一）

水利水电建筑工程（080901）　（00018）计算机应用基础　（02387）工程测量　（02452）工程水文　（02453）水利工程施工与定额管理　小学教育（040103）　（00409）美育基础　（00407）小学教育心理学（00410）小学语文教学论　（00411）小学数学教学论（00408）小学科学教育　（00412）小学班主任（00395）科学、技术、社会　金融（020105）　（00075）证券投资于管理　（00065）国民经济统计概论　（00055）企业会计学　（00043）经济法概论（财经类）　旅游管理（020209）

会计　（00182）公共关系学

交通运输（铁路运输方向）（081701）　（03706）思想道德修养与法律基础

（04729）大学语文

学前教育（040101）　（00386）幼儿文学（00389）学前教育科学研究　（00388）学前儿童数学教育　（00393）学前儿童语言教育　（0390）学前儿童科学教育（00395）科学、技术、社会　餐饮管理（020118）（中职衔接专科）

（00977）餐饮业法规　（00982）餐饮服务

人物形象设计（050436）（中职衔接专科）　（00688）设计概论

（00681）服装款式设计

本

科汉语言文学（本科）（050105）　（00540）外国文学史　（00812）中国现当代作家作品研究　（00539）中国古代文学史（二）（00321）中国文化概论　（00541）语言学概论　经济学（本科）（020115）　（00143）经济思想史　（00142）计量经济学　（00138）中国近现代经济史　（00051）管理系统中的计算机应用　会计（本科）（020204）　（00162）会计制度设计　（00149）国际贸易理论与实务　（00159）高级财务会计　（00161）财务报表分析（一）　法律（本科）（030106）　（05678）金融法（00230）合同法　（00227）公司法（00262）法律文书写作（00257）票据法　（00263）外国法制史（05680）婚姻家庭法　（00228）环境与资源保护法学（00169）房地产法　英语（本科）（050201）　（00600）高级英语　（00830）现代语言学　（00833）外语教学法（00840）第二外语（日语）　（00603）英语写作　电力系统及自动化（本科）（080605）　（02310）电力系统分析　（00023）高等数学（工本）　（03708）中国近现代史纲要

（00015）英语（二）

律师（本科）（030108）　（05678）金融法（00230）合同法　（00227）公司法（00993）法院与检察院组织制度　（00229）证据法学（00924）婚姻家庭法原理与实务　（00925）公证与基层法律服务事务（00228）环境与资源保护法学　藏语言文学（本科）（050111）　（00560）外国文学（藏）　（04967）藏文写作（二）　（04971）藏族现当代文学作品选　（04966）藏传因明学　政治学（本科）（030308）　（03709）马克思主义基本原理概论　（00348）马克思主义政治学原著选读　（00316）西方政治制度　（00351）中国近现代政治制度　数学教育（本科）（070102）　（02010）概率论与数理统计（一）　（02018）数学教育学　（02011）复变函数　（02009）抽象代数　公安管理（本科）（030401）　（00372）公安信息学　（00235）犯罪学（一）　（00860）公安行政诉讼　（00373）涉外警务概论　金融（本科）（020106）　（00067）财务管理学　（00076）国际金融　（00077）金融市场学　（00051）管理系统中的计算机应用　工商企业管理（本科）（020202）　（00067）财务管理学　（00149）国际贸易理论与实务　（00154）企业管理咨询　（00051）管理系统中的计算机应用　计算机及其应用（本科）（080702）　（04747）Java语言程序设计（一）（02331）数据结构　（00342）高级语言程序设计（一）（04735）数据库系统原理　（04737）C++程序设计　（02333）软件工程　水利水电建筑工程（本科）（080902）　（03709）马克思主义基本原理概论　（02460）工程质量与进度控制　（02459）水利工程经济与经营管理　（00420）物理（工）

畜牧兽医（本科）（090403）　（03709）马克思主义基本原理概论

（03708）中国近现代史纲要　（00015）英语（二）　草业科学（本科）（090117）　（03709）马克思主义基本原理概论

（03708）中国近现代史纲要　（00015）英语（二）　化学教育（本科）（070302）　（02055）中级有机化学　（00342）高级语言程序设计（一）　（02056）仪器分析（一）　（02053）结构化学　旅游管理（本科）（020210）　（00067）财务管理学

（03708）中国近现代史纲要　（00015）英语（二）　行政管理（本科）（030302）　（00320）领导科学（00067）财务管理学　（00319）行政组织理论　（00316）西方政治制度（00321）中国文化概论　（00322）中国行政史（00323）西方行政学说史　护理学（本科）（100702）　（03006）护理管理学（03203）外科护理学（二）　（03008）护理学研究（03009）精神障碍护理学　（03005）护理教育导论（00182）公共关系学　（03010）妇产科护理学（二）（03011）儿科护理学（二）（04436）康复护理学　建筑工程（本科）（080806）　（02440）混凝土结构设计　（03347）流体力学　（02448）建筑结构试验　（02447）建筑经济与企业管理　计算机信息管理（本科）（082208）　（02142）数据结构导论（00910）网络经济与企业管理　（04735）数据库系统原理　（04737）C++程序设计（03173）软件开发工具（02384）计算机原理　（04757）信息系统开发与管理（02382）管理信息系统　计算机网络（本科）（080709）　（04747）Java语言程序设计（一）（02331）数据结构　（04749）网络工程（04735）数据库系统原理　（02379）计算机网络管理　（03142）互联网及其应用　小学教育（本科）（040112）　（00464）中外教育简史　（00458）中小学教育管理　（00466）发展与教育心理学

音乐教育（本科）（050408）　（03709）马克思主义基本原理概论

（03708）中国近现代史纲要　（00015）英语（二）　电力发供用技术（本科）（080609）　（03709）马克思主义基本原理概论

（03708）中国近现代史纲要　（00015）英语（二）　铁路运输工程（本科）（081712）　（03709）马克思主义基本原理概论

统计学语言论文篇4

Quantitative Linguistics：State of the Art, Theories and Methods

Liu Haitao1 Huang Wei2

(1.School of International Studies, Zhejiang University, Hangzhou 310058, China； 2.Chinese Proficiency Test Center (HSK), Beijing Language and Culture University, Beijing 100083, China)

Abstract：Quantitative linguistics concerns itself with the various language phenomena,language structures,structural properties,and their interrelations in real-life communicative activities.Through various quantitative techniques,it conducts accurate measurement,observation,simulation,modeling and explanation of these phenomena in order to discover the mathematical laws underlying the language phenomena,reveal the intrinsic reasons for these phenomena,and explore the self-adaptive mechanisms of the language system and the dynamics of language evolution.Quantitative linguistics is a typical combination of natural and social sciences,with distinct interdisciplinary characteristics.These characteristics distinguish quantitative linguistics as the branch of linguistics with the best adherence to the paradigm of modern science.The language laws it discovers contribute to more accurate description and explanation of relevant language phenomena and are vitally important and necessary for the establishment of a type of linguistic theory in the modern scientific sense.As an empirical discipline based on authentic language data,the mode of thinking and research methodology practiced in quantitative linguistics are generally in line with those in other empirical disciplines.The most representative accomplishments of quantitative linguistics are the various language laws concerning the structure and evolution of human languages,which constitute the basis of relevant theories.Synergetic linguistics,an outcome of the application of synergetics to linguistic studies,marks a more advanced stage of the development of quantitative linguistics.Under the theoretical framework of synergetic linguistics,we can integrate the separated language laws into a linguistic theory with greater explanatory capacity.An attempt to solve the equilibrium between various language-related demands in communication,synergetic linguistics is the instantiation and modernization of Zipf’s least effort principle.In the foreseeable future,researchers in quantitative linguistics around the world are expected to conduct in-depth studies along the following lines of research: (1)the mechanisms and laws governing how words form sentences; (2)the search for more universal syntactic formalisms for the sake of cross-linguistic verification of various syntactic rules; (3)the synergetic relations between different levels of human languages,with focus placed on syntax; (4)the application of various new methods to more efficient and systematic exploration of the rules governing the structure and evolution of human languages; (5)attempts at applying quantitative facts of syntax to syntactic analysis based on authentic language data; (6)the relationships between quantitative facts of syntax and cognitive processing of sentences; (7)the search for synergetic linguistic models more compatible with empirical facts of cognitive processing of language; (8)the construction of more explanatorily adequate lexical-syntactic synergetic models; and so forth.These issues not only reflect the gaps in the current body of quantitative linguistic research but also indicate possible directions for future research.

Key words： quantitative linguistics; Mandarin Chinese; language law; Zipf; mathematical linguistics

2012年2月刘海涛黄伟：计量语言学的现状、理论与方法

2012年2月浙江大学学报(人文社会科学版)

语言研究的科学化是现代语言学家的一个主要努力方向和重要目标。现代自然科学成功的原因主要在于可验证的结论、精准的预测能力以及丰富的实际应用，而这些均需通过各种实验方法与恰当的模型来获得。因此，测(计)量方法和实验手段的改进是自然科学得以持续发展的根本保证之一。在人文社科领域中，除心理学、经济学、社会学等学科外，计量手段却鲜有运用。如果计（定）量是一门学科科学化的有效方法，那么，在语言学中引入计量方法可能是语言研究科学化的必要途径和有效手段。

在索绪尔之后，现代语言学的早期兴趣主要在语言结构方面。为此，语言学家采用了一些定性的数学方法，如逻辑、代数、集合论等。遗憾的是，对结构的过分强调导致了研究者将语言看做是一种静止的系统，系统中那些无法纳入结构的内容则几乎被完全抛弃。为了弥补这个缺陷，有必要在语言研究中将数学的定量与定性方法结合起来使用。这种结合催生了计量语言学的出现。

计量语言学(Quantitative Linguistics)以真实的语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的相互关系作为研究对象，通过概率论、随机过程、微分与微分方程、函数论等数学的定量方法(与代数等数学的定性方法相对)对其进行精确的测量、观察、模拟、建模和解释，寻找语言现象背后的数理规律，揭示各种语言现象形成的内在原因，探索语言系统的自适应机制和语言演化的动因［12］。简言之，计量语言学是以真实语料为基础、用精确的方法来研究语言结构与发展规律的语言学分支学科。

本文将对计量语言学现状、理论与方法进行分析，旨在厘清该学科进一步发展的走向；文章对针对汉语的计量语言学研究给予了特别关注，希望能引起国内学者对语言计量研究的重视，进而推动中国语言学的国际化与语言研究的科学化水平。

一、计量语言学的历史与现状

(一)计量语言学的建立与发展

1935年，美国语言学家G.K.Zipf有关语言统计的著作出版［3］，标志了一个新的语言学分支学科和一种新的语言研究方法的诞生。Zipf认为，利用统计方法可以定量研究语言中的各种现象，这样语言学便可成为一门精确科学。Zipf这本书的标题The Psycho-Biology of Language(《语言的心理生物学》)表达了结合人类的经验与功能来研究语言的愿望，该书的副标题An Introduction to Dynamic Philology(《动态语文学导论》)则强调了这种方法与其他方法的主要区别在于研究采用的是真实的语言样本。由于语言应用的变化也会导致理论研究结论的变化，因此这是一种动态的语言学研究方法。Zipf所倡导的这种用精确的方法来研究语言结构与发展规律的学科，今天称之为“计量语言学”。

在Zipf之后，20世纪五六十年代有不少语言学家开始使用数学方法来进行语言规律的探索，其中尤为突出的是英国学者Gustav Herdan出版的几本有关计量(数理)语言学的著作［45］。此后，计量语言学在德国和东欧得到了快速发展。目前这一领域的主要代表人物大多来自德国、奥地利及东欧国家，其中最著名的是德国波鸿大学的Gabriel Altmann教授。他在计量语言学的诸多领域均有重要贡献，是Zipf之后最重要的计量语言学家，被誉为现代计量语言学的奠基人之一［6］。另外一位重量级人物是特里尔大学的Reinhard Khler教授，现任国际计量语言学学会(International Quantitative Linguistics Association，IQLA)会长及该学会会刊Journal of Quantitative Linguistics(JQL，为SSCI与A＆HCI源刊)主编。他对计量语言学最大的贡献是提出了协同语言学(synergetic linguistics)的理论，通过这种理论架构，我们可以将零散的语言定律整合为一个更具解释力的语言理论。国际著名的语言学出版社de Gruyter正在出版一个“计量语言学”(Quantitative Linguistics)图书系列，目前已出版65种。德国的RAM出版社不仅出版计量语言学的名刊《语言计量学》(Glottometrics)，也在出版一个“计量语言学研究”(Studies in Quantitative Linguistics)书系，目前已出了12种。

计量语言学研究不只是以上国家和地区的一个局部现象，它的研究方法和对象已涉及多国学者与多种语言。这方面的情况可见Reinhard Khler主编的《计量语言学研究文献目录》(Bibliography of Quantitative Linguistics)［7］，这本800多页的文献目录收录了6341个计量语言学的重要文献信息。这本书所收录文献的截止时间为1990年左右，而1990年以后才是计量语言学发展的黄金时期，因此，计量语言学已有大量研究成果应是一个不争的事实。

2005年，de Gruyter在其久负盛名的“语言与交际研究全书”(HSK)书系中出版了由Khler等人主编的《计量语言学研究全书》(Quantitative Linguistik：ein Internationales Handbuch)［1］。这本书不仅反映了现代计量语言学在音位学、形态学、句法学、词汇学、语义及语用学、地理语言学及方言学、类型学与语言的历时研究等领域所取得的成果，也用计量语言学中的主要模型、假设及定律形象地介绍了计量语言学研究所用的主要手段和方法，讨论了计量语言学与其他科学研究领域的关系，介绍了计量语言学的方法、模型及成果在多个领域(包括自然语言处理、机器学习、语音处理、基于概率的句法分析、信息论、神经语言学、计算机辅助学习、文本的可理解性、语言自动机、音文转换、术语学及心理分析等)的应用前景。由此可以看出，计量语言学不但已经深入到语言研究的各个领域，而且其研究成果与方法也已被用于其他相关领域。

目前国际上已有专门的计量语言学学术团体(IQLA)、学术刊物(JQL, Glottometrics, Glottotheory)以及众多的学术著作。国际计量语言学会议(QUALICO)始于1991年，每三年召开一次。国外语言学家已对多种语言进行了多层次、全方位的计量研究，发现了许多语言系统的结构和演化规律。这些研究不仅有助于人类对语言系统的精确认识，加深了对人的认知机理的理解，也极大地提升了语言研究的科学价值，同时也对自然语言处理、自动文本分类、摘要及关键词提取、语言教学与测试等领域具有很高的实用价值。

(二)计量语言学的特点与学科地位

不同于一般的采用代数、集合、逻辑等方法对语言的结构特征进行(静态)定性描述的形式(代数)语言学，也不同于通过语料库来研究语言结构与运用的语料库语言学，计量语言学关注的是语言的定量特征以及这些特征之间的协同关系。因此，计量语言学与其他语言学分支的差别主要是方法上的差别。采用从真实文本中抽象出的数量关系描述与理解语言系统及其组成成分的发展和运作规律，当是计量语言学的根本任务。“精确、真实、动态”是计量语言学研究的三大特点。计量语言学认为，语言是一种生物―认知现象，也是一种心理―社会现象。语言系统是一个自组织、自适应的动态系统，也是一个复杂系统。计量语言学研究涉及语言学、数学、统计学、社会学、心理学、物理学、系统科学和计算机科学等多个学科领域，是一个典型的文理交叉学科，具有鲜明的跨学科研究特质。这些特点使计量语言学成为语言学诸多分支中最具现代科学特点的一个研究领域，而它所发现的语言规律也有助于更精确地描写与解释相应的语言现象，对于构建一种现代科学意义上的语言学理论是非常重要的。

在学科分类上，日本学者伊藤雅光将计量语言学视为数理语言学的一个分支，与狭义的数理语言学(形式语言学、代数语言学等)及计算语言学并列［8］4。伊藤的这个分类与我国学者冯志伟早在1985年出版的《数理语言学》(知识出版社)一书中所述分类极为相似。冯志伟认为，数理语言学包括代数语言学、统计语言学及应用数理语言学。在统计语言学一章中，介绍的内容基本就是早期计量语言学的一些成果和方法，而应用数理语言学一章的内容在今天大多可归到计算语言学中。我们基本同意冯志伟及伊藤的这种三分法，因其体现了数理语言学的几个重要特性：系统性与动态性(计量语言学)，精密性与基础性(代数语言学)，实用性与可操作性(计算语言学)。计算语言学代表实用性，并不意味着它不具备系统性或精密性，但就实用方面而言，现代计算语言学毫无疑问是这三个分支中最突出的。计量语言学的系统性则体现在其研究的重点是通过真实语料和统计手段来探究语言系统各个成分的构成规律及它们之间的协同关系，进而加深我们对语言系统运作的理解。

从研究对象和研究方法上来说，计量语言学以语言结构和演化规律等为研究对象，以统计检验和其他定量数学方法为研究方法；代数语言学以语言结构背后抽象出来的数学形式为研究对象，以定性的数学方法为研究方法；计算语言学以语言结构的理解与生成为研究对象或目标，以统计和规则为基本研究方法。

综上所述，计量语言学可视为数理语言学的一个分支，与计算语言学、代数语言学一起构成了采用数理手段探究人类语言的一个语言学分支学科。

(三)汉语计量语言学研究现状

世界各国的计量语言学学者已经发现了不少具有普适性的语言定律(见本文第二部分)，并被多种语言所验证，通过这些定律我们可以更好地了解语言的结构与演化规律。然而遗憾的是，在这些定律中几乎没有我们中国人的发现，就连真正从计量语言学角度研究汉语的成果也极为罕见。例如，在以上提及的计量语言学研究书目中，与汉语有关的文献只有15个，占比不到0.3%。

为了尽可能对国内学者的有关研究成果有个全面了解，我们用相关词语对CNKI的《中国学术期刊网络出版总库》进行了快速检索（检索时间： 2011年10月1日）。用“汉语+频率”检索出911项，用“计量语言学”检索出114项，用“定量语言学”检索出9项，“汉语+计量”检索出63项，“词频”检索出11365项，“汉语+词频”检索出178项，“汉语+定量”检索出43项，“字频”检索出1529项，“句法+频率”检索出4项，“汉语+定律”检索出1项，“Zipf”检索出2271项，“汉语+Zipf”检索出0项，“词频+Zipf”检索出2项。我们对这些检索结果进行了大致分析，发现国内目前对(上述)现代计量语言学的方法还比较陌生，基本不了解现代计量语言学的文献和成果，有关语言计量的方法或研究内容也大多停留在字词频统计层面。这与Cornelia Schindelin在上述《计量语言学研究全书》中所撰写的有关中国计量语言学一章的结论基本吻合。

国外关于汉语的计量语言学研究主要有以下几项：Breiter有关汉语词长与词频的关系及词类、语体的研究是典型的、时间较早的汉语计量语言学研究［9］，其研究的问题和研究方法对现在的汉语计量语言学研究具有指导作用，但研究的精细程度尚需加强。Bohn提出了用汉字的笔画数量表示汉字复杂度的方法［10］。Altmann认为这种方法在不同类型文字的普适性方面局限性太大，并指出字符的复杂程度不可能只涉及笔画的数量，继而提出了基于字符所包含的不同符号(笔形)和连接类型的复杂度的表示方法［11］。虽然这两种方法都能够满足一定的研究目的，但却很难从语言学和文字学角度对文字复杂度的相关研究进行解释。以笔画数定义复杂度的方法虽然保持了语言文字学的研究习惯，但笔画数只是汉字结构复杂程度的不完全度量，这种方法涉及的语言学知识又显得过于单薄。此外，德国哥廷根大学的Best等人也对汉语短篇小说及信件的词长分布进行了一些探索性研究［1213］。

从事计量语言学研究的学者主要集中在德国与东欧地区，研究对象主要是印欧语、斯拉夫语和拼音文字。以汉语和汉字为对象的计量语言学研究无论从研究范围还是研究深度来说都还很不够。为数不多的国外学者关于汉语和汉字的计量语言学研究由于缺乏汉语语言学和汉字学的学者及研究成果的介入，研究方法(主要指概念的操作性定义和量化过程)和结论自然也都很难从汉语语言学、汉字学的角度来理解、解释和应用。再加上汉语、汉字在形式上与印欧语、拉丁文字有较大差别，那些从印欧语和拉丁文字等语言材料中发现的计量语言学理论(定律)和方法是否适用于汉语和汉字的研究，仍需进一步检验。

我国学者采用数理方法研究汉语现象主要是随着语言文字改革和语言教学以及语料库语言学的发展而展开的。然而，将数理统计方法运用于语言研究并不等同于计量语言学研究。采用代数、图论、算法学、拓扑学、数理逻辑等方法进行的语言研究仍然是一种定性的、静态的描写研究，计量语言学更注重的是语言的定量与动态特征及其在描述、理解语言系统及其组成成分的发展与运作中的作用。除了汉字的熵［14］、汉字效用递减率［15］及汉字效用函数［16］、常用字笔画趋简率［17］、术语形成的经济律与生词增幅递减律［18］等外，大多数汉语计量研究属于定性的计量描写研究。比如，汉字的计量研究主要集中在现代汉语用字的字频统计、汉字属性研究和现代汉字规范化方面；词汇方面的计量研究主要是基于语料库进行的词频统计及其方法的研究；汉语语音层面的计量研究以基于词典等材料进行的音节和声调的静态分布研究为主；句法等其他层面的汉语计量研究并不多见。实际上汉字效用递减率和常用字笔画趋简率仍是根据计量描写研究提出的有待量化和验证的理论假设，尚未公式化，还不能算严格意义上的计量语言学规律(定律)。尽管如此，上述研究对现代汉语中的字、词、语音等进行了比较全面和深入的计量描写，不仅在辞书编纂、教学大纲的制定和教材编写、汉字及汉语信息处理等方面发挥了重要作用，也为汉语的计量语言学研究提供了一定的研究基础。

由此可见，计量语言学在国内仍然是一个鲜为人知的领域，为数不多的有关汉语的计量语言学研究大多是由一些外国学者进行的。这种状况与中国作为人口大国和汉语作为一种使用者众多的语言的事实是极不相称的。如果我们继续忽视汉语的计量语言学研究，极有可能导致大多数的汉语结构和演化规律是由外国人发现的尴尬境况，也可能出现由于国外学者对汉语本身了解不深，进而得出一些不太可靠结论的情况。因此，有必要在国内尽快开展更深入、更广泛的汉语计量语言学研究。

二、计量语言学中的定律与理论

作为一门基于真实语言材料的实证学科，计量语言学最具代表性的成果是有关语言结构及其演化的各种定律。按照科学哲学的观点，定律是构成理论的基础。换言之，没有定律也就没有真正意义上的理论。

(一)计量语言学的定律

经过几十年的努力，各国计量语言学学者已经发现了不少具有普适性的计量语言学定律。这些定律可以分为三类：分布定律、函数定律、演化定律。分布定律描述了语言结构在语言系统和语言使用中的定量特征。函数定律用于描述不同的语言结构(及其属性)间的相互关系。演化定律则建立了相关语言性质变化的动力学模型。Zipf定律、Menzerath-Altmann定律、Piotrowski-Altmann定律分别是这三类定律的代表。

1.Zipf定律［3，19］。20世纪20年代，哈佛大学语言学家Zipf在研究人类语言的真实文本时发现，词出现的频数与其频数秩(序号)之间具有反比例关系，这一关系后来被称为Zipf定律。Zipf定律是计量语言学最早提出的统计规律之一，也是一个在计量语言学中具有核心地位、与诸多语言性质和语言过程密切相关的语言规律。就应用价值来看，与Zipf定律有关的语言研究不仅对计算语言学、语言信息处理、语料库语言学、语言教学与测试等领域有重要意义，而且Zipf定律中的某些参数还能够作为语言分类的指标。更为重要的是，Zipf定律不仅仅是自然语言的一条基本法则，也适用于物理学、社会学、经济学、生物学等人类社会的诸多领域。据不完全统计，截至2011年12月，已有九百多篇与Zipf定律相关的文献问世(http：//省略/wli/zipf/)。刊登这些研究的除了语言学书刊外，几乎涉及人类科学所有领域的出版物，还包括Nature、Science等顶级学术刊物。这不仅说明了计量语言学的科学性，也说明采用计量方法来研究人类语言是极具学术价值的一个研究方向。

2.Menzerath-Altmann定律［2021］。1928年，德国心理学家、语音学家Paul Menzerath在研究词和音节的长度关系时发现，随着一个词所含音节数的增加，这些音节的平均长度会减小。他将此种现象概括为“整体越大，其组成部分就越小”。为了用数学公式建立语言学单位间的这种部分与整体的关系，Altmann于1980年对此进行了数学描述，将其更精确地假设为“一种语言结构越长，则构成它的成分越短”，即部件长度是结构长度的函数。今天人们将这一定律称为Menzerath-Altmann定律。其基本形式的推导过程如下：设x为部件尺寸，y为结构尺寸，则以上假设可以描述为部件的相对变化dy/y与结构的相对变化d

按照假设，比例系数为负，这样就得到以下方程：

两边积分后得：

式中的A和b为常数，在同一种语言的不同文本里，这两个常数的值会有不同，可作为一种文本特征来使用。

从形式上看，Menzerath-Altmann定律是一种幂律(power law)，在其他领域也有这种规律存在。世界各国的计量语言学家已经考察过多种语言，发现表1所列的语言结构单位及其成分间的长度关系均符合Menzerath-Altmann定律。

3.Piotrowski-Altmann定律［22］。如何用数学手段来描述语言中的变化是计量语言学家所关心的问题之一。1974年，苏联语言学家R.Piotrovski及其夫人提出用反正切函数来描述语言的演化规律。1983年，Altmann等人在Piotrowski夫妇发现的基础上，结合Labov等人的研究成果，提出了语言演化规律的三种变体。因此，后人将语言变化规律称为Piotrowski定律或Piotrowski-Altmann定律。这一定律认为，“所有语言变化都是新老形式交互作用的结果”。这种交互作用可以用下式来描述：

其中pt表示新形式所占的比例，kt表示一个时间函数(也可为常量)，C表示变化区间，t表示时间，t>0,dpt表示比例变化。式(1)说明新形式的比例变化是与新旧形式的交互成比例的。解此式，可得到三个解：

(a)完全变化，此时C=1，并且kt=b为常量。

其中a为积分常数。式(2)所表示的逻辑斯蒂曲线在许多领域均存在，一般用来描述增长现象。

其中a、b、c是a′、b′、C的简单函数。

除了上述定律外，计量语言学在多种语言的文本中还有诸多重要发现［1,23］，如：文本中词长(通常以音节数计)的分布符合泊松分布(Poison distribution)，包括超泊松分布(hyper-Poison distribution)、单位移超泊松分布(1displaced hyper-Poison distribution)、单位移混合泊松分布(1displaced mixed Poison distribution)；词类的频率在文本中的分布因语言的不同而服从Zipf截尾分布(Zipf-truncated distribution)、单位移超泊松分布或单位移超几何分布(1displaced hyper-geometric distribution)。

除了关于语言结构和系统的公式化描写与解释研究外，还有一些计量语言学研究与应用领域紧密结合，如英语文本中限定词的分布具有文本分类的作用，文本的某些计量特征可应用于语言类教材的评估，文本的计量特征与文本的可理解性有密切关系，等等。

(二)协同语言学

以上这些定律的发现对于我们更精确地理解语言的结构和语言的发展无疑有极大的帮助。语言的计量研究不但有益于提升语言研究的精确性和科学性，也有助于弥补传统方式的不足。然而，采用计量语言学的方式所发现的各种定律虽然有助于人们认识单个语言现象的本质，但如何将这些不同层面的语言学定律结合在一起却不是一件容易的事情。如果我们要对语言进行一个全面的描述，那么就有必要将这些定律结合在一起概括成更高层面的原则，形成一个基于普适定律的语言学体系或理论架构。这也是Khler提出协同语言学的初衷。

1986年，Khler出版了《语言协同学：词汇的结构以及动力学》(Zur linguistischen Synergetik: Struktur und Dynamik der Lexik)一书［24］，这标志着协同语言学的诞生。协同学(synergetics)是由德国学者哈肯(Hermann Haken)在20世纪70年代提出的［25］，它是一个研究不同事物共同特征及其协同机理的新兴学科。协同论认为，各种系统尽管属性不同，但在整个环境中，各个系统间存在着相互影响而又相互合作的关系。协同学的主要特点是通过类比为从无序到有序的现象建立一整套数学模型和处理方案。协同语言学是将协同学应用到语言研究领域的产物，是计量语言学发展的更高阶段。

Khler认为，理论是由普遍规律(定律)组成的系统，没有定律就无法进行解释。协同语言学的主要任务是提供一套构建语言学理论的架构，即这套建模方法可以用来建立普适的假设，测试假设，并将这些假设组合起来形成定律和类似于定律的描述网络，以便解释所观察到的现象。这种方法也有益于重构近几十年来正在丧失的语言观：语言既是一种心理―社会现象，同时也是一种生物―认知现象。协同语言学的基本公理是：语言是一个自组织和自适应的系统，是一个特殊的动态系统。

首个协同语言学的模型是由Khler于1986年建立的，这是一个有关词汇的语言子系统(图1)。在Khler的模型图中，长方形表示的是系统变量(如状态或控制变量)；圆形代表的是系统需求；正方形表示的是运算符，在大多数情况下，运算符是一些带有正负号的比例算子。在阅读分析这个语言系统图时，要注意图中所表示的关系实际上是对最初假设进行对数转换后的结果。

图1摘译自R.Khler，″Synergetic Linguistics，″ in R.Khler，G.Altmann ＆ R.G.Piotrowski(Hrsg.)，Quantitative Linguistik：ein Internationales Handbuch，Berlin ＆ New York：de Gruyter，2005，p.768.［R.Khler，″Synergetic Linguistics，″ in R.Khler，G.Altmann ＆ R.G.Piotrowski(eds.)，Quantitative Linguistics：An International Handbook，Berlin ＆ New York：de Gruyter，2005，p.768.］(经原作者同意，图1修改了原图中的少量印刷错误。)

从Khler的词汇子系统结构示意图(图1)中可以得到下列等式(或公式)［26］768：

(1)LS=CodVPS-L

词库大小(lexicon size)是编码需求(这里特指需要编码的意义数量)和多义词的函数。量V是需求Spc、Var和 Inv的函数，这些需求反映的是形义关系稳定性和灵活性之间的平衡和折中。

音素的数量(phoneme number)是平衡反映编码和解码需求的结果。

词长(length)是词库大小、冗余、语音总藏大小(phonological inventory size)及频率的函数。

多义词(polysemy)是需求minC、minD和词长之间折中的结果，量-T是Spc的函数。

(5)PT=CES2CS-S1PLG

多文度(polytextuality，即可能的上下文数量)是多义词以及上下文全局化和上下文集中化过程相互作用的函数。

一个词项的频率(frequency)取决于它的意义的交际关联度和它的多文度。

同义词(synonymy)是多义词和编码需求的函数，它是灵活性需求和稳定的形义关系之间折中平衡的结果。

以上这些等式中的minP、minI、minD和minC等符号反映的是语言交际中的需求。语言交际包括说话人和听话人，在交流的过程中，两者都想用最省力的方式来完成交际，因此，交际过程是一种说话人和听话人之间的折中。换言之，在一个探讨语言交际的模型中，是不能忽略这些因素的作用的。协同语言学模型中的minP表示的是言语生成方面的最小化，minI是语言单位总藏的最小化(这是与人的记忆密切相关的)，minD表示的是解码方面的最小化，minC是编码方面的最小化。由此可见，旨在解决这些因素和交际需求平衡的协同语言学是Zipf“省力原则”(the least effort principle)的具体化和现代化。

以上模型中的每一个假设均得到过实际数据的验证，其中许多假设更是通过了类型各异的语言的验证。这些实证研究说明，采用协同学的原理来研究语言系统是可行的、值得进一步努力的。

(三)句法计量研究

应该承认，与语音、词汇等层面的计量语言学研究成果相比，句法计量研究还缺乏相对成熟、经过多种语言验证的定律。考虑到句法对于人类语言的重要性，世界各国的研究者正在加大这一方面的研究投入。

近年来，随着各种句法标注语料库(树库)的出现，采用标注语料库进行句法计量研究正成为计量语言学领域的一个研究热点，句法计量研究方面也出现了一些有意义的成果。Khler和Altmann使用短语结构树库(Susanne Corpus)对英语的句法现象进行了计量分析［27］，建立了基于短语结构句法计量研究的基础。在此基础上，Khler等人构拟了句法子系统的协同语言学模型［28］。句法子系统的基本单位是句法构式，基础是句法成分关系。句法子系统研究的主要计量特征有：频率(构式在语料库中出现的频率)，长度(某个构式中终极结点“词”的数量)，复杂度(某个构式的直接成分的数量)，位置(在上层构式或句子中的位置，从左到右计算)，嵌入深度(从起始符号到该构式的生成步骤)，信息度(这是信息论意义上的概念，相当于储存这个构式的语法关系所需要的短时记忆空间)，功能度(一个构式有多少不同的功能)，共功能度(某一个功能和多少其他功能共享一个句法表达方式)，以及相关构式类型的数量，包括句法构式类型的数量(成分类型)、句法功能的数量、句法范畴的数量、功能等价物的数量(可满足某个功能的不同句法构式的数量)。

与词汇层面的语言计量研究不同，句法层面的语言计量研究涉及两个特殊问题：一是句法体系问题，二是研究所需的句法资源问题。尽管目前有许多句法理论，但就其本质而言，可将句法理论分为两大类：短语结构句法与依存关系句法。短语结构关注句子各成分之间的部分与整体关系，而依存分析侧重的是构成句子的各个成分之间的关系。在选定句法体系之后，就需要对研究语料进行句法标注，形成带有句法结构信息的语料库，也称树库。换言之，句法计量模型不仅与句法模型本身密切相关，而且也会受到所用资源的约束。Khler等人构拟的句法协同子系统是建立在短语结构语法理论之上的。为了更好地揭示人类语言的句法(结构)规律，仅使用短语结构是不够的。与短语结构句法理论相比，依存句法更易于实现从句法层面到语义层面的转换，更具普适性以及更能体现语言处理机制的心理现实性［29］，因此有必要开展基于依存句法理论的语言计量研究。刘海涛采用汉语依存树库研究了依存关系、支配词与从属词、动词作为支配词、名词作为从属词等的概率分布，发现它们大多符合Zipf-Alekseev分布［30］。刘海涛也研究了自然语言与随机语言的依存距离分布，发现自然语言符合右截尾Zeta分布(Right-truncated Zeta distribution)，随机语言则没有这样的特点，在三类语言中，自然语言的平均依存距离最小［31］。刘海涛的这两项研究为构建基于依存句法的句法协同子系统作了一些有意义的探索。乐明与刘海涛采用一个RST标注的汉语树库研究了修辞关系的概率分布，发现在篇章层面语言的发展也是遵循多样化原则的［32］。

配价不但是现代句法理论中一个重要概念，更是与依存语法密切相关的一个语言学概念，对其进行计量研究有助于理解人类语言的某些句法语义特征。Khler以德语配价词典为基础，研究了德语动词配价的某些计量特征［33］。Cˇech和MaCˇutek研究了捷克语配价框架的分布，并验证了有关配价框架数与词长之间关系的假设［34］。Cˇech等提出了不用区分补足语和说明语的“全配价”(full valency)概念，并从布拉格依存树库中提取了捷克语的全配价对以下假设进行了验证：全配价模式的概率分布；动词配价模式数与动词词频的关系；配价模式数与动词长度的关系等［35］。刘海涛采用英语配价和频率词典对英语动词配价进行了计量研究后发现：英语动词的义项服从正负二项式分布；英语动词和形容词的补足语模式服从幂律，而名词则符合Zipf-Mandelbrot分布；动词的配价越大，则其词长越短；常用的动词有更大的配价；一个词的词义越多，其配价也越大［36］。

在汉语句法计量研究方面，刘海涛等人采用了多个标注方式和语料等均不相同的汉语句法标注语料库研究了现代汉语的某些句法计量特征，发现汉语的依存距离均值约为2.84，汉语中40%―50%的依存关系不是在相邻的词之间形成的，汉语是一种支配词置后略占优势的混合型语言；汉语支配词居前的依存距离均值要明显大于支配词置后的依存距离均值［37］。刘海涛等人还提出了一种基于依存句法树库计算依存距离的方法，并发现在所研究的20种语言中，汉语的依存距离最大。他们还进一步提出并采用20种语言的真实语料研究了以下三个假设：人类语言分析机制倾向于能最小化处理句子平均依存距离的语序；人类语言存在一个平均依存距离的阈值；语法与认知的协作使语言的依存距离保持在此阈值内［3839］。这些研究说明，以汉语(依存)树库作为研究资源对汉语的句法结构进行计量研究不但充实了国际句法计量研究的成果，也有助于发现使用短语结构树库发现不了的语言属性，同时也为进一步构拟依存语法的句法协同子系统打下良好的基础。

计量语言学研究的实质是通过人类语言活动的产物来挖掘人类语言的结构与演化规律，这些规律应该具有足够的普适性。观察现有计量语言学研究成果不难发现，目前大多数研究采用的语料都来自欧洲语言，鲜有非欧洲语言的研究。随着计量语言学方法的普及，这种情况正在得到改善，但发展速度仍有些缓慢。这种过于注重欧洲语言的现状，对计量语言学的进一步发展是不利的。我们需要用更多类型的语言来验证语言定律的普适性，否则很难把某个定律视为人类语言的普遍规律。同时，扩大计量语言学研究的语种的数量和类型不仅有益于发现普适性的定律，也有助于发现每种语言的特殊性。

另外一个值得注意的问题是语料的形态。上述计量语言学研究所用的语料大多是未经标注的自然语言文本，这样的文本虽然是人类语言运用的一种真实反映，但在这样的文本中，人类语言的所有知识和规律都是隐含的，这也使得从这样的语料中很难挖掘出更深层次的结构与演化规律。

综合考虑，我们认为未来一段时间，世界各国的计量语言学学者们将会在以下几个方面展开深入研究：(1)由词成句的机理与规律；(2)寻求更普适的句法模型，以便采用多种语言来验证各种句法规律；(3)以句法为中心，探求语言各层面的协同关系；(4)采用各种可用的新方法，更有效、更全面地探求人类语言的结构及演化规律；(5)探求如何把句法计量的成果用于真实语料的句法分析之中；(6)探索句法计量规律与句子认知之间的关系；(7)寻求与语言认知实验结果结合更紧密的协同语言模型；(8)构拟更具解释力的词汇句法协同系统等。这些问题既反映了当前国际计量语言学的不足，也为进一步研究指明了方向。

三、计量语言学的方法

科学研究不仅仅是对现象的观察与描写或把观察与描写中得到的知识加以应用，科学的本质在于解释现象。就语言研究而言，寻找可以解释语言现象及其相互关系的语言和文本的普遍定律是其基本目的。有了这些普遍定律与模式，我们就可以判断某些现象、事件以及相互关系存在的可能和条件，并有可能预测某些现象的出现或消失。

作为一门实证学科，计量语言学研究所遵循的思路和研究方法与其他实证学科基本相同，大致包括以下五个步骤(如图2所示)［1］116：

图2 计量语言学研究方法流程图

语言学假设是关于语言本质或贯穿于语言中的普遍规律的猜想，需以断言的方式表达出来。假设以何种方式产生并不重要，但假设的形式与内容应符合一定的要求。假设必须具有实证相关性与可验证性。对于计量语言学中常用的概率假设而言，只有在充足的数据和数学检验的基础上才能证伪假设，而仅用一个反例并不能做到这一点。同理，一个假设也不可能被完全证实，即使全部已有的数据都支持这个假设，也仍然可以对其进行进一步检验。从理论中得出的假设如果在经验中得以证实并可融入到一个有效的(定律和定律假设)理论体系中，那么这个假设就可能成为定律。

概率假设只能用统计方法检验。任何假设，无论是以语言形式还是微分方程形式表述的，都需要转换为可以进行统计检验的表述形式。因此，我们需要了解统计模型以及应用这些模型的条件。实践证明，在这个转换的过程中极易犯错，进而得出无效的结论。如果没有与假设的类型及数据性质匹配的现有模型，就必须新建一个合适的模型。从可操作的角度来说，用来检验模型的那些结构和性质必须与模型的结构和性质一致。尽管有时经过这一过程得出的定义看起来有些不自然，甚至与我们的直觉有较大冲突，但这些定义具有客观以及可检验的优点。需要强调的是：无论是直觉性的定义还是操作性的定义，没有一个是绝对“真”的。定义以及研究结果的正确与否只是相对于所选模型的条件和性质而言的。

在将假设的表述方式用统计学语言进行转换之后，我们需收集尽可能大的语言样本作为数据基础，以便以较高的可信度来证实或拒绝假设。这个阶段与语言本身没有关系，我们只是将统计分析技术加以应用，涉及的是经验事实的理论对应物(抽象的数值)。

使用统计方法处理完数据之后，通常会得到一个数值作为判断检验结果是否显著的标准，即假设是否应被拒绝。但这样的结论不是一成不变的，如果有了新的证据，是可以对其进行修正的。

最后一步是根据最初研究的语言问题来解读统计检验的结果，即把数学形式的结果用自然语言的形式解读为对所研究的语言问题的回答。统计学是一个用来检验假设的演绎性语言研究辅助工具，帮助从样本中得出与普遍性问题有关的、可适用于语言整体的概括性结论，这个过程是归纳的。由此可见，在计量语言学研究中，演绎和归纳这两种方法是互为补充的，缺一不可。

以上所述计量语言学采用的一般研究方法类似于其他一些语言学家所倡导的语言学科学研究方法［40］。

值得注意的是，随着人们对复杂系统的深入研究，出现了许多行之有效的复杂系统研究方法和工具。如何用这些新的方法从计量的角度探究人类语言问题，已成为当代计量语言学家的一个重要任务。例如，复杂网络方法由于能够从整体的角度研究语言复杂系统的某些性质，便也进入了语言学家的工具箱，并正在成为语言研究的有力工具［4142］；系统仿真手段由于能够模拟一些语言发展过程中难以观察到的现象，适用于研究语言的演化过程，也逐渐走上舞台，开始发挥作用［43］。正如我们在本文开篇所言，方法的创新是与科学的发展紧密相连的。因此，计量语言学只有敞开胸怀接纳那些可以更有效地研究语言规律的新方法，才会在奔向科学化的征途中继续前行。

四、结语

本文总结介绍了现代计量语言学的现状、理论、方法以及进一步发展的方向，旨在引起学界对这个极有潜质的语言分支学科的重视，并尽快加入到汉语计量语言学研究的行列中来。

我们认为，在中国开展计量语言学研究不但可以更精确地了解汉语的结构特征，而且可以通过与其他语言的比较，更深入地理解汉语所具有的特殊性和普遍性。更为重要的是，此类研究是真正从系统科学的角度来全面理解汉语系统的基础，对建立在科学哲学基础之上的汉语语言学理论具有极大的意义。

语言是一个复杂的自适应系统。随着人类对复杂系统认识的不断提高，出现了许多新的研究手段和方法。计量语言学应该从其他相关学科中借鉴学习这些方法，并将它们应用到语言研究中来。这些方法包括：物理学中的复杂网络研究方法、社会学中的社会网络分析方法、心理学与认知科学中的各种实验方法、系统科学中的计算机仿真方法等。

总的说来，汉语计量语言学研究是对国际计量语言学的全面补充与发展，有助于提高中国语言学界在国际学界的声望和话语权，是一个值得更多语言学家参与和投入的领域。

［参考文献］

［1］R.Khler，G.Altmann ＆ R.G.Piotrowski(Hrsg.)，Quantitative Linguistik：ein Internationales Handbuch，Berlin ＆ New York：de Gruyter，2005.［R.Khler，G.Altmann ＆ R.G.Piotrowski(eds.)，Quantitative Linguistics：An International Handbook，Berlin ＆ New York：de Gruyter，2005.］

［2］K.H.Best，Quantitative Linguistik： eine Annaeherung，Gttingen：Peust ＆ Gutschmidt，2006.［K.H.Best，Quantitative Linguistics，Gttingen：Peust ＆ Gutschmidt，2006.］

［3］G.K.Zipf，The Psycho-Biology of Language：An Introduction to Dynamic Philology，London：George Routledge ＆ Sons Ltd.，1936.

［4］G.Herdan，Quantitative Linguistics，London：Butterworths,1964.

［5］G.Herdan，The Advanced Theory of Language as Choice and Chance，Berlin：Springer-Verlag，1969.

［6］P.Grzybek ＆ R.Khler(eds.)，Exact Methods in the Study of Language and Text，Berlin: Mouton de Gruyter，2007.

［7］R.Khler(ed.)，Bibliography of Quantitative Linguistics，Amsterdam ＆ Philadelphia：John Benjamins Publishing Company，1995.

［8］伊藤雅光：『量言入，京：大修店，2002。［Ito Masamitsu，An Introduction to Quantitative Linguistics，Tokyo：Taishukan Publishing Company，2002.］

［9］M.A.Breiter，″Length of Chinese Words in Relation to Their Other Systemic Features，″Journal of Quantitative Linguistics，Vol.1，No.3(1994)，pp.224231.

［10］H.Bohn，″Untersuchungen zur Chinesischen Sprache und Schrift，″ in R.Khler(Hrsg.),Korpuslinguistische Untersuchungen zur Quantitativen und Systemtheoretischen Linguistik, 2002, http：//ubt.opus.hbz-nrw.de/volltexte/2004/279/，20111213.［H.Bohn，″A Study on Chinese Language and Writing，″ in R.Khler(ed.)，Corpus Studies in Quantitative and Systems Theoretical Linguistics，2002，http：//ubt.opus.hbz-nrw.de/volltexte/2004/279/，20111213.］

［11］G.Altmann，″Script Complexity，″Glottometrics，Vol.8(2004),pp.6874.

［12］K.H.Best ＆ Zhu Jinyang，″Wortlaengenhaeufigkeiten in Chinesischen Kurzgeschichten，″Asian and African Studies，Vol.7(1998)，pp.4551.［K.H.Best ＆ Zhu Jinyang，″Word Length in Chinese Short Novels，″Asian and African Studies，Vol.7(1998)，pp.4551.］

［13］K.H.Best ＆ Zhu Jinyang，″Wortlaengen in Chinesischen Texten und Woerterbuechern，″ in K.H.Best(Hrsg.)，Haeufigkeitsverteilungen in Texten, Gettingen：Peust ＆ Gutschmidt,2001,pp.101114.［K.H.Best ＆ Zhu Jinyang，″Word Length in Chinese Texts and Dictionaries，″ in K.H.Best(ed.)，Frequency Distributions in Texts, Gettingen：Peust ＆ Gutschmidt,2001,pp.101114.］

［14］冯志伟：《汉字的熵》，《语文建设》，1984年第4期，第1217页。［Feng Zhiwei，″The Entropy of Chinese Characters，″Language Planning，No.4(1984)，pp.1217.］

［15］周有光：《现代汉字学发凡》，《语文现代化》1980年第2辑，第94103页。［Zhou Youguang，″A Study on Modern Chinese Characters，″Yuwen Xiandaihua，No.2(1980)，pp.94103.］

［16］周晓文、李勇：《汉字效用函数研究》，《语文研究》2009年第1期，第6265页。［Zhou Xiaowen ＆ Li Yong，″The Utility Function of Chinese Characters，″Linguistic Researches，No.1(2009),pp.6265.］

［17］王凤阳：《汉字频率与汉字简化》，《语文现代化》1980年第3辑，第83103页。［Wang Fengyang，″Frequency of Chinese Characters and Simplified Chinese Characters，″Yuwen Xiandaihua，No.3(1980)，pp.83103.］

［18］冯志伟：《现代术语学引论(增订本)》，北京：商务印书馆,2011年。［Feng Zhiwei, An Introduction to Modern Terminology(Revised and Enlarged)，Beijing：The Commercial Press,2011.］

［19］G.K.Zipf，Human Behavior and the Principle of Least Effort：An Introduction to Human Ecology，New York ＆ London：Hafner Publishing Company，1965.

［20］G.Altmann，″Prolegomena to Menzerath’s Law，″Glottometrika，Vol.2(1980)，pp.110.

［21］G.Altmann ＆ M.Schwibbe，Das Menzerathsche Gesetz in Informationsverarbeitenden Systemen，Hildesheim：Olms，1989.［G.Altmann ＆ M.Schwibbe，The Menzerath Law in Information Processing Systems，Hildesheim：Olms，1989.］

［22］E.Bethy ＆ G.Altmann，″Das PiotrowskiGesetz und der Lehnwortschatz，″Zs.für Sprachwissenschaft，Vol.1(1982)，pp.171178.［E.Bethy ＆ G.Altmann，″The Piotrowski Law and Loanword，″Journal of Linguistics，Vol.1(1982)，pp.171178.］

［23］I.I.Popescu，G.Altmann ＆ P.Grzybek，et al(eds.)，Word Frequency Studies，Berlin：Mouton de Gruyter，2009.

［24］R.Khler，Zur Linguistischen Synergetik：Struktur und Dynamik der Lexik，Bochum：Brockmeyer，1986.［R.Khler，Synergetic Linguistics：Structure and Dynamics of Lexicon，Bochum：Brockmeyer，1986.］

［25］［德］赫尔曼•哈肯：《协同学：大自然构成的奥秘》，凌复华译，上海：上海译文出版社，2001年。［H.Haken，Synergetics，trans.by Ling Fuhua，Shanghai：Shanghai Translation Publishing House，2001.］

［26］R.Khler，″Synergetic Linguistics，″ in R.Khler，G.Altmann ＆ R.G.Piotrowski(Hrsg.)，Quantitative Linguistik：ein Internationales Handbuch,Berlin ＆ New York：de Gruyter，2005，pp.760775.［R.Khler，″Synergetic Linguistics，″ in R.Khler，G.Altmann ＆ R.G.Piotrowski(eds.)，Quantitative Linguistics：An International Handbook，Berlin ＆ New York：de Gruyter，2005，pp.760775.］

［27］R.Khler ＆ G.Altmann，″Probability Distributions of Syntactic Units and Properties，″Journal of Quantitative Linguistics，Vol.7，No.3(2000)，pp.189200.

［28］R.Khler，″Quantitative Analysis of Syntactic Structures in the Framework of Synergetic Linguistics，″Studies in Fuzziness and Soft Computing，Vol.209(2007)，pp.191209.

［29］刘海涛：《依存语法的理论与实践》，北京：科学出版社，2009年。［Liu Haitao，Dependency Grammar：From Theory to Practice，Beijing：Science Press，2009.］

［30］H.Liu，″Probability Distribution of Dependencies Based on a Chinese Dependency Treebank，″Journal of Quantitative Linguistics，Vol.16，No.3(2009)，pp.256273.

［31］H.Liu，″Probability Distribution of Dependency Distance，″Glottometrics，Vol.15(2007)，pp.112.

［32］M.Yue ＆ H.Liu，″Probability Distribution of Discourse Relations Based on a Chinese RST-annotated Corpus，″Journal of Quantitative Linguistics，Vol.18，No.2(2011)，pp.107121.

［33］R.Khler，″Quantitative Untersuchungen zur Valenz Deutscher Verben，″Glottometrics，Vol.9(2005)，pp.1320.［R.Khler，″Quantitative Studies of Valency of German Verbs，″Glottometrics，Vol.9(2005)，pp.1320.］

［34］R.Cˇech ＆ J.MaCˇutek，″On the Quantitative Analysis of Verb Valency in Czech，″ in P.Grzybek，E.Kelih ＆ J.MaCˇutek(eds.)，Text and Language：Structure，Functions，Interrelations，Wien：Preasen Verlag，2010，pp.2129.

［35］R.Cˇech,P.Pajas ＆ J.MaCˇutek，″Full Valency.Verb Valency without Distinguishing Complements and Adjuncts，″Journal of Quantitative Linguistics，Vol.17，No.4(2010)，pp.291302.

［36］H.Liu，″Quantitative Properties of English Verb Valency，″Journal of Quantitative Linguistics，Vol.18，No.3(2011)，pp.207233.

［37］H.Liu，Y.Zhao ＆ W.Li，″Chinese Syntactic and Typological Properties Based on Dependency Syntactic Treebanks，″Pozna Studies in Contemporary Linguistics，Vol.45，No.4(2009)，pp.509523.

［38］H.Liu，R，Hudson ＆ Z.Feng，″Using a Chinese Treebank to Measure Dependency Distance，″Corpus Linguistics and Linguistic Theory，Vol.5，No.2(2009)，pp.161174.

［39］H.Liu，″Dependency Distance as a Metric of Language Comprehension Difficulty，″Journal of Cognitive Science，Vol.9，No.2(2008)，pp.159191.

［40］D.Eddington,″Linguistics and the Scientific Method，″ inQuantitative and Experimental Linguistics，Muenchen：Lincom GmbH，2009，pp.116.

统计学语言论文篇5

专业

星期六（10月21日）

星期日（10月22日）

上午（9：00-11：30）

下午（14：30-17：00）

上午（9：00-11：30）

下午（14：30-17：00）

公共课马克思主义基本原理概论（03709）概率论与数理统计（经管类）（04183）计算机应用基础（00018）政治经济学（财经类）（00009）普通逻辑（00024）新疆历史与民族宗教理论政策教程（11893）高等数学（一）（00020）毛泽东思想、邓小平理论和“三个代表”重要思想概论（03707）中国近现代史纲要（03708）大学语文（04729）线性代数（经管类）（04184）管理系统中计算机应用（00051）经济法概论（财经类）（00043）

日语（二）（00016）专科新疆大学维吾尔语言文学（C050116）大学汉语（一）（11894）文艺理论（10057）维吾尔民间文学（00825）中国当代文学（00564）外国文学作品选（00534）维吾尔古代文学史（00561）专科新疆大学汉语言（翻译）（C050117）基础汉语（00574）汉语精读（二）（00570）翻译理论（00576）汉语应用写作（08041）语言学概论（00541）专科新疆财经大学会计（A020203）会计专业汉语（10059）财务管理学（00067）国民经济统计概论（00065）成本会计（00156）政府与事业单位会计（00070）经济法概论（财经类）（00043）专科新疆大学法律（C030112）大学汉语（一）（11894）民法学（00242）行政法学（00261）中国法制史（00223）民事诉讼法学（00243）经济法概论（00244）专科新疆大学行政管理（A030301）大学汉语（一）（11894）人力资源管理（一）（00147）管理心理学（00163）公文写作与处理（00341）经济管理概论（00314）公共关系学（00182）经济法概论（财经类）（00043）政治学概论（00312）专科新疆师范大学小学教育（A040103）基础汉语（00574）小学语文教学论（00410）小学教育心理学（00407）小学数学教学论（00411）小学科学教育（00408）科学.技术.社会（00395）小学班主任（00412）专科新疆大学英语（C050207）基础汉语（00574）英语阅读（二）（00596）新疆历史与民族宗教理论政策教程（11893）英语写作基础（00597）综合英语（一）（00794）专科新疆大学计算机信息管理（A082207）基础汉语（00574）电子商务与电子政务（04754）高级语言程序设计（一）（00342）毛泽东思想、邓小平理论和“三个代表”重要思想概论（03707）数据库及其应用（02120）专科新疆农业大学兽医（A090402）大学汉语（一）（11894）家畜外科学（02790）家畜传染病与寄生虫病（02791）兽医药理学（02787）家畜病理学（02783）畜牧概论（02788）兽医微生物学（02785）本科新疆大学维吾尔语言文学（C050107）文学专业汉语（00566）应用文写作（02126）民俗学（10072）中国古典文学简史（10070）语言学概论（00541）本科新疆大学汉语言（翻译）（C050108）汉语文选（一）（04962）语体翻译（00578）汉语精读（四）（00572）汉语泛读（00577）本科新疆财经大学金融（B020106）基础汉语（00574）财务管理学（00067）国际金融（00076）金融市场学（00077）管理系统中计算机应用（00051）本科新疆财经大学会计（B020204）基础汉语（00574）会计制度设计（00162）　中国近现代史纲要（03708）

统计学语言论文篇6

中图分类号：H0 文献标识码：A 文章编号：1671-1580（2017）01-0098-03

一、语料库语言学的由来

不同的语言研究专家对语料库的定义不尽相同。Atkins和Clear（1992）认为“语料库是按照明确的设计标准，为某一具体目的而建立的大型语言文本库”。John

Sinclair（1996）认为：“语料库就是根据明确的语言标准选择和排序的语言的汇集，以作为语言的样本。”A.Renouf认为“语料库是由大量收集的书面语或口语构成并由计算机存储和处理用于Z言学研究的文本库”。Tony

McEnery（2006）认为：以机器可读的形式储存的，带有各种语言信息标注的书面或口头的样本文本集合。

不论如何定义，有几个关键点是一致的，就是语料库必须是语言的电子文本集合、必须按照一定的标准采集、采集后的文本最好经过加工（比如，标注、赋码）、文本的量应该达到一定的规模、能够被计算机处理等。语料库研究就是：研究者借助于各种计算机分析工具，以大量精心采集到的真实文本为研究素材，以经验主义为哲学基础，进行相关的语言现象观察、语言理论验证以及其它的实证性研究。

近些年，人们在语料库的建设和开发过程中，在观察和经验的基础上逐渐创造了一些新方法，提出了一些新规则，并且对这些方法和规则在理论上进行了一些探索和总结，逐渐形成了“语料库语言学”。因此，语料库语言学是一门基于大量真实的语言数据，以经验主义为哲学基础，以独到的理论体系结合计算机科学来研究语言的一门边缘学科。

二、语料库语言学的应用

（一）在语言教学方面

语料库语言学的重要应用领域之一就是语言教学，可以利用检索工具对语料库进行词频、词块、句型、语态、搭配等的观察和统计，进行数据驱动式的学习。词频统计也能让我们准确确定高频词，检索出的词块、句型、语态、搭配等的情况，有助于教师更合理高效地开展词汇、语法、阅读、翻译等各种语言教学活动；学生们通过观察和实践，既能掌握词语的用法，也能了解语言变化的规律。这些检索结果（特别是词频统计的结果）也可以应用于语言教材的编写、教学大纲的设计，甚至词典的编撰等。

（二）在应用语言学方面

利用相关的计算机软件结合语料库可以进行词汇、句法、语义、口语、语言变异、二语习得、机器翻译、语用、话语分析等研究。此外，还可以利用语料库技术进行语音识别和语音合成等。

利用语料库进行词汇研究，主要包括词频、词块、词语搭配、类连接、语义韵、新词语的提取以及词典编纂等。结合语料库进行句法研究，主要是进行语法的定量分析和句型的频率统计。结合语料库进行语义研究，可以为词项赋义提供客观的标准，有助于建立语义模糊范畴的梯度概念。语料库与口语这方面的研究主要是建立口语词语提取的模型，目前集中在韵律层面的研究。语料库与语言变异的研究，是通过对比不同时期、不同地域、不同民族、不同性别的口语语料库来推断语言的变异和变化，从而进行语域变体、地域变体以及语言变化的研究。语料库与二语习得研究，主要是通过观察语料库中语言现象的分布和频率以及学习者语言应用和使用的失误，研究语言形式在语境中的意义和用法。语料库与机器翻译，利用过去已经翻译过的语料，采用模拟的方法来翻译句子。此外，利用语料库还可以进行语音识别和语音合成等研究。

（三）在社会语言学、文学、翻译学等方面

依据大规模真实语料库进行社会语言学现象、语言变异等调查，可以得出更加真实客观的数据和结论；通过建设文学作品或文学评论语料库，对其进行标注和检索，分别对其中的人物形象、意象、情节、主题、母题、作品风格等进行研究，可以为观点提供更为客观的数据支撑，开拓文学研究和语料库相结合的新型研究模式；在翻译学方面，利用建成的双语平行语料库，可以为翻译研究与实践提供实证材料，也能极大提高翻译的效率和准确性。

（四）在语言定量分析方面

利用大规模的真实语料，设计出要进行定量分析的知识点和所使用的各类题型，可以提高定量分析结果的信度和效度。

除以上几方面，语料库还可用于语法、多语言跨文化研究、法律（军事）语言学、文体学、意识形态和文化、作者的立场研究，甚至认知语言学研究等等。它所带给我们的也绝不只是一种研究方法的革命，随着语料库技术的迅速发展其应用范围也必将更为广泛。

三、语料库语言学的贡献

（一）对语言描述的贡献

语料库语言学这门交叉学科是在20世纪80年代前后随着Brown和Lob两大语料库的建立才逐步形成的。语料库最早和最普遍的应用就是其在语言描述方面，比如上文提到的语料库在语言教学、词典编撰、应用语言学、社会语言学、文学、翻译学、定量分析等等方面的运用，主要是语言描述层面。

以往进行的一些研究，比如对现代英语特征的分析：词汇的使用频率、语用特征及其在某段时间内的变化，男女使用某些词汇的多寡、偏好，口语与书面语的异同，不同地区使用英语情况的比较（特别是学习者与本族语者语言之间的差异），某些词汇空缺的成因，儿童词汇及句式习得的过程，甚至考察某些种族使用语法转换背后的动机等都是进行语言描述的具体研究事例。

可以说语料库语言学通过对大量客观详实的语言数据进行系统分析为语言研究提供了全新的思路和方法，人们可以凭借语料库提供的语言证据来进行语言学研究。

（二）对语言理论发展的贡献

Sinclair认为只有用巨量的语料来驱动的研究才能揭示那些单凭语言直觉无法预测的语言现象和发现新的语言使用规律，更新现有的理论乃至构建新的语言理论模式。Leech也认为语料库语言学绝不是仅仅收集和描述语料，它包括三个层次：语言收集、语言描述和理论构建。Halliday提出建立一套完善的口语语料转写系统以便更好地解决传统语言理论将词汇和语法分离的问题，因为口语语料是任何语言的原型语义单位始发和延伸的基础，这些语义单位已经高度语法化且灵活多变，所以加强大型口语语料库的研究能够带动语法研究的发展。

（三）对语言学研究方法的贡献

语料库语言学深受西方语言哲学中经论的影响，经验论认为感性经验是知识的唯一源泉，主张一切知识都通过经验而获得。西方语言学界的经验论注重语言事实，强调直观的感性，也就是要对真实的语言材料进行采集、描述和实证研究，借助于真实语料是语料库语言学开展研究的基础。

语料库的各种处理工具，如语料转写、文本整理、词性附码、句法标注、检索和统计等，这些计算机程序的出现使得语料库语言学定性与定量相结合的方法成为可能。利用语料库工具的标注手段和检索功能，研究者可以很容易地检索出某些语言现象，内省出一些语言规律，并进而对以往的理论假设进行验证，大大提高了证伪能力。

四、语料库语言学研究的平台期

（一）语料库标注技术发展缓慢

语料语言学从上世纪60年代开始发展，起初人们只用语料库进行一些简单的分析，如词频统计等，后来又增加了词的语法属性的标注，即词性标注。但时至今日，语料标注没有实质性突破，实际有使用价值的标注还只能是词性标注。目前语料库已经发展到了基于浏览器检索的第四代，在标注和检索能力等方面也增强不少，但其基本功能仍与第三代相似。除词性标注外，对语料库其它层次的标注，如，语音、句法、语义、语用和多模态语料库等的标注仍不成熟，因而要想利用语料库中的熟语料进行更深层次的研究就会遇到难以克服的障碍。

（二）语料库研究层次单一

语料库标注层次发展的缓慢制约着语料库研究方法的进一步发展。语言研究者利用语料库进行研究的目的就是为了更深入地挖掘语言的结构与演化规律，而语料库中语音、句法、语义和语用等层次标注的不成熟、不完善，就会使得相关研究停滞不前。目前绝大多数的语料库研究主要停留在词汇、句法层次，对语义等方面的研究尚不够深入。

（三）与其它学科的交叉研究尚不成规模

结合语料库进行社会语言学、文学和翻译学等方面的研究数量少、规模小、影响力也较弱。这可能与各个学科属性的表现形式不同有关，比如，文学更注重语言的内容，而语料库语言学多侧重语言的形式，用语料库研究文学就会有一定的难度。

（四）语料库建库方面的问题

语料库的标注和赋码系统缺乏统一性，没有统一的规范和标准，适用性较差。语料库工具软件（赋码工具、标注工具、文本分析工具等）开发滞后与语料库的迅猛发展不相协调。口笔语语料库发展不均衡，书面语语料库和口语语料库发展不均衡，相对于丰富的书面语语料库，口语语料库的发展落后很多。大多数的语料库资源难以共享，重复建设造成了各种资源的巨大浪费。

（五）对语料库语言学理论的期待

语料库研究以量化描述见长，但若仅仅满足于量化和描述，就只能成为其它学科研究的辅助工具，很难有长远的发展，也不能形成一门独立的学科。另外，虽然不少人主张语料库研究应结合现有的语言学理论来阐释量化数据，但结合语料库数据和现有语言学理论的成功案例也不多见。

统计学语言论文篇7

正式的语言测试起源于中国东汉时期的科举考试，但现代意义上的语言测试却于20世纪中叶诞生于英美等发达国家。20世纪60年代，外语测试作为一门新的学科从外语教学中独立出来，作为语言学、教育与心理测量学、计算机技术等的交叉学科，半个世纪以来，国外大批语言学家在语言测试领域取得了卓越的成就。中国的高考和大学英语考试（CET）虽有数百万考生规模，但在研究方面仍落后于英美等发达国家。至今，以美国ETS开发的TOEFL考试和英国剑桥大学考试委员会主办的IELTS考试为代表的西方国家研究水平仍执全球之牛耳。虽然近些年，国内学者越来越重视外语测试的研究，国内专业期刊如《语言测试》、《语言评估季刊》、《外语测试与教学》等相继出版，但学者们大多关注于测试的开发实践，而对测试理论与实践的研究较少。李筱菊[2]（P441-447）按新科技对语言测试的影响把语言测试的发展分为计算机前语言测试和计算机后语言测试。计算机后语言测试又分为五代，第一代称为计算机化语言测试：考试实施开始使用计算机；第二代称为调适性语言测试：考试实施中使用调适性编程，即计算机会根据考生的做题情况调整试题的难易度；第三代称为多媒体语言测试：应用多媒体技术建立多维度情景，创造真实化交际情境；第四代称为连续性语言测试：测试性质从静态转变为动态，关注测试个人化，注重受试者的学习过程和个人情况；第五代称为智能化语言测试：测试情景化、互动化、智能化。正是在这样的背景下，《现代语言测试与评估丛书》在曾用强博导的主编下应运而生。

2.简介

本书作者认为计算机技术的发展对语料库与语语言测试的发展产生了巨大的影响，得益于计算机技术的普及和进步，机读语料库及其研究和应用开始日益兴奋；对于语言测试，计算机平台带来了巨大的考试变革；语料库对语言测试的发展也提出了新的要求和预期。此书着眼点是计算机技术、语料库和语言测试三者的结合，讨论范围限于计算机和语言测试的交叉点、语料库本身和技术方法在语言测试中的应用接口，以及这三者的综合应用。文中先分别讨论了计算机技术和语料库各自对语言测试的影响和作用，然后探讨这两者的综合应用，最后介绍计算机技术和语料库在语言测试中的具体应用实例：广东高考计算机化英语听说考试的开发和应用，以及基于语义连贯性的计算机自动作文评分系统开发和应用。本书由五个章节和一个附录组成。

第1章旨在指出本书的写作目的和要点。这一章节首先澄清了书中所涉及的主要概念：语言测试主要是指对中国外语学习者所学外语能力的测量和评估；计算机技术的概念包括软件、硬件和网络；语料库主要指现代机读语料库，这类语料库能够在计算机平台上存储和查询。本书的写作目的是为了让读者了解计算机和语料库对语言测试的帮助和作用，同时也介绍这些新技术方法可能存在的局限性，而不是说服读者在语言测试中应用计算机技术和语料库方法，也不是声称基于计算机和语料库的语言测试能够优于传统的笔纸测试。计算机化语言测试的优点包括时间节省、信息收集、数据存储、心理测量、多媒体化和标准化；受到的一些制约因素有：专家匮乏、技术限制和实施障碍。本章节的要点则是对语言测试和计算机之间的相互关系展开论述，同时也对语言测试和语料库的发展进行回顾。

第2章则具体阐述了不同形式的计算机化语言测试，包括听说读写四种主要考试形式在计算机平台上的实现。在本章节中，作者重申了计算机化语言测试的质量评价标准和传统的笔纸考试一样，由效度和信度组成。作者认为即使是一个有较好效度的传统笔纸考试，照搬到计算机平台，其效度也可能发生变化。导致出现这种现象的原因可能是受试者的计算机应用水平差。对于测试的信度而言，计算机化语言测试存在的主要问题是：1）在自适应测试的环境，如何保证受试者重复测试时所接收到的试题具有相同的难度和区分度等标准，而且产生的结果一致；2）考试系统本身（硬件和软件）的稳定性；3）考试的功能是否独立于外部环境，即考试在各种不同的外部环境中都正常使用，而不受地理位置、背景噪声、光线等因素的影响。

第3章从学习者语料库和母语者语料库两个方面介绍语料库在计算机化语言测试中的具体应用。作者先根据语料库的语料来源进行了分类：学习者语料库和母语语料库。前者是收集目标语学习者在学习过程中对目标语使用的记录，后者是目标语的母语者在目标语使用中的记录，这两种语料库的目的和功能不同，并且语料库数据来源也不同。

学习者语料库的主要数据来源是各种不同的语言测试，即采用考试中受试者的语言输出来组织和编辑完成，可随着类似考试的不断进行，不断扩充。从语料库的建设而言，学习者在语言测试环境下产生的语言使用成为语料数据的一个关键来源。反过来，学习者语料库对语言测试的发展也变得越来越重要。这种重要性体现在语言测试的设计、开发和评估等各个方面。母语者语料库的数据来源主要是英语母语国家的广播电视节目和出版物等。在此节中，作者介绍了目前最大型的三个英语母语语料库（英国国家语料库、美国国家语料库、澳大利亚国家语料库）的建立、发展和应用。通过查询英语母语语料库可以较为便捷地了解到某一个词或者词组在英语母语者中使用时的用法和特征。作者同意孔文和邹申（2007）的看法，即母语语料库可以用于试题开发制作、语言测试设计和自动评分系统开发。

第4章讨论了计算机技术和语料库在语言测试中的综合应用，提供计算机技术和语料库在语言测试中的综合应用实例，介绍广东高考计算机化英语听说考试和计算机自动作文评分系统的开发和应用。

高考计算机化英语听说考试的考试时间为30分钟，包含三个部分：模仿朗读、角色扮演和故事复述。评分方式为计算机辅助网上评卷方式，各个部分的评分侧重点不同，但都分三个档次给分。模仿朗读题考查语音语调、语速和内容；角色扮演考查语言和信息；口头作文考查内容、语言、流利度和语音。评分过程要求双评，如果两位评卷老师的成绩相差5分以上，就会有第三位评卷老师加入。每位评卷老师只负责一个部分的评分工作。作者认为这样的考试在考试组织、评分体制和受试者感受方面都有优势：能有效控制试题的安全保密性；能实现“一题多评”，使评分更加公平、合理；能让受试者更加容易把控自身情绪；有利于实现听说任务的公平性。在总结前人的研究后，作者发现涉及模仿朗读和角色扮演这两部分的研究还是空白，并提出这两部分有很多值得深入研究，如模仿朗读的反拨效应、模仿朗读材料的选取，以及角色扮演中对话场景选取和素材的裁剪等。

在计算机自动作文评系统的开发和应用这一节当中，作者先简要回顾了主流计算机自动作文评分系统（PEG、IEA、e-rater）中的连续性分析，然后解释向心理论的主要框架并介绍其在二语写作测量中的应用。向心理论的核心思想是在一个语篇片段中，每个语句都有语义中心，通过追溯各个语句中语义中心的变动可以了解该语篇片段的连续性。向心理论的语句中心分别是：前瞻中心、回指中心、优选中心。基于这三类中心之间的相互关系，向心理论框架中语句中心的过渡类型分四类：延续过渡、保持过渡、流畅转换过渡、非流畅转换过渡。

到底计算机和语料库的应用前景如何呢？在接下来的第5章作者试图回答此问题。在本章中，作者先回顾和展望了计算机和语料库在语言测试中的发展方向，然后对计算机和语料库发展在语言测试领域里的新要求和期望进行了讨论。从宏观角度来看，语言测试的发展不断受到科技发展进步的影响。新技术本身不能够保证考试质量的提升，而是结合相关理论，恰当地应用才能够产生所期望的结果。新技术的应用须着眼于通过测试来了解受试者对于目标语言的使用能力，而不是受试者能够多大程度上适应和应用这类新技术。新技术的应用更不应是导致受试者在测试中成绩起伏的原因，在使用时要结合教学和测试群体和环境的实际情况，尽量避免应用新技术导致测试本身结构效度降低的情况。但是，在语言测试中采用新技术的目的除了提高信度和效度外，也要考虑节约成本和提高工作效率。在此章节中，作者也认同李筱菊老师提出的观点：语言测试是在信度、效度和实施条件三者间的动态平衡，并提出从长远的角度看，语言测试的发展将更加倚重于新技术，在实现提高信度和效度的同时弱化具体测试环境和条件对测试本身的限制和所不希望的影响。

最后在附录中，本书提供了计算机自动作文评分系统开发和应用中各种统计模型的计算结果。

3.特色

本书的最大特色是紧跟新时代社会科技的发展，把计算机技术、语料库、语言测试三者完美地结合在一起讨论。从语言的听、说、读、写四个技能的测试入手结合计算机技术的发展展开讨论。

在计算机辅助听力测试方面，作者提出听力理解考试的设计和开发需考虑三方面因素的影响：多媒体的参与度、任务形式、综合难度。在口语语篇环境中，影响听力理解的因素有语速、口音、音调、停顿、文体特征、受试者自身的背景知识等。在总结多方学者（如：Song，2012； Ginther，2002； Ockey，2007； Coniam，2001； In’nami & Koizumi，2009； Hoven，1999等）在机辅听力测试方面的研究成果后认为我们不应简单地支持或反对多媒体化的听力测试，而应依据实际测试的用途和目的来设计计算机化听力测试试题。

在口语测试方面，作者把口语能力解释为信息口头表达能力，这种能力包含对信息能够实现语义层面的表述（语义完整性）和对信息表达的恰当性（语用完整性）。由于影响口语流利度的因素包括：社会环境、生理的语言生成系统和心理因素，因此，作者认为在口语考试中无法测量到全面的口语能力，而只能测量到口语能力中的一部分。影响受试者表现的因素还有：受试者的个体差异、任务特点、交际者/话语对象、评分员和量表。作者介绍了IELTS和TOEFL的口语考试中测试的侧重点和考查内容，目前的机辅口语考试评分还是以人工评分为主。由于技术原因，计算机自动评分还没有大规模应用，还只是在实验和探索阶段。目前计算机平台的口语测试发展有一个重要特点：尝试引入自动评分系统，以期实现减少口语考试中评分员因素对考试效度和信度的负面影响。作者认同目前计算机自动评分技术的应用并不成熟的观点，计算机对自动口语语义识别还无法做到精确判读，所以无法用于涉及语义的口语测试题型。

对于阅读测试，虽然与机辅考试相比，受试者在笔纸考试中可以很方便地前后浏览和更改答案，但是从总体上来看，传统考试和计算机平台在文本呈现方式上没有本质的区别。作者例举多项研究（如Moore， Morton & Price， 2012； Sawaki， 2001）证明机辅阅读测试和传统阅读测试具有相同的结构效度和预测效度，而且计算机平台还可以让受试者在回答问题的过程中更加便捷而节约答题时间，也更易于老师使用形成性评估，更加便捷地观测学生的阅读结果数据。计算机阅读测试在效度和信度上与传统的笔纸考试拥有基本的对等性，但计算机阅读习惯和传统的纸张阅读有所不同，对此，作者提出计算机平台阅读测试要精心设计用户界面，使其方便阅读。对于不习惯计算机屏幕阅读的群体，提供笔纸考试的选择。

在讨论写作测试时，作者把计算机辅助写作教学和测试放在一起讨论。在对比不同学者对机辅写作测试和笔纸写作测试的观点时，作者较赞同MacArthur（1988）、Bangert Drowns（1993）、Lee（2004）、Li（2006）等学者的观点，即计算机写作能够让受试者写出更好质量的作文，当然前提是他们能熟练地使用计算机。对于作文自动评分的讨论，作者对比了PEG、IEA和e-rater的各自特点后提出尽管这三个系统在人机对比中的评分都达到了一个非常高的准确水平（r0.85），但都基于相同的工作流程：样本训练―统计模型生成―作文评分，而且这三个系统在自动评分时都缺乏对语义的分析和诊断。由此可见，到目前为止，作文自动评分系统更加适合于课堂教学的辅助活动，在大规模考试中替代人工评分员还是不太适宜。

本书的另一大特色是从计算机和语料库与语言测试形成的互动关系角度出发，探讨了把计算机和语料库引入语言测试之后随之产生的新概念和认识，同时还注意到了新技术促使语言测试中出现的新测试形式和方法。新的概念和认识则是对李筱菊老师[2]（P451-456）提出的语言测试“消亡”论的详细解读，并明确认同在新技术发展应用的时代背景下，传统意义上的语言测试是必将消失的。在利用新技术所带来的便捷时，作者也提出了需要考虑的现实问题，如计算机设备有可能新旧不一，所使用的操作系统的兼容性问题等。

统计学语言论文篇8

全书内容包括15章：第1章为绪论，介绍自然语言处理的基本概念、研究内容、面临的困难和研究现状；第2章简要介绍自然语言处理中常用的基础知识，包括概率论、信息论、支持向量机等基本内容；第3章介绍形式语言与自动机理论及其在自然语言处理中的应用；第4章介绍语料库技术、词汇知识库概念和语言知识库建设中的本体论；第5章介绍语言模型的基本概念、性能评价方法、数据平滑方法和模型自适应方法；第6章介绍隐马尔可夫模型的基本概念、构成和相关算法；第7章介绍汉语自动分词中的基本问题、基本方法、命名实体识别与词性标注方法等；第8章介绍句法分析的基本概念、算法及评测方法等；第9章介绍词义消歧的基本概念、策略和评测方法；第10章全面详细地介绍机器翻译的基本概念、统计机器翻译模型和系统实现方法；第11章概述语音翻译的基本概念、技术现状和相关的国际学术组织；第12章至15章分别简要介绍文本自动分类、信息检索与问答系统、自动文摘和信息抽取、口语分析与人机对话系统等相关技术的基本方法和研究现状。

统计学语言论文篇9

语言学兼跨文理学科，任何一门社会科学或自然科学都离不开语言这一工具。同时其他学科的研究成果又促进了语言学研究的广度和深度，丰富了广义语言学的学科分支，由此催生出众多语言学边缘学科。例如，语言学与文化人类学、民族学、民俗学结合产生了人类语言学，语言学与社会学结合产生了社会语言学，语言与文化关系研究结合产生了文化语言学，语言研究与人类大脑研究结合产生了神经语言学，数学思想和方法运用在语言现象上产生了统计语言学和代数语言学，等等。“现代语言学不仅吸引并采用了其他学科的研究成果，而且对语言作跨学科的研究，从而导致众多边缘学科或交叉学科的建立，这已成为一个富有时代特色的趋势。”

2词典学和语言学

词典学和语言学之间的渊源颇深。词典学作为研究与处理词汇信息的学科从一开始就被打上语言学分支的烙印。“语言学理论无疑是词典学基本理论的核心。”词典学对语言学的借鉴是毋庸置疑的，从语音学、语法学、语义学、词汇学到语用学、语体学、词源学，语言学理论研究的成果催生了词典编纂界的累累硕果。但词典学对语言学的借鉴与依赖并非来而不往，一味的拿来主义。词典对语言的规范和描写影响着语言发展的方向，词典理论与编纂实践的深入对语言学的发展提出了更高的要求。

3词典学、语言学和其他学科

语言这根纽带促成了词典学与其他学科之间的联姻关系，词典作为记录语言的工具不可避免地具有跨学科的性质。而现代电子信息技术的发展又大大拓展了词典学的研究领域，信息社会的高速膨胀又进一步加快了词典学的跨学科性，在语言学各交叉学科的基础上，产生出众多词典学交叉学科，如认知词典学、交际词典学、计算词典学、语料库词典学、电子词典学、机助词典学、自动化词典学、英语教学词典学、网络词典学、文化词典学等。此外，词典学还涉及哲学、美学、文学、翻译学、历史学、社会学、心理学等学科，可谓无所不涉。总而言之，语言学、词典学和其他相关学科三者之间呈现出一种交叉的三角关系，

二、词典理论研究的跨学科趋势

20世纪中期，随着现代语言学研究的纵深发展和电子信息技术的广泛运用，词典学大大拓展了原有的疆域，也打破了词典编纂是经验性学科和语言学附庸的传统观念。在跨学科环境下，现代词典学表现出越来越强的独立性、综合性与跨学科性。

1新视角、新方法层出不穷

从最初作为记录“难词”的词汇表，到19世纪50年代成为规范与权威的卫士，直至历史语言学蓬勃发展之时开始被看作是语言的忠实记录者，词典一直处于静态的、一厢情愿的状况。20世纪90年代中期以后，计算机技术和网络技术的应用催生了诸如网络词典或在线词典之类的“动态词典”，词典跨入“动态性”时期，这也是未来词典研究与发展的大方向。计算机应用技术的发展又促进了对语料库的研究，为现代词典编纂提供了广阔的发展空间，由此产生出各类基于语料库的词典类型，也出现了计算词典学与语料库词典学等交叉学科。时代的变化使词典学表现出非常强烈的跨学科需求。

与视词典为释疑解惑工具的传统词典观不同，交际词典学把交际学的理论应用到词典学中，从崭新的视角提出词典交际的理论模式。“词典编纂已不再像人们过去一直认为的那样是纯粹的语言活动。在本质上，它是社会文化行为，而词典使用则是社会心理行为，因而对于词典和词典问题的探究不仅要涉及语言本身，还要涉及到人文、信息、社会心理等诸多其他学科和领域”。

兴起于20世纪70年代的认知语言学作为认知科学和语言学的结晶，是一门“从哲学、心理学、计算机科学、语言学等多角度研究人类智能系统的性质和工作原理的一门综合学科”。如何利用其研究成果编纂出旨在帮助读者掌握语言学习规律的认知词典，成为当代词典编纂的热门话题。“目前，计算语言学的发展与认知语言学等学科的发展已形成一股合力，诱导了关于语言本质的思考和理论探索，与此同时也催生了词典学的后结构主义。”

2词典类型研究的新空间词典分类问题历来受到词典学家们的关注，也因此产生出多种较具有代表性的词典分类法。这些分类法各有理据，也各有优缺点，但至今还没有一种分类法能“包罗万象”。如今，跨学科环境下各种词典新理念的产生催生了各类新型词典，也为词典类型学的研究提供了新的空间、新的思路、新的方法。词典学家R.R.K.Hartmann教授和GregoryJames教授在《词典学词典》中提出一种全新的分类方法，从词典篇幅、规模、编排、载体、功能、信息类别、语言、用户等视角对词典类型进行重新梳理。今后的分类法将表现出更大的开发性，把当代词典编纂理论指导下的各类新型词典都“收入囊中”，并为将来词典类型的进一步丰富留下充分的空间。

3词典批评理据的多元化

作为当下词典学研究的内容之一，词典批评正进一步趋向理性化。“词典批评实践逐步摆脱感性的自发与无序状态，走向多学科语境下的科学分析与理性思考。”人们将不再局限于对词典文本、编排等宏观、微观信息的缺乏系统性的评价，而开始寻找多学科语境下的现代词典学理论依据，表现出“批评理论的理据多元化，即从传统的就词典论词典的单一分析转向借助于诸多语言学的新理论(如第二语言习得理论、语用学理论等)以及其他相关学科(如心理学、美学、教育学以及文化学等)进行全面综合的分析与评判”。

三、词典编纂过程的跨学科性

1词汇的跨学科性

语言是一种社会现象，贯穿在所有的人类活动中。作为人类特有的一种符号系统，语言是反映和认知客观世界的工具。词典作为记录、描写词汇的工具书，必然与各领域、各学科的词汇打交道。在信息社会，词汇爆炸，尤其是专科词汇和各类术语爆炸，伴随着知识爆炸而发生。专科词典以收录专业词汇为己任，本身具备跨学科的性质。一般语文词典虽然涉及的多是普通词汇，但对各学科词汇的收录近年来却同样有增无减，并且占了相当大的比例。这是因为各国之间在商务、科技、政治、文体等领域的交流已成为国际交往的主要内容；此外，科技的发展、社会的进步又带动了人们在日常生活、生产中对各学科的认知需求。

2词典编纂队伍的跨学科性

现代词典编纂是社会化的劳动过程，从资料的收集、整理、审读，到数据分析、词频统计、词条编排等都是在团队协调合作中进行的。词典编纂队伍是个跨学科“大家”，包括语言学家、词典学家、翻译学家、语义学家、历史学家、美学家等社会科学家及数学家、物理学家、天文学家、生物学家、计算机专家等自然科学家。其中，以词典编纂家为核心，语言学、计算机等专家为左膀右臂，构成词典编纂的主体，各学科专家则在提供各学科词汇与百科信息上起到重要的作用。每个“家”各行其职，相互合作。

3词典编纂手段的跨学科性

计算机应用技术、多媒体技术和网络技术的发展对词典编纂和出版具有划时代的意义，使现代词典编纂进入到人机对话的计算机时代。词典编纂过程的计算机化主要表现在三个方面：其一，实现词典编纂自动化，包括制作文本处理软件、检索和统计软件等专用软件，及采用多媒体技术实现信息传播多样化等。其二，实现词典编纂数字化，即利用数据库技术存储和检索词目等信息，并利用语料库技术进行词频统计、词义分析、词项搭配、例证提供等。其三，实现词典编纂网络化，即通过互联网进入语料库系统，实现远程协同工作和资源共享。计算机具有存储量大、检索方便、灵活性强等特点，从而大大改变了词典编纂的传统过程，使计算机检索法、语料库分析工具、词频统计法等技术手段成为当代词典编纂必备的跨学科技术条件。

四、跨学科环境对词典编纂者素养的新要求

人类三千多年的词典编纂历史在继承传统中演进。先辈们在词典编纂理论与实践上的成果为现代词典的发展打下了坚实的理论与实践基础。现代词典学又充分汲取了其他学科的养分，表现出与时俱进的时代特征。词典学的发展无疑对词典编纂者的素养提出了新的挑战和更高的要求。

1编纂者知识结构的多元化

在词典编纂史上，词典编纂曾被看成一门手艺，与理论无甚关系，而词典编纂者对语言学也颇为排斥，认为语言学对于词典编纂过程毫无实际帮助。尽管如此，词典学还是一开始就与语言学扯上了关系。随着语言学研究成果越来越多地运用于词典编纂，词典编纂者的理论水平面临新的挑战，他们不再只是把成堆的卡片理出头绪的“工匠”，也不该只是狭隘地了解传统词典编纂知识的“窄士”。“对词典编者来说，语言学理论造诣和实际驾驭语言的能力，应当是他们最根本、最重要的素养。”此外，词典编纂者还应涉猎人类学、社会学、心理学、历史学、美学、哲学、信息科学、计算机科学等众多学科，把现代词典学的研究成果及多元化的编纂理念更好地运用到词典编纂中。

2编纂者的开拓创新精神

词典编纂史上的每一个丰碑都是在冲破传统中建立的。一部内容丰富、题材新颖、体例独特的词典的诞生离不开编纂者认真严谨的治学态度、无私的奉献精神和不畏艰辛的超凡毅力，也离不开编者独到的学术眼光和大胆的创新精神。近年来国内辞书市场一派繁荣，但除了一些著名工具书外，国产辞书在市场占有额上远不敌老牌进口辞书。这有历史与技术等客观原因，也与国内辞书界尚缺乏大胆的创新精神，没能跳出旧的编纂模式不无关系。好在国内辞书界已经意识到这一点并开始努力改变现状了。

现代词典学的跨学科发展促进了语料库词典学、交际词典学、计算词典学、认知词典学等词典学新理论、新分支的产生，并出现了语料库词典、认知词典、在线词典、机读词典、电子词典等不同介质、不同编纂理念、不同技术支持的新型词典。面对新知识、新理论、新视角、新技术，词典编纂者要有对新生事物的敏锐性，并且有发掘新事物、接受新事物、大胆开拓创新的勇气和能力。语言与社会的发展对词典的功能及种类的多样化提出了要求，如何编纂出具有时代感的种类丰富的新型词典是词典编纂者面临的新课题。

3编纂者专科意识的加强

在信息时代，词典编纂者，包括语文词典编纂者及专科词典编纂者面临着更为艰巨的挑战。对前者来说，作为研究词典的语言学工作者，对本学科以外的各门科学要有一定的知识积淀；而后者多为专业学科的工作者，对语言学的了解应是其编纂好的专科词典必备的条件。词典编者“头脑里必须建立较强的‘专科意识”，要“注意学科或专业的体系性”，还要“处理好通俗化问题”。0”面对专科词汇的膨胀，词典编纂者要既“快”又“专”，即对词汇的更新要反应快、收录快，对词汇的处理要保证一定的专业性，不能随心所欲。当然，对语文词典中的专科词汇要根据词典的宗旨和对象把握好专业性和通俗性的关系。

4编纂者现代技术运用水平的提高

现代科技为词典编纂提供了快捷、广阔的信息检索途径，使传统词典编纂进入到计算机和语料库时代，大大促进了词典编纂的现代化进程。利用现代科技手段建立语料库编纂词典成为当今词典编纂的主要趋势。对计算机的运用水平影响到词典编纂过程的效率与效果，因此，词典编纂者有必要熟练掌握、操作计算机，熟悉词典编辑系统，懂得使用文本处理软件、词性标注软件、检索和统计软件、词汇索引程序等专用软件，真正做到老传统、新理论、新技术的有效结合。

统计学语言论文篇10

月星期六(4月14日) 星期日(4月15日) 星期六(10月20日) 星期日(10月21日) 上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 毛泽东思想、邓小平理论和“三个代表”重要思想概论（03707）政治经济学(财经类)(00009) 心理学（00031）大学语文(04729) 思想道德修养与法律基础 (03706) 教育学(一)(00429) 中国近现代史纲要（03708）英语(一)(00012) 　　　　　　　　普通逻辑(00024) 思想道德修养与法律基础（03706）概率论与数理统计(二) 英语(一)(00012) 马克思主义基本原理概论(03709) 高等数学(一)(00020) 大学语文 (04729) 英语(二)(00015) 　　　　　　　　中国近现代史纲要（03708）马克思主义基本原理概论（03709） -2197 英语(二)(00015) 政治经济学(财经类) 高等数学(工本)(00023) 毛泽东思想、邓小平理论和“三个代表”重要思想概论(03707) 物理（工）(00420) 　　　　　　　　教育学（一）（00429）线性代数（经管类）（04184）概率论与数理统计(经管类) 高等数学(一)(00020) -9 高等数学(工专)(00022) 线性代数（经管类）（04184）经济法概论(财经类) 　　　　　　　　复变函数与积分变换(02199) 线性代数(02198) -4183 高等数学(工本)(00023) 心理学(00031) 国民经济统计概论(00065) 线性代数(02198) -43 　　　　　　　　管理系统中计算机应用(00051) 物理(工)(00420) 基础会计学(00041) 高等数学(工专)(00022) 概率论与数理统计教育学（二）（00442）公共关系学（00182）管理系统中计算机应用　　　　　　　　　计算机应用基础(00018) 　对外经济管理概论(00053) (经管类)(04183) 　　　　　　　　　　　　管理学原理(00054) 　教育学（二）（00442）计算机应用基础(00018) 　　　　　　　　　　　　现代管理学（00107）　　　　　　2012年海南省高等教育自学考试课程考试时间安排表

专科

4月 10月　星期六(4月14日) 星期日(4月15日) 星期六(10月20日) 星期日(10月21日) 　上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 上午(9:00--11:30) 下午(2:30--5:00) 工商企业管理 (020201) 市场营销学(00058) 中国税制(00146) 基础会计学(00041) 生产与作业管理(00145) 企业管理概论(00144) 人力资源管理(一) (00147) 国际企业管理(00148) 企业会计学(00055) 经济法概论(财经类) (00043) 会计 (020203) 管理会计(一)(00157) 中国税制(00146) 基础会计学(00041) 中级财务会计(00155) 企业管理概论(00144) 财务管理学(00067) 国民经济统计概论(00065) 政府与事业单位会计(00070) 成本会计(00156) 经济法概论(财经类) (00043) 法律 (030112) 国际法(00247) 宪法学(05679) 刑法学(00245) 刑事诉讼法学(00260) 法理学(05677) 民法学(00242) 中国法制史(00223) 行政法学(00261) 民事诉讼法学(00243) 经济法概论(00244) 律师 (030111) 宪法学(05679) 刑法原理与实务（一）（00919）刑事诉讼原理与实务（一）（00920）行政法与行政诉讼法（一）（00923）法理学(05677) 经济法原理与实务(00922) 法律文书写作（00262）民事诉讼原理与实务(一) (00918) 商法原理与实务(00921) 民法原理与实务(00917) 旅游管理 (020209) 旅游经济学（00187）中国旅游地理（00190）旅游与饭店会计（00189）旅游心理学（00188）旅行社经营与管理（00191）旅游市场学（00192）旅游法规（00194）公共关系学（00182）饭店管理概论（00193）学前教育 (040101) 学前心理学(00384) 幼儿园课程(00394) 学前卫生学(00385) 现代教育技术(00413) 幼儿园组织与管理(00387) 学前儿童体育(00392) 学前儿童美术教育（00396) 学前儿童音乐教育(00397) 学前教育学(00383) 幼儿文学(00386) 学前教育科学研究(00389) 学前儿童数学教育(00388) 学前儿童语言教育(00393) 学前儿童科学教育(00390) 科学.技术.社会(00350) 小学教育 (040103) 教育原理(00405) 小学教育科学研究(00406) 现代教育技术(00413) 中外文学作品导读(00415) 汉语基础(00416) 美育基础(00409) 小学教育心理学(00407)小学语文教学论(00410) 小学科学教育(00408)小学数学教学论(00411) 科学.技术.社会(00350) 小学班主任(00412) 汉语言文学 (050114) 现代汉语(00535) 中国现代文学作品选(00530) 写作(一)(00506) 中国古代文学作品选(一) (00532) 文学概论(一)(00529) 古代汉语(00536) 中国当代文学作品选(00531) 外国文学作品选(00534) 中国古代文学作品选(二) (00533) 英语 (050207) 英语阅读(一)(00550) 综合英语(一)(00794) 英语国家概况(00522) 综合英语(二)(00750) 英语阅读(二)(00596) 综合英语(二)(00750) 英语写作基础(00597) 综合英语(一)(00794) 计算机及应用 (080701) 计算机应用技术(02316) 计算机组成原理(02318) 电子技术基础（三）(04730) 计算机网络技术(02141) 操作系统概论(02323) 数据结构导论(02142) 高级语言程序设计(一) (00342) 微型计算机及接口技术(04732) 数据库及其应用(02120)本科

4月 10月星期六(4月14日) 星期日(4月15日) 星期六(10月20日) 星期日(10月21日) 上午(9:00—11:30) 下午(2:30—5:00) 上午(9:00—11:30) 下午(2:30—5:00) 上午(9:00—11:30) 下午(2:30—5:00) 上午(9:00—11:30) 下午(2:30—5:00) 会计 (020204) 市场营销学(00058) 国家税收（00061）金融理论与实务(00150) 审计学(00160) 资产评估(00158) 会计制度设计(00162) 国际贸易理论与实务(00149) 高级财务会计(00159) 财务报表分析(一)(0050) 社会保障概论（00071）工商企业管理 (020202) 企业经营战略(00151) 金融理论与实务(00150) 质量管理(一)(00153) 组织行为学(00152) 财务管理学(00067) 国际贸易理论与实务(00149) 企业管理咨询(00154) 管理系统中计算机应用(00051) 法律 (030106) 国际私法(00249) 中国法律思想史(00264) 国际经济法概论(00246) 公证与律师制度(00259)西方法律思想史(00265) 劳动法(00167) 保险法(00258) 知识产权法(00226) 税法(00233) 合同法(00230) 金融法(05678) 公司法(00227) 票据法(00257) 法律文书写作(00262) 外国法制史(00263) 婚姻家庭法(05680) 房地产法(00169) 环境与资源保护法学(00228) 律师 (030108) 国际法(00247) 国际私法(00249) 律师执业概论(00224) 国际经济法概论(00246) 劳动法(00167) 司法鉴定概论（00926）知识产权法(00226) 税法(00233) 合同法(00230) 金融法(05678) 公司法(00227) 法院与检察院组织制度（00993）证据法学(00229) 婚姻家庭法原理与实务(00924) 环境与资源保护法学(00228) 公证与基层法律服务实务(00925) 旅游管理（020210）市场营销学（00058）旅游资源规划与开发（00197）

中外民俗（00199）

组织行为学（00152）

对外经济管理概论（00053）

财务管理学（00067）民法学（00242）旅游企业投资与管理

（00198）

统计学语言论文篇11

对使用中的汉字进行字频统计，并按字频的高低排列汉字的顺序即可以得出汉字的频序，依据频序给汉字分级可以划分出汉字的频级，汉字的频级是对使用中的汉字进行分级的主要依据，对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。

二、汉字字频统计的主要成果

以往的汉字字频统计与研究取得了重要的研究成果，为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项：

现代汉字综合字频统计的主要成果有：1.《汉字频度表》，此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973-1975年，语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类，统计方式为手工操作。备选语料3亿多字次，选用语料2160多万字次，统计得出6376个字种。2.《汉字频率表》，此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中，1986年6月由北京语言学院出版社出版。本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品，语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类，统计方式采用人工和计算机相结合。选用语料180万字次，统计得出“不同汉字4574个”。（参考该书“前言”和编纂说明）3.《现代汉语字频统计表》，此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制，于1992年1月由语文出版社出版，出版署名单位是国家语言文字工作委员会和国家标准局。本次字频统计使用的语料时间范围为1977-1982年，语料内容包括自然科学和社会科学两大类，统计方式完全采用计算机自动统计，选用语料13800万字次，抽取出的统计样本语料11873029字次，统计得出汉字7754个。（参考该书说明）4.《报纸、广播电视、网络用字总表》，本表收录在“中国语言生活状况报告”课题组编《中国语言生活状况报告（2005）》中，《报告》于2006年9月由商务印书馆出版。《中国语言生活状况报告（2005）》是由国家语委首次向社会的年度语言生活报告，其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表。该表语料时间范围为2005年，语料介质包括报纸、广播电视和网络，统计手段采用计算机，共选择892034个文本文件，包括732143010字次，统计得出字种数8128个。（该书把字种界定为“这里的字种，指字形不同的汉字。”④）

古代文献使用汉字的综合字频统计成果主要有《古籍汉字字频统计》，该书由北京书同文数字化技术有限公司编写，2008年7月由商务印书馆出版。本书统计的语料为电子版《四库全书》和《四部丛刊》，统计方式完全采用计算机自动统计，使用语料8亿字次，统计得出汉字30127个。（在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说：“1.文渊阁《四库全书》汉字总字数：29088字；2.《四部丛刊》汉字用字总字数：27606字；3.《四库全书》与《四部丛刊》汉字用字合计：30127字。”⑤但是该书《古籍字频统计表》的顺序号的最后一号是30136，比30127多出9个数字。查《古籍字频统计表》中含有部分空格和非汉字符号，如八卦卦符、古琴书中的指符等，甚至有新式标点和网址符@。因此，本书给出的总字数并不准确，只是个大致的数字。）

古代文献专书使用汉字字频统计的成果主要有《史记字频研究》，李波著《史记字频研究》，2006年3月由商务印书馆出版。该书的字频统计以汉代司马迁所撰《史记》一书的全部文字为对象，选择中华书局标点本130卷《史记》三家注本作底本，统计方式采用计算机手段。全书计572864字次，统计得出4932个字。

上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。理论研究方面，如周有光在字频统计成果的基础上发现了汉字效用递减率⑥。王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率⑦。社会应用方面，如1980年由国家标准总局，1981年5月1日实施的《信息交换用汉字编码字符集·基本集》是在《汉字频度表》的基础上研制完成的。1988年1月26日由国家语言文字工作委员会、国家教育委员会联合的《现代汉语常用字表》的研制参考了《汉字频度表》（常用字部分4152字）、《社会科学、自然科学综合汉字频度表》（常用字部分3500字）和《汉字频率表》（4574字）⑧。1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合的《现代汉语通用字表》也参考了上述字频统计成果。这些字频统计的结果和在字频统计成果基础上研制的《字表》对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。

三、汉字字频统计存在的主要问题

尽管汉字字频统计取得了诸多重要的研究成果，但是，由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响，目前的汉字字频统计还存在很多问题，影响了字频统计的质量。其问题主要表现在以下几个方面：

1.近些年来多数汉字字频统计依据的是电子语料库，这些电子语料库建库目标主要是为语言研究服务的，加之计算机字库收字的限制，在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态，影响到统计结果的客观性。比如，1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》，1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》，在此之前报刊图书主要使用繁体字（偶尔也用简体字）。1955年12月文化部和文改会联合了《第一批异体字整理表》（以下简称《一异表》），要求从1956年2月起在全国实施，这之前异体字未经整理。1977年12月20日《人民日报》、《光明日报》、《解放军报》及各省、市、自治区一级报纸发表中国文字改革委员会《第二次汉字简化方案（草案）》，12月21日《人民日报》开始试用《第二次汉字简化方案（草案）》第一表的简化字，1978年7月停止试用这批简化字，1977年12月21日至1978年7月之间《人民日报》等曾经用过“二简”的字。而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料，如1951年1月31日的《人民日报》、1955年出版的《田汉剧作选》、1954年至1955年在《独幕剧选》上发表的何求的《新局长到来之前》、1952年人民文学出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文学出版社出版的老舍的《骆驼祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文学出版社出版的巴金的《春》第一章等，却没有出现繁体字⑨。使用了1956年2月《一异表》实施前的大量资料，却没有出现异体字。以1951年1月31日的《人民日报》为例，该日报原版中有繁体字“對”、“装”、“數”、“會”等，而《汉字频率表》有“对（频序60、频次5138）”、“装（频序435、频次841）”、“数（频序286、频次1325）”、“会（频序32、频次7075）”，而没有“對”、“装”、“數”、“會”等。该日报纸中有《第一批异体字整理表》中被淘汰的异体“遊（旧字形）”、“鎻”、“週（旧字形）”、“誌”等，而《汉字频率表》有“游”、“周”、“志”等正体，有“鎻”的正体“鎖”的简化字“锁”，而没有“遊”、“鎻”、“週”、“誌”等。该日报原版中文字有旧字形，而《汉字频率表》中的字均为新字形。推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本，用规范字替换了不规范的字。这种测查结果显然不能准确反映社会用字的实际情况。又，国家语言资源监测与研究中心编《中国语言生活状况报告（2005）》（下编）的《调查报告》中明确指出：“报纸文本是从网络下载的，没有与纸质版本作比较。”又说：“本次统计不包括以下两种字符：（1）汉字部件。共有25个，计529字次，主要出现在报纸语料或网络语料中。包含以下两类情况中：①讲解汉字中用到的偏旁部首，如‘言语的“语”这个字旁边是个“讠”字旁’。这种部件共出现四个：亻、辶、宀、讠。②拼字，大部分出现于人名、地名，如‘讲述人刘亻思亻思，14岁，树德试验中学’、‘本市宝坻区林亭口镇帐房瞿阝村农民’、‘广东中山南（艹朗）（上下结构）镇横门港码头彩旗飞扬’、‘20岁的广西姑娘小（崩刂）昨天回广州了’。（2）乱码和无法显示的字符。这些字符共出现765个，计23221字符次，占整个语料字符数的0.0026%。”⑩根据作者的自述，本次统计不是依据原始的纸质文本，而是依据电子文本，并且电子文本并未与纸质文本校对，因此，电子文本转录错误的未加改正。受转录者使用的计算机编码字库的限制，字库中没有的字，在电子文本中或用拼字表示，或用替代符号，或根本无法显示，均不能统计。（举例中出现的偲、、蓈、剻四个字在《报刊、广播电视、网络用字总表》中也都未收录。）

2.未能严格规定统计单位，或规定的统计单位不一致，影响到统计结果的科学性，不同的统计结果也无法进行比较。前面提到的北京语言学院语言教学研究所编的《汉字频度表》、北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制的《现代汉语字频统计表》、李波著《史记字频研究》以及北京书同文数字化技术有限公司编写的《古籍汉字字频统计》均未明确界定统计单位。只有收录在《中国语言生活状况报告（2005）》中的《报纸、广播电视、网络用字总表》的调查报告中对统计单位有粗略的说明：“字种数：8128个。这里的字种，指字形不同的汉字。”（11）这里无论是用的“字种”这个术语，还是“字形不同的汉字”，这样对字种的解释，表意都不够明确。首先，使用的字种这个术语与学术界一般的用法不同。周有光在《现代汉字学发凡》一文中曾用具体实例区别“字次”、“字种”和“字形”三个术语，他指出：“‘从群众中来到羣衆中去，是一条群众路线的原理’。这个句子里有几个字？甲答：20个字。乙答16个字。丙答：18个字。为什么答案不同？甲讲的是‘总字次’，有一个算一个。乙讲的是‘字种数’，同字异形合并计算。丙讲的是‘字形数’，同字异形分别计算。”（12）他在《现代汉语用字的定量问题》一文中又指出：“‘定量’是定‘字种’的总量。一个汉字可以繁简不同，形体不同，但是属于同一‘字种’，以‘正字’为标准。”（13）沙宗元在《文字学术语规范研究》一书中根据周有光的研究设立了“字形数”和“字种”两个术语，并分别给出了定义，他给“字形数”下的定义是：“根据汉字字形而不考虑其繁简、正异等字际关系进行统计所得出的汉字数量。”给“字种”下的定义是：“一个汉字即使有多个繁简体、异体字，也只作为一个来计算的汉字统计单位。”（14）该文中所定义的两个术语也存在不匹配的问题。跟“字种”匹配的术语是“字形”，跟“字形数”匹配的术语应是“字种数”。《报纸、广播电视、网络用字总表》中用的字种大致相当于周有光所说的字形。在实际操作中，《报纸、广播电视、网络用字总表》繁简字、异体字、新旧字形都作为不同的统计单位来统计的。在该表统计的8128个统计单位中包括繁体字361个，异体字193个，旧印刷字形47个，另有不合现行规范的类推简化字7个。

前面提到的那些未对统计单位作出明确规定的统计，在实际操作中所用的统计单位各不相同。

北京语言学院语言教学研究所编《汉字频度表》的统计单位大致是按照周有光定义的字种来操作的，统计的语料中包含繁简字、异体字和新旧字形，统计结果中有个别异体字和错误类推简化字，但未见繁体字和旧字形，应该是用简化字替代了繁体字，用新字形替代了旧字形。统计出的异体字，包括《一异表》收录的异体字，如，並（276）、并（1766）；黏（1719）、粘（2495）；渺（2321）、淼（4336）等；《一异表》未收的异体字，如，沙（649）、砂1756；衖（1901）、巷（2034）等；错误类推简化字，如，4475号“垅”（2189垄）；4174号飚（当是技术错误）。

《中国语言生活状况报告（2005）》中的《报纸、广播电视、网络用字总表》的统计单位近似于周有光的字形，繁简字、异体字、新旧字形均作为不同的统计单位进行统计。表中收录繁体字361个（15），异体字193个（16），旧字形47个（17）。

统计单位的不明确、不统一，不仅影响到字频统计的科学性，也不利于统计结果的正确、有效使用。

四、汉字字频统计的改进

根据上述情况分析，我们认为必须加强字频统计的理论研究，完善统计原则，改进统计方法，提高字频统计的客观性和科学性。

首先，要实现字频统计的客观性，必须建设满足文字学研究需要的字料库。所谓字料库“是指以文字的整理和文字学的研究为目标，按照语言学和文字学的原则，收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态，运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合，是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础。”（18）只有根据字料库的原则建设字料库，基于字料库进行汉字的字频统计，改变以往基于语料库进行字频统计的做法，才能解决以往字频统计客观性不足的问题，实现字频统计的客观性，使得字频统计能够最大限度地反映社会用字的实际状况。

其次，汉字字频统计必须明确界定统计单位，划分不同层级的汉字统计单位，根据不同需要对汉字的不同层级的统计单位进行分类分层的字频统计。

汉字统计单位的界定与划分是一个非常复杂的问题，必须专门研究，不是本文能够全面解决的问题。本文仅以印刷楷书为例，以字频统计为目标，示范性地讨论字的概念界定与划分方法。

学术界不少学者曾经从文字学的角度对汉字中字的单位做过区分，但是，着眼点又有所不同，有的是着眼于汉字规范对字的单位进行界定，有的是着眼于对汉字使用实际状况的调查对字的单位进行界定。前者，如前文所述周有光在《现代汉字学发凡》一文中曾区别“字种”和“字形”。后者，如北京师范大学汉字构形学系列研究，从文本提取字形进行归纳，实际上也涉及汉字单位。王贵元的《马王堆帛书汉字构形系统研究》是最早从文本中提取字进行构形分析的专著。该书第二章“单字整理”，专门讨论从文本中提取字制作字表和进行统计的单位问题。文中先讨论了异写字、异构字、同形字三个概念，并在此基础上讨论了字样认同与别异、通行体与变体、单字统计原则等问题（19）。李运富在《楚国简帛文字构形系统研究》一书中，也在第二章设立了“单字整理”一章，并进一步把单字整理程序化，专门讨论了字样的提取与辨认问题，在此基础上讨论了字样群的处理，设立了字位与符位等概念，把字的单位区别为同体字样与异写字样、同符位异构字、异符位同形字等，已经有了字单位的层级性的思想（20）。到陈淑梅的《东汉碑隶构形系统研究》和齐元涛的《隋唐五代碑志楷书构形系统研究》，字样提取及不同层次单位的归纳程序基本成熟。王宁先生在为《汉字构形史丛书》写的总序中对此作了理论总结，她说：“对文本中的汉字加以整理，也就是必须对写在文本上实际使用的汉字进行三种性质不同的归纳：（1）字样的归纳。这是将重复出现的汉字字样归纳到一起并进行统计的工作，是将一切文本形式的汉字改变为字库形式第一步要做的工作。（2）字组的归纳，也就是对结构、功能相同书写略有变化的异写字的归纳。这些字属于同字异写，或称同构异写的关系。（3）字种的归纳，也就是对功能相同结构不同的异构字的归纳。这些字或因构件的选择不同，或因构件的增减不同而异形，因而有着不同的构意，但记词的功能是相同的。它们的关系属于同职异字，或称同词异字。”（21）王宁先生所说的“三种性质不同的归纳”如果都把它定义为字的话，也就是三个不同层次的“字单位”。

从规定的角度可以采纳周有光先生的界定，把字的单位划分为字种、字形两级。

字的单位确定了，字频统计则可以根据不同的统计目的规定统计单位，可以以字型为统计单位统计型频，也可以以字样为单位统计样频，可以以字式为单位统计式频，可以以字种为单位统计种频。这样，不仅统计单位明确、清晰，而且每次特定的统计，统计单位统一、等质，便于统计数据的使用，以及不同统计数据的比较，使得字频统计的科学性得到保障。

注释：

①冯志伟：《现代汉字和计算机》，北京：北京大学出版社，1989年版，第109页。

②苏培成：《现代汉字学纲要》（增订本），北京：北京大学出版社，2001年版，第32页。

③沙宗元：《文字学术语规范研究》，合肥：安徽大学出版社，2008年版，第402页。

④国家语言资源监测与研究中心：《中国语言生活状况报告（2005）》，北京：商务印书馆，2006年版，第6页。

⑤北京书同文数字化技术有限公司：《古籍汉字字频统计》，北京：商务印书馆，2008年版，第14-15页。

⑥周有光：《中国语文纵横谈》，北京：清华大学出版社，1997年版，第64页。

⑦王凤阳：《汉字频率与汉字简化》，载《语文现代化丛刊》，北京：知识出版社，1980年第3辑，第92页。

⑧国家语言文字工作委员会、国家教育委员会：《关于〈现代汉语常用字表〉的联合通知》，1988年版。

⑨北京语言学院语言教学研究所：《现代汉语频率词典·编辑说明》，北京：北京语言学院出版社，1986年版。

⑩国家语言资源监测与研究中心：《中国语言生活状况报告（2005）》，第6页。

（11）国家语言资源监测与研究中心：《中国语言生活状况报告（2005）》，第6页。

（12）周有光：《周有光语言学论文集》，北京：商务印书馆，2004年版，第316页。原载于《语文现代化》丛刊第2辑，1980版。

（13）周有光：《周有光语言学论文集》，第339页。原载于《辞书研究》，1984年第4期。

（14）沙宗元：《文字学术语规范研究》，第401页。

（15）（16）（17）国家语言资源监测与研究中心：《中国语言生活状况报告（2005）》，第257-261、262-264、266页。

（18）李国英、周晓文：《字料库建设的必要性与可行性》，《北京师范大学学报（社会科学版）》，2009年第5期。

统计学语言论文篇12

>>甘肃2014年自考报名时间 | >>甘肃2014年自学考试时间

2014年甘肃自考科目安排（自学考试各个专业的考试科目不同，具体点击查看：自学考试科目）专业层次学制主要课程音乐教育专科两年大学语文、基础乐理、视唱练耳、基础声乐、基础和声、合唱与指挥基础、基础钢琴、艺术概论、民族民间音乐、音乐欣赏、中学音乐教学法、计算机应用基础、计算机应用基础实践、基础钢琴实践、基础声乐实践、本科两年英语(二)、中外音乐史、中外音乐欣赏、和声学、音乐作品分析、歌曲写作、音乐教育学、音乐美学、简明配器法、歌曲钢琴伴奏、声乐实践、歌曲钢琴伴奏、声乐实践、歌曲钢琴伴奏实践、视唱练耳实践、毕业论文经济法专科两年大学语文、法理学、宪法学、民法学、民事诉讼法学、公司法、经济法概论、刑法学、合同法、税法、国际经济法概论、劳动法、计算机基础、人力资源管理本科两年英语（二）、行政处罚法、行政复议法学、国家赔偿法、经济法学原理、企业与公司法、行政法学、劳动法、金融法概论、房地产法、环境法学、税法原理、行政诉讼法、财务管理学（辅修）市场营销专科两年政治经济学（财经类）、高等数学（一）、基础会计学、经济法概论（财经类）、大学语文（专）、国民经济统计概论、消费心理学、谈判与推销技巧、企业管理概论、公共关系学、广告学（一）、市场营销学、市场调查与预测、计算机应用基础（含实践）本科两年英语（二）、高等数学（二）、市场营销策划、金融理论与实务、商品流通概论、消费经济学、国际商务谈判、国际贸易理论与实务、企业会计学、国际市场营销学、管理系统中计算机应用（含实践）公共关系本科两年人际关系学、公共关系口才、现代谈判学、公共关系案例、国际公共关系、公关政策、企业文化、创新思维理论与方法、领导科学、人力资源管理（一）、现代资源管理（一）、广告运作策略行政管理专科两年大学语文（专）、政治学概论、法学概论、现代管理学、行政管理学、市政学、人力资源管理（一）、公文写作与处理、管理心理学、公共关系学、社会研究方法、秘书工作、计算机应用基础（含实践）本科两年英语（二）、当代中国政治制度、西方政治制度、公共政策、领导科学、国家公务员制度、行政组织理论、行政法与行政诉讼法（一）、社会学概论、中国行政史、中国文化概论、普通逻辑、财务管理学、秘书学概论、企业管理概论汉语言文学专科两年文学概论、中国现代文学作品选、中国当代文学作品选、中国古代文学作品选（一、二）、外国文学作品选、现代汉语、古代汉语、写作等本科两年美学、中国现代文学史、中国古代文学史（一、二）、外国文学史、语言学概论、英语（二）、两门选修课、毕业论文涉外秘书学专科两年英语（一）、大学语文（专）、公共关系、外国秘书工作概况、涉外秘书实务、涉外法概要、本科两年英语（二）、中外文学作品导读、国际贸易理论与实务、经济法概论、秘书语言研究、公关礼仪、交际语言学、国际商务谈判、中外秘书比较、口译与听力等对外汉语本科两年现代汉语、实用英语、中国古代文学、中国现当代文学、外国文学、外国文化概论、对外汉语教学概论、英语表达与沟通（实践环节）毕业论文等英语翻译专科两年英语写作基础、综合英语（一二）、英语阅读（一）、英语国家概况、英语笔译基础、初级英语笔译、初级英语口译、英语听力本科两年中级笔译、高级笔译、中级口译、同声传译、英汉语言文化比较、第二外语（日/ 法）、高级英语、英美文学选读、毕业论文日语专科两年基础日语（一二）、日语语法、日本国概况、日语阅读（一二）、经贸日语、日语听力、日语口语本科两年高级日语（一二）、日语句法篇章法、日本文学选读、日汉翻译、第二外语（英/法）、现代汉语、计算机应用基础、日语口译与听力、毕业论文英语专科两年综合英语（一二）、英语阅读（一二）、英语写作基础、英语国家概况、英语听力，口语等本科两年英语写作、高级英语、英美文学选读、英语翻译、经贸知识英语、口译与听力、二外（日语）等外贸英语专科两年综合英语（一二）、英语阅读（一）、英语写作基础、英语国家概况、国际贸易理论与实务、英语听力、口语、外贸英语阅读等本科两年英语写作、高级英语、英美文学选读、英语翻译、经贸知识英语、外贸口译与听力、二外（日语）等公共事业管理专科两年计算机应用基础、公共事业管理概论、社会学概论、管理学原理、人力资源开发与管理、公共关系、社会调查与方法、行政管理学、文教事业管理、计划生育管理、秘书学概论、计算机应用基础（实践）等本科两年英语（二）、公共管理学、公共政策、公共事业管理、公共经济学、非政府组织管理、行政法学、人力资源管理（一）、管理信息系统、毕业论文等工商企业管理专科两年计算机应用基础、基础会计学、经济法概论、国民经济统计概论、企业管理概论、生产与作业管理、市场营销学、中国税制、企业会计学、人力资源管理、企业经济法（辅修）、民法学（辅修）；本科两年英语（二）、高等数学、管理系统中计算机应用、国际贸易管理与实务、管理学原理、财务管理、金融理论与实务、企业经营战略、组织行为学、质量原理、企业管理咨询、合同法（辅修）、行政法学（辅修）。国际贸易专科两年高等数学、法律基础、计算机应用基础、英语、国际贸易实务、国际金融、国际商法、中国对外贸易、WTO知识概论、市场营销学等本科两年国际市场营销学、世界市场行情、国际商务谈判、企业会计学、国际运输与保险、西方经济学、外国经贸知识选读、涉外经济法、经贸知识英语等金融管理专科两年证券投资分析、保险学原理、银行会计学、商业银行业务与管理、货币银行学、财政学、经济法概论、基础会计学、管理学原理等本科两年管理会计实务、国际财务管理、公司法律制度研究、英语（二）、电子商务概论、组织行为学、风险管理、高级财务管理、审计学、政府政策与经济学等会计（电算化）专科两年英语（一）、大学语文、高等数学（一）、基础会计学、国民经济统计概论、数据库及应用、财政与金融、会计电算化、成本会计、财务管理学、计算机应用基础、经济法概论（财经类）本科两年高等数学（二）、、英语（二）、数据结构、审计学、管理学原理、通用财务软件、计算机网络基础、财务报表分析（一）、金融理论与实务、高级财务软件、操作系统。加考课程：会计电算化、财务管理学、成本会计、基础会计学、政治经济学（财经类）人力资源管理专科两年管理学原理、组织行为学、人力资源管理学、人力资源经济学、企业劳动工资管理、劳动就业论、社会保障、劳动与社会保障法、公共关系学、应用文写作等本科两年企业战略管理、人力资源战略与规划、人力资源培训、人事测评理论与方法、人力资源薪酬管理、绩效管理、人力资源开发管理理论与策略、管理信息系统等文化事业管理专科两年英语（一）、写作、中国文化概论、文化管理学、文化行政学、文化政策与法规、文化经济学、文化策划与营销、艺术概论、社会学概论、民间文学、计算机文化产业本科两年英语（二）、中国文化导论、文化产业与管理、文化产业创意与策划、文化市场与营销、外国文化导论、媒介经营与管理、文化服务与贸易经济信息管理专科两年高等数学、计算机网络基础、计算机应用技术、计算机软件基础、计算机组成原理、经济信息导论、计算机信息基础、信息经济学等本科两年英语（二）、应用数学、中级财务会计、计算机网络技术、社会研究方法、网络经济与企业管理、数据库及应用、电子商务概论、高级语言程序设计、应用数理统计、经济预测方法。游戏软件开发技术专科两年英语（一）、高等数学、计算机游戏概论、高级语言程序设计、游戏作品赏析、计算机网络技术、游戏软件开发基础、市场营销、动画设计基础等本科两年英语（二）、游戏创意与设计概论、可视化程序设计、艺术设计基础、多媒体应用技术、DirectX、Java语言程序设计、游戏开发流程与引擎原理、游戏架构导论、软件工程、游戏心理学等电子商务专科两年电子商务英语、经济学（二）、计算机与网络技术基础、市场营销（三）、基础会计学、市场信息学、国际贸易实务（三）、电子商务概论、商务交流（二）、网页设计与制作、互联网软件应用与开发、电子商务案例分析、综合作业本科两年英语（二）、数量方法（二）、电子商务法概论、电子商务与金融、电子商务网站设计原理、电子商务与现代物流、互联网数据库、网络营销与策划、电子商务安全导论、网络经济与企业管理、商法（二）信息技术教育本科两年英语（二）、物理（工）、数据库原理、数据结构、计算机网络与通信、计算机系统结构、软件工程、数值分析、面向对象程序设计、计算机辅助教育、高级语言程序设计、数字逻辑、中学信息技术教学与实践研究计算机及应用专科两年大学语文、高等数学、英语（一）、模拟电路与数字电路、计算机应用技术、汇编语言程序设计、数据结构导论、计算机组成原理、微型计算机及其接口技术、高级语言程序设计（一）、操作系统概论、数据库及其应用、计算机网络技术本科两年英语（二）、高等数学、物理（工）、离散数学、操作系统、数据结构、面向对象程序设计、软件工程、数据库原理、计算机系统结构、计算机网络与通信电子政务专科两年行政管理学、公文写作与处理、公共事业管理、行政法学、经济管理概论、办公自动化原理及应用、政府信息资源管理、电子政务概论、管理信息系统、计算机应用技术本科两年英语（二）、公共管理学、电子政务理论与技术、政府经济学、信息化理论与实践、网站建设与管理、计算机网络与通信、电子政务案例分析、信息与网络安全管理电子技术专科两年英语（一）、电工原理、高等数学、线性代数、线性电子电路、非线性电子电路、数字电路、计算机基础与程序设计、电子测量、音响技术、微型计算机原理及应用、办公自动化设备、电子工程本科两年英语（二）、高等数学(工本) 、物理(工) 、复变函数与积分变换、概率论与数理统计(二)、工程经济、信号与系统、计算机软件基础(二)、数字信号处理、单片机原理与应用、自动控制理论(二)、声视频技术服装设计专科两年构成艺术、服装工艺、服装结构设计、服装款式设计、服装纸样设计、服装市场营销等本科两年服装设计、服装纸样设计、服装图形设计、服装计算机辅助设计、服装立体剪裁、展示工艺、企业形象设计、服装饰品设计等数控技术专科两年机械设计基础、公差配合与技术测量、数控编程与操作、CAD/CAM、电工学等本科两年模拟数字及电力电子技术、传感器与监测技术、微型计算机原理与接口技术、机床数控原理、CAD/CAM软件应用、模具与现代加工技术等视觉传达设计专科两年构成艺术、插图艺术设计、包装结构与包装装潢设计、平面广告设计、机构形象设计（ VI ）、商品摄影、POP与DM广告设计等本科两年书籍装帧设计、包装工艺与设计、创意网页设计、影视广告、方案与脚本、室内设计、景观设计、展示设计、家具设计动漫设计专科两年构成艺术、字体设计、动画基础、动画运动、电脑图像设计、动画概论本科两年漫画设计、动画场景设计、动画分镜头、二维动画制作、三维动画制作动画特效合成、动画创作生物技术专科两年普通生物学、食品分析与检验、发酵工艺学、生物制药技术、生物化学、微生物学、细胞工程、基因工程、酶学、病毒学、现代生物技术导论等生物工程本科两年英语、工程制图、化工原理、生物工艺学、微生物遗传与育种、生化工程、生物制药学、生化分离工程、高等数学等食品工程专科两年基础化学、食品化学、食品微生物学、食品工艺学、食品分析本科两年食品工程原理、食品营养、食品加工技术、酿造食品加工、食品法规、食品包装与设计、农产品储藏运销学、计算机应用基础景观园林本科两年英语、园林工程制图、园林艺术原理、景观生态学、园林建筑学、园林CAD、园林规划设计、园林工程学、3DMAX、园林植物保护学、园林美学新闻专科两年计算机应用基础（含实践）、汉语基础、社会学概论、中国现代文学作品选、新闻学概论、中国新闻事业史、新闻采访写作、报纸编辑、广播新闻与电视新闻、广告学、新闻心理学本科两年英语（二）、新闻评论写作、新闻摄影、外国新闻事业史、中外新闻作品研究、传播学概论、公共关系学、新闻事业管理、文学概论应用心理学专科两年大学语文、实验心理学、生理心理学、发展心理学、教育心理学、心理与教育统计学、社会心理学、管理心理学、医学心理学、心理测量、普通心理学（含实践）、计算机应用基础（含实践）本科两年英语（二）、认知心理、心理学研究方法、心理学史、变态心理学、学习心理学、心理咨询原理与技术（含实践）、学校心理学、心理诊断、行为改变技术（含实践）小学教育专科两年大学语文、教育原理、科学技术社会、小学教育心理学、小学科学教育、小学教育科学研究、小学语文教学论、小学数学教学论、小学班主任、素质教育导论本科两年英语（二）、心理卫生与心理辅导、课程与教学论、发展与教育心理学、中外教育简史、中小学教育管理、比较教育、小学艺术教育、现代教育测量与评价、中小学教育信息技术、学校管理心理学、教学设计、德育原理、基础教育课程改革研究、毕业实习、毕业论文学前教育学专科两年学前教育学、学前发展心理学、学前卫生学、儿童文学、学前教育心理学、幼儿园组织与管理、学前儿童数学教育、学前儿童语言教育、学前儿童科学教育、科学技术社会本科两年英语（二）、教育学原理、学前游戏论、幼儿园课程论、学前比较教育、中外学前教育史、幼儿园活动设计、学前教育科学研究、家庭教育学教育技术学本科两年英语（二）、教学设计、教育电视系统、教育电视节目制作、计算机辅助教育、多媒体教学系统、高级语言程序设计、教与学的基础原理、教育传播方法研究、教育电声系统及软件制作、信息技术课程教学论、教育管理本科两年英语（二）、教育管理原理、教育评估与督导、教育经济学、教育统计与测量、教育法学、教育预测与规划、中外教育管理史、管理心理学、高等教育管理