测度论在统计学中的应用合集12篇

时间：2023-07-21 09:13:46

测度论在统计学中的应用

测度论在统计学中的应用篇1

作者简介：李金昌，男，50岁，浙江义乌人。浙江财经大学校长，统计学教授，博士生导师。研究方向为经济统计学，统计理论与方法，抽样技术，政府统计等。

最近两年，统计学界对大数据问题所进行的理论探讨逐渐增多，视角也各有千秋，引起了一些共鸣。围绕大数据问题，由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题，因此远未达到对其有一个系统完整的认识，仍然需要从不同的方面加以研究，其中有一个重要但又容易被忽视的问题，即统计测度问题，值得去探讨。

一、什么是统计测度

汉语上，测度是指猜测、揣度、估计。数学上，测度是一个函数，它对一个给定集合的某些子集指定一个数，这个数可以比作大小、体积、概率等等。通俗地说，测度把每个集合映射到非负实数来规定这个集合的大小：空集的测度是0；集合变大时测度至少不会减小(因为要加上变大的部分的测度，而它是非负的)。

除了数学角度的测度论，查阅国内文献资料，带有测度这个词汇的文献不少，但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献，例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等，所做的测度都是再测度，均不对测度本身进行讨论。查阅国外文献资料(关键词：measurement)，也同样存在这样的问题，只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为，在我们对事物或现象进行描述时，测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为，如果按照极端的观点，那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出，测度在那些原来尚未得到卓有成效或广泛应用的领域，也已取得了明显的进步，社会、政治、经济和行为科学正在更大程度地利用定量技术；测度是现代思维的一种实际有效的工具，是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为，用以表示测度结果的，是数字或者数字符号。LucaMari(2013)[5]认为，测度的基础特征是被公认为世界上获取并正式表达信息的基本方法，这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出，在自然科学技术中，测度的重要性不可否认，它是科学调查和发现必不可少的工具，它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么，到底什么是统计测度呢？目前没有一个统一的定义。本文认为，统计测度具有不同于测度的意义，并且大大超越数学上的界定，即它具有数学定义的一般属性，但又不受制于函数表现形式，因为统计测度所要面对的是现实世界，实际问题要比理论上可以定义的问题复杂得多。按照我们的理解，统计测度就是用一定的符号和数字，用一定的形式和载体，对所研究的现象或事物的特征进行量化反映，表现为可用于统计分析的数据的过程。它应该具有这样一些属性：以实际现象为测度对象，测度结果具有实际意义；以量化为目的，把信息转化为数量，提供人们容易理解的定量结论；个体特征的测度符合形成总体定量结论的要求，同时能够体现个体差异。可以发现，统计测度需要借用数学工具，但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中，从边界的角度对宏观测度进行了分类：一是因事物本身可测度性而形成的边界，即本体论意义上的测度边界；再一是由人的认知能力而形成的边界，即认识论意义上的测度边界；第三则是由统计相关性偏好和投入约束而形成的边界，即操作意义上的测度边界。这三条测度边界，应该以本体论意义的测度边界最大，认识论意义的测度边界次之，而操作意义的测度边界最小。这样的分类，对于我们正确理解统计测度的内涵很有帮助。受此启发，笔者认为统计测度还可以有如下分类：

1.从测度的实现形式看，可以分为原始测度和再测度。原始测度也可以称为直接测度，它通过对测度对象进行直接测度来获取数据，例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据，以及各种登记、记录的原始数据等等。再测度也称为间接测度，它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据，例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具，因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看，原始测度是基础，是根本，没有科学的原始测度就不会有可靠的再测度；再测度则是测度功能提升的必然要求，以解决原始测度不能解决的问题。

2.从测度的计量方式看，可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度，例如人口规模、企业数量等的测度，采用自然计量单位；物理测度是利用现象的物理属性所进行的一种统计测度，例如公路长度、作物播种面积、天然气产量等的测度，采用物理计量单位；化学测度是利用现象的化学属性所进行的一种统计测度，例如医学、生物学中化学合成物的成分结构测度，采用百分数、千分数或特定标识为计量单位；时间测度是利用现象的时间属性所进行的一种统计测度，例如劳动用工、闲暇时间等测度，采用时间计量单位；价值测度是利用现象的价值属性所进行的一种统计测度，例如劳动报酬、经济活动成果等测度，采用货币计量单位。在这些测度计量方式中，价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看，可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法，最为简单，一般用于自然测度或时间测度；测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法，一般用于物理测度或化学测度；实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法，一般与测量测度相结合，用于获取科学研究数据；定义测度也可以称之为指标测度，是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法，最常用于价值测度，也用于其他形式的测度。可以说，定义测度方法应用最为广泛，但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律，通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度，定义测度既可能是直接测度、也可能是间接测度，而模型测度都属于间接测度方法。

4.从测度的维度看，可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度，获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度，测度过程中可能需要采用多种测度方法和计量方式，例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然，单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先，从统计学的发展历史看，是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学？正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算，得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反，我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例)，即用数字、重量和尺度的词汇来表达我自己想说的问题，只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”，这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词，但却道出了测度的本质，即让事物变得明白、变得有根据，因为“数字、重量和尺度”就是测度、就是根据，用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想，尽管测度的方式方法还很简单。相反，国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词，但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说：“在配第之前，统计学的研究对象虽然是国家的态势，但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期，人类才想到了要测度它，并发明了如何测度的基本方法。政治算术，即开创期的经济统计学，实现了从无到有的转变，大大扩展了宏观测度的认识论边界，因而才具有了统计学范式创新的革命性意义。”同样，格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作，无论是原始测度还是再测度，都给后人留下了宝贵的财富。之后，统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9]，对数据的变化与统计分析方法的发展进行了粗浅的归纳，其主题实际上就是统计测度问题。

其次，从统计学的研究对象上看，统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面，或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来？从统计测度中来。数据不同于数字，数字是统计测度的符号，数据是统计测度的结果，这也正是统计学区别于数学之处。所以说，数据的本质问题就是统计测度问题，故此统计测度是统计学的基本问题。这里重点讨论两个问题：一是统计测度与统计指标的关系，二是统计测度面临的新问题。关于第一个问题，本文认为统计测度与统计指标是一个事物的两个方面，这个事物就是数据。统计指标法是统计学的基本方法之一，尽管前面对统计测度从方式方法上进行了分类，但从广义上说所有统计测度都是定义测度，都表现为指标。也就是说，任何统计测度———不论是直接测度还是间接测度，最终目的是获得能够让人明白的数据，而表现数据的最主要形式就是统计指标，其他表现数据的形式都是派生出来的。所以，统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题，与后文所要论及的大数据有关，就是定性测度问题。在统计学中，数据可以分为两类———定性数据与定量数据，其中定性数据又包括定类数据与定序数据两种，它们属于非结构化或半结构化数据。相应地，统计测度也可分为定性测度与定量测度。很显然，只有定性测度与定量测度方法得到同步发展，统计学才能更加完善。总体上看，定量数据的统计测度已经比较完善，但定性数据的统计测度还有很多问题尚待解决，难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少，但还没有从理论方法上建立起定性数据统计测度的体系，因此统计学在这方面的任务依然很重。

第三，从统计学的永恒主题看，通过科学的数据分析、得出有效的结论是其不变的追求，而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息，即发现数据背后的数据，让数据再生数据，从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外，更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现，这种数据分析的过程，就是不断进行各种统计测度的过程，所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果，或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字)，只要有数据分析，都是如此。可以说，统计测度贯穿于统计数据分析的全过程。但是，为什么很多统计数据分析并没有得出有效的结论呢？本文认为原因就出在统计测度上，尤其是没有首先解决好原始统计测度问题。应该说，围绕数据分析已经建立起一整套比较完整的统计方法体系，很多方法也都身经百战、行之有效，但一旦原始统计测度有问题、数据不准确或不真实，那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献，其重点均在于构建什么样的模型或运用什么样的方法，虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题，但并不是系统地从测度的角度进行阐述，因此所用的模型越来越复杂，但所得的结论却离实际情况越来越远。学界总是有这样一种观念：变量越多、符号越新奇、模型越复杂的文章才越有水平，似乎这样分析所得的结论才越可靠。殊不知，不以科学可靠的原始统计测度为基础，任何数据分析都会成为无源之水、无本之木，所得的结论也只是更精确的错误而已。本文认为，任何脱离科学统计测度的统计分析都是毫无意义的，充其量是一种数字游戏而已。应该树立这样一种观念：科学的统计数据分析首先取决于科学的统计测度，而不是首先取决于什么样的分析模型，虽然模型也很重要。这也再一次证明，统计测度问题是统计学的根本问题。其实，归根结底看，在统计数据分析过程中，每一步分析都以前一步的测度为原始测度，每一步所用的方法都是统计测度方法，因此所有的统计分析方法都是统计测度方法。甚至可以说，统计学方法体系就是统计测度方法体系。

当然，在实际的统计分析中，统计测度往往遇到一些困难，即有些指标数据由于各种原因无法获得，这就不得不采用替代这种途径。例如，绿色GDP核算的概念已经提出很多年，但为什么还没有哪个国家真正公布绿色GDP数据，原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难，其背后存在着一系列有待进一步研究和解决的理论与实践问题，因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性，另一方面说明统计测度替代的无奈性。但是，替代测度必须遵守相应的规则与逻辑，要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得，却随意地、不符合逻辑地进行所谓的替代，结果是最后的结论不知替代成什么样了，很难理解它的意义。关于替代测度的有效性问题，邱东教授[7]已有精辟的论述，在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲，数据科学就是以大数据为研究对象的科学，需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据，因此大数据分析仅有统计思维与统计分析方法是不够的，还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来，才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先，大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展，使人类进入大数据时代，也有人说进入到数联网时代，这意味着我们一方面被各种越来越多、越来越复杂的数据所包围，另一方面又被数据中巨大的信息价值所吸引，想从中挖掘出可供决策之用的信息。如何挖掘大数据？人们已经进行了艰苦的探索，发展了很多专门的方法技术，并已尝到了不少甜头，但远未达到充分利用大数据中有效信息的目的，因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域，重点是计算能力与算法研究，而很少从统计学的角度进行有针对的探讨，还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说，计算技术的发展能够解决数据储存与计算的能力问题，算法模型的改进能够解决大数据分析的综合能力问题，那么它们仍然不能解决对谁进行计算与分析的问题，也即从何处着手的问题。无论是传统的结构型数据，还是现在的包含大量非结构型数据的大数据，要对它们进行分析都必须找到正确的切入口，即分析的基本元素是什么，或者说需要测度什么。当然，还有如何测度的问题。然后，才能进行分组、综合和构建模型，否则大数据分析不会达到人们的预期。

其次，大数据之所以催生数据科学，就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题，其中包括统计测度问题，这一点对于非结构化数据尤为突出。实际上，大数据的本质就是非结构化数据，一是体量大、比重高(超过95%)，二是变化快、形式多，三是内容杂、不确定。通过各种社交网络、自媒体、富媒体，以及人机对话和机器感应记录等产生的各种非结构化数据，例如各种文字、各种表情符号、各种声音、各种图像，到底表示什么？综合在一起能体现什么规律？如何综合各种信息？存在着大量有待研究的问题。其实，文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式，等)甚至字体大小与颜色，表情类型与偏好，声音高低、频率与情绪，图像颜色等等，都是有特定意义的，即在特定环境条件下的反应。所以，一句话或一段声音的意义并非文字本身的意思，一个表情符号的意义并非符号表征的意思，一个图像的意义并非图像内容与色彩本身的意思，因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等，也是如此。更何况，同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系，既具有个性又具有共性，极其复杂。所以对这样的数据进行分析，首先绝非是计算问题，也不是用什么模型问题，而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题，一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度，这些问题不解决，分析模型也是难以构建的，或者难以得出令人信服的结论。

例如，关于《红楼梦》前80回与后40回是否同一作者的争论，韦博成[10]进行了综合性的比较研究并提出了自己的观点，他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究，但却得出了不同的结论：陈炳藻教授认为前80回与后40回均是曹雪芹所著；陈大康教授认为前80回与后40回为不同人所著；李贤平教授认为前80回是曹雪芹根据《石头记》增删而成，后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外，还有其他一些学者进行过类似的研究，也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论？原因就在于用以分析的关联词不同，即统计测度的切入点不同，当然也有统计方法上的差异，但前者是根本。至少存在几个统计测度上的问题：提取单一维度的关联词还是多维度的关联词？提取什么类型的关联词(例如：关联词是名词、形容词还是动词；是花卉、树木、饮食、医药还是诗词)？这些关联词可以综合为什么样的指标？等等。由此可见，原始统计测度代表着数据分析的方向。

相比《红楼梦》，大数据分析要复杂得多、困难得多。所以，数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外，还需要与行为科学、语言学、社会学、经济学等学科相结合，以便能很好地解决作为数据分析之前提的统计测度问题。

第三，数据科学将进一步拓展统计测度的边界，并提出更高的要求。伴随着人类认识世界的范围的不断拓展，统计测度的范围也不断扩大，从自然现象统计测度到人口现象、经济现象统计测度，再到社会现象、环境现象、政治现象等统计测度，几乎已经渗透到了所有可以想象到的领域。相应地，统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等，2013)[14]，意味着统计测度的内容大大增加，原来一些不能测度的数据被纳入到了统计测度的范围，按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大，必须以统计测度能力的提升为前提，即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力，这就必须以科学准确的大数据统计测度为前提，既改变统计思维，又创新统计分析方法，其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据，如果没有更好的统计测度思路与方法，包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等，那么统计学在数据科学发展过程中就难以发挥应有的作用，数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述，统计测度的基础性问题从统计学延伸到了数据科学，是两者的共同基础，并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增，亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素，以及这些因素之间的内在联系、外在指标和测度方法，进而研究基于先进计算技术的大数据度量模型，构建寻找面向计算的数据内核或者数据边界的基本方法。总之，建立有效易行的数据表示方法，即科学的统计测度方法，是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述，统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据，统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话：“界限并不表示某一事物的发展到此为止，而是像希腊人所认知的那样，界限是某种事物开始展现的地方”，预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新，统计测度方法的创新促进统计测度边界的拓展，两者相辅相成，共同推动统计学与数据科学的发展。为此，我们要系统梳理统计测度方法的发展历程，面对大数据提出的新挑战，大胆探索统计测度的新思路、新理论和新方法，为数据科学奠定坚实的统计学基础。为此提出如下几点建议：

首先，要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切，既然统计测度的目的是获得客观反映现象本质的数据，那么深入到现象本质、认识和掌握现象的本质，是科学统计测度的关键，也是探求新的统计方法的出发点。换句话说，科学的统计测度方法能够体现出数据的真正意义。例如，要探求社交网络数据的统计分析和测度方法，就必须了解社交网络的产生背景、构成要素、表现形式与基本特征，既要研究它的共性问题，又要研究它的个性问题与差异性，同时还要研究它的变化趋势。只有这样，才能掌握社交网络数据的构成要件或元素，才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如，要分析研究电子商务数据，也必须先弄清楚什么是电子商务，尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等，否则统计测度无从下手或者抓不住要害。同时，作为一个新的研究领域，数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关，离不开对相关学科领域知识与研究方法的借鉴，因此对相关领域的知识与研究方法的学习十分重要。否则，就会严重扭曲统计测度方法，胡乱设置测度标志，这需要引起高度关注。

其次，要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存，构成了多维的数据空间，里面蕴藏着丰富的信息资源，这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间？怎么进去？又怎么出来？这归根结底还是统计测度方法问题。因此，在开展大数据分析之前，首先要研究大数据的基础性问题，包括大数据的内在机理(包括大数据的演化与传播机制、生命周期)，数据科学与社会学、经济学、行为科学等之间的互动机制，以及大数据的结构与效能的规律性等等，为创新统计测度方法提供导向。本文认为，再复杂的数据也有共性，再不确定的数据也有规律，再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数，是开展复杂网络数据分析的基础(李国杰、程学旗，2012)[15]；大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律，是找到大数据分析切入口、进而简化大数据表征的前提；大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性)，是研究更多的社会网络模型和理解网络瓦解失效原因，理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征)，以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等，2013)[16]。也就是说，这些共性、规律和轨迹就是统计测度的主要依据，也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法，其实就是发展和创新大数据统计测度方法。

测度论在统计学中的应用篇2

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110062-02

一、引言

题库是一个存储着大量丰富的符合一定质量标准的试题的集合。按照现代考试理论,题库定义为按照一定的教育测量理论,在计算机系统中实现的某个学科题目的有序集合。计算机网络考试系统需要一个完善的题库系统作为系统核心。而在进行题库设计时,就应考虑到题库的建立是否能够满足对学生知识水平的准确测试以及能否给出正确的评估的需求。对于自适应测试来说,能否对学生的测试给出一个准确、公平的评价,是判断题库设计好坏的标准之一。题库应该是在严格遵循教育测量理论(经典测验理论CTT与项目反应理论IRT)基础上建立起来的教育测量工具。题库应为教学实践带来两个独特的优越性:

(1)管理上的优势。体现在使用题库的高效、经济、灵活、稳定和保密。

(2)测试上的优势。体现在由题库生成的试卷具有高质量、可预控和等值可比等特点。

二、题库设计

(一)题库设计原则与理论支持

1.以教育测量学原理为基础

教育测量(Educational Measurement)就是对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。

教育测量的三个要素是测量单位、参照点和体现测量单位和参照点的测量工具。测量单位,教育测量最常使用的单位是百分单位和等级单位。百分单位规定一项测试的满分为100分,把满分的1/100作为一个计量单位。等级单位根据一项测验结果的上限和下限,把结果分成若干个等级,每一个等级作为一个计量单位。本系统采用的是百分单位。参照点,所谓参照点指的是计量的起点。有了参照点,就可以比较两个测量结果的异同。否则,测量的结果就无法进行比较。根据测量理论,参照点可以分为两类:一类是绝对参照点,另一类是人为设置的相对参照点。教育测量中的参照点,大多是人为参照点。比如,在百分单位的测量中,习惯上将60分作为及格的参照点。测量工具,我们没有办法直接去测量一个人的知识掌握程度,只能借助间接的考试方法来对学生的实际能力进行测量。由于人类的知识和技能的掌握、能力的发展等情况,都是人的大脑活动的情况,以目前科学技术水平还不足以直接测量人类的心理活动情况。目前,只能通过学生的外显行为,间接的测量学生与教育有关的精神特征。也就是说,通过学生对于测试题的反应和其他一些行为表现,根据教育学和心理学的理论,用逻辑推理的方法来间接的测量他们的知识和技能水平、能力发展情况。

在题库中,题目的属性中有一些量化指标是一个统计量,如题目的难度、区分度,这是题库的重要属性,称为项目参数。项目参数要根据教育测量理论的方法计算出来。教育测量理论不仅为题库中的项目参数提供计算方法,也为题库中题目属性项目的设计提供依据,同时为测试的有效性、可靠性分析与评价提供方法和标准。教育测量是对教育领域内的事物或现象,根据一定的客观标准,作审慎的考核,并根据一定的规则将考核的结果予以数量的描述。因此,建立一个科学的题库系统,在选取试题之前要对被测群体进行分析,测试完成之后还要对测试结果进行分析,所有过程一定要符合教育测量学的基本原理。

2.经典测试理论CTT与项目反应理论IRT相结合

(1)经典测试理论(Classical Test Theory,CTT)

多年来,学校测试学生知识水平主要以CTT为依据。它要求所有学生回答同样数量和难度的题目,然后据此来比较和评判不同学生的分数高低和水平优劣。对于自适应考试系统来说,此种理论测试方法已不能完全满足使用者的需求,比如当学生遇到比自己实际掌握知识能力高的题目时,他们只能靠猜测来答题甚至放弃;而水平能力较高的学生遇到难度低的题目时,又不能真实测试出其实际能力,既浪费时间精力,又可能因疏忽答错而出现分数误差。这说明以经典测试理论为依据的知识能力测试,还不能真实反映出学生实际的能力和水平。

(2)项目反应理论(Item Response Theory,IRT)

项目反应理论的开创者是美国心理与教育测量专家洛德(F.Lord)和丹麦科学家瑞查(Rasch)。此理论是建立在概率理论的基础上,反映了某一学生答对某一题目的概率。如果他的能力与试题的难度相当,则答对题目的概率为50%,能力越强,答对题目的概率越高。由此可见,学生答对某一题目的概率受到两个因素的制约,即学生潜在的特征能力和试题的特性(如难度、区分度、猜测参数等)。因此,它比较全面地反映出考试成绩与学生知识水平和试题质量之间的关系,是一种关于学生对试题的反应与学生潜在特征能力之间关系的测试理论。而且该理论认为,通过学生对具有一定难度和区分度等特征的题目的反映可以确定学生的潜能特征和倾向。它把学生能力值和项目难度值以统一的计量单位统一起来,置于同一个量表之中。它研究人们可看得见的学生分数与看不见的学生能力或倾向之间的函数关系,如答对项目数相同的学生未必会具有相同的能力,这一点经典测试理论无法做到。

除此之外,项目反应理论还具有以下优点:

试题难度不受学生样本的影响,学生能力也不受题目样本难易程度的影响。

测试、评分和分数的等值处理更加简便。

可以进行多重信度的估算。

可以解释学生分数和能力的关系。

可以发现靠猜测答题的学生。

可以节省题目且方便考试的组织与评估。

故本系统将采用经典测试理论与项目反应理论相结合的新思路,以经典测试理论设计题库的整体框架,发挥项目反应理论的优点,设定试卷生成规则,在规则中包括考试题型、题目数量、总分,以及期望被测学生要达到的分数水平,并按照规则中所设定的项目去生成试卷,提高测试结果的可信度和灵活性。项目反应理论虽然克服了经典测试理论的一些缺点,但是目前还存在着许多问题有待解决,如测试依赖于大量的、预先准备的、高质量的试题,而这在现实的教育领域中实现起来还有一定的难度。但是勿庸置疑的是项目反应理论代表了今后测试理论和实践探讨的发展方向。

(二)题库命题要求与质量保证

1.命题的要求

衡量一个题库的好坏,首先是看命题工作有否有一个严格的要求,应该事先设定命题细则表,并按要求编写试题。认真审核试题,提供最优的答案。准确控制试题的难度系数,以便良好的控制所抽取试卷的整体难度。并确保每一道试题的知识点,不能和其他试题知识点发生相互交叉。最后题干文字要准确的描述出所考核的内容,清楚易懂。

2.题库的质量保证

一个合格、良好的题库系统应该库存量丰富、库内存储内容质量上乘。题库中题目的数量要足够多,这样才能做到使题目尽量不被充分使用,以防止由于题库中题目数量不够造成试题反复被抽取,从而造成试题外泄的后果而失去测试的功能。题库中的每道试题的性能必须确定,试题的各项参数:考核的内容、知识点、难度、区分度、猜测的可能、使用次数、重要系数、使用考核对象水平等,都应严格进行控制,以确保题库的质量。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

(三)题库中试题的设计

1.试题的分类

客观性试题:由学生从已提供的若干个答案中选择正确答案的试题,包括:选择题(单项选择、多项选择)、判断题、填空题等。主观性试题:由学生自主提供答案的试题,包括:编程题、简答题等。

在一次考试中,采用哪些题型来组织试卷,取决于考试所要达到的目标。应该结合考试科目的特点、考试目标以及本学科所要求的知识结构构成来组织试题。主观性试题可以测试学生的综合知识水平,考察其应用知识解决问题的能力以及创新能力。但主观题受阅卷人的主观因素影响较大,因而影响测试结果的公平性和客观性,而且更重要的是主观性试题的机器阅卷比较难以实现。客观性试题可以测试学生应用己掌握的知识理解、应用、分析、综合解决问题的能力,且评分客观准确,不受主观因素的影响,同时,机器阅卷也比较容易实现。对于客观性试题,在收题阶段一定要做好试题的分析以及等值化处理的工作。这样才能保证试题本身的质量和在其基础之上所得的测量结果的科学性、公正性和合理性。

2.试题属性的确定

根据课程考核目标,本系统所设置的题目属性有试题编号、试题内容(题干)、试题分值、试题使用次数、试题答案、难度系数以及知识点编号等。根据不同课程以及管理的需要,还可以规定其它的题目属性。对于题库中的每一道题目,都要具有这些属性并且都有值。

(四)题库逻辑设计

根据题库的需求和系统功能需求分析,在满足数据库的完整性约束规则的前提下,题库系统的数据库结构如下:

1.试题库

试题库中存放的是各种题型的具体考试题目,每一门考试科目建立与其相关联的试题库,考试时,根据组卷参数表决定试卷的组成。我们为每一种题型设置一张单独的试题表,然后通过试卷生成规则表将其统一起来。数据表设计结构如图1所示,知识点(a)、填空题(b)、判断题(c)、试卷(d)、选择题(e)、组卷规则表(f)。

知识点数据表中包括知识点id及知识点描述字段,填空题数据表中包括试题id、内容、答案、涉及知识点、难度及使用次数字段,判断题及选择题的数据表与填空题数据表相似,组卷规则数据表中包括了组成一份试卷所需的题型、试题数、分数、知识点范围及难度分布等字段,表试卷数据表中包括每一道题的id、题型、答案及分数字段。

2.数据表关系

各项数据表之间使用相关字段,如userid、questionid等字段建立关系,以便系统能在多个表之间共享数据。数据表之间关系如图2、图3所示。

参考文献:

[1]吴水秀、曾庆鹏、王明文等,智能试卷生成和自适应考试系统,计算机与现代化,1999(1):36-39.

[2]罗燕琪,题库自动组卷算法的设计与实现,电子计算机,2002(2):55-57.

测度论在统计学中的应用篇3

1.引言

项目反应理论（IRT）又称“潜在特质”理论，于20世纪50年代初正式成立，于20世纪60年代后期，伴随着计算机的发展而快速发展。IRT较经典测量理论来讲，样本独立，可反复测量，又因为理论框架科学，应用范围广泛，是我国测量领域的热点。计算机自适应测量（CAT）是在项目反应理论基础上发展起来的一种新的测验形式。它不同于纸币测验，是以计算机为手段，测验试题的呈现和被试的作答是通过计算机完成，它又不同于一般计算机化测量，而是因人而异选题，根据被试能力水平自动选择试题，及时了解被试能力水平。

2.国内应用研究综述

我国著名心理学家张厚粲老师是自适应考试的先驱，她首先把IRT引入国内。江西师大“题库理论”组，编写《考生智能水平的自适应测验》时指出：自适应考试可以在不损害测验的信效度前提下，减少试题题量，缩短测验，提高测验效率。国内最早关于编制自适应测验的文献是出自江西师大。他们编制的高中数学水平测验，用于考察高中毕业生的数学智能水平。江西师大这个课题组还编制了参数估计程序和自适应考试程序。

在计算机适应测验选题策略上，2011毛秀珍，辛涛撰文做了全面探讨，选题策略是CAT重要组成部分，关系到策略信效度，效率等。有人在Science发表文章主张谨慎CAT高风险，原因是频繁使用质量较好的项目，会因为被试“分享”而削弱了测验的效率，针对传统的选题策略不足，2012罗芬、丁树良、王晓庆提出了利用区间估计思想，将两级评分推广到多级评分以改进最大信息量选题策略，可以有效降低测验长度，极大降低项目曝光率。制定高效并且安全的选题策略是CAT追求的目标，2011程小扬、丁树良、严深海、朱隆尹针对极大项信息量准则（MIC）和a分层法选题策略的优缺点，对0-1评分下的CAT引入曝光因子的选题策略。

在我国自适应测试的计算机软件还是比较少，九十年代开始，全国英语四六级考试委员会，一直致力于项目反应理论的研究与开发。目前IRT已成功应用于CET分数等值处理过程了，基于计算机自适应测试题库也在建设和完善中。

3.国外研究

国外对于计算机自适应考试研究较早，计算机自适应测验是从比奈的智力测验基础上发展起来的。1971年，Lord在前人基础上提出了“计算机自适应测验”。美国军方在80年代开始应用计算机自适应系统CAST(TheComputerizedAdaptiveScreenTest）。如今在美国，CAT己经用于教育测试、职业测量、人事评测等领域：GRE(GraduateRecordExamination)考试、TOFEL测试、工商管理类研究生入学测试GMAT(GraduateforManagementandAdministrationTest)以及全美护士国家委员会资格测试(NurseNationalCommitteeLicenseTest)等都己经采用了CAT测试方式。日本的职称英语测试系统CASEC是普遍使用的系统，遍布于各大公司，教育部门和政府机构。通常CASEC测试题目不足30个，就能让测试的结果达到90%以上，提高了测试的准确率，也节约了测试时间。在欧美许多国家，CAT已成为教育测试职业测试和认证测试的主要形式。微软的MCSE(微软认证系统工程师)测试也采用了这一种形式。

总体来说，计算机自适应考试系统，在美国起步早，发展快，国外部分权威资格认证考试都逐步采用计算机自适应考试。

4.研究总结与展望

CAT相对传统的纸笔测验，可以施测较少项目就准确测量被试特质，极大提高测验效率。目前国内较多研究集中于CAT的选题策略上，由于测验的精度和安全性相互制约，如何比较，选择最优项目，有待于进一步研究。未来研究应进一步提高选题策略的综合表现、深入探讨多级评分项目和认知诊断。

我国引进国外IRT先进理论，坚持独立创新，应用发展较快，但由于受IRT理论模型的局限性和我国传统测试方式、教育模式等因素的影响，基于IRT理论模型的自适应测试在我国实际教学的应用仍处于探索阶段，如何克服IRT理论模型的局限性，并结合教学的实际情况，设计出一种具有较好性能和实际可操作性的自适应测试方法。也有待于进一步努力。

参考文献

1 罗芬,丁树良,王晓庆,多级评分计算机化自适应测验动态综合选题策略,心理学报.2012

2 毛秀珍,辛涛,计算机自适应测验选题策略述评,心理科学进展.2011年

3 程小扬,丁树良,严深海,朱隆尹,引入曝光因子的计算机化自适应测验选题策略,心理学报.2011

4 唐小娟,丁树良,俞宗火,计算机自适应测验在认知诊断中的应用,心理科学进展.2012

5 林健,闰华,武兵,计算机自适应考试理论分析.太原理工大学学报,2004,35(2):222一223

测度论在统计学中的应用篇4

1.引言

2.国内应用研究综述

3.国外研究

总体来说，计算机自适应考试系统，在美国起步早，发展快，国外部分权威资格认证考试都逐步采用计算机自适应考试。

4.研究总结与展望

参考文献

1 罗芬,丁树良,王晓庆,多级评分计算机化自适应测验动态综合选题策略,心理学报.2012

2 毛秀珍,辛涛,计算机自适应测验选题策略述评,心理科学进展.2011年

3 程小扬,丁树良,严深海,朱隆尹,引入曝光因子的计算机化自适应测验选题策略,心理学报.2011

4 唐小娟,丁树良,俞宗火,计算机自适应测验在认知诊断中的应用,心理科学进展.2012

5 林健,闰华,武兵,计算机自适应考试理论分析.太原理工大学学报,2004,35(2):222一223

测度论在统计学中的应用篇5

中图分类号：TP391.6

1 计算机自适应系统应用的需要

中国自古就以测试来挑选人才，高考中考更是以分数的划定来确定考核的对象。近年来，由于计算机的普及，考试阅卷过程中，已经实现了无纸化，中国考试由传统的集合优秀教师出题，研究生集体阅卷批改，人工统计正确率以及评测试卷分析等形式逐渐转变成计算机自行出题的形式。这种计算机出题的方法不但能节省大量的人力物力，还能提高试卷的出题效率，避免出现错题，漏题等情况。但是即使是先进的计算机出题，也存在着一定的弊端。

传统的CTT以没办法根据试题的难度系数来确定所占试卷比例大小，虽然试卷中大部分试题是由经验足够的专家预先设定好的。另外是在题库中容易出现同类型题目重复，对同知识点考察次数过多等情况。再次是没办法根据测试试题估定被测试者的能力的高低，没有一个准确定的把握。最后一条是传统的CTT题库维护比较困难，只是单纯的有个标题题目，没有题目考察的知识点，难点等等，对知识划分没有程度。所以随着我国教育事业发展突发猛进，在教育理论方面不断完善和丰富。在教育的实践过程中，不断的深入和应用。以往的CTT已经不能满足当今发展的需要。最新更新的计算机自适能力测试会自动根据个人能力，定制不同的考试试题。然后根据测试者的回答问题的情况，对测试者做大体估计，然后根据估计值，从题库中抽取合适题目让被测试者应对。题库中的题目都是经验丰富的老教师从众多当年考试的试卷中精选挑出的。计算机自适应系统在反复测评过程中，给被测评者的能力评定一个能力值，提高评测的精度，由此可以看出，新的计算机自适应系统有一下几个优点

1.1 评测过程较为灵活。由于被测试者需要回答的问题都是根据测试者的能力大小出的，所以被测试者完成整体试卷的时间大大缩短。同时被测试者不用因为题目过困难，出现粗心，疲惫，沮丧等情绪影响测量。整个过程中，被测试者能保持良好心态，降低被测试者考试过程中的疲惫程度。

1.2 测试结果精确度高。传统的CTT测试系统没办法根据题目困难程度划分题目在试卷中所占比例。其成绩精确程度相关性较低，也不能对学生能力进行较好区分。而现行的计算机自适应系统，会根据能力大小进行题目出题，不论被测者能力大小，均能有个准确值来评定。

1.3 自适应系统能够有效避免作弊情况的出现。由于自适应系统采用的是根据被测试者能力进行出题，所有题目均是随机抽取，提出题目出现相同率极低，出现在试卷上的顺序也不相同，这就有效避免了作弊情况的发生。

1.4 激发被测者的积极性。因为最新的自适应系统是根据被测试者能力来出题的，所以在整个过程中，能力低者也不会因为做不出题目来影响考试中的心情，保持自己良好的心态。同时题目对每个人来说又具有挑战性，不会让被测试者无从下手。

2 计算机自适应系统的发展现状

2.1 计算机自适应系统的发展过程自适应系统的原型是二十世纪比内的智力测试。后来流传到英国，经过英国人改良，改名叫斯坦福-比内智力测试。这个测试过程基本为计算机自适应系统提供了蓝图。它是根据不同的年龄的被测试者，选定不同的题库（题库根据被测试者的年龄来设置经典题目）。被测试者完成一个题库后，就会被提供更高年龄段的题库来进行作答，整个过程就是一个人工的自算计自适应系统的演示，它有一个可变的入口点和一个难度可变的测试标准。比内测试基本就包含了计算机自适应系统的所有功能，不同区别在于一个是人工完成，一个是自算计自行处理。

2.2 比内测试并不是最完善的计算机自处理系统的样本，后来教育学家又经过不断的尝试，大量的研究，完善了比内测试的过程。美国的教学学家洛德进行灵活实验，就是根据测试者回答问题的状况，给测试者不同难度的问题，在根据回答问题的错误率，来确定被测试者的水平。

2.3 进入二十世纪，计算机革命后，计算机发展和应用给各行业均带来翻天覆地的变化，计算机智能系统的发明更是促使计算机自适应系统的发展更上一个台阶。美国科学家罗德根据自己之前提出的理论，包括比内测试的研究，首先提出了计算机自适应能力测试的相关概念。这一概念的提出，宣告了试卷考试的方式的终结，人们延续千年的用笔回答的问题的思维方式被打破。考试方式有了更多样的选择。更重要的是它通过一个更为人性话的测试来更准确的对被测试者的知识，能力，水平的测量，测试的题目也根据被测试者水平而确定。

2.4 随着计算机自测试系统的应用的进一步加强，CAT系统也在不断完善，计算机自测系统从单一的了解被测试者对题目的掌握能力到现在，不但具备上述功能，还根据被测试回答状况，进行下一步的选题。如果题目回答正确，则选择难度系数更大的问题，如果回答错误，则选择难度系数更小的问题。而且每一道题目具有被测试者的水平相差无几。这样子，能力较强的被测试者就不用做简单的试题而浪费时间，能力较弱的选手也不会因为作不出较难的题目而沮丧失去斗志。

因此，新型的计算机自适应系统解决了测试准确度以及跨越性的问题。为不同能力者提供合适的题目，并且根据测试结果提供精准信息。为我国教育事业的发展提供一个新的宏观角度，加大素质教育的可能。

3 计算机自适应系统在国内外使用的现状

3.1 在国外，军方首先使用计算机自适应系统进行挑选人才，在美国一九八四年的职业陆军选拔测试中就曾有运用。而在信息化发展狂潮中，美国的NOVEll也成功运用CAT进行竞赛选拔，使得当时的选拔人数一度突破1000000人次。现如今美国的教育，职业测评，以及人事管理方面都用到计算机自适应系统。在欧美的众多国家，CAT甚至成为教育测评，职业测评以及认证测评的主要方式。

3.2 在我国，计算机自适用系统引入较晚，致力于此方面的专家学者主要集中在全国大学英语四六级考试委员会。目前我国已经成功将计算机自适应系统用于GET的分数等值处理过程，试题库也跟着进一步加强完善。像我国06年举办的测试理论与技术发展趋势国际讨论会，就有中国教育部十多个部门的委员参加，中国对计算机自适用系统的引入决心可见一斑。中国的汉语水平测试，也已经运用了计算机自适应系统，现在出题更加合理化，人性化。

3.3 计算机自适应系统在高校发展中也略有成就，像我国大部分大专院校的计算机能力水平测试，均是根据被测者的能力，给不同考试试题的系统。除此之外，我国在IRT模型研究方面也发展迅速，TRT测试模式在台湾主要用于中小学教育，在我国虽然也同样用于教学中，但是我国的TRT还处于初步的发展阶段，想要普及到下面的乡村中学还需要一段艰辛的路要走。设计出一款性能以及操作性更好的测试方法，正是现阶段我们科研人员努力的方向。

4 计算机自适应系统选题策略研究

计算机自适应系统的主要作用就是通过对被测试者的能力的评估来不断的选定合适的题目供被测试者作答。而计算机自适应性系统中最重要的因素也就是CAT的选择过程。如何能够用最少量的题目来评测做题人的水平，是我们当今要加深研究的课题。不仅仅如此，我们还要保持题库的持续更新，对经常用不到的题目要加大相关连接，省的造成题库资源的浪费。下面几个办法是解决题库资源浪费严重的办法。我们可以逐一比较一下。

4.1 最大题目难度提取法在原始题目分区的基础上，选择大部分题目的区分度为a，而较大难度的题目区分为b，只有当被测试者完成b难度系数，才会被提供难度较大的题目。

4.2 M-M随机抽样法第一步是在当前的基础上，选择合适的题库，然后从题库中随机抽取难度较大的五个，选择其中之一让被测试者做，然后在从剩余的题目中随机抽取四个，选择其中之一测试，整体过程是逐渐递减的，一直到0为止，这样就能避免题库里的题目有些题目曝光率过大，而有些题目却一直没有利用上。

4.3 SH题目分离法这个办法能降低在较高区题目的曝光次数，使得所有的题目都有被曝光的可能。它主要是利用将题目的选择过程以及题目管理过程区分开来，平衡题库中所有题目的曝光次数。

4.4 最相近准则法这种方法是对随机抽样法以及题目分离法的一个综合运用。它基本是采用找到难度相近似的试题，然后根据被测试者能力选择信息量较大的难度试题。

总结：计算机自适应系统是科学发展与现实考试结合的产物，它立足于建立最佳测评方案，合理评估被测人能力，提高评审的准确度，并且通过测量结果选拔有用人才，此方法对发展中国家发展人才路线，有着积极深远的重要意义。

参考文献：

[1]张厚粲.教育测试新理论IRT研究和应用[J].外语教学与研究，2000-9（11）.

测度论在统计学中的应用篇6

1.语言测试简述

本文主要从机辅语言测试的试题库建设、测试过程、阅卷及评分等方面描述机辅语言测试的全过程。实现语言测试的现代化，不仅能提高工作效率、降低成本，而且对整个语言教学将会产生深远影响。目前，人们对计算机化考试的误区主要体现在：计算机化考试就是纸笔考试的计算机化（应用新技术考查旧内容）；简化考务工作等方面[1]。

2.计算机在语言测试中的应用

计算机语言测试备受教育领域和考试领域的广泛关注，它的应用主要体现在题库建设（item banking），计算机辅助语言测试（computer- assisted language testing），以及计算机自适应语言测试（computer adaptive language testing）等方面[2]。

2.1题库建设

题库由许多适用于不同目的和任务需要，且具有必要参数的大量优质题目组成，是进行测试的基础。题库建设不是简单地将数量众多的试题存储在计算机中，它涉及教育测量理论、统计及认知心理等多方面理论。计算机技术在题库建设中扮演着无可替代的角色，例如，它可以快捷方便地完成对试题的储存、修改，可以按要求自动生成试卷等。但是，在题库建设这一环节中仍然有许多问题值得注意。比如，控制入库试题的质量，控制入库题目的结构比例，保证内容的广泛性，以及数据的安全性等问题。

2.2计算机辅助语言测试

20世纪60年代，美国教育家率先将计算机用于教育测量，并称其为计算机辅助测试（Computer-Assisted Testing），即计算机按预定的测试目标发送测试题目，学生接收，并根据自己的理解做出反应；计算机将学生的反应与设定目标作对比，进一步向测试者传送反馈信息、教学内容等，从而使教学得到进一步发展，达到计算机辅助测试的目的，全方位对学生的学习进行分级、判断和评价。机辅测试系统有一个比较强大的题库，它与传统测试构成是一样的，但整个过程得到了相当大的简化和改进。机辅测试具有生成试卷、阅卷、分析试卷、管理成绩等功能，并且计算机阅卷快速、准确，能够及时有效地对考试结果进行分析，发现试题的缺陷，并帮助改正，从而大幅度提高了测试的效度和信度。

2.3计算机自适应语言测试

随着计算机在测试领域的应用及项目反应理论（IRT）的兴起，以此为基础的计算机化自适应考试（Computer Adaptive Test）备受关注，这种测试能根据被试者的特点自动生成适应被试者具体情况的试卷。计算机自适应语言测试是计算机辅助语言测试的发展趋势，具有很大的潜力。它主要有三个特点：（1）考试项目根据单个考生的情况而定；（2）当考生的能力水平得到确定时考试结束；（3）考试项目较一般纸笔考试更少，而且时间更短。

在传统测试中，对于每个考生而言，无论水平如何，全部都要接受同一批题目的测试，但是，测试题目中只有一部分是代表自己真实能力的，其余题目要么过于简单，要么过难。计算机自适应测试是对每个考生提供难易度适中的测试内容的一种测试方法，其基本过程是考生首先回答一个中等难度的测试题目，如果考生正确回答了这一项目，那么下一个测试项目的难度就要相对增加；反之亦然。考试全程以计算机为媒介，考生根据自己的判断作答，作答后计算机立即反馈答题信息。根据项目反应理论原理，考生每回答一个测验项目，计算机就给出一个相应的能力估计值。这个能力估计值会成为选择下一个测验题目的依据，直到准确测出考生水平为止。计算机自适应测试比传统测试效率更高，它可以用比传统测试更少的试题而取得与之相比更佳的测试效果。有实验表明，在同等测量精确度的条件下，自适应测试可将测试时间缩短为原来的40%～60%[3]。

2.4机辅语言测试的阅卷评分

计算机辅助测试系统能完成的工作有局限性，目前机辅测试主要以客观题形式出现，虽具有客观性，信度较高，但客观题的大量使用使测试的表面效度大大降低。利用问答式题目测试评价学生的综合能力的测试现阶段还难以实现。用计算机分析学生对输出型题目的回答，目前还受到两方面的限制：一是使用计算机硬件识别、处理文字的能力是一种新技术，且价格相对昂贵；二是应用计算机进行语言的分析还不够成熟，并不能全面处理此种题型，所能进行的分析成果还未能达到实用阶段。

3.计算机在语言测试中应用的优势

3.1利用计算机构成的题库系统自动化程度较高，可大大提高命题效率，使教师有更多时间和精力开展科研、教学及管理工作。它避免了一张试卷、多处统考的弊端，为现代化教学管理提供了有利的手段。

3.2基于项目反应理论（IRT）的题库试题可以与施测样本无关，即使在不同时间内进行考试，其测量结果也是可以比较的。题库的建设有利于学生自我检验学习成绩，有利于教师出题考试及判断教学效果。

4.结语

计算机在考试中的应用已从最初的考务管理、监考等工作延伸到计算机化测试和计算机评卷等方面。机辅语言测试采用考生直接输入答案的形式，与人工阅卷相比，减少了由于人为因素导致的计分过程中产生的误差。计算机超凡的记忆力和准确率使阅卷记分等误差降到零，在很大程度上保证了测试的公正性、客观性。基于机辅测试的上述优越性，其越来越“横行”于语言测试领域。计算机自适应语言测试由于题量灵活，时间可长可短，测试后能即时记分并报告成绩，实效性和经济性强，其无可厚非地成了今后语言测试的发展方向。

随着计算机人工智能、语音识别、光学字符识别等技术的发明，不久，我们将能够实现计算机与考生直接交互、识别和判断书面甚至口头语言进行评估。由此可见，实现语言测试的现代化，与世界接轨，是大势所趋，是我们今后改革外语测试、提高外语教学质量的必备条件。当然计算机语言测试作为一种新兴测试方法，存在很多不足。我们必须遵循其特点和规律，开发出符合考试发展和需要的计算机化语言测试。

参考文献：

[1]张权.计算机化的语言测试：现状与发展[M].上海：上海外语教育出版社，2001.55.

测度论在统计学中的应用篇7

[分类号]TP391.1

自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后，学术论文抄袭剽窃引起社会的广泛关注。抄袭剽窃的表现形式多种多样：有些只是在语言文字的表达形式上做手脚，换成同义词或颠倒语句的表达顺序，在文章框架、主要观点和主要论据上却没有大的变化；有些直接大段地“引用”别人的内容；有些综合运用多种手段，将多篇别人的文章拼凑而成自己的；有些“学术高手”直接拿国外的论文翻译成中文发表，等等。抄袭和剽窃“手段”的越来越“高明”，给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测，根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种，归根到底是判断两篇学术论文的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。为了进一步提高学术论文复制检测判断的准确率，针对学术论文的文档相似度算法的改进和创新研究变得尤为重要。

1　国内外研究现状及存在的问题

1.1　国外研究现状

国外具有代表性的文档相似度算法主要有以下几种：①Manber提出一个sif工具，其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性；②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copy protection system)系统与相应算法，奠定了论文抄袭检测系统的基础；③Garcia-Molin提出SCAM(Stanford copy analysis method)原型，改进了COPS系统，用于发现知识产权冲突。他使用基于词频统计的方法来度量文本相似性，后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法；④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测，采用与sif基本相同的算法；⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中；⑥Stein提出一种方法，这种方法能产生一种“指纹”，在某种程度上能有效防止修改；⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档，从而决定是否有潜在抄袭；⑧美国学校首先引入Tumitin侦探剽窃数据库，用于防止论文抄袭，此外还有其他类似软件系统用于进行文档相似度分析。当然不同的检测系统其相似度算法的精度也不尽相同。

1.2　国内研究现状

国内关于论文抄袭剽窃检测方面已有一些研究：①张斯通过对中文文本进行自动分词，然后计算它们的相似度，从而判别文本是否抄袭，其对应装置包括：样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置等。②鲍军鹏通过文本的结构信息和语义信息提取文本特征，是通过运用文本剽窃判定模块中设定的探针法，估计待检测文本特征和特征库中的文本特征的最大共同语义，并给出文本雷同度量，从而判别文本是否抄袭。③沈阳是通过先找到存储空间内的格式遗留，再将这些遗留格式附近文档的关键词或／和句子或／和段落与文献库中的文献内容进行比较，从而减少被检测文档的数据量，加快了反剽窃或转载文档检测速度。④张履平通过对已植入水印的文章进行特征撷取，根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章；根据与原文比对结果取得的句子进行水印解析；将所取得的水印信息与原来的水印比对，从而判断是否为剽窃。⑤金博等则对基于篇章结构相似度的复制检测算法有一些研究。

1.3　存在的问题

事实上，由于剽窃形式的多样性和隐蔽性、语法和句法的复杂性等，目前主要采用的“数字指纹”和词频统计两大类抄袭识别技术已经不能满足实际的剽窃检测需求，会造成很多漏检和误检，其“召回率”和“精准率”都有待提高。归根到底是因为其检索模型有待突破，算法亟待改进或需创造全新的算法来针对学术论文抄袭剽窃检测的实际。如何把握并充分利用学术论文的结构和语言特征，提供具有针对性的检索模型和相似度算法及其实现系统，对能否在异构的分布式学术论文资源系统中，对抄袭剽窃检测进行更精确的判断至关重要。

2　学术论文复制检测研究的新思路

针对以上问题，笔者提出以下学术论文复制检测研究的新思路：①建立有针对性的学术论文语料库；②通过对语料库的深层加工、统计和学习，建立统计语言模型；③充分利用学术论文著录项目自身的特点，通过将文档结构化，赋予元数据项加权系数，运用卷积计算学术论文的相似度；④利用支持网络语言的JAVA编程实现相似度算法；⑤通过将待检测论文与数据库中已有文献对比，计算其相似度，当相似度超过某一阈值时，则判断该论文有抄袭的可能，如图1所示：

3　具体方法及步骤

3.1　建立某一学科专业的学术论文语料库

新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段，用以评价一个语言模型的质量。本文建立的语料库中存放的是在学术论文语言的实际使用中真实出现过的学术论文语言材料；是以电子计算机为载体，承载学术资源语言知识的基础资源；通过对真实语料进行分析和处理等加工，使之成为本文的学术论文抄袭检测模型和算法的训练与测试手段。

利用丰富的学术资源数据库，如Dialog、SCI、EI、INSPE、IEEE、Science Direct、EBSCO、PQDD、SPRINGERLINK、KLUWER、Science online、Medline、CNKI、中文科技期刊全文数据库、万方数据科技信息子系统、万方数据商业信息子系统、七国两组织的专利数据库、国内外专利数据库等异构的分布资源，通过信息检索，从某一学科专业着手，构建某一学科专业领域的学术论文语料库。

3.2　以信息论为工具，创建统计语言模型用于学术论文检索

数学是解决信息检索和自然语言处理的最好工具。其实早在几十年前，数学家兼信息论专家香农(Claude Shannon)就提出了用数学方法处理自然语言的想法。语音和语言处理大师贾里尼克(Fred Je-

linek)首先成功利用数学方法解决了自然语言处理问题。统计语言模型(即基于统计的语言模型)通常是概率模型，计算机借助于统计语言模型的概率参数，可以估计出自然语言中每个句子出现的可能性，而不是简单地判断该句子是否符合文法。统计语言模型以概率颁布的形式描述了任意语句(字符串)s属于某种语言集合的可能性，需要对任意的语句s都给出一个概率值，例如：P(他／认真／学习)=0.02。本文充分利用学术论文不同于报纸新闻论文或其他类型文档的语言特点，以建立的学术论文语料为训练和测试基础，提出新的基于学术论文的统计语言模型作为针对学术论文抄袭剽窃检测算法的检索语言模型。具体做法为：以信息论为工具，把握学术论文的语言特点，通过对以上所建立的学科专业语料库进行深层加工、统计和学习，获取大规模真实学术论文语料中的语言知识，建立基于学术论文语料库的统计语言模型；通过实验，与其他文本信息检索模型进行比较，论证其有效性。

3.3　利用学术论文中描述资源对象语义信息的元数据结构，计算文档相似度

充分利用正式出版的学术论文的结构特点，根据学术论文中标引出的K个描述资源对象语义信息的元数据(Di，i=1，2…k)，将学术论文结构化；然后利用已有的基于学术论文语料库的统计语言模型，将待比较的论文的各相同元数据Di(i=1，2…k)部分进行比对得相似度si，再根据元数据对论文的重要程度给定第i个元数据项相似度权函数wi；则整篇学术论文总体的相似度为Sd=∑Wi*Si。

具体算法举例如下：

将待检测的学术论文的元数据如题名Til、关键词Kyl、摘要Abl、正文.Tel、参考文献Rel等元数据字段抽取出来，与语料库中已有论文的相应元数据字段内容题名Ti2、关键词Ky2、摘要Ab2、正文Tx2、参考文献Re2进行相似度计算。计算时，在篇名字段前给以0.25，0.4，0.15，0.1和0.1的加权系数。建立的统计语言模型计算待测论文和语料库中已出版的论文j同一元数据字段的内容相似程度，记为：Sim_Tij，sim―Kyj，Sim_Abj，Sire Tej，Sim_Rej，卷积后得整篇论文与语料库中某篇论文j的相似程度值计算公式为：Sinai―larity_paper_j=0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej；再计算与待检测论文最相似的那个最大相似度Max_Similarity=Max{Simflarity_paper_j}；如果Max_Similarity大于设定的阀值1(如40％)，则判断为疑似抄袭，这样的论文需要审稿专家仔细认真审理，如果Max_Similarity大于设定的阀值2(比设定的阀值1大，如80％)，这样的论文极有可能存在抄袭，需要审稿专家特别注意。在计算相似度值后，计算机系统记录下相似度高于设定阀值的抄袭和被抄袭的学术论文来源、相似度值、及其各元数据项信息(包括作者信息)。以上各元数据项相似度计算过程中，加权系数可以根据需要做适当调整为其他数值，但系数总和为1。

3.4　推广使用

通过对某一学科专业的研究，进一步拓展到其他学科领域，从而最终实现在异构的分布式学术论文资源系统中，对各个学科领域的学术论文抄袭剽窃进行跨平台检测。

测度论在统计学中的应用篇8

中图分类号：G64 文献标识码：A 文章编号：1672-3791（2013）02（c）-0241-01

变点理论把估计和假设检验理论、统计控制理论、非贝叶斯方法和贝叶斯方法结合起来，所研究的统计推断问题能够对估计量的性质进行统计分。变点问题在医学肿瘤分析、金融、气候分析等诸多领域都有着许多应用，通常用来检测在数据生成过程中的结构突变，成为统计推断的中心问题之一[1]。

1 变点

变点是在模式中某个或某几个点突然发生较大的变化，这种具有突然变化的变点有可能有着在该模型中起到特殊的作用。在国外涉及较早的变点研究是突变点，对于渐变式变点的研究也有一些结论，对于位置参数模型提出了变点的最小二乘法的估计。已故中科院院士陈希孺教授认为，变点分析属于数理统计和非线性时间序列范畴，通过对变点问题的统计推断能够统计分析估计量的性质[2]。

2 检测变点的常用方法

变点问题是统计推断的中心问题之一，处理变点问题的方法有：最小二乘法、极大似然法、非参数方法和贝叶斯方法等。最小二乘法就是以观察值和理论值之差的平方和作为目标函数，以其达到极小值之点作为有关参数的点估计；贝叶斯方法是包括变点在内的模型中的参数为随机变量；非参数方法不要求样本有分布背景[2]。

用Matlab工具软件仿真基于贝叶斯原理的差异表达基因检测突变点检测分析模型，可以突变点位置。用图形可视化技术确定在癌症样本中发生差异表达基因样本强度变点的情况，包括位置、个数、跃度。给出变点的检测和估计（点估计和区间估计）以及估计量的渐近分布和收敛速度[3]。CUSUM累积和能够分析独立正态随机变量序列均值变点的问题，通过假设方差不变，证明了CUSUM型均值变点的强弱相合性，从而分析变点估计强弱收敛速度的情况[1]。变点检测方法的统计性能分析方法和参数优化方法性能，可以通过ROC曲线和FDR曲线分析[4]。

3 变点方法的应用

变点问题在金融、气候、矿难分析等许多方面有着广泛的应用，用来检测在数据生成过程中的结构突变。在医学上，差异表达基因在基因芯片上的基因信号强度数值时在表达上具有差异性和相关性的，因此差异表达基因的表达强度值可以看作是基因表达谱数据中的变点异常值[5]。

3.1 变点的统计推断问题研究

根据贝叶斯原理可以提出的突变点检测分析模型，并用Matlab工具软件对该模型进行仿真，在实证分析中应用该模型对基因表达谱数据中的变点真实数据进行分析，这样能够比较准确的确定基因表达谱中真实数据的样本突变点位置，以及相应的后验概率分布，并解释突变点形成的生物学背景[5]。

3.2 采用贝叶斯法检测多个变点的基因表达谱数据

计算后验概率时，要涉及很复杂的函数的高维积分，处理难度较大，通过考虑先用累计次数法检验有无变点，对于涉及的多个变点，点估计采用极大似然法或最小二乘法，应用分位点回归模型的变点检测，检验变点值的存在性[7]。

4 结论

根据基因变点理论的非参数法检测差异表达基因的检测方法，把癌症异常点样本能够看成是比所有正常样本来自更高平均表达密度的分布，检测在癌症组中的基因表达强度的一个改变点，根据分布变点的非参数统计算法思想，对于一个独立的基因表达谱随机变量，寻找估计的变点。通过建立目标函数，求导得到参数的最小二乘估计，最后判断变点值是否存在及估计其位置，而且还可以对存在差异的样本数进行估计。

参考文献

[1] 沈燕，胡舒合.正态分布均值变点估计的收敛速度研究，合肥工业大学学报：自然科学版[J].2008，13（12）：2062-2065.

[2] 陈希孺.变点统计分析简介[J].数据统计与管理，1991，3（2）：55-58.

[3] 谭智平，缪柏其.关于分布变点问题的非参数统计推断[J].中国科学技术大学学报，2000，30（3）：270-277.

[4] Benjamini Y，Hochberg Y.Controlling the false discovery rate：a practical and powerful approach to multiple testing[J].Journal of the Royal Statistical Society，1995，57（1）：289-300.

测度论在统计学中的应用篇9

中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2016）30-0154-02

一、引言

工程测量中必然存在误差，误差的处理会影响测量数据的可靠性。误差理论与数据处理课程是测控技术与仪器专业的核心课程，学生对该课程知识的掌握好坏，直接影响其后续专业课程的学习，并将对其今后从事的精密检测、测试系统设计、质量控制、仪器设计及制造等工作产生持续深远的影响。测控技术与仪器专业由仪器仪表及精密测量等多个专业综合而成，在全国有两百多所高校具有此专业，也大多开设了误差理论的相关课程。其实，自高等学校首次设立误差理论与数据处理课程以来，它便得到了许多大学的高度重视。目前，除仪器仪表类专业外，很多学校在机电类专业及测绘类专业也开设了该课程。为了提供误差理论课程教学质量，已经提出了较多的教学方法改革方案[1-3]，或者实践体系的改革[4]。这些教学改革大多针对误差理论和数据处理课程理论性较强的特征，通过增强实践教学环节，利用多种数据处理软件或者综合平台对学生进行实践训练[5]。这些教学方法的改革可以有效提高学生对误差理论和数据处理方法的认识，改善教学效果。

在全国高校的测控技术与仪器专业中，专业培养大多具有自己的特色和侧重。对误差理论课程的教学应该与专业特色相关联，为后续的专业课程奠定基础。本文针对传感器应用和动态测试技术为特色的专业培养体系，进行围绕传感器应用的误差理论课程教学改革。

二、误差理论在专业课程体系中的作用

误差理论课程在测控技术与仪器专业中大多属于专业基础课程，其前修课程包括高等数学、概率与数理统计和线性代数，它也是工程测试及系统设计、仪器设计、仪器应用类课程的重要基础和支撑课程。误差理论课程内容涵盖误差性质与分析、误差的发现、误差的处理以及基于误差的回归分析等，并使学生建立测量精度和不确定度等概念，这些知识会在自动控制、仪器设计等课程中得到应用。但是学生在学习误差理论的过程中，由于没有专业课和工程实践的学习锻炼，很难建立实际的应用概念，对误差的理解难以深入。

如果能从一类具体的应用出发，讲解误差的分析、发现和处理，这有利于学生对概念的理解。也为学生的学习找到一个方向，找到一个思路。在以传感器应用和动态测试技术为特色的培养课程体系中，传感器始终扮演着重要的角色。从非电量信号的获取、测量电路的设计和测试系统特性分析到数据的采集和处理，都围绕着传感器进行。误差理论在传感器的标定和传感器误差分析等方面都扮演着重要的角色，通过在误差理论教学中贯穿传感器应用的概念，有利于学生对误差概念的理解，更有利于特色专业课程体系的建立。

三、围绕传感器应用的教学方法

围绕传感器应用的误差理论教学方法，并不是只对传感器相关误差知识进行教学。而是将误差的理论和方法在传感器这个平台上进行应用，巩固知识加深理解。主要从课堂教学和实验实践环节进行教学方法的探索。

1.课堂教学。围绕传感器应用的误差理论课堂教学改革主要是改变以前的知识讲解思路。误差理论课程的知识结构主要分为误差的基本性质与处理、误差的合成与分配、不确定度及回归分析等几个部分，常见的课堂教学主要以理论讲解为主，在每个知识点后面会有相应的例题。误差理论课程含有很多抽象概念、公式，内容相对来说比较单调、枯燥，对于没有测量经验的学生，往往按照高等数学的学习习惯来学习误差，重计算，轻概念。学生往往记公式，难以灵活应用，由此影响了学习兴趣和教学质量。

对于以传感器应用和动态测试为特色的专业，学生从大三开始已经初步接触传感器的概念，同时在学校的学生实践实验室和各种电子类竞赛实验室都有许多传感器的应用实例，学生们对传感器应用有了基本的认识。所以，可以通过传感器的应用来进行误差理论的学习，如图1所示。针对误差理论课程中的四个主要知识模块，以压力传感器为例可以有相应的应用案例。在压力传感器的静态测量中，可能产生系统误差、随机误差和粗大误差。通过分析传感器和测量系统的误差来源认识系统误差，通过测量数据分析随机误差和粗大误差；对于压力传感器加信号调理电路的测量情况，通过传感器的误差和调理放大电路的误差可以学习认识误差的合成与分配；通过对一种确定的压力源进行测量，计算测量的不确定度；通过对压力传感器的标定学习基于误差理论的最小二乘法处理及回归分析等知识点。

2.实验教学。目前的误差理论实验教学往往借助计算机开设一些数据处理的实验，缺乏对测量误差及其来源的根本性认识。导致学生在学完该课程后，仍不能运用所学知识指导测试实践，解决实际问题。通过实际的传感器采集测量数据，可以生动直观地让学生进行误差的分析。我校的测控技术与仪器专业具有专门的传感器原理及应用实验室，不用重复建设，学生就可以完成多种传感器的实际信号采集。通过应用软件与采集系统对接就可以建立围绕传感器应用的误差分析实验教学。

以压力传感器标定进行误差理论课程中的回归分析实验教学，如图2所示。利用传感器实验室的油压标定机、电压放大滤波器、数据采集卡和数据处理软件，通过软件中误差分析功能对接，可以进行误差理论的实验教学。学生通过更换油压标定机的砝码改变输入压力值，获得多组测量数据。学生利用最小二乘法和回归分析的知识对这些数据处理以得到传感器的灵敏度。

四、结论

通过围绕传感器应用的误差理论教学，有助于学生对误差概念的理解，帮助学生找到一个从理论到实践的通道。利用现有的传感器应用实验室，通过误差处理软件的对接，直接完成了误差理论实验教学的改革。通过近年的误差理论课程教学，学生对误差理论课程的认知程度得到了提高。

参考文献：

[1]徐志玲，赵玉晓，金骥，等.“误差理论与数据处理”立体化课程设计与实践[J].实验室研究与探索，2014，33（11）：191.

[2]宋爱国，崔建伟，符金波.“误差理论与数据处理”课程的教学改革[J].电气电子教学学报，2012，34（1）：12.

测度论在统计学中的应用篇10

一、引言

中国是最早使用考试的国家，从古代的科举发展到现代的考试，考试在教育、人事选拔、职业能力鉴定等领域都发挥着无可替代的作用。受国外托福、雅思等语言测试的影响，国内于70年代末开始引进或开发第二语言测试。第二语言测试是针对第二语言习得提出的，如大学英语考试（CET）、英语水平考试（EPT）、公共英语水平考试（PETS）等。

语言测试的目的是评价学习者的学业成就或语言水平，评估教学效果。除此之外，CET、托福、雅思、PETS等语言测试的结果已经成为人才选拔时的重要依据；英语作为国内学校教授的最主要的第二语言，在高考选拔中的重要性越来越高。社会对考试结果的认可越高，对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。

语言测试专业性不仅表现在题目的命制、考试组织与管理、考试结论的应用等方面，更体现在开始分数的导出、报告与解释上。但目前国内自主组织的语言测试依然采取基于经典测量理论的分数合成方法，使得考试之间的可比性、分数解释的科学性、结果应用的外部效度都受到了极大的影响。

本文拟从经典测量理论和现代测量理论的角度，对国内几种常见分数合成方式的原理与特点做比较分析，并提出语言测试分数合成及报告的解决方案。

二、分数合成方法的分类

语言测试属于典型的能力水平测试，是教育与心理测量学领域的重要研究主题。对能力测试数据的分析经过了两个重要的发展阶段。以1968年Lord发表《心理测验分数的统计理论》为界，教育与心理测量学经历了经典测量理论和现代测量理论两个发展阶段。19世纪末真分数理论提出到20世纪60年代末的70年间是经典测量理论占主导的发展阶段。经典测量理论为教育与心理测评的发展做出了卓越的贡献，但也存在很多理论本身无法避免的缺陷。最典型的缺陷是：“统计指标与实际意义相悖”，以难度的计算为例，客观题难度即正确率。例如选择题正答率为0.8则难度为0.8，代表题目非常简单；若正答率为0.1则难度为0.1，代表题目非常难。难度的理论区间为[0，1]，数值越大难度越小、数值越小反而难度越大。经典测量理论的缺陷还包括：题目属性的分析依赖于被试样本、分数不等距、基于加权累积方式合成分数等。为解决这一问题，以项目反应理论、概化理论为代表的现代测量理论逐渐发展起来。项目反应理论是现代测量理论的核心理论。与经典测量理论相比，项目反应理论深入测验的微观领域，通过将学生与项目（题目）关联起来并进行参数化、模型化，解决了经典测量理论的诸多缺陷。

因此，语言测试的分数合成与解释也分为经典测量理论和项目反应理论两种类型。基于经典测量理论的分数合成方法包括直接相加法、加权累积法、多重分段法；基于项目反应理论的分数合成方法主要包括只考虑难度、区分度等题目特征的项目反应模型合成法；综合考虑题目特征、评卷教师特征、考生特征的多面Rasch模型分析法。

三、基于经典测量理论的分数合成

（一）直接相加法

直接相加法就是将测验中的各个维度直接累加得到一个分数。一个完整的语言测试，一般会同时设计语言学习的多个方面，如英语考试一般会包括听力、口语、阅读、写作四个维度。以直接相加法计算的英语考试成绩就是四个维度得分的简单加总。

各维度之间的得分直接相加的前提是各种分数之间是同质的，且各维度或分测验的得分在总分中所占的权重相同。在满足上述前提的情况下，直接相加法具有操作简便、容易理解、处理快速等优点。

英语的听力测试、口语测试、阅读测试、写作测试分别对应听、说、读、写四种能力。学术界对二语能力的结构尚未形成统一的认识，主要的争议在于：听、说、读、写是四种独立的语言能力，还是统一在语言能力下的四个方面。只有后一种理论才满足四个测验是同质的，才允许将四个得分直接相加。另外，语言测试中，针对不同的能力设计了不同的题型，如听力、阅读等能力的测试以客观题为主，写作能力的测试以主观题为主。两类题目从考察的认知能力、题目难度、考察方式上都有明显区别，不考虑这些差别的情况下直接将得分相加显然不太合理。

（二）加权累积法

为解决直接相加法不考虑题目难度、认知要求、考察方式等差异的缺陷，加权累积法根据题目属性之间的差异，给予不同的权重，然后进行加权求和计算总分。合成分数过程中的权重是命题者根据题目的不同属性赋予的。如高考英语中，考察阅读能力的客观题每答对一题计4分，考察听力能力的客观题每答对一题计1.5分，考察语言知识运用的客观题每答对一题计0.5分。加权累积法虽然增加了权重，但除了权重的设计需要一定的理论支持，分数的合成过程仍简单快捷，因此在教育考试中应用最为广泛。

加权的方式一定程度上解决了不同题目测量属性有别的问题。但权重的确定没有统一标准，均由命题者主观确定。这就有可能导致不同作答模式被试因加权方法不同，得到的分数不同。假设两名学生参加通一次英语考试，考试中听、说、读、写各一个题目。甲学生做对了听、说、读三个题目，乙学生做对了说、读、写三个题目。若四个题目的权重为1：1：1：2，则甲学生得3分、乙学生得4分；若四个题目的权重为1：1：1：1，则两名学生得分相同，均为3分。这表明，完全主观的权重设计有可能影响评价结果的效度。

（三）多重分段法

为解决加权累积法在权重设置上的缺陷，当认为语言测试中的各项分测验不具有互偿性时，就采取为每个测验指定一个计分标准。互偿性是指A测验上的高分不能弥补B测验上的低分。例如在语言测试中，一名学生听力能力上的高低不能影响其在写作测验上的表现。

语言测试中的多重分段法是指语言能力的评价和预测可以有多个预测源，且这些预测源的预测方法、计分方式各不相同。如口语能力和阅读能力都是语言能力的一部分，但听力能力以一对一的口语交流形式来评价，阅读能力以纸笔测验的形式来评价。两种能力有本质的不同，两个测试得分不能相加。所以需要在每个分测验内独立评价。在使用这些得分评价及筛选学生时，应分别划线。如托福、雅思考试，在报告考生分数时将不同能力模块分开报告。

多重分段法解决了不同能力得分不能相加的问题，但也违背了分数合成的经济性原则。更丰富的分数报告虽然保证了科学性，但不报告总分的形式也给选拔工作增加了困难。

四、基于项目反应理论的分数合成

在经典测量理论框架下的分数合成方法，虽然考虑到了题型、考察内容、难度等题目属性，但在分数合成过程中主观因素对总分的影响很大。如何真正实现基于题目属性的客观测量是语言测试所面临的最大挑战。

项目反应理论的提出，解决了这一难题。以最简单的Rasch模型为例，认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示：

f（Pni1）=θn-δi

其中，Pni1表示考生n回答第i个题目得1分的概率。在0-1计分题目中，得1分表示考生答对该题目。函数表示被试答对该题的概率Pni1取决于考生能力θn及题目难度δi。Rasch利用自然常数进行转换，使用最大似然估计法经过多次迭代估计出考生能力。整个计算过程中未对任何题目进行加权，仅考虑考生作答情况。因此，分数合成过程更加客观、科学。

基于项目反应理论的分数合成结果还有以下几个优点：

1.针对不同被试精确估计测量误差。经典测量理论的分数合成过程对误差的控制很弱。项目反应理论将考生参数估计和题目参数估计统一在同一个框架下，对误差的控制可以精确到每一名考生和每一个题目。

2.分数合成仅依赖题目与考生特征。经典测量理论的任何题目参数的计算都受考生能力分布的影响。例如难度的计算，难度以正答率为指标。如果答题的学生能力普遍偏高，则计算出的题目难度就低，反之如果答题的学生能力普遍偏低，则计算出的题目难度就高。题目不变，但计算出的题目参数差异巨大，这显然是确定题目参数的算法不合理。基于项目反映理论的合成方法仅考虑难度与能力两个因素，且通过算法保证了在考生能力分布不同状况下题目难度稳定。

3.能力与难度具有统一量尺

基于经典测量理论的分数合成方法得到的总分与题目难度之间没有可比性。例如，经典测量理论无法估预测一名总分为80分的学生在一个难度为0.8的题目上的正答率。项目反应理论解决了这一问题，将学生能力与题目难度统一在同一个量尺下，单位统一为Logit。

但基于项目反应理论的分数合成在数据的收集、参数估计等方面要求都比较高，这从一定程度上限制了这一方法的推广。但随着计算机技术、测量学技术的普及，更加科学、合理的分数合成方法一定会快速普及起来。

五、总结

总体来说，采取哪种分数合成方法应当是在综合考虑人力、财力、测试目的等多个因素后决定的。在考虑上述因素的情况下，综合运用多种合成方法，从多个角度评价考生才能够保证分数报告的科学性、合理性。

【参考文献】

[1]袁方，朱军梅.多面Rasch模型：结构化面试分数合成的新方法[J]. 中国人力资源开发，2009（08）：53-55.

[2]阳辉，车宏生，卞冉.分数合成：测评中不可忽视的重要环节[J]. 中国人才，2008 （15）：49-51.

测度论在统计学中的应用篇11

[中图分类号]G645 [文献标识码]A [文章编号]1005-5843（2013）05-0059-04

[作者简介]李丽菊，红河学院数学学院助理研究员（云南蒙自661100）

一、教师知识结构浅析

教师知识是指教师在处理某个特定事件中的知识整体，是构成教师实践行为的所有知识和洞察力。关于教师知识结构的认识，以舒曼尔（Shulman）为代表的学科取向观点认为，教师为使教学获得成功，需懂得该如何把现已掌握的知识转化为学生可理解或接受的表征形式。它从普通教学法知识出发，关注师生之间的交流，是教师所特有的教学内容和教学法的有机混合体，包括教师有关具体学科的特殊观念和学习难点的知识以及有关该学科的教学方式和教学策略的知识两个重要部分。在这种教师知识的共有特征基础上，舒尔曼将教师知识具体分为学科知识、一般教学法知识、课程知识、学科教学知识、学习者及其特点知识、教育背景知识、教育目标和价值观及其哲学和历史背景的知识等七类。另外，从教师教育视角看，我国师范教育普遍采纳“学科知识、教育科学知识和普通文化知识”三类课程知识模式，其基本的理论预设是“任何具有足够学科知识的人只要懂得普通教育理论和原则，就能够将这些理论和原则自觉运用到具体学科知识点和情境的教学中，提高教学实效”。然而，作为教育教学的行动基础，教师知识显然远远超越这种学术研究领域和教育实践领域的知识分类范畴。从实践教学质量看，如何保障有效性教学的知识应当是教师知识结构的核心构件。

“有效教学”论题是一个历久弥新的问题域，传统的有效教学模式认为，教学的有效性主要表现为：（1）在单位时间内，没有偏离地按照教学设计完成预定的教学方案，采取“课前准备-复习旧知-新授知识-随堂练习-布置作业”的程序化课堂教学模式；（2）在有限的学期内，粗放式地增加教学和学习投入，反复历练得分技能；（3）教学活动被简化为“刺激-反应”的机械模式，其中教师是课堂教学的独白者和教学刺激给予者，学生是教学知识的机械接受者和反应者；（4）考试分数是教育教学有效的质量标准和评价准则，课堂内教得多、学得快、考得好就是有效的教学；（5）学生作为教学产品被塑造的，可以按照同一规格批量生产。显然，这种传统模式是将有效教学简化为教学投入与产出的比率关系，并坚信只要教学效果（产出）满足社会期望，取得好的升学率，那么师生的任何繁杂投入都是值得的。这些运作模式使教师变成了传输知识的工具和工匠，学生成了无头脑的知识储备器。朱文辉针对上述传统线性有效教学模式进行了反思和批驳，指出有效教学的应然追求：课堂教学是在教学行为与教学境遇的各种复杂关系的互动中展开的，教师应该依据学生的学习心理过程来创造各种教育契机，通过主体间交互活动，对课堂中出现的问题、疑难、困惑等生成性资源进行创造性重组，并在资源的生成和利用中推进学生经验的建构和知识的生成；教学的根本使命应是基于具体知识的理解、生成及效用，激发学生学习的内在需要和兴趣，提升他们主动探索的欲望和能力，使知识学习的过程同时成为培养学生主体意识、创新精神和实践能力的过程；知识具有亲历性，教学应自觉弱化知识传递的旁观者逻辑，知识只有内化为学生自身的价值、态度、信念和技能，才能成为衡量学习效果的尺度。

综上所述，就实践价值而言，虽然教师知识分类为教师教育课程设置提供了理论基础，但这些知识的传授和掌握并不等于教学的有效实施。从有效教学的评判标准看，传统的有效教学强调教师完成教学任务，实现教学目标，学生取得好的考试成绩，学校升学率高，这些都达到了便为教学有效。而有效教学的应然追求论强调教学相长，知识共生，成功挖掘学生内在的学习潜力才是有效的，与前者相比其进步之处在于，强调有效教学是师生主体间的互动模态，应促进学生将知识生命化和个性化。二者共同之处均认为，有效教学应是教和学均有效，那么在教学实践中如何才能真正保证教学和学习有效呢？从教师要素看，教师测评知识是保障有效性教学的重要部分，起着教学监测和质量反馈的作用，它是教师职业化和专业化的根本标志，是有效教学的重要保障。

教师测评知识是教师对学校情境中的教育现象及其属性进行计量分析与价值判断中的知识整体。在教育教学活动的设计与实施中，如何科学地测量教育事项，公正地考评教育教学活动结果，以促进学生全面发展，改进教师教学行为，是监控教学过程及其效果评定的主要内容，也是保障有效教学的重要手段。只有使教育教学建立在科学测评程序上，及时诊断出教学实践中存在的差误，才能有效地调整教学策略，改进学习行为，提高教学和学习效率。因此，教师测评知识理应成为教师教育课程设置中的重要组成部分，就教育测评过程及其知识结构而言，教育测量知识与教育评价知识是教师测评知识整体的核心要素，也是教师必备的教育教学技能元素。鉴于此，本文尝试对教师测评知识的内涵进行探讨，期望为我国教师教育的课程设置与教学提供一些参考和启示。

二、教师测评知识解读

（一）教育测量知识

教育测量知识是关于教育现象及其属性进行计量分析和事实判断的知识整体，包括教育测量的基本理论知识和计量统计技术两个主要部分。从操作性定义看，教育测量知识是开展教育教学测量活动所需的一切相关知识，包括测什么的知识、怎么测的知识和如何分析的知识三个方面。从测量行为看，教育测量是根据一定的原理和法则，针对学校教育影响下学生各方面的发展，从量的规定性上予以确定和描述的过程。

教育测量的基本理论知识是开展教育测量的理论基础和行动准则，包括教育测量的基本原理、资料收集、标准制定、质量评定、统计分析、结果运用等知识模块。首先，教育测量的基本原理主要包括测量目标制定、资料收集方法、测量标准构建、数据分析原理、结果解释原则等。其中制定测量目标及其标准的基本准绳是教学目标和学习目标的分解，教师职前教育课程中应通过课程媒介将设置科学的教学目标和学习目标的原理与方法有效地传递给学生。资料收集方法是教育测量的重要环节，教育资料可以大致区分为定性和定量两类，收集不同类型的资料在程序设计、计量测算、保存应用等方面存在较大差别。测量标准是计量分析的理论依据，是教育测量的具体行为准则和计量单元，教育测量总是将某些教育现象或观念化整为零，在具体的、客观的水平上进行分解和描述，使其变得可操作、可计量。数据分析原理是对收集的各种教育资料进行数理统计的技术和方法，以寻找教育现象之间的内在联系和统计联系，为教育评价服务，如测算考试题目的效度、难度、信度、区分度的方法与技术；结果解释原则主要是针对计量分析的结果进行意义解读和教育效果推论，其基本要求是客观而符合事实，不以偏概全。总体而言，教育测量的基本理论知识涉及确定合理参照点、制定科学测量单位、研制有效测量工具三方面的知识，只有这些知识同时具备，测量工作才能顺利开展，进而对教育现象及其属性进行量的规定和描述。

教育计量的技术与方法是教育测量的重要手段，是教师考评学生成绩、评判教学效果的必备工具。从教学过程看，它包括教学目标设定、学习准备状态探测、课程作业设计、学业测验编制和试卷质量分析、学习和教学效果测定等方面的技术和方法。从控制教育测量误差看，测验编制、试卷质量评定、测量数据分析等方面涉及的原理技术和统计方法是教育测量中的重要工具。测验编制属于研制有效测量工具的内容，是测量学生学习效果的重要媒介，编制测验是教师的一项重要教学能力，不可随意应付。好的测验编制应有考核目标、知识内容、分值比例、题型设计、参考答案、评分标准等内容，只有在这些方面作了标准处理，才能保证测验的有效性。试卷质量评定主要是测算试卷的效度、信度、难度、区分度，这些不同的质量指标有其独特的使用条件和计算办法，只有这些指标同时满足了测量学的要求，才能准确测出学生的学习水平。数据统计分析是技术性较强的工作，包括统计分析原理、分值计算方法、软件操作技术、结果分析描述等内容。因此，凡能通过计量分析的教育事项，均需要掌握有关的数据处理技术与方法，只有统计方法使用恰当，才能有效地对各种教育现象及其属性进行测量。

（二）教育评价知识

教育评价知识是指基于教育测量的结果，对各种教育现象及其属性进行价值判断的知识整体。它包括评价的理论基础、组织与实施程序、设计评价方案、结果的分析整合、心理调控技能、统计决断与推论等方面的知识，可以将这些知识概括为教育评价的基本原理和结果评判两大类别。从操作定义看，教育评价是指按照一定的教育目标，对所实施的教育活动的效果及其活动本身进行价值判断的过程，其实质是寻求教育活动的意义与作用。教育评价的理论基础主要是指教育评价中所倚重的指导思想和教育观念，其中国家的教育方针及其相应的教育规划纲要是教育评价的宏观指导思想和行动指南，各种教育教学理论是教育评价的具体行为准则，如王景英和梁红梅（2002）基于后现代主义强调教育评价的方法论中，要倡导反思、批判的思维模式；重新审视定性研究和模糊评判；要倡导多视角、多元化的方法论；要强调评价者与被评价者之间的对话；要淡化鉴定、分等功能，强调评价的研究和促进的功能。又如建构主义知识观的教育评价启示意义在于，强调“评价标准的多元化、评价目标和内容的多维性、评价过程的动态化、评价方法要定性与定量相结合、强调评价的真实性与情境性”。诸如此类论说无疑是教育评价的重要理论依据和方法指南，为此，在教育评价设计中，应在国家教育方针指导下，析取各种教育教学理论的合理因素作为行动依托。

此外，在教育评价活动中，组织与实施是教育评价的准备环节，包括人力、物力、财力和时间计划等方面的准备活动知识。评价方案的设计是教育评价的操作模式，决定着教育评价的质量和功能发挥，主要涉及指标体系构建技术、评价标准分解、确定指标权重方法等知识内容。结果的分析整合是在统计学原理的指导下，借助数学分析技术对测评结果进行计量和分数整合，在总体水平上理解某个分数量值的实际意义，评判教育活动的育人效果，以深入揭示教育结果的价值蕴涵。心理调控技能是关涉评价结果有效传达的知识，该技能的掌握有助于发挥教育评价的导向功能、激励功能和管理功能。统计决断与推论是对教育评价结果的数学分析和统计处理，将评定的教育事实进行意义解读和价值概化，如在教育行动研究或者教育实验中，对某些教育策略或者学习的效果检验及其外在效度判定，它属于教育评价的重要计量技术。总之，教育评价是一项复杂的系统工程，从确定评价的目的、分解既定教育培养目标、设计评价内容及其指标体系、采集和分析评价数据，到解释统计数据事实、利用评价结果等都是教育评价工作不可缺少的环节，完整的教育评价还应该包括反馈和相应的政策调整、教学方法改进措施以及元评价等，这些环节中的相关知识与技能均是教育评价知识的重要组成部分。其中数理计量技术和统计方法是教育测量与教育评价的共同知识成分，它们是目标导向式教育测评的核心知识内容，是教育测评的重要工具。

三、教师测评知识的实践价值

（一）有助于有效掌握学生的学习行为特性

任何教学设计都是以学生的学习准备状态为基础的，当然教育测评并非是掌握学生学习状态及其行为特性的唯一手段，但却是最为科学有效的途径。传统教学设计起始于教师的人生经验和学科知识，是一种“自上而下”式的教学观念和经验的反映，没有考虑学生的学习需求和接受能力，本着“没有教不好的学生，只有教不好的老师”的职业信念实施教学方案，认为传道、授业、解惑就是教师的应然角色，学生就是教学的雕琢品，是知识的容器。为了使教学高效，教师和学生必须在单位时间内完成更多教学任务和学习活动，是一种机械主义的课程教学模式。为扭转这种“高压低效、高分低能”的简单量化教育模式，教师必须具备教育测评的知识和技能。实践表明，有效的教学活动必须以学生的学习心理和行为为基础，而科学合理的教育测评则是了解学生学习心理和学习行为特性的有效手段。

测度论在统计学中的应用篇12

（The Technological Higher Junior College of Aviation of Xi'an，Xi'an 710077，China）

摘要：本文通过作者在多年的测量课程教学及测量实际工作中，遇到理论和实际问题时如何解决的体会，对应用误差理论指导导线测量进行了探讨。并对误差理论在对采点布线工作的指导、对水准测量的指导、对水平角测量的指导、对量距的指导、对坐标增量计算的指导等进行了比较深入的研究，在课程教学中得到了实际应用，取得了很好的效果。在施工现场的测量应用中也取得了成功。

Abstract: Through the experience of solving the theoretical and practical problem in the author's many years measurement course teaching and measuring work, this text discussed the application of error theory in instructing wire measurement, and carried out more in-depth study on its guidance to sampling point wiring, level measure, horizontal angle measurement, volume from, and incremental calculation of coordinates, which have get practical application in the teaching of course, and have made very good result. It has succeeded application in the measurement at the construction site too.

关键词：误差理论导线测量工作指导

Key words: error theory；wire measurement；the guidance of job

中图分类号：TU19 文献标识码：A文章编号：1006-4311（2011）14-0102-02

0引言

众所周知，在测量工作中，不论使用多么精密的测量仪器，观测者多么仔细认真，外界自然条件多么适合，对某一未知量进行多次重复观测时，所测得的各次结果总是存在着差异，这就说明观测结果中不可避免地存在着测量误差，也就是说测量误差是客观存在的，是不可完全消除的。或者测量结果中存在一定的误差是合理的，是允许的。而探讨测量误差理论的主要目的就在于分析测量误差产生的原因和性质，掌握误差产生的规律，合理的处理含有误差的测量结果，求出未知量的最可靠值，正确的评定观测值的精度，研究误差理论，不是为了将误差全部都消除，因为这是不可能的。而在于用误差理论正确的指导测量的施测工作和理论计算工作，最大限度的减少误差，使得观测值更加准确，以便提高测量结果的精密度。

测量误差按其对观测结果影响的性质不同，可分为系统误差和偶然误差两大类。

系统误差的特点是误差大小，正负符号均保持不变或按一定规律变化，具有累积性，对测量结果的质量影响很大，但系统误差在施测过程中和计算过程中，可以采取相应的措施来消降，这些措施在施测过程中非常重要的，是根据系统误差理论总结出来的，是确保观测结果精度的有效途径。

偶然误差的特点时误差大小。正负符号不定，表面上没有规律可循，在施测过程中也没有办法消降。

众所周知在观测过程中，系统误差和偶然误差往往是同时存在的，而系统误差可以采用适当的观测措施和计算方法来消降，这样会是观测结果的误差主要呈现出偶然的性质。因此测量误差理论主要在于研究偶然误差理论。

单一的偶然误差没有规律可循，但当观测次数增多，偶然误差也是有规律的，且观测次数越多，规律越明显。偶然误差具有下列特性：①在一定的观测下，偶然误差的绝对值不会超过一定的限值。②绝对值较小的误差比绝对值较大的误差出现的机会多。③绝对值相等的正负误差出现的机会相同。④偶然误差的算术平均值随差观测次数的无限增加而趋近于零。

偶然误差理论是确保观测结果质量的可靠保证，是指导施测和计算的理论依据。

1导线测量任务

建筑测量集中实训往往是布设一个闭合导线，进行平面测量和高程测量。具体任务是：采点布线、水准测量、水平距离测量、水平角测量、数据整理、成果计算。

2误差理论在各项具体工作中的指导作用

笔者认为测量误差理论是非常重要的，这是因为它是施测过程和计算的指导依据，是保证观测结果质量的先决条件。渗透到测量工作的各个环节中，哪一项具体工作也离不开它的指导，因此可以这样说，测量误差理论是测量课程的理论核心，对施测工作和计算工作具有至关重要的指导意义。下面将对误差理论在导线测量过程中的指导作用作以讨论，并按四等测量的要求进行。

2.1 对采点布线工作的指导采点布线除了基本的要求外，为了最大限度的减小误差，应注意以下两点：①点与点的距离不能太长，不超过200米，这是因为四等水准测量要求视线长不能超过100米。②点与点的距离也不能太短，这是水平角测量中短边的误差比较大。

2.2 对水准测量的指导除了水准测量应注意事项外，为减小水准测量的误差，在施测和计算过程中还应注意以下几点：①测站校核。测站校核的目的有三，一是为了消除超过一定限度的粗差；二是为了取其平均值以抵偿偶然误差；三是避免误差的传递。②高差闭合差。高差闭合差必须小于容许误差，才能确保水准测量的精度。若不能满足说明结果中存在着超过一定限度的偶然误差，这是不允许的，应该重测。③平差。高差闭合差的调整最好按测段距离加权进行，这是因为水准测量误差的大小与视距的长度成正比的，而与所测高程差值大小无关。平差的目的主要是为了消除系统误差，其次是为了避免误差的传递。④计算校核。高差闭合差与高差改正数之和应该大小相等，符号相反；对闭合水准线路来说，改正后的高差之和应为零。对闭合水准线路高程推算应从起点开始，最后对回到该点，起始点到已知高程应与推算出来的高程完全相等，计算过程中步步校核的主要目的在于减少误差的传递核累积，以提高测量成果的精度。

2.3 对水平角测量的指导为了提高水平角的观测精度，在掌握了水平角测量应注意事项外，还应注意以下几点：①测量的次数和测站校核。对于四等测量来说，至少要有两个测回。这样做的目的有三，一是去除超过一定限度的粗差，二是消除了系统误差，三是取了算术平均值就可以抵偿部分偶然误差。另外也避免了误差的传递和累积，也相当于测站校核。②角度闭合差。为了保证测角的精度，角度闭合差必须小于允许误差，若不能满足，说明施测过程中或计算过程中存在着超过一定限度的粗差，这是不允许的，应重测或者重新设计。③角度闭合差平差。角度闭合差的调查有两种做法，一般是角度闭合差的调查按所测水平角的个数来均分，这是因为测角的误差与所测的角值大小无关（除对中误差，对平角的影响外）。如果所测角的个数较少，可按两条长边所夹的角少分，两条短边所夹的角多分，一长、一短两边所夹的角居中，在考虑给接近于平角的角分多分点。这是因为，测角的误差大小与边长成反比另外在相同的对中偏心差的条件下，对接近于平角的影响大。平差的主要目的有二；其一是通过计较手段（利用改正数）来消减一部分系统误差，其二是为避免误差的传递和积累。④坐标方位角的推算根据起始边的已知坐标方位推论其它各条边的坐标方位角，这里要注意的是必须用改正后，且闭合差为零的所测的内角来推论，以免误差的传递和累积。⑤计算校核。1）角度闭合差的大小应和改正数之和完全相等且符号相反。2）调整平差后到角度闭合差应等于零。3）推算出来的起始边的坐标方位角应和已知的相等。步步校核的主要目的在于避免了计算错误和误差传递。

2.4 是对量距的指导量距采用一般量距方法，具体做法是用钢尺的不同部位前、后尺各读两次数，的两组数据，两次距离之差不得超过5mm，取其算数平均值，这样做的目的在于可以避免误差和抵消部分读数误差，易于将尺段的相对误差控制在1/5000，将测段的相对误差控制在1/3000，以满足导线全长闭合差的要求。

每个测段往往都要量若干个尺段，将尺段的相对误差控制在1/5000，根据和差函数的误差传递定律：

m■=±■

可知，测段的相对误差必然大于尺段的相对误差，故将相对误差控制在1/3000。

2.5 对坐标增量计算的指导角度测量成果计算结束后，推算出了各条边的坐标方位角和象限角，校核无误，再加上符合精度要求的量距成果，就可以进行坐标增量的计算。

坐标增量可按相应公式计算，注意正负号的判别。

2.5.1 导线全长闭合差导线全长闭合差必须符合容许误差的要求，以利于提高测量结果的精度，根据坐标增量计算公式可知，坐标计算误差主要来源于两个方面，其一是来自于测角的误差，其二是来自于量距的误差，根据一般函数的误差传播定律：

M■=±■

可知，导线全长闭合差必然会大于量距的相对误差，因此四等导线全长闭合差定为1/2000。

2.5.2 坐标增量闭合差的调整坐标增量闭合差的调整的原则是按边长加权进行调整，也就是长边多少，短边多少，而测角误差无关，这与坐标增量的两个误差来源于是相悖，这是为什么呢？这是因为测角误差在角度成果计算过程中通过平差将大部分系统误差已消降，而量距误差无法进行平差计算故其仍然存在，且产生影响也大，因此在坐标增量闭合差调整过程中，主要考虑量距误差的影响。

2.5.3 校核计算①X轴上的坐标增加闭合差应与其改正数大小相等、符号相反Y轴也一样。②改正后的坐标增量闭合差无论是X轴还是Y轴，必须等于零。那么导线全长闭合差也必然等于零。③推算出已知点的坐标值必须与已知的坐标完全相等。

校核计算的主要目的在于避免误差的传递和累积，同时也避免了计算错误，提高了测量结果的精密度。

3结论

由以上分析可知：误差理论指导着测量工作的各个环节，指导着每一项具体的工作。可以说测量工作每一步都离不开误差理论的指导。误差理论的指导决定着观测结果的质量，关系到观测数据的可靠性。这与误差理论的来源是密不可分的，误差理论是从实践中来，在理论上得到升华后，再来指导实践。所以误差理论具有非常实际的、重要的指导意义。

掌握好了误差理论，不但能在实际工程中做好测量工作，而且在实际工作中，可以举一反三，在误差理论的指导下，进一步的完善、创新施测工作。并为今后的工作奠定了良好的理论基础。

参考文献：

[1]刘满平主编.建筑工程测量.北京：中国建材出版社，2010.

[2]王元江，赵西安主编.工程测量，北京：建工出版社，2004.

[3]王景峰主编.工程测量.北京：人民交通出版社，2007.

[4]李青岳主编.工程测量学.北京：测绘出版社,1995.

[5]王箫礼主编.测量学.上海：同济大学出版社，1990.

[6]催吉福主编.工程测量.北京：建工出版社，2005.

[7]张正禄主编.工程测量学.武汉：武汉大学出版社，2002.

[8]章书寿主编.工程测量学.北京：水利水电出版社，1994.