动态分析基本方法合集12篇

时间:2023-07-28 09:20:59

动态分析基本方法

动态分析基本方法篇1

生产效率的测度方法包括两大类:一是参数法包括计量经济学法和随机边界法。另一种是非参数法如数据包络分析(DEA)。而Malmquist指数法,不仅可以分析不同时期决策单元的效率演化,而且可以更加详细地了解提高综合生产率的源泉,在国外,J.David Cummins,Sharon Tennyson,Mary A Weiss对美国寿险业的效率进行了研究,Mansor S A,Radam以马来西亚保险企业为样本对其生产率和效率的变化进行了研究。在国内学者中,陈璐和赵旭各自用malmquist指数研究过寿险和非寿险公司在不同时间段内内的动态效率。由于研究样本和时间段的差异,各学者对保险企业效率和生产率研究的结论不尽一致。但是,把malmquist指数应用于基本医疗保险,研究其动态效率的文章还不多见。笔者认为,作为公共经济范畴的基本医疗保险同样要强调投入产出,只不过其产出指标不应该是商业利润,资金结余,而应该是覆盖率,赔付率这些具有公共利益性质的指标。本文试图运用Malmquist指数法,根据2003~20066年中国基本医疗投入与产出的数据,估计出基本医疗保险的生产率增长及其构成的变化,以评价基本医疗保险近年来生产力水平及其变化趋势。

一、基本模型与方法

Malmquist指数是由瑞典经济学家和统计学家Sten Malmquist于1953年提出的,被广泛应用于投入产出方面的分析,在效率的动态变化的研究领域被广泛应用。

Malmquist生产力指数可将生产力成长分解为来自技术的进步与相对效率的改善。由于生产技术会随时间演进而进步,且生产集合或市场也会因时间的改变而有所变化,因此若能对不同决策单元做跨期分析的模式,将能了解该决策单元在随时间与市场的改变之际,其本身在生产集合中的相对效率地位,以寻求更积极的改善。

二、投入产出指标的设定和数据来源

医疗保险的投入产出比跟企业业务上的投入产出不一样,企业考虑的是投入投了多少钱在广告上面,市场份额收回多少,销售值是多少,是追求微观个体经济利益最大化。而基本医疗保险是政府运作的一项公民福利,怎么来看它的效益呢?从公共经济学角度看,基本医疗保险的目标是以有限的医疗资源为所有人提供最基本的医疗保障,即公平和有效地配置稀缺的医疗资源,寻求平等与经济效率的恰当平衡,可以理解为“在平等中注入一些合理性,在效率中注入一些人道”。所以我们用覆盖率来体现医疗保险的广度,用赔付率来体现保障深度。站在政府的角度,为了实现这个目标,政府要首先投放一定量资金,本文用政府财政支出中的社会保障资金,卫生资金以及政府的隐形税收来衡量政府投入。这些资金会发挥杠杆效应,带动企业,个人的保险支出,从而搭建起基本医疗保险的大致框架。

基于以上原因,我们设定的投入指标是:

1.政府财政中的社会保障变量:各地区政府财政中的社会保障支出:该指标反映政府财政对社会保障投入的力度。发达国家这一比例一般在40%-55%,亚洲、欧洲、北美洲、大洋洲国家1996年的比例在30%左右,虽然社会保障除了基本医疗保险外,还包括工伤保险,失业保险等内容,但他们都对全民健康水平产生直接或者间接的影响,所以预期该指标体现正效应。

2.各地区人均政府隐形税收补贴:税收优惠政策的核心目的在于国家通过税式支出,鼓励和刺激健康保险需求和购买。从经济学角度看讲,税收既具有替代效应,也有收入效应。如果政府对健康保险的供给方进行税收补贴,降低供给方成本进而降低健康保险商品的价格,此时税收产生的替代效应可以增加消费者的购买。如果政府直接对消费者进行税收补贴,相当于增加了消费者的购买力,体现的是收入效应。本文中对税收优惠政策效果的实证分析,其逻辑顺序是:第一步,税收补贴增加了家庭的健康保险需求,第二步,增加的健康保险需求进一步的提高了基本医疗保险的覆盖率和医疗资源的利用率,第三步,医疗资源的利用率又会提高基本医疗保险的赔付率,提高了全民的福利。

3.政府财政中的卫生支出变量:改革开放后,从绝对水平上看,中国政府对卫生的支出总体上呈逐年增加的趋势。1979-2004年,中国政府财政预算内对卫生的名义支出总量增长约31倍。但是,如果剔除通货膨胀的影响之后,2004年比1979年实际增长约7倍,实际增长率为8。2%,要低于经济增长的平均水平。从政府卫生支出占GDP的比重来看,1983年后至1995年,除了中间少数年份之外,这一比值一直处于下降的态势,并在1995年达到历史最低水平(0.66%)。1995年后,情况有所改观,但是直到2004年,政府卫生支出占GDP的比重仍只有0。.95%,尚未超过1979年的水平。政府的卫生支出会带来卫生资源总量的增加,促进医疗保险生产率的增长。

产出变量:

1.医疗保险覆盖率:该项指标反映政府医疗保险制度的覆盖面,理论上医疗保险覆盖率应是100%。

2.医疗保险支付率:该项指标反映医疗保险机构承担投保人的医疗费用比例。国际上承担比例普遍在80%左右。

数据来源主要有:2003-2007年的《中国统计年鉴》、、《中国卫生年鉴》、《中国卫生统计年鉴》。

三、实证分析结果

本论文运用deap软件计算了每一家保险公司全要素生产率逐年变化的情况。从表2和表3列出的2003~2006年基本医疗保险Malmquist生产率指数及其分解中,Malmquist指数被分解为EC和TC。EC为效率的进步,衡量了决策单位是否更靠近当期的生产前沿面进行生产,当EC>1时,表明决策单位的生产更接近生产前沿面,TC为技术的进步,代表两个时期内生产前沿面的移动,这种效应表明了技术的创新。

表1给出了样本省份2003~2006年的Malmquist生产力指数及其分解,Malmquist指数被分解为EC和TC,即效率变化和技术进步。三个时间区间的全要素生产率指数平均值分别为0.575、0.885、0.82反映了我国基本医疗保险生产力是在2005年上升后有一点下滑,整体效率是上升的。

进一步分析看,首先,样本省份的生产力增长主要来源于效率进步。时间越往后,各省份的EC中大于1的值出现的越多。第一期只有7个省份,第二期变成13个省份,第三期20个,这反映了基本医疗保险生产力的提升是以运营效率的提升为主的,在1998年刚实行医疗保险之初,医疗保险基金在缴纳与支出经常出现不平衡,医疗保险基金管理被挪用、医疗费用支付长时期滞后等,政府支持力度弱,医疗机构诱导需求严重,统筹基金保障程度低,个人账户支付能力弱,起付标准较高,限额报销范围太大严重影响了医疗保险的效率改进。近几年来政府加强了对医疗服务的管理,制定了基本医疗保险药品目录,诊疗项目和医疗服务设施标准,对提供基本医疗保险服务的服务机构、药店进行资格认定并允许参加职工进行选择。为配合基本医疗保险制度改革,国家同时推动医疗机构和药品生产流通体制的改革。通过建立医疗机构之间的竞争机制和药品生产流通的市场运行机制,努力实现“用比较低兼的费用提供比较低廉的费用提供比较优质的医疗服务”的目标,实现了效率改进。

其次,技术进步一开始有提升,之后又下降。三个区间的平均值分别是0.637,0.903,0.768。说明近几年基本医疗保险的创新力度不够,虽然政府努力通过加强管理提高基本医疗保险的运营效率,并且确有成效。但是医改的缺失导致保险人,被保险人和医疗提供者(医院)之间存在的委托关系没有得到很好解决。由政府财政投入和经营收入相结合,药品收益和医技收益共同核算的补偿机制引发的过度用药和过度检查的弊端。另一方面,医疗资源提供者的长期单一的局面导致社区医疗服务机构难以取得合理利用,而一个健全的基本医疗体系不可能没有社区医疗,其主要为居民提供基本医疗服务和预防、康复、保健、宣教、计划生育。总之,医改方案迟迟不能出炉和执行――这种制度性造成的浪费,降低了卫生资源利用的效率,进而影响到医疗保险的技术改进。

第二阶段,我们把样本省份按东西部分开,先来看全生产力指数在三个区间的平均值,东部地区是0.6048,0.9046,0.8545。总趋势是上升,在2005年有小幅下滑。西部大开发地区是0.5469,0.8689,0.7895,绝对水平低于东部,但发展趋势相同。再来分析生产力源泉。东部地区EC,TC,TFP的三年平均值分别是1.0135,0.7840,0.7880。西部地区EC,TC,TFP的三年平均值0.9783,0.7576,0.7351,可以看出无论是东部省份还是西部省份,带动Malmquist生产力指数增加的不仅有“效率改善”的贡献还有“技术进步”的贡献,只不过效率改善明显大于技术进步的作用。

同时,我们也要注意到东部地区生产力比西部地区生产力增长得更快。不管是效率的进步还是技术前沿面的移动都要快,这表明东部地区在基本医疗保险的运营和创新上已经领先一步。这当然和东部地区雄厚的经济实力,优秀的人力资源密不可分。但我们要注意到某些个体,比如北京江苏的效率进步反而低于云南,这样的省份。

四、结论

本文通过运用Malmquist指数对基本医疗保险2003~2006年的生产力动态变化进行了实证计算,并把生产力分解为效率变化和技术进步。结果表明,我国基本医疗保险的Malmquist生产力指数长期看是增长的,增长主要是由效率的改善实现的。从分地区的角度看,东部地区在基本医疗保险的运营和创新上已经领先一步。从可持续发展的视野看,提高我国基本医疗保险生产力,前提是要需要医疗改革来理顺保险人,被保险人和医院三方的关系,只有在此基础上才能实现基本医疗的创新。

参考文献:

[1]侯晋,朱磊.我国保险公司经营效率的非寿险的实证分析[J].南开经济研究,2004(4):108―112.

[2]李克成.国内寿险公司经营效率实证分析[J].保险研究,2005(2):37―41.

[3]姚树洁,冯根福,韩钟伟.中国保险业效率的实证分析[J].经济研究,2005(7):56―65.

[4]魏权龄,DEA数据包罗分析[M].北京,科学出版社,2004,59-164.

[5]韩松,王稳.几种技术效率测量方法的比较研究[J].中国软科学,2004:(4)147-151.

[6]陈璐.中国保险业效率动态变化的Malmquist指数分析[J].当代经济科学,2005(5):40―44.

[7]赵家敏,康鹏.对我国财产保险业生产率的评价与分析―――基于Malmquist指数的研究[J].商场现代化,2005(11):81-82.

[8]J.David Cummins, Sharon Tennyson,Mary A Weiss. Consolidation and efficiency in the US life insurance industry[ J ].Journal of Banking & Finance, 1999 (23) : 325- 327.

动态分析基本方法篇2

产品功能结构分析,运用同族产品样本,对其进行基本筛选,分析判断产品功能属性,并挑选关键因素,为后续产品设计定位奠定基础。其中包括产品功能分析,通过功能分析FA,将产品总功能细分为多个功能元,细分的程度取决与产品的复杂程度;同时对产品结构进行分解,功能元和结构元相互对应。产品结构分析:对产品结构分解,以及产品长、宽、高、重量等基本参数特征。

2.用户需求分析

用户需求分析是产品设计的关键。主要包含问卷调研、用户观察、人物角色、用户访谈、焦点小组和任务分析。通过对产品调研可获得用户感性需求、产品现存问题以及用户满意度,明确用户需求,优化产品设计定位。其中包括:(1)用户观察用户观察需要分析的数据量大,可直接进行实地调研,用照片或者用视频间接观察,找出产品痛点。(2)用户访谈用户的背景需要多元化,一般6-8个人,最好是不同性别、年龄、行业的。尽可能真实、完整地了解用户,有效挖掘用户内心的真实想法,挑选出关键元素,进一步明确用户需求。(3)问卷调研问卷调研是最经典定量分析方法,挑选15-20个有效问题的问卷,回收有效问卷并进行数据分析,进一步明确用户需求。焦点小组首先,需要提前准备调研提纲和专门主持人主持讨论;其次,召集6-9名用户进行2小时访问;最后,找出用户想法和实际做法的偏差及成因,明确用户需求。人物角色通过场景细分确定典型用户,结合5W2H法提炼构建用户人物角色雏形,通过KJ法对人物角色模型中提炼的用户需求进行聚类,构建人物角色模型。任务分析制作工作活动流程图,揭示工作任务的操作要素与流向,分析用户在完成任务时的真实做法。了解用户对产品的使用方式及使用过程中出现的问题,找出机会缺口,完善用户需求。

3.产品属性分析

运用同族产品样本与异族产品样本,对产品样本作基本的属性分析。产品属性分析主要包括产品本身所具有的色彩、形态、人机、材质等,分析提取关键因素和参数特征,进一步细化产品设计定位。包括色彩分析:色彩不仅美化和装饰产品的功能,而且影响消费者的主观感受和购买欲望。将产品样本进行聚类分析,提取多个样本主色与辅助色,记录其CMYK与RGB值,并在此基础上以聚类分析法二次提取色彩参数,确定主色2-3种,辅助色3-5种,二次提取色彩将作为产品设计色彩基本定位;材质分析:材质是产品的重要组成部分,不同的材质会给人以不同的感受。提取多个产品样本材质,记录并分析其基本特性,与产品本身特性相结合,提取产品主要材质特征,确定1-2种主要材质,将其作为产品设计材质基本定位;形态分析:产品形态作为传递信息的第一要素,与产品的功能、结构、色彩等有密切联系,形态分析可明确产品设计的基本形态趋势。提取同族产品、异族产品样本主要形态特征,对主要形态特征进行聚类分析,挑选关键形态特征,确定产品设计形态基本定位;人机分析:合理的参数特征能减少疲劳操作,创造出舒适和安全的工作环境。根据产品样本提取产品设计中的人机要素,以及参考人机工程学基本参数特征,确定产品设计人机参数基本定位;竞品分析:将同族产品的同档次或略优品牌排列出来进行分析,找出产品的痛点与机会缺口。

4.产品设计定位

动态分析基本方法篇3

[分类号]G350

应用于科技规划与管理、科技政策制定的技术预见、预测等研究已经在许多国家和机构广泛开展,并在支持各层面的科技决策活动中发挥了重要作用,这些面向未来的技术分析活动受到越来越多的关注。

形态分析以参数分解和问题构建为基础,是一种引导构造性发明的非定量建模方法。在Alan Porter总结的13类面向未来技术分析方法中,形态分析属于矩阵类方法。形态分析方法最早可追溯到13世纪,但“形态分析”名称的正式出现是在20世纪40年代。20世纪70年代,Wissema首次系统阐述了形态分析在技术预见研究中的应用方法,他将应用于技术预见的形态分析方法分解为4个步骤:①识别主题的基础属性;②发现基础属性的可能值;③各基础属性值的排列组合;④识别已出现的排列组合,发现未出现的组合。

1基于文本挖掘的形态分析方法

传统形态分析中形态结构定义、形态属性值的发现过程完全依赖领域专家的知识和经验,缺乏客观数据的支持。因此,有学者提出基于文本挖掘的形态分析方法,借助文本挖掘工具从数据集的文献标题、摘要、全文等信息中抽取关键词,通过计量、咨询专家等手段从关键词中筛选能够反映形态结构和形态属性值的特征词。

针对产品开发和技术机会发现问题,2004年Yoon等人提出文本挖掘与形态分析相结合的方法。他们使用文本挖掘工具从专利文献中抽取关键词,然后借助领域专家筛选特征词、定义技术形态结构、表现技术形态,进行形态分析,并通过LED专利技术的实证分析证明基于文本挖掘的形态分析方法的可行性及其优势。Lee等人将这种方法扩展到多种形态的关联分析,他们分别从IT服务专利文献和《联合国中心产品分类》巾抽取特征词组成IT服务的技术形态和概念形态,并使用形态同现矩阵对两种形态进行关联分析。面向不同的应用需求,基于文本挖掘的形态分析方法都取得不错的效果,这种方法增加了分析过程中客观数据的支持.减少了对领域专家的依赖,提高了形态分析效率。

基于文本挖掘的技术形态分析方法的主要步骤如图1所示:①构建领域数据集;②借助文本挖掘手段从数据集中扶得特征词集;③以特征词集辅助领域专家定义形态结构;⑧表现主题形态;⑤形态分析。

2基于文本挖掘的形态分析方法的关键问题

基于文本挖掘的形态分析方法可以概括为两方面的4个关键问题第一个方面是主题形态构造,包括特征词选择、形态结构定义、形态表现3个关键问题;第二个方面的问题是形态分析。

2.1特征词的选择

关键词能够反映文献主题的实际内容,可以代表文献主题的形态属性值。特征词选择是关键词的精选过程,主要方法包括计量法和混合法。

计量法的前提是阋频反映了关键词重要程度,计量法通过同频统计等计量手段赋予关键词权值,选择权值满足条件的关键词作为特征词。混合法以计量手段辅助领域专家选择特征词,主要步骤是:①通过文本挖掘获得关键渊集;②通过汁量方法对关键词集进行过滤;③领域々家从剩余关键中筛选特征词。

计量法以词频为依据,忽略了词间关系影响,选词准确性、可靠性较差。混合法在计量基础上融人领域々家意见,在提高选词效率的基础上保证了较高的准确性和可靠性。

2.2形态结构定义

形态结构是组成主题的基础属性及其等级结构,形态结构定义方法包括专家法和混合法。

专家法定义形态结构完全依赖研究者或领域专家的知识和经验。Yoon、Phaal等人在手机机产品技术路线图方法研究中,通过咨询领域专家整理了type、Careera、Input Equipment、Antenna等7个产品形态属性和lo-cati’on、Shape、Band、Material等6个技术形态属性。混合法以情报分析辅助专家定义形态结卡勾,主要思路是:①通过共现、聚类等手段分析特征词重要性并建立特征词关系网;②领域专家以特征词关系网为依据定义主题形态结构。

专家法定义形态结构准确、可靠、规范,但受々家知识范围和主观意识影响,方法效率受到限制,昆合法中融人情报分析,增加客观数据对形态结构定义的支持,减轻了对领域专家的依赖,提高了形态结构定义的效率。

2.3主题的形态表现

形态分析以科技文献为分析基础,每篇文献主题都有具体的形态。形态表现是按形态结构使用特征州表现文献主题形态,包括特征词向量表脱法和特征洲词频向量表现法两种。

特征词向量表现主题的形态,即使用特征词本身组成空间向量反映主题实例的属性值组合情况”。目前,形态分析主要使用特征词向量表现主题形态,其优点是形象直观。特征词词频向量表现法使用特征词词频组成向量表现主题的形态。特征词词频向量表现主题形态可以方便地使用联合向量进行多形态关联分析。

2.4形态分析方法

形态分析包括单形态分析和多形态关联分析,单形态分析主要穷尽形态结构内形态属性值的所有排列组合,以此发现尚未出现的组合情况。多形态关联分析的目的是发现多个形态属性、形态属性值之间的关联关系,具体应用如问题解决方案、产品技术路线图等跨领域分析。多形态关联分析与单形态分析相比,在解决复杂问题方面更具优势,在实际应用中也具有更高价值。

2.4.1单形态分析方法

单形态分析针对单个主题形态结构属性值的排列组合关系展开研究,主要方法是矩阵法。图2是形态矩阵示意图,假设实现某一主题包含A、B、c、D 4个属性,其巾{Al、A2、A3、A4,{Bl、B2、B3、B4,c1、c2、c3、c4,Dl、D2、D3、1)4分别是属性A、B、c、D的属性值。方法步骤:①首先将主题的特征词按照形态结构填入矩阵,则该主题完成的途径包括4×4×4×4=256种途径;②将已经出现的排列组合情况标出,如图中深色区域A2一Bl―c3―134表示该组合系列已经在专利技术中出现过;③找到未出现的排列组合情况。2004年Yoon和Park等人利用形态分析识别LED领域的专利技术机会研究、2009年黄鲁成和李江在专利技术共享度研究中都使用了矩阵法进行形态排列组合分析。

2.4.2

多形态关联分析方法

多形态关联分析是针对多个形态及其形态属性值之间的关联关系进行分析,目前多形态关联分析方法主要是相关矩阵法(eor-relation matrix)。

多形态关联的相关矩阵法是Yoon、Phaal和Probert在形态分析应用于移动电话技术路线图的研究中提出的,研究目标是发现移动电话新产品的技术路线,主要步骤是:①使用单形态分析,发现所有的产品形态属性值以及技术形态属性值的排列组合;②计算产品形态与技术形态各个属性值之间的Pearson相关性;③以产品形态为主形态,依次将与产品形态各属性值相关性最高的技术形态属性值列入矩阵的同一行即得到形态相关矩阵,例如图3右侧的A1与D1表示产品形态A属性的A1属性值与技术形态D属性的D1属性值相关性最高;④识别产品形态未出现的形态属性值组合,例如A1-B3-C2是未出现的产品形态,则与之相对应的技术形态为D1-F3-D2。虽然这种方法是在设计产品技术路线图中提出的,但是同样适用于其他跨领域的多形态关联分析。

3存在的问题及未来趋势

基于文本挖掘的形态分析方法在技术机会发现、产品路线图等研究中具有独特优势,已经在应用中取得了很好的效果。但是,在应用中也发现该方法存在一些问题,影响其效率以及分析结果的质量和可靠性。这些问题主要包括:

・单纯以词频为依据选择特征词,忽略了词间的影响,选词准确性、可靠性还有所欠缺。

文档频次、互信息、信息增益、卡方统计、TF・IDF等特征选择方法已有较成熟的应用。Yang曾对上述方法进行过比较研究,发现卡方统计量法在特征词选择方面的效率最高,其次是信息增益法、TF・IDF。未来,应该吸收、借鉴这些方法的优点,改进现有形态特征词的选择方法。

・在形态结构定义方面,现有的形态结构定义方法和过程对领域专家、经验有较强的依赖。混合法中情报分析的作用还是很弱,专家无法提供足够的信息支持,限制了实际应用效果。

未来应该充分运用因子分析、共现分析、聚类、分类等分析方法,加强情报分析方法在形态结构定义中的作用。进一步减少形态结构定义对领域专家的依赖,提高方法的效率。

动态分析基本方法篇4

目前电力学科内还没有专门针对动态仿真误差的系统理论,但从所查阅的文献来看,有些专家在处理特定的研究课题时采用了一些误差方法[9]。综合起来有两类:一是定性的分析;二是量化的分析。

定性分析一般采取目测法,就是在一定的坐标和显示尺度下,描出动态变量的时间序列点,形成时间曲线。并且将同一扰动下仿真模型响应结果和实测系统的响应结果描成两条曲线,通过观察曲线间的接近程度来判定变量间的误差大小。

量化的误差分析和误差评定是对动态变量间的差异给出数值化的指标,可以克服目测法等定性分析方法的局限。同时,为模型校验、算法优化提供数学依据,也需要量化的误差评定。总结其他文献的处理方法,可分为三大类:即残差分析、特征量分析和模式识别。

(1) 残差分析

对仿真结果进行基于残差的误差计算,是在辨识算法中出现的。残差分析的主要思路为,将动态变量的比较时间序列减去基准时间序列,得到一组残差时间序列,再对残差时间序列建立合适的数学模型,并给出相应的定量指标。

(2) 特征量误差分析

特征量误差分析是相对于残差误差分析的另一种误差计算和分析方法。首先对动态变量进行特征量提取,通过比较特征量的差异表达动态变量的差异。

(3) 模式识别

对于某些非常复杂的信号、图像,难以使用传统的数学方法进行分析,常常使用智能方法处理。模式识别经常用于判断两个信号、图像是否属于同一类。

2. 电力系统动态变量基本特征分析

当使用同步互连技术连接交流发电机时,无论何时发生扰动,都将观测到振荡。原因在于发电机上的同步转矩将其带入同步运行的能力。本质上讲,发电机通过振荡交换功率,当一台发电机加速时,其它发电机将减速。

实际系统中,可以把稳定的振荡过程分为两类:

1)系统趋向一个新的平衡点。例如,线路短路、断开、不重合,故障后的系统趋向一个新的稳定平衡点。

2)建立等幅的振荡过程,这时需要一定的措施才能使之达到一个新的稳定的非振荡状态。研究表明,大扰动和小扰动存在一定的统一关系。当系统的网络结构、运行方式基本不变的情况下,不论是大扰动还是小扰动,其振荡模式基本相同。

3. 仿真计算方法

应用Prony算法分析实测振荡数据,可以确定系统振荡频率和振荡模式;可以定量分析系统振荡的阻尼问题;对于大系统可以分散提取各个信号的特征,与系统的阶数和参数没有关系;可以提取曲线的振荡特征,为振荡仿真分析可信度提供有力验证。因此,Prony分析是提取电力系统动态变量特征,计算仿真误差的有力工具。

4. 影响误差计算的因素

现有的负荷模型辨识算法中采用残差序列的范数平方和来表达误差的大小,在表征负荷模型仿真算例的误差水平时,存在一些问题需要解决。例如负荷水平的影响因素。

挑选了某变电站两组不同无功水平的扰动数据进行说明。

负荷稳态无功负荷水平为102.3MVar,5b负荷无功负荷水平为 12.2MVar。

采用如下的误差计算准则进行误差计算:

( 1-1 )

其中,为无功仿真变量,无功实测变量,为扰动时段的无功均值。此式意义为无功仿真结果的均方差相对于实测扰动幅度均值的误差。

计算结果如表1所示:

表1 不同负荷水平仿真误差值比较

可见,低负荷水平下的仿真结果对于负荷扰动动态的拟合要优于高负荷水平下的仿真结果对该负荷水平下负荷扰动动态的拟合。但采用以负荷水平作为基值的误差计算准则(1-1)的计算结果却显示相反。其原因在于,以负荷的均值为基值,负荷水平越低,则相对误差越大。如作为最终误差评定结果,则可能会引起与实际完全相反的结论。

综上所述,不宜直接采用负荷水平作为误差计算准则的基值。

5 总结

本文通过分析电力系统动态仿真的特点,确立电力系统动态仿真评估必须综合考虑元件模型、参数准确度和全网动态仿真输出准确度,确立了实测数据的方法和仿真原则。电力系统动态仿真是一个确定型仿真,而电力系统中有很多随机因素,如何正确认识电力系统中的随机因素,将随机因素造成的误差与模型、参数造成误差分离开是必须要解决的问题,也是需要深入研究的问题。

动态分析基本方法篇5

一、前言

模态分析技术在汽车结构的振动特性分析、振动控制、故障诊断和预报以及噪声控制等方面有着十分广泛的应用。随着电子技术与计算机技术的迅速发展,模态分析已成为解决复杂结构故障诊断问题的主要工具。该方法分为试验法和计算法,分别对应于模态试验和有限元法,产生了试验建模和数学建模。

摩托车发动机作为摩托车的动力源和结构核心,其动态特性决定了摩托车整体性能的好坏。随着技术的不断进步,更高的强度、更轻的质量以及更小的空间占有率都推动着整个发动机行业的发展,而模态分析作为发动机动力学的基础,起到了至关重要的作用。

二、锤击法结构模态分析

(一)锤击法结构模态分析基本理论

试验模态以线性振动理论为基础,综合运用动态测试和数字信号处理等技术对结构模态参数加以辨识。其一般流程是采用实际实验的方法,对结构施加一定的激励使结构产生一定的振动响应,利用相关的仪器设备测量得到结构的响应,进行相关模态参数识别,从而进一步分析和解决实际振动问题。

(二)试验模态系统组成及试验方案介绍

1、试验模态系统组成

试验模态系统一般由激励设备、传感器、信号采集设备以及模态分析系统组成。本试验研究对象为大阳牌摩托车单缸发动机总成,包括缸体和缸盖两部分,其间垫有金属垫片,并由单个螺栓连接,表面分布有大量散热片,整体结构较复杂。

2、试验方案介绍

(1)测量方案

测量方案采用锤击模态分析法,通过对发动机整体、缸体、缸盖以及局部单个散热片的四组模态实验全面探究发动机结构的动态特性,其结果理论上能够反映整个发动机总成的动态特性。而锤击法的适用条件中关键的一点是保证结构的线性规律,固还需进行验证性试验。

(2)验证方案

验证材料属性对结构模态分析的影响:选取不同材料属性的敲击点作为唯一变量,分别选定位于缸体和缸盖的各一处敲击点,保证敲击方向不变对固定测点测量。若两组测量结果得到相同的固有频率则无影响,反之,则证明材料的非线性特质。

验证接触连接对结构模态分析的影响:将缸体和缸盖的接触紧密程度作为唯一变量,控制其间螺栓预紧力的大小表示接触程度大小,分别对同样的敲击点进行数据采集,若两组实验结果相同或相似则无影响,反之,则认为采用锤击法无法准确测得模态参数。

(三)试验数据分析与结论

在测量过程中,将各测点的频响函数合成为一组,确定前四阶固有频率如下:

表2.1 四组试验固有频率值

为确定测量结果的准确性,我们对发动机整体进行验证性试验:

(1)分析敲击点在不同材料中的两组数据,通过频响函数组求出两组差异较大的固有频率。由于试验采用控制变量法,可认为敲击点处材料不同而导致测得的固有频率不同。

(2)分析发动机螺栓的预紧调节,按照同样的方法发现预紧力的变化也会导致固有频率的变化。

三、有限元结构法模态分析

(一) 有限元结构模态分析基本理论

具有有限自由度的弹性系统运动方程,可应用动载荷虚功原理推导其矩阵形式:,其中为结构总质量矩阵;为结构总阻尼矩阵;为结构总刚度矩阵;为节点位移列阵;为结构的载荷列阵。当矩阵和的阶数为 时 ,系统自由振动特性(固有频率和振型)的求解就是求矩阵特征值和特征向量的问题。

(二)有限元分析法方案介绍

通过ANSYS求解发动机缸体和缸盖的模态参数,CATIA绘制模型图,尺寸及形状特征均采用实测求得。由于缸体和缸盖结构复杂,表面存在大量很薄且易局部变形的散热片,ANSYS可能将局部变形采集分析而得到固有频率。

显然,由于局部模态的影响导致得到的固有频率和振型并不能反映整个结构的动态特性。因此我们先对缸体缸盖原始实测模型做有限元分析,若无局部模态,则分析结构理论上可信,否则,需将模型简化,去掉容易导致局部模态的散热片再做有限元分析,由于此种方法并不能完全反映物体实际结构,固只能看作近似结果。

(三)试验数据分析与结论

利用ANSYS软件得出各阶固有频率与整体变形图,以试验模态数据为真值,与有限元结果对比如下:

分析两组结果的相对误差,发现缸体的结构变形基本符合整体变形且相对误差较小,可验证两种方法的可行性和正确性。而缸盖只有局部散热片发生了明显变形,整体几乎无变形且相对误差也较大。我们得出“由于缸盖局部模态影响导致其分析数据不准确”的结论。

为求得缸盖的固有频率和振型,我们忽略局部散热片作为简化模型来避免局部模态,所得变形图可认为是整体变形,但两种方法比较结果显示:前三阶的误差几乎都超过20%。我们认为忽略的散热片结构改变了缸盖原本的结构特性,加之缸盖内部结构的复杂性,在建模过程中也存在着部分简化,所以缸盖简化方案仅能大概估计其固有频率的范围,无法对试验组数据进行准确验证。

四、结论

在对发动机结构试验过程中,我们逐渐探索出锤击法的适用范围以及结构动力学特点即:

(1)对于两种不同材料组成的整体结构使用锤击法测量是不适用的;(2)对于两部分装配成整体的结构模态分析也不适用。

在此基础上,我们通过有限元模态仿真对模态试验结构进行验证,得出缸体试验数据的准确性,而缸盖的分析由于无法克服局部模态的影响,有限元法求得的固有频率仅能作为试验数据的参考范围。

动态分析基本方法篇6

:参考书目:

《自动控制原理》,厉玉鸣等主编,化学工业出版社,年

《自动控制原理》,孙优贤,王慧主编,化学工业出版社,年

《自动控制原理》,胡寿松主编,科学出版社,年

二:考试大纲

、控制系统的基本组成和数学模型

掌握:控制系统的组成;控制系统的主要类型;线性连续时间系统的概念,微分方程模型,传递函数模型;方块图及其等效变换;信号流图;方块图化简;增益公式;

、控制系统的时域分析方法

掌握:典型输入信号;一阶、二阶系统的动态响应;控制系统动态响应的质量指标;控制系统的劳斯稳定判据;给定和扰动稳态误差分析;

了解:高阶系统的响应及主导极点;控制方法对系统控制质量的影响;

、频率特性分析法

掌握:系统频率特性的定义;

典型环节的频率响应;

系统频率特性的极坐标图;

对数坐标图;非最小相位系统;稳定性判据;控制系统的稳定裕度;基于开环

频率响应的控制系统频率特性分析;

了解:频率特性设计方法;

、根轨迹分析方法

掌握:根轨迹的基本概念;绘制根轨迹的基本条件和规则;控制系统的根轨迹分析;广义根轨迹;

了解:基于根轨迹方法的控制系统设计;

、采样控制系统

掌握:采样过程及采样定理;零阶保持器;变换;采样系统的脉冲传递函数;连续模型的离散化;

采样系统的数学模型及求解;

采样系统的稳定性与稳态偏差分析;

了解:数字控制器;最小拍采样控制系统的设计;

1

/

2

个人整理精品文档,仅供个人学习使用

、状态空间方法

掌握:系统状态空间描述,及其与传递函数之间的相互转化;状态转移矩阵的

求取及性质,状态运动分析(状态方程的解)

;能控性、能观性的定义与判别;

单入单出系统的能控、能观标准型;按能控性或能观性结构分解;状态反馈设

计与极点配置;全维状态观测器设计;带状态观测器的状态反馈;

了解:最小阶状态观测器设计;规范分解(同时按能控与能观进行分解)

、非线性系统分析

掌握:典型非线性环节;描述函数分析法,及自激振荡(极限环)的参数求取

与稳定性分析;相平面分析法;稳定性基本定义和基本理论;

了解:典型非线性环节的描述函数计算;线性系统的稳定性分析;

动态分析基本方法篇7

一、工商管理硕士财务报表分析课程的教学目标

教学目标是教学实践活动的预期效果。关于财务报表分析课程的教学目标,唐顺莉(2009)认为,财务报表分析课程的重点在于使学生运用财务报表分析的基本理论对财务报表作出分析,运用财务报表资料对企业的财务状况、经营成果及现金流量等情况进行综合考察和评价,并能进行财务报表综合分析。赵自强、顾丽娟(2010)认为,研究生财务分析课程的教学目的在于:一方面讲授财务分析的基本理论;另一方面讲授财务分析实务,使学生能运用相关资料评估企业财务实力和经营业绩、预测企业风险和发展趋势,评估企业价值等。它强调理论与实务并重,突出职业性、应用性、针对性,这一点可以通过研究生的教材特点体现出来。李心合(2014)指出,财务报表分析的目的在于揭示企业“整体运营状态”,诸如战略状态、实力状态、风险状态、效率和效益状态、质量状态、成长或发展状态、衰败或失败状态等。

笔者认为,《财务报表分析》课程属于工商管理硕士生的专业选修课,其教学目标在于帮助工商管理硕士生掌握财务报表分析的理论知识,熟悉企业财务报表分析的技巧与方法,不断提高他们对企业战略、经营管理与绩效内在关系的认知水平。

二、工商管理硕士财务报表分析课程教学内容的比较分析

教学内容是学与教相互作用过程中有意传递的主要信息,包括课程所涉及的专业领域以及核心问题等(宋夏云,2015)。以下笔者结合现有观点的梳理和教材内容的列举,归纳提炼工商管理硕士财务报表分析课程的教学内容:

(一)现有观点梳理

葛家澍、占美松(2008)认为,企业财务报告分析必须着重关注的几个财务信息,包括流动性、财务适应性、预期现金净流入、盈利能力和市场风险。

乔宏等(2011)认为,财务报表分析课程涉及会计、管理、经济形势与政策、金融等学科的知识,是会计学、财务管理学专业的必修课,具有综合性、技术性与实践性的特点。

邵军(2011)指出,财务报表分析的新框架、新理念,其内容包括行业与战略分析、会计分析、财务分析、管理建议与价值评估等。

李心合(2014)认为,财务报表分析框架需要重新研究,特别是要扩展报表分析内容。“四能力分析框架”关注的是财务报表所反映的企业“财务状况与经营成果”,而不是企业“整体的运营状态”。事实上,财务报表正是企业“整体运营状态”的综合反映,财务报表分析的目的也正是揭示企业“整体运营状态”,诸如战略状态、实力状态、风险状态、效率和效益状态、质量状态、成长或发展状态、衰败或失败状态等。其中,特别重要的是战略状态、风险状态、效率状态和发展状态。

朱莲美(2014)认为,财务报告分析课程的教学内容可从基本的盈利能力、偿债能力、营运能力及资产质量和利润质量分析进一步拓展到如下几个方面:一是财务管理成效分析和评价,二是战略管理成效分析和评价,三是成本费用管理成效分析和评价。

根据教学目标的要求,笔者认为,工商管理硕士财务报表分析课程的教学内容可以分为三块:一是企业财务报表分析的相关理论,二是企业基本财务报表分析,三是企业高级财务报表分析。

(二)教材内容的列举

关于财务报表分析课程的教学内容,以教材内容的列举法为例,其代表性观点如下:

1.利奥波德・伯恩斯坦、约翰・维欧德著,许秉岩、张海燕(2004)译《财务报表分析》:财务报表分析概述、财务报表分析目的和财务报告、短期流动性、预测和预分析、资本结构与偿债能力、投入资本报酬率、获利能力分析、以盈利为基础的分析与评价。

2.胡玉明(2008)主编《财务报表分析》:①总论(企业基本财务报表、财务报表分析基本框架、战略分析、会计分析);②基于外部会计视角的财务分析(财务报表分析方法基础、流动性与偿债能力分析、盈利能力与股东权益分析、现金流量分析);③基于内部管理视角的财务分析(基于内部管理视角的财务分析概论、成本报表分析);④前景分析(可持续增长与证券价值分析、价值创造动因及可持续性分析)。

3.张学谦、闫嘉韬(2009)主编《企业财务报表分析原理与方法》:会计信息的作用、财务报表的列报与分析概论、会计业务处理系统、资产负债表分析、损益表分析、有限公司财务报表、长期偿债能力分析、获利能力分析、资产运用效率分析、投资报酬分析、现金流量表及其分析。

4.夏东林(2011)主编《解读会计报表》:企业会计与企业会计报表、资产负债表、利润表、股东权益变动表、现金流量表、合并财务报表、会计报表分析,以及独立审计、舞弊和内部控制等。其中会计报表分析的内容包括分析会计报表的目的和方法、比率分析、杜邦分析图、资产报酬率与经济特征和战略、会计报表之间的勾稽关系。

5.张新民、钱爱民(2013)主编《财务报表分析》:财务报表分析概论、财务报表分析基础、资产质量分析、资本结构质量分析、利润质量与所有者权益变动表分析、现金流量表分析、合并财务报表分析、财务报告的其他重要信息分析、财务报表的综合分析方法。

6.吴世农、吴育辉(2011)主编《CEO财务分析与决策》:解读企业财务报表、CEO解读企业财务报表、分析企业财务报表、营运资本管理与决策、投资项目效益评价与决策、负债管理理论与实践、股利政策理论与实践、投资价值分析与决策。

笔者认为,根据教学目标的要求,工商管理硕士财务报表分析课程教学内容可以划分为三个专题,其中企业财务报表分析相关理论的教学内容包括财务报表分析的技巧方法、企业财务报表分析的流程、企业财务报告的构成体系、企业财务报表分析的动机和目的,企业基本财务报表分析的教学内容包括企业常见财务指标分析、企业财务报表的结构分析和上市公司特殊财务指标分析,企业高级财务报表分析的教学内容包括企业经营风险分析、企业战略分析、企业收益质量分析、企业成本分析、上市公司财务欺诈的识别与治理和企业盈余管理的动机与控制等。

三、工商管理硕士财务报表分析课程教学内容的调查分析

为了了解工商管理硕士生对财务报表分析课程教学内容的认知与需求,笔者于2013年3月1~31日,在课堂上对宁波大学2011和2012级工商管理硕士生进行了问卷调查,共计发放问卷100份,回收有效问卷71份,有效问卷率为71%。本次调查主要采用李克特5分法对被调查选项的重要性进行评分,如得分在4分以上,则认为该选项是重要的。被调查者的基本情况以及调查结果的分析如下:

(一)被调查者的基本情况

表1 被调查者所在单位性质

如表1所示,在被调查对象中,在企业单位工作的硕士生所占比重为73.24%,说明被调查者大多数具有企业实务的工作经验。

表2 被调查者的工作年限

如表2所示,在被调查对象中,具有5~10年工龄的占56.34%,10年以上的占32.39%,即5年以上工龄的占88.73%,说明被调查者具有较为丰富的工作经验。

(二)调查结果的简要分析

表3 您认为工商管理硕士是否有必要开设财务报表分析课程

如表3所示,被调查者认为,在工商管理硕士学习阶段非常有必要开设财务报表分析课程,其支持率为97.18%。

表4 财务报表分析课程的学习与研讨中,以下内容是否重要?

如表4所示,被调查者认为,财务报表分析课程的教学内容包括企业财务报表分析的相关理论、企业基本财务报表分析和企业高级财务报表分析,其中企业基本报表分析最为重要,其得分为4.54分。

表5 企业财务报表分析的相关理论的学习与研讨中,以下内容是否重要?

如表5所示,被调查者认为,在企业财务报表分析的相关理论中,重要的知识包括企业财务报表分析的技巧方法、企业财务报表分析的流程和企业财务报告的构成体系,其中企业财务报表分析的技巧与方法最为重要,其得分为4.58分。

表6 企业基本财务报表分析的学习与研讨中,以下内容是否重要?

如表6所示,被调查者认为,在企业基本财务报表分析中,重要的知识包括企业常见财务指标分析、企业财务报表的结构分析和上市公司特殊财务指标分析,其中企业常见财务指标分析最为重要,其得分为4.46分。

表7 企业高级财务报表分析的学习与研讨中,以下内容是否重要?

如表7所示,被调查者认为,在企业高级财务报表分析中,重要的知识包括企业经营风险分析、企业战略分析、企业收益质量分析、企业成本分析、上市公司财务欺诈的识别与治理和企业盈余管理的动机与控制,其中企业经营风险分析最为重要,其得分为4.54分。

表8 财务报表分析课程的最佳教学方法

如表8所示,被调查者认为,理想的教学方法包括典型案例分析、学生小组讨论、教师课堂讲授和企业实地调查,其中典型案例分析最受欢迎,其得分为4.69分。

表9 财务报表分析课程的最佳考核形式

如表9所示,被调查者认为,理想的课程考核方式包括小组发言和案例论文,其中小组发言最为理想,其得分为4.13分。

四、研究结论

《财务报表分析》课程属于工商管理硕士生的专业选修课,其教学目标在于帮助工商管理硕士生掌握财务报表分析的理论知识,熟悉企业财务报表分析的技巧与方法,不断提高他们对企业战略、经营管理与绩效内在关系的认知水平。笔者认为,关于财务报表分析课程教学内容的安排,可以坚持“动静结合”的原则。所谓“静”是指对于企业财务报表分析的相关理论和企业基本财务报表分析,包括企业财务报表分析的技巧方法、企业财务报表分析的流程、企业财务报告的构成体系、企业财务报表分析的动机和目的、企业常见财务指标分析、企业财务报表的结构分析和上市公司特殊财务指标分析等,这部分教学内容应保持相对稳定,并以教师主讲为主;“动”是指对于企业高级财务报表分析,包括企业经营风险分析、企业战略分析、企业收益质量分析、企业成本分析、上市公司财务欺诈的识别与治理以及企业盈余管理的动机与控制等,这部分教学内容可以在师生互动的基础上灵活安排,并鼓励学生结合自身工作体会发表意见,以充分调动研究生参与学习的积极性。

・・・・・・・・参考文献・・・・・・・・・・・・・・・・・・・・・

[1]葛家澍,占美松.企业财务报告分析必须着重关注的几个财务信息――流动性、财务适应性、预期现金净流入、盈利能力和市场风险[J].会计研究,2008,(5):3-9.

[2]李心合.财务报表分析框架需要重大调整[J].财务与会计,2014,(7):1.

[3]乔宏,王伟宁,杨硕.财务报表分析课程教学改革探讨[J].商场现代化,2011,(7):152-153.

动态分析基本方法篇8

中图分类号:TN911 文献标识码:A 文章编号:1007-9416(2017)03-0234-01

TMA的基本问题即是利用带噪的阵元域数据估计出目标的运动要素[1]。在现代战争实际环境中,测得的目标特征数据通常极其有限,而目标的方位几乎成了唯一可靠的参数,因此BO-TMA具有十分重要的意义[2-4]。

水下运动目标的运动要素估计有其特殊性,其一是本舰不允许机动,其二是TMA算法的快速收敛性,因此单阵BO-TMA并不适用,文中采用双阵方位测量值进行TMA,基于扩展卡尔曼滤波算法(EKF)处理该非线性系统,通过计算机仿真分析了不同条件下算法性能,仿真结果表明:与单阵BO-TMA相比,该算法无需本舰机动即可实现对水下目标的运动分析。

1 双阵纯方位TMA原理

考]如图1所示的基阵与目标间的几何关系,假定二维平面情形,两基阵均随本舰匀速直线运动,阵间距离D可预先测量并能实时修正,目标于平面内匀速直线运动。

表示目标的绝对运动状态(即相对坐标原点的运动状态,下同),其中分别为目标相对坐标原点的方向与方向的距离,分别为目标相对坐标原点的方向与方向的速度; 表示阵1的绝对运动状态,表示阵2的绝对运动状态。

表示目标相对于基阵1的运动状态,其中分别为目标相对基阵1的方向与方向的距离,分别为目标相对基阵1的方向与方向的速度,表示目标相对于基阵2的运动状态,其中分别为目标相对基阵2的方向与方向的距离,分别为目标相对基阵2的方向与方向的速度。、如上图所示,分别为基阵1、基阵2所测得的目标方位角。以基阵1为参考基阵,则有状态方程如下:

(1)

式中:为状态转移矩阵,为过程噪声,其自相关矩阵为Q,G为过程噪声转换矩阵。

简记为,测量方程如下:

(2)

其中:为量测噪声,其自相关矩阵为R,且有:

(3)

由式(3)可知,系统为非线性,经典的EKF算法非常适合处理此类问题[5]。对于非线性系统,EKF算法基于泰勒展开对其线性近似,然后利用卡尔曼滤波算法完成对目标状态的估计。

2 仿真计算

基于上述方法进行仿真计算。仿真条件:双阵间距D分别为600m和1200m;双阵方位测量误差均为正态随机变量,标准差分别为1.5°和0.5°,方位测量间隔T为1秒;本舰绝对航速6m/s,航向正东,基阵1的初始位置为(-D,0),目标初始位置为(-6000m,6000m),目标绝对航速20m/s,绝对航向120°。

图2给出了不同D情形下算法仿真结果。其中,方位测量误差标准差取0.5°。由图可知,D越大,收敛速度越快,估计性能愈好。

图3给出了不同方位测量误差下仿真结果。其中,D取600m;方位测量误差均值取0。由图可知,方位测量误差方差越小,收敛速度越快,估计性能越好。

仿真结果表明:基于EKF算法能实现双阵纯方位目标运动分析,且无需本舰执行机动。双阵间距、观测噪声影响算法性能,间距越大,噪声越小,算法性能越好。

3 结语

本文将EKF算法拓展到双阵TMA领域中,文章通过计算机仿真分析不同条件下算法性能,仿真结果表明算法的可行性,且双阵间距越大、观测噪声越小,算法性能越好。该算法是实时处理方法,不需存储大批量数据,非常适合工程实现。

参考文献

[1]O. Tremois, J. P. Le Cadre. Target Motion Analysis with multiple arrays: Performance Analysis[J].IEEE Transactions on Aerospace and Electronic Systems.1996, 32(3):1030-1046.

[2]Yun Jun Zhang, Guo Zhong Xu. Bearings-Only Target Motion Analysis via Instrumental Variable Estimation[J].IEEE Transactions On Signal Processing. 2010, 58(11):5523-5533.

动态分析基本方法篇9

0引言

经典聚类分析算法是基于距离计算的。然而除马氏距离定义外,其他距离定义都存在样本指标的量纲处理问题;除马氏距离和斜交空间距离定义外,其他距离定义都存在样本指标的相关性处理问题;另外,包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点,不能反映不同指标对聚类结果的贡献程度。

一般情况下,在确定样本间距离计算方法的基础上,用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中,许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下,用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述,即使使用同一种聚类方法,有时由于样本的排列顺序不同,也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价,现在还没有一个合适的标准。edwards 和cavall isforza (1965) 曾建议把样本分成两类,使得两类间的离差平方和最大[1]。d.fisher walter也指出,应该寻找使类内差异最小的聚类方法[2]。因此,评价不同聚类方法的一个重要方面,就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中,一般采用以下两种处理方法:a)根据分类问题本身的专业知识,结合实际需要来选择分类的方法,并确定分类的个数;b)用多种方法对数据进行分析处理,把结果的共性取出来。如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边,或者用其他方法如判别分析进行处理归类。另外,在聚类分析方法既定的情况下,同一组样本采用不同的指标组合进行聚类分析,通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度,在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择,这是一个比较复杂并且带有主观性的问题。实践中,在开始进行聚类分析时,通常是先选择多种指标组合分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的测度指标。

判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。本文仅研究两组判别分析。在众多的判别分析方法中,最直观的是距离判别法。

距离判别的思想是计算待判样本到第i类总体的平均数的距离。哪个距离最小就将它判归到哪个总体。所以,距离判别法的任务就是构造一个恰当的距离函数,通过样本与某类别之间距离的大小判别其所属类别。这里仅讨论两个总体的距离判别法。距离判别只要求知道总体的数字特征,不涉及总体的分布函数。当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。

从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便,希望能在更一般的情况下建立一种线性判别函数。fisher判别法由fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。该判别方法对总体的分布不作任何要求。

从两个总体中抽取具有p个指标的样本观测数据,借助于方差分析的思想构造一个线性判别函数:

距离判别法是基于距离计算的,用构造线性判别函数方法进行样本判别的fisher判别法也存在着类似基于距离计算的聚类分析方法当中的不足:

a)将总体和样本的多个指标赋予了同等的判别能力,而这与现实是不相符合的,即不同的指标在判别样本的归属时具有不同的判别能力。

b)没有对用于建立判别分析模型的总体指标进行筛选。这在两总体的某指标没有显著差异时进行判别分析的意义不大,误判的概率很大[3,4]。

c)距离的计算不可避免地会带来量纲上的问题[5]。

d)距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。bayes判别法正是为了解决这两个问题提出的判别分析方法,其判别效果更加理想,应用也更广泛。本文将在实证研究部分用bayes 判别方法对涉及的问题进行分析,作为与新算法计算效果的一个对比。

在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。用于建立判别准则的指标的选择是判别分析中的一个重要问题。如果在某个判别问题中,将最重要的指标忽略了,相应的判别函数的效果一定不好;另一方面,如果引入了一些判别能力不强的指标,不仅会增加计算量,还会严重地影响判别的效果。但是在许多问题中,事先并不知道哪些是主要指标。因此筛选变量的问题就非常重要,从而产生了逐步判别法。逐步判别法与逐步回归法的基本思想类似,都是采用有进有出的算法,即逐步引入变量,每引入一个重要的变量进入判别式,同时也考虑较早引入判别式的某些变量。如果其判别能力随新引入的变量而变为不显著了(如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,而剩下的变量也没有重要的变量可以引入的判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验。通过检验找出显著性变量,剔除不显著的变量,得到用于建立判别式的变量组合后,可用各种方法建立判别函数和判别准则。

实际上,以上提到的不论是距离判别法、fisher判别法,还是bayes判别法、逐步判别法,其出发点都是把给定的分组作为构造判别函数的依据和出发点,其最终结果都是构造一个线性判别函数。它们仅仅是判别函数构造思想上的差异。距离判别法基于距离判别思想;fisher 判别法基于方差分析思想,判别式的形式为距离判别式的一般形式;bayes判别法基于条件概率思想;逐步判别法基于假设检验思想确定用于判别的指标,但其判别式的确定仍由其他判别分析方法确定。

以上各种判别分析方法中,仅有逐步判别法的基本思想中考虑到了不同指标具有不同的判定能力,但是其思想的具体体现仅在于确定用于构建判别式的指标,并没有给出各个指标具体的判别能力大小的差异。实际上不仅不同指标的判别能力存在差异,而且在筛选掉部分指标的同时也会丢失该部分指标所包含的判别信息。

对于一组给定的样本,对其进行聚类分析时,可以应用不同的聚类方法对不同的指标组合进行聚类分析,同时也将得到多组不同的聚类结果。对于某些指标组合下的聚类结果,结合实际可能会得到比较符合实际意义的解释,对此类聚类结果可以为其构造特定的判别模型,用于新样本类别的判别。因此,聚类分析的实质是对不同的指标组合下的样本分类组合的可能性进行搜索,找出符合特定聚类定义的组合。其作用是寻找满足特定需求的,或者说可以给出较好解释的聚类结果。判别分析的实质是根据历史信息或者聚类的结果建立判别标准,用于对参加聚类的样本和新的样本的判别。聚类分析和判别分析之间存在着紧密的联系。聚类分析的结果作为进行判别分析的基础;而判别分析不仅可以用于对新样本进行判别,而且另一个重要的作用在于校验聚类分析结果的正确性,即回判。

基于以上的分析结论,传统的对数据的聚类判别分析流程一般是先有聚类分析,然后在其之上的判别分析。本文将借鉴经典聚类分析和判别分析中的部分思想,从聚类分析和判别分析的实质出发,逐步构建出一类有异于传统分析思路的样本聚类判别分析算法,并尝试在新算法中解决经典聚类判别分析方法中存在的部分问题。

1动态聚类判别分析算法的设计和实现

1.1新的聚类判别分析框架

对于一组给定的需要进行聚类分析和判别分析的样本集合,新的聚类判别分析框架基于以下基本事实:

a)对于给定的样本序列,有有限种分组方案。

b)用传统聚类分析方法得出的结果并不总能遍历以上所有的分组可能。不仅因为其中部分分组在任何指标组合下都不合理,还因为传统聚类分析方法得出的结果本身就有限。在指定指标组合、指定样本排列顺序的情况下一种聚类方法仅能给出一个聚类结果。

c)对于用聚类方法得不出的分组方案,存在部分用判别分析进行判别回判率为百分之百的分组方案。

d)对于既定的分组,不同指标在区分该分组的能力上存在差异。不同组的某些指标差异明显,有些并没有明显差异。

新的聚类判别分析框架的设计基于以下基本假设:对于任意一种分组方案,如果判别分析的回判正确率足够高,那分组就是合理的和可以接受的。因此,新的聚类判别分析框架设计的基本思想是聚类分析建立在判别分析的基础之上。据此设计的新算法中并不包括具体的聚类分析算法,仅仅包括判别分析算法。

本文中应用的判别分析算法基于文献[6]提出的基于样本指标值频度计算的判别分析算法。该两总体判别分析算法的思想与逐步判别法的思想有一定的相似之处。不同之处在于其核心思想不是筛选变量,而是筛选指标值,是逐步筛选出具有显著判别能力的指标值;不是根据用具有显著判别能力的变量建立判别式,而是用筛选出的具有显著判别能力的指标值建立判别模型;其判别模型不是线性判别式,而是一个复杂的判定模型系统;得出的结果不是某样本的判定结果,而是某样本属于某总体的概率。该算法筛选指标值的基本思想为:对于同一指标而言,假设两组中所有样本的该指标值为一维空间上的点。如果两组内距离最近的两点距离小于或者等于这两点中任意一点到该点所在组的其他任意一点的距离,则这两点根本就不具有判别能力,应该剔除。为提高该算法的计算速度,进行了如下两点优化,在程序实际运行中取得了良好效果:

a)对某指标进行计算时应用冒泡算法对所有指标值进行排序。该数据预处理大大提高了指标值的筛选速度。

b)因为对样本的判别问题是通过计算该样本的各个指标值上的判别概率得到的,从对数据库表的访问效率出发,进行判别分析时不是依次对每一个样本进行判别,而是按照指标的顺序依次计算所有样本的某指标值在该指标下的判别概率,并且若某指标的权重为零时不需要计算任何样本在该指标下的判别概率,最后对每一个样本进行判别。

本文依据以上提出的聚类判别分析框架,以改进的两总体判别分析算法为基础,提出了一种动态的聚类判别分析算法的设计,并在实现算法的基础上进行了相应的实证研究。

1.2两总体动态聚类分析算法的设计和实现

两总体动态聚类分析算法的设计基于两总体判别分析算法。其基本思想在于从某初始判别状态出发,不断修正判别分析中错判的样本分组,直到所有样本已经判别,并且回判率为100%或出现错判循环为止。

根据样本初始判别状态的情况,这里把动态聚类分为有指导的动态聚类过程和无指导的动态聚类过程。有指导的动态聚类过程是指在进行聚类分析之前根据实际经验对所有或者部分样本进行组别的指派,这有助于加快动态聚类的过程,并产生期望的聚类结果;无指导的动态聚类过程是指在进行聚类分析之前不进行任何初始判别状态的设置。其中有指导的动态聚类与无指导的动态聚类的区别在于,无指导的动态聚类可能导致聚类过程中判别次数的增加,这在进行大样本聚类时,时间开销将成倍增加;另一个可能产生的结果是无指导的聚类过程会产生与预期不同的分类结果,即聚类的可能结果更多,可用于试探性分析。一般有指导的聚类分析过程可以很快得出与预期相符合的聚类结果。

从另一个角度对动态聚类过程可以作如下分类:可以在初始聚类之前一次全部指定所有样本的判别状态,之后不断修正样本的判别状态直到判别结束,也可以逐步添加参加判别分析的样本个数。实证分析的结果表明,第一种动态聚类方法的聚类过程不稳定,有时会产生抖动现象,即某次的很多错判样本在修改组别后进行下一次判别后仍然为错判样本,如此不断反复,甚至出现循环。出现这种现象的原因可以解释为当错判样本较大时,即使改变了错判样本的组别,因为错判样本个数相对较大,错判的样本对新的判别模型仍然会产生很大的影响。另外因为分组本身存在的模糊性,某些样本本身属于两总体的概率就比较接近,也有可能导致该类现象的发生。

一个解决方案是为所有错判的样本,选择错判概率最大的样本改变组别,但这不能从根本上解决抖动现象的发生。用第二种动态聚类算法可以很好地解决此类问题,因为第二类逐步聚类分析方法中,每次判别分析都将错判样本的个数控制在相对较小的范围内,每次增加一个新的样本进入判别模型。图1给出第二种动态聚类过程的算法流程。

在动态聚类的算法流程设计中,所有样本没有判别之前,某次判别过程后,需要平衡不同组别的样本个数,使不同组别的样本个数差不大于1;在所有样本组别判别之后实行不平衡样本个数的判别过程。实际上也可以进行不平衡样本个数的动态聚类。这样得到的结果有可能与经典的聚类分析算法有很大的差异,但聚类结果仍然可以得到很好的解释。

两总体的判别分析算法以及相应的动态聚类分析算法已经应用在基于odbc和ado标准的数据库访问技术、sql server 2000数据库、visual basic 6.0编程工具,参考相关技术资料[1,2,7]实现。以下分别给出不平衡样本个数的无指导动态聚类、平衡样本个数的无指导动态聚类以及平衡样本个数的有指导动态聚类的算例及其分析。

2关于该算法的实证研究

以下实证分析所用的原始数据以及用经典判别分析方法得到的结果均来自文献[3]。

2.1不平衡样本个数的无指导动态聚类

不平衡样本个数的无指导动态聚类更符合实际,但数据量少时,可能得到的结果不具有统计学意义。

对人文发展指数案例中14个样本的原始数据进行不平衡样本个数的无指导动态聚类过程得到的结果,与经典判别分析结果的分组完全相同。聚类结果如表1、2所示。在该聚类结果中,指标成人识字率(%)的权重仅为0.142 857。这与用逐步判别法进行判别分析时得出的判别式的结论比较一致。

另外还给出两种可能的聚类结果,分别如表3、4和表5、6所示。其中第二种聚类结果中出生时的预期寿命成为最重要的指标,分组的结果使得出生时的预期寿命相似的样本成为一组;同时使同组内样本在成人识字率以及调整后的人均gdp这两个指标上没有明显的差异。第三种聚类结果中调整后的人均gdp成为最重要的指标,分组的结果使得调整后的人均gdp相似的样本成为一组;同时使同组内样本在出生时的预期寿命以及成人识字率这两个指标上没有明显的差异。实际上已经有不少学者对联合国开发计划署人文发展指数的确定方法表示了怀疑。因为该指数本身的确定方法,包括所选的指标以及指标值的调整等都不存在令人信服的理由[8,9]。本文给出的这两种聚类分析的结果可以从其他角度给出人文发展指数的可能更合理的确定方法,即把所有参加评价的国家纳入聚类分析的范围进行探索性的分析,并选择可以接受的聚类结果。

不平衡样本个数的无指导动态聚类算法当然可以作为一个数据挖掘算法用于挖掘离群点。但是有时候这并不符合聚类的初衷。因为聚类的结果并不能通过显著性检验,无统计学意义。

2.2平衡样本个数的无指导动态聚类

平衡样本个数的无指导动态聚类是指在所有样本没有全部被判别完之前,在每次判别之前对组别的样本个数进行判别。与不平衡样本个数的无指导动态聚类相比,不容易出现分组个数严重不平衡的情况,但并不能避免这种情况的发生。下面以人文发展指数案例的聚类分析中给出的第二种聚类结果说明这种情况。

第二种聚类结果如表7、8所示。在第二种聚类结果中,成人识字率成为判别能力最显著的指标。其中,阿联酋、南非和中国三个成人识字率最低的国家成为一组;其他11个国家成为另一组。各组内其他两个指标的差异不显著。因此该分组方案中识别的是所有样本在识字率指标上的差异。

2.3平衡样本个数的有指导动态聚类

将人文发展指数案例中的待判样本加入聚类样本中,并且把待判样本以外的其他样本的组别作为动态聚类的起点,得到的聚类结果如表9、10所示。聚类结果与经典判别分析结果一致,并且指标权重的计算结果表明实际人均gdp指标具有显著的判别能力,成人识字率判别能力不显著。

3结束语

本文在分析经典聚类分析和判别分析方法实质的基础上,给出了一种新的聚类判别分析框架,并利用改进的两总体判别分析算法依据此分析框架构造并实现了一种动态聚类判别分析算法。实证结果表明逐步动态聚类算法具有相对较好的稳定性;无指导动态聚类算法很适合寻找样本中的奇异点,适合作为一种数据挖掘算法使用;有指导的动态聚类更适合于经典聚类算法的聚类问题。

参考文献:

[1]沈毅,陈峰.六种常见的条件系统聚类法比较[j].中国卫生统计,2004,21(6):338-340.

[2]walter d f.on grouping for maximum homogeneity[j].american statistical association journal,1959,53(12):789-798.

[3]于秀林,任雪松.多元统计分析[m].北京:中国统计出版社,1999:61-153.

[4]何晓群.现代统计分析方法与应用[m].北京:中国人民大学出版社,1998:255.

[5]朱孔来.评价指标的非线性无量纲模糊处理方法[j].系统工程,1996,14(11):58-62.

[6]魏世振,杨磊,陈传明.上市公司财务状况判别分析算法的实证研究[j].系统工程,2005,23(1):108-110.

[7]张尧庭,方开泰.多元统计分析引论[m].北京:科学出版社,1982.

[8]保罗·斯特里滕.关于人文发展指数的争论[j].国际社会科学杂志:中文版,1996(1):31-44.

[9]金玉国.新hdi评介[j].山西统计,1995(5):44-45.

[10]陈峰.带约束的聚类分析[j].数理医药学杂志,1999,12(20):112-113.

[11]蔡红艳,韩立岩.上市公司财务状况判定模型研究[j].审计研究,2003(1):62-64.

[12]徐成志,陈少军.odbc 配置数据库应用程序[j].山东农业大学学报:自然科学版,2003,34(2):238-241.

[13]贺智明,李雯.采用动态数据库连接技术开发多课程通用考试信息系统[j].计算机应用与软件,2003,20(4):16-17,77.

[14]赵宇峰,张烨,黑新宏,等.vb 6 访问数据库技术的应用[j].计算机应用研究,2004,21(8):223-224.

[15]谷震离.ado访问sql server数据库技术分析及其应用[j].计算机应用与软件,2004,21(12):32-33,77.

[16]bradley j c,millspaugh a c.visual basic 6.0 高级编程[m].常晓波,刘颖,等译.北京:清华大学出版社,2003.

[17]altman e. financial ratios,discriminant analysis and the prediction of corporate bankruptcy[j].journal of finance,1968,23(9):589-609.

[18]吴德胜,梁樑,殷尹.不同模型在财务预警实证中的比较研究[j].管理工程学报,2004,18(2):105-108.

[19]刘洪,何光军.基于人工神经网络方法的上市公司经营失败预警研究[j].会计研究,2004(2):42-46.

[20]乔韦华韦华,牛芳.上市公司财务困境预测的fisher 判别分析模型[j].统计与信息论坛,2003,18(2):69-71.

[21]zmijewski m e. methodological issues related to the estimation of financial distress prediction models[j].studies on current econometric issues in accounting research,1984,22(9):5982.

[22]grice j s,ingram r w.tests of the generalizability of altman’s bankruptcy model[j].journal of business research,2001,54(1):53-61.

[23]郭亚军.综合评价理论与方法[m].北京:科学出版社,2002.

[24]杨淑娥,徐伟刚.上市公司财务预警模型——y分数模型的实证研究[j].中国软科学,2003(1):56-60.

[25]mutapi f, mduluza t, roddam a w. cluster analysis of schistosomespecific antibody responses artitions the population into distinct epidemiological groups[j].immunology letters,2005,96(2):231-240.

[26]yuan h,parrill a. cluster analysis and threedimensional qsar studies of hiv1 integrase inhibitors[j].journal of molecular graphics and modelling,2005,23(4):317-328.

[27]ter braak c j f,herbert h, wies a, et al. bayesian modelbased cluster analysis for predicting macrofaunal communities[j].ecological modelling,2003,160(3):235-248.

[28]liang g s, chou t u, han t c. cluster analysis based on fuzzy equivalence relation[j].european journal of operational research,2005,166(1):160-171.

动态分析基本方法篇10

0引言

经典聚类分析算法是基于距离计算的。然而除马氏距离定义外,其他距离定义都存在样本指标的量纲处理问题;除马氏距离和斜交空间距离定义外,其他距离定义都存在样本指标的相关性处理问题;另外,包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点,不能反映不同指标对聚类结果的贡献程度。

一般情况下,在确定样本间距离计算方法的基础上,用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中,许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下,用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述,即使使用同一种聚类方法,有时由于样本的排列顺序不同,也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价,现在还没有一个合适的标准。Edwards和CAVALLIsforza(1965)曾建议把样本分成两类,使得两类间的离差平方和最大[1]。D.FisherWalter也指出,应该寻找使类内差异最小的聚类方法[2]。因此,评价不同聚类方法的一个重要方面,就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中,一般采用以下两种处理方法:a)根据分类问题本身的专业知识,结合实际需要来选择分类的方法,并确定分类的个数;b)用多种方法对数据进行分析处理,把结果的共性取出来。如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边,或者用其他方法如判别分析进行处理归类。另外,在聚类分析方法既定的情况下,同一组样本采用不同的指标组合进行聚类分析,通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度,在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择,这是一个比较复杂并且带有主观性的问题。实践中,在开始进行聚类分析时,通常是先选择多种指标组合分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的测度指标。

判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。本文仅研究两组判别分析。在众多的判别分析方法中,最直观的是距离判别法。

距离判别的思想是计算待判样本到第i类总体的平均数的距离。哪个距离最小就将它判归到哪个总体。所以,距离判别法的任务就是构造一个恰当的距离函数,通过样本与某类别之间距离的大小判别其所属类别。这里仅讨论两个总体的距离判别法。距离判别只要求知道总体的数字特征,不涉及总体的分布函数。当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。

从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便,希望能在更一般的情况下建立一种线性判别函数。Fisher判别法由Fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。该判别方法对总体的分布不作任何要求。

从两个总体中抽取具有p个指标的样本观测数据,借助于方差分析的思想构造一个线性判别函数:

距离判别法是基于距离计算的,用构造线性判别函数方法进行样本判别的Fisher判别法也存在着类似基于距离计算的聚类分析方法当中的不足:

a)将总体和样本的多个指标赋予了同等的判别能力,而这与现实是不相符合的,即不同的指标在判别样本的归属时具有不同的判别能力。

b)没有对用于建立判别分析模型的总体指标进行筛选。这在两总体的某指标没有显著差异时进行判别分析的意义不大,误判的概率很大[3,4]。

c)距离的计算不可避免地会带来量纲上的问题[5]。

d)距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。Bayes判别法正是为了解决这两个问题提出的判别分析方法,其判别效果更加理想,应用也更广泛。本文将在实证研究部分用Bayes判别方法对涉及的问题进行分析,作为与新算法计算效果的一个对比。

在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。用于建立判别准则的指标的选择是判别分析中的一个重要问题。如果在某个判别问题中,将最重要的指标忽略了,相应的判别函数的效果一定不好;另一方面,如果引入了一些判别能力不强的指标,不仅会增加计算量,还会严重地影响判别的效果。但是在许多问题中,事先并不知道哪些是主要指标。因此筛选变量的问题就非常重要,从而产生了逐步判别法。逐步判别法与逐步回归法的基本思想类似,都是采用有进有出的算法,即逐步引入变量,每引入一个重要的变量进入判别式,同时也考虑较早引入判别式的某些变量。如果其判别能力随新引入的变量而变为不显著了(如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,而剩下的变量也没有重要的变量可以引入的判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验。通过检验找出显著性变量,剔除不显著的变量,得到用于建立判别式的变量组合后,可用各种方法建立判别函数和判别准则。

实际上,以上提到的不论是距离判别法、Fisher判别法,还是Bayes判别法、逐步判别法,其出发点都是把给定的分组作为构造判别函数的依据和出发点,其最终结果都是构造一个线性判别函数。它们仅仅是判别函数构造思想上的差异。距离判别法基于距离判别思想;Fisher判别法基于方差分析思想,判别式的形式为距离判别式的一般形式;Bayes判别法基于条件概率思想;逐步判别法基于假设检验思想确定用于判别的指标,但其判别式的确定仍由其他判别分析方法确定。

以上各种判别分析方法中,仅有逐步判别法的基本思想中考虑到了不同指标具有不同的判定能力,但是其思想的具体体现仅在于确定用于构建判别式的指标,并没有给出各个指标具体的判别能力大小的差异。实际上不仅不同指标的判别能力存在差异,而且在筛选掉部分指标的同时也会丢失该部分指标所包含的判别信息。

对于一组给定的样本,对其进行聚类分析时,可以应用不同的聚类方法对不同的指标组合进行聚类分析,同时也将得到多组不同的聚类结果。对于某些指标组合下的聚类结果,结合实际可能会得到比较符合实际意义的解释,对此类聚类结果可以为其构造特定的判别模型,用于新样本类别的判别。因此,聚类分析的实质是对不同的指标组合下的样本分类组合的可能性进行搜索,找出符合特定聚类定义的组合。其作用是寻找满足特定需求的,或者说可以给出较好解释的聚类结果。判别分析的实质是根据历史信息或者聚类的结果建立判别标准,用于对参加聚类的样本和新的样本的判别。聚类分析和判别分析之间存在着紧密的联系。聚类分析的结果作为进行判别分析的基础;而判别分析不仅可以用于对新样本进行判别,而且另一个重要的作用在于校验聚类分析结果的正确性,即回判。

基于以上的分析结论,传统的对数据的聚类判别分析流程一般是先有聚类分析,然后在其之上的判别分析。本文将借鉴经典聚类分析和判别分析中的部分思想,从聚类分析和判别分析的实质出发,逐步构建出一类有异于传统分析思路的样本聚类判别分析算法,并尝试在新算法中解决经典聚类判别分析方法中存在的部分问题。

1动态聚类判别分析算法的设计和实现

1.1新的聚类判别分析框架

对于一组给定的需要进行聚类分析和判别分析的样本集合,新的聚类判别分析框架基于以下基本事实:

a)对于给定的样本序列,有有限种分组方案。

b)用传统聚类分析方法得出的结果并不总能遍历以上所有的分组可能。不仅因为其中部分分组在任何指标组合下都不合理,还因为传统聚类分析方法得出的结果本身就有限。在指定指标组合、指定样本排列顺序的情况下一种聚类方法仅能给出一个聚类结果。

c)对于用聚类方法得不出的分组方案,存在部分用判别分析进行判别回判率为百分之百的分组方案。

d)对于既定的分组,不同指标在区分该分组的能力上存在差异。不同组的某些指标差异明显,有些并没有明显差异。

新的聚类判别分析框架的设计基于以下基本假设:对于任意一种分组方案,如果判别分析的回判正确率足够高,那分组就是合理的和可以接受的。因此,新的聚类判别分析框架设计的基本思想是聚类分析建立在判别分析的基础之上。据此设计的新算法中并不包括具体的聚类分析算法,仅仅包括判别分析算法。

本文中应用的判别分析算法基于文献[6]提出的基于样本指标值频度计算的判别分析算法。该两总体判别分析算法的思想与逐步判别法的思想有一定的相似之处。不同之处在于其核心思想不是筛选变量,而是筛选指标值,是逐步筛选出具有显著判别能力的指标值;不是根据用具有显著判别能力的变量建立判别式,而是用筛选出的具有显著判别能力的指标值建立判别模型;其判别模型不是线性判别式,而是一个复杂的判定模型系统;得出的结果不是某样本的判定结果,而是某样本属于某总体的概率。该算法筛选指标值的基本思想为:对于同一指标而言,假设两组中所有样本的该指标值为一维空间上的点。如果两组内距离最近的两点距离小于或者等于这两点中任意一点到该点所在组的其他任意一点的距离,则这两点根本就不具有判别能力,应该剔除。为提高该算法的计算速度,进行了如下两点优化,在程序实际运行中取得了良好效果:

a)对某指标进行计算时应用冒泡算法对所有指标值进行排序。该数据预处理大大提高了指标值的筛选速度。

b)因为对样本的判别问题是通过计算该样本的各个指标值上的判别概率得到的,从对数据库表的访问效率出发,进行判别分析时不是依次对每一个样本进行判别,而是按照指标的顺序依次计算所有样本的某指标值在该指标下的判别概率,并且若某指标的权重为零时不需要计算任何样本在该指标下的判别概率,最后对每一个样本进行判别。

本文依据以上提出的聚类判别分析框架,以改进的两总体判别分析算法为基础,提出了一种动态的聚类判别分析算法的设计,并在实现算法的基础上进行了相应的实证研究。

1.2两总体动态聚类分析算法的设计和实现

两总体动态聚类分析算法的设计基于两总体判别分析算法。其基本思想在于从某初始判别状态出发,不断修正判别分析中错判的样本分组,直到所有样本已经判别,并且回判率为100%或出现错判循环为止。

根据样本初始判别状态的情况,这里把动态聚类分为有指导的动态聚类过程和无指导的动态聚类过程。有指导的动态聚类过程是指在进行聚类分析之前根据实际经验对所有或者部分样本进行组别的指派,这有助于加快动态聚类的过程,并产生期望的聚类结果;无指导的动态聚类过程是指在进行聚类分析之前不进行任何初始判别状态的设置。其中有指导的动态聚类与无指导的动态聚类的区别在于,无指导的动态聚类可能导致聚类过程中判别次数的增加,这在进行大样本聚类时,时间开销将成倍增加;另一个可能产生的结果是无指导的聚类过程会产生与预期不同的分类结果,即聚类的可能结果更多,可用于试探性分析。一般有指导的聚类分析过程可以很快得出与预期相符合的聚类结果。

从另一个角度对动态聚类过程可以作如下分类:可以在初始聚类之前一次全部指定所有样本的判别状态,之后不断修正样本的判别状态直到判别结束,也可以逐步添加参加判别分析的样本个数。实证分析的结果表明,第一种动态聚类方法的聚类过程不稳定,有时会产生抖动现象,即某次的很多错判样本在修改组别后进行下一次判别后仍然为错判样本,如此不断反复,甚至出现循环。出现这种现象的原因可以解释为当错判样本较大时,即使改变了错判样本的组别,因为错判样本个数相对较大,错判的样本对新的判别模型仍然会产生很大的影响。另外因为分组本身存在的模糊性,某些样本本身属于两总体的概率就比较接近,也有可能导致该类现象的发生。

一个解决方案是为所有错判的样本,选择错判概率最大的样本改变组别,但这不能从根本上解决抖动现象的发生。用第二种动态聚类算法可以很好地解决此类问题,因为第二类逐步聚类分析方法中,每次判别分析都将错判样本的个数控制在相对较小的范围内,每次增加一个新的样本进入判别模型。图1给出第二种动态聚类过程的算法流程。

在动态聚类的算法流程设计中,所有样本没有判别之前,某次判别过程后,需要平衡不同组别的样本个数,使不同组别的样本个数差不大于1;在所有样本组别判别之后实行不平衡样本个数的判别过程。实际上也可以进行不平衡样本个数的动态聚类。这样得到的结果有可能与经典的聚类分析算法有很大的差异,但聚类结果仍然可以得到很好的解释。

两总体的判别分析算法以及相应的动态聚类分析算法已经应用在基于ODBC和ADO标准的数据库访问技术、SQLServer2000数据库、VisualBasic6.0编程工具,参考相关技术资料[1,2,7]实现。以下分别给出不平衡样本个数的无指导动态聚类、平衡样本个数的无指导动态聚类以及平衡样本个数的有指导动态聚类的算例及其分析。

2关于该算法的实证研究

以下实证分析所用的原始数据以及用经典判别分析方法得到的结果均来自文献[3]。

2.1不平衡样本个数的无指导动态聚类

不平衡样本个数的无指导动态聚类更符合实际,但数据量少时,可能得到的结果不具有统计学意义。

对人文发展指数案例中14个样本的原始数据进行不平衡样本个数的无指导动态聚类过程得到的结果,与经典判别分析结果的分组完全相同。聚类结果如表1、2所示。在该聚类结果中,指标成人识字率(%)的权重仅为0.142857。这与用逐步判别法进行判别分析时得出的判别式的结论比较一致。

另外还给出两种可能的聚类结果,分别如表3、4和表5、6所示。其中第二种聚类结果中出生时的预期寿命成为最重要的指标,分组的结果使得出生时的预期寿命相似的样本成为一组;同时使同组内样本在成人识字率以及调整后的人均GDP这两个指标上没有明显的差异。第三种聚类结果中调整后的人均GDP成为最重要的指标,分组的结果使得调整后的人均GDP相似的样本成为一组;同时使同组内样本在出生时的预期寿命以及成人识字率这两个指标上没有明显的差异。实际上已经有不少学者对联合国开发计划署人文发展指数的确定方法表示了怀疑。因为该指数本身的确定方法,包括所选的指标以及指标值的调整等都不存在令人信服的理由[8,9]。本文给出的这两种聚类分析的结果可以从其他角度给出人文发展指数的可能更合理的确定方法,即把所有参加评价的国家纳入聚类分析的范围进行探索性的分析,并选择可以接受的聚类结果。

不平衡样本个数的无指导动态聚类算法当然可以作为一个数据挖掘算法用于挖掘离群点。但是有时候这并不符合聚类的初衷。因为聚类的结果并不能通过显著性检验,无统计学意义。

2.2平衡样本个数的无指导动态聚类

平衡样本个数的无指导动态聚类是指在所有样本没有全部被判别完之前,在每次判别之前对组别的样本个数进行判别。与不平衡样本个数的无指导动态聚类相比,不容易出现分组个数严重不平衡的情况,但并不能避免这种情况的发生。下面以人文发展指数案例的聚类分析中给出的第二种聚类结果说明这种情况。

第二种聚类结果如表7、8所示。在第二种聚类结果中,成人识字率成为判别能力最显著的指标。其中,阿联酋、南非和中国三个成人识字率最低的国家成为一组;其他11个国家成为另一组。各组内其他两个指标的差异不显著。因此该分组方案中识别的是所有样本在识字率指标上的差异。

2.3平衡样本个数的有指导动态聚类

将人文发展指数案例中的待判样本加入聚类样本中,并且把待判样本以外的其他样本的组别作为动态聚类的起点,得到的聚类结果如表9、10所示。聚类结果与经典判别分析结果一致,并且指标权重的计算结果表明实际人均GDP指标具有显著的判别能力,成人识字率判别能力不显著。

3结束语

本文在分析经典聚类分析和判别分析方法实质的基础上,给出了一种新的聚类判别分析框架,并利用改进的两总体判别分析算法依据此分析框架构造并实现了一种动态聚类判别分析算法。实证结果表明逐步动态聚类算法具有相对较好的稳定性;无指导动态聚类算法很适合寻找样本中的奇异点,适合作为一种数据挖掘算法使用;有指导的动态聚类更适合于经典聚类算法的聚类问题。

参考文献:

[1]沈毅,陈峰.六种常见的条件系统聚类法比较[J].中国卫生统计,2004,21(6):338-340.

[2]WALTERDF.Ongroupingformaximumhomogeneity[J].AmericanStatisticalAssociationJournal,1959,53(12):789-798.

[3]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999:61-153.

[4]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998:255.

[5]朱孔来.评价指标的非线性无量纲模糊处理方法[J].系统工程,1996,14(11):58-62.

[6]魏世振,杨磊,陈传明.上市公司财务状况判别分析算法的实证研究[J].系统工程,2005,23(1):108-110.

[7]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982.

[8]保罗·斯特里滕.关于人文发展指数的争论[J].国际社会科学杂志:中文版,1996(1):31-44.

[9]金玉国.新HDI评介[J].山西统计,1995(5):44-45.

[10]陈峰.带约束的聚类分析[J].数理医药学杂志,1999,12(20):112-113.

[11]蔡红艳,韩立岩.上市公司财务状况判定模型研究[J].审计研究,2003(1):62-64.

[12]徐成志,陈少军.ODBC配置数据库应用程序[J].山东农业大学学报:自然科学版,2003,34(2):238-241.

[13]贺智明,李雯.采用动态数据库连接技术开发多课程通用考试信息系统[J].计算机应用与软件,2003,20(4):16-17,77.

[14]赵宇峰,张烨,黑新宏,等.VB6访问数据库技术的应用[J].计算机应用研究,2004,21(8):223-224.

[15]谷震离.ADO访问SQLServer数据库技术分析及其应用[J].计算机应用与软件,2004,21(12):32-33,77.

[16]BRADLEYJC,MILLSPAUGHAC.VisualBasic6.0高级编程[M].常晓波,刘颖,等译.北京:清华大学出版社,2003.

[17]ALTMANE.Financialratios,discriminantanalysisandthepredictionofcorporatebankruptcy[J].JournalofFinance,1968,23(9):589-609.

[18]吴德胜,梁樑,殷尹.不同模型在财务预警实证中的比较研究[J].管理工程学报,2004,18(2):105-108.

[19]刘洪,何光军.基于人工神经网络方法的上市公司经营失败预警研究[J].会计研究,2004(2):42-46.

[20]乔韦华韦华,牛芳.上市公司财务困境预测的Fisher判别分析模型[J].统计与信息论坛,2003,18(2):69-71.

[21]ZMIJEWSKIME.Methodologicalissuesrelatedtotheestimationoffinancialdistresspredictionmodels[J].StudiesonCurrentEconometricIssuesinAccountingResearch,1984,22(9):5982.

[22]GRICEJS,INGRAMRW.TestsofthegeneralizabilityofAltman’sbankruptcymodel[J].JournalofBusinessResearch,2001,54(1):53-61.

[23]郭亚军.综合评价理论与方法[M].北京:科学出版社,2002.

[24]杨淑娥,徐伟刚.上市公司财务预警模型——Y分数模型的实证研究[J].中国软科学,2003(1):56-60.

[25]MUTAPIF,MDULUZAT,RODDAMAW.Clusteranalysisofschistosomespecificantibodyresponsesartitionsthepopulationintodistinctepidemiologicalgroups[J].ImmunologyLetters,2005,96(2):231-240.

[26]YUANH,PARRILLA.ClusteranalysisandthreedimensionalQSARstudiesofHIV1integraseinhibitors[J].JournalofMolecularGraphicsandModelling,2005,23(4):317-328.

[27]TerBRAAKCJF,HERBERTH,WIESA,etal.Bayesianmodelbasedclusteranalysisforpredictingmacrofaunalcommunities[J].EcologicalModelling,2003,160(3):235-248.

[28]LIANGGS,CHOUTU,HANTC.Clusteranalysisbasedonfuzzyequivalencerelation[J].EuropeanJournalofOperationalResearch,2005,166(1):160-171.

动态分析基本方法篇11

0引言

经典聚类分析算法是基于距离计算的。然而除马氏距离定义外,其他距离定义都存在样本指标的量纲处理问题;除马氏距离和斜交空间距离定义外,其他距离定义都存在样本指标的相关性处理问题;另外,包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点,不能反映不同指标对聚类结果的贡献程度。

一般情况下,在确定样本间距离计算方法的基础上,用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中,许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下,用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述,即使使用同一种聚类方法,有时由于样本的排列顺序不同,也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价,现在还没有一个合适的标准。edwards 和cavall i?sforza (1965) 曾建议把样本分成两类,使得两类间的离差平方和最大[1]。d.fisher walter也指出,应该寻找使类内差异最小的聚类方法[2]。因此,评价不同聚类方法的一个重要方面,就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中,一般采用以下两种处理方法:a)根据分类问题本身的专业知识,结合实际需要来选择分类的方法,并确定分类的个数;b)用多种方法对数据进行分析处理,把结果的共性取出来。如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边,或者用其他方法如判别分析进行处理归类。另外,在聚类分析方法既定的情况下,同一组样本采用不同的指标组合进行聚类分析,通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度,在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择,这是一个比较复杂并且带有主观性的问题。实践中,在开始进行聚类分析时,通常是先选择多种指标组合分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的测度指标。

判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。本文仅研究两组判别分析。在众多的判别分析方法中,最直观的是距离判别法。

距离判别的思想是计算待判样本到第?i?类总体的平均数的距离。哪个距离最小就将它判归到哪个总体。所以,距离判别法的任务就是构造一个恰当的距离函数,通过样本与某类别之间距离的大小判别其所属类别。这里仅讨论两个总体的距离判别法。距离判别只要求知道总体的数字特征,不涉及总体的分布函数。当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。

从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便,希望能在更一般的情况下建立一种线性判别函数。fisher判别法由fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。该判别方法对总体的分布不作任何要求。

从两个总体中抽取具有?p?个指标的样本观测数据,借助于方差分析的思想构造一个线性判别函数:

距离判别法是基于距离计算的,用构造线性判别函数方法进行样本判别的fisher判别法也存在着类似基于距离计算的聚类分析方法当中的不足:

a)将总体和样本的多个指标赋予了同等的判别能力,而这与现实是不相符合的,即不同的指标在判别样本的归属时具有不同的判别能力。

b)没有对用于建立判别分析模型的总体指标进行筛选。这在两总体的某指标没有显著差异时进行判别分析的意义不大,误判的概率很大[3,4]。

c)距离的计算不可避免地会带来量纲上的问题[5]。

d)距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。bayes判别法正是为了解决这两个问题提出的判别分析方法,其判别效果更加理想,应用也更广泛。本文将在实证研究部分用bayes 判别方法对涉及的问题进行分析,作为与新算法计算效果的一个对比。

在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。用于建立判别准则的指标的选择是判别分析中的一个重要问题。如果在某个判别问题中,将最重要的指标忽略了,相应的判别函数的效果一定不好;另一方面,如果引入了一些判别能力不强的指标,不仅会增加计算量,还会严重地影响判别的效果。但是在许多问题中,事先并不知道哪些是主要指标。因此筛选变量的问题就非常重要,从而产生了逐步判别法。逐步判别法与逐步回归法的基本思想类似,都是采用有进有出的算法,即逐步引入变量,每引入一个重要的变量进入判别式,同时也考虑较早引入判别式的某些变量。如果其判别能力随新引入的变量而变为不显著了(如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,而剩下的变量也没有重要的变量可以引入的判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验。通过检验找出显著性变量,剔除不显著的变量,得到用于建立判别式的变量组合后,可用各种方法建立判别函数和判别准则。

实际上,以上提到的不论是距离判别法、fisher判别法,还是bayes判别法、逐步判别法,其出发点都是把给定的分组作为构造判别函数的依据和出发点,其最终结果都是构造一个线性判别函数。它们仅仅是判别函数构造思想上的差异。距离判别法基于距离判别思想;fisher 判别法基于方差分析思想,判别式的形式为距离判别式的一般形式;bayes判别法基于条件概率思想;逐步判别法基于假设检验思想确定用于判别的指标,但其判别式的确定仍由其他判别分析方法确定。

以上各种判别分析方法中,仅有逐步判别法的基本思想中考虑到了不同指标具有不同的判定能力,但是其思想的具体体现仅在于确定用于构建判别式的指标,并没有给出各个指标具体的判别能力大小的差异。实际上不仅不同指标的判别能力存在差异,而且在筛选掉部分指标的同时也会丢失该部分指标所包含的判别信息。

对于一组给定的样本,对其进行聚类分析时,可以应用不同的聚类方法对不同的指标组合进行聚类分析,同时也将得到多组不同的聚类结果。对于某些指标组合下的聚类结果,结合实际可能会得到比较符合实际意义的解释,对此类聚类结果可以为其构造特定的判别模型,用于新样本类别的判别。因此,聚类分析的实质是对不同的指标组合下的样本分类组合的可能性进行搜索,找出符合特定聚类定义的组合。其作用是寻找满足特定需求的,或者说可以给出较好解释的聚类结果。判别分析的实质是根据历史信息或者聚类的结果建立判别标准,用于对参加聚类的样本和新的样本的判别。聚类分析和判别分析之间存在着紧密的联系。聚类分析的结果作为进行判别分析的基础;而判别分析不仅可以用于对新样本进行判别,而且另一个重要的作用在于校验聚类分析结果的正确性,即回判。

基于以上的分析结论,传统的对数据的聚类判别分析流程一般是先有聚类分析,然后在其之上的判别分析。本文将借鉴经典聚类分析和判别分析中的部分思想,从聚类分析和判别分析的实质出发,逐步构建出一类有异于传统分析思路的样本聚类判别分析算法,并尝试在新算法中解决经典聚类判别分析方法中存在的部分问题。

1动态聚类判别分析算法的设计和实现

1.1新的聚类判别分析框架

对于一组给定的需要进行聚类分析和判别分析的样本集合,新的聚类判别分析框架基于以下基本事实:

a)对于给定的样本序列,有有限种分组方案。

b)用传统聚类分析方法得出的结果并不总能遍历以上所有的分组可能。不仅因为其中部分分组在任何指标组合下都不合理,还因为传统聚类分析方法得出的结果本身就有限。在指定指标组合、指定样本排列顺序的情况下一种聚类方法仅能给出一个聚类结果。

c)对于用聚类方法得不出的分组方案,存在部分用判别分析进行判别回判率为百分之百的分组方案。

d)对于既定的分组,不同指标在区分该分组的能力上存在差异。不同组的某些指标差异明显,有些并没有明显差异。

新的聚类判别分析框架的设计基于以下基本假设:对于任意一种分组方案,如果判别分析的回判正确率足够高,那分组就是合理的和可以接受的。因此,新的聚类判别分析框架设计的基本思想是聚类分析建立在判别分析的基础之上。据此设计的新算法中并不包括具体的聚类分析算法,仅仅包括判别分析算法。

本文中应用的判别分析算法基于文献[6]提出的基于样本指标值频度计算的判别分析算法。该两总体判别分析算法的思想与逐步判别法的思想有一定的相似之处。不同之处在于其核心思想不是筛选变量,而是筛选指标值,是逐步筛选出具有显著判别能力的指标值;不是根据用具有显著判别能力的变量建立判别式,而是用筛选出的具有显著判别能力的指标值建立判别模型;其判别模型不是线性判别式,而是一个复杂的判定模型系统;得出的结果不是某样本的判定结果,而是某样本属于某总体的概率。该算法筛选指标值的基本思想为:对于同一指标而言,假设两组中所有样本的该指标值为一维空间上的点。如果两组内距离最近的两点距离小于或者等于这两点中任意一点到该点所在组的其他任意一点的距离,则这两点根本就不具有判别能力,应该剔除。为提高该算法的计算速度,进行了如下两点优化,在程序实际运行中取得了良好效果:

a)对某指标进行计算时应用冒泡算法对所有指标值进行排序。该数据预处理大大提高了指标值的筛选速度。

b)因为对样本的判别问题是通过计算该样本的各个指标值上的判别概率得到的,从对数据库表的访问效率出发,进行判别分析时不是依次对每一个样本进行判别,而是按照指标的顺序依次计算所有样本的某指标值在该指标下的判别概率,并且若某指标的权重为零时不需要计算任何样本在该指标下的判别概率,最后对每一个样本进行判别。

本文依据以上提出的聚类判别分析框架,以改进的两总体判别分析算法为基础,提出了一种动态的聚类判别分析算法的设计,并在实现算法的基础上进行了相应的实证研究。

1.2两总体动态聚类分析算法的设计和实现

两总体动态聚类分析算法的设计基于两总体判别分析算法。其基本思想在于从某初始判别状态出发,不断修正判别分析中错判的样本分组,直到所有样本已经判别,并且回判率为100%或出现错判循环为止。

根据样本初始判别状态的情况,这里把动态聚类分为有指导的动态聚类过程和无指导的动态聚类过程。有指导的动态聚类过程是指在进行聚类分析之前根据实际经验对所有或者部分样本进行组别的指派,这有助于加快动态聚类的过程,并产生期望的聚类结果;无指导的动态聚类过程是指在进行聚类分析之前不进行任何初始判别状态的设置。其中有指导的动态聚类与无指导的动态聚类的区别在于,无指导的动态聚类可能导致聚类过程中判别次数的增加,这在进行大样本聚类时,时间开销将成倍增加;另一个可能产生的结果是无指导的聚类过程会产生与预期不同的分类结果,即聚类的可能结果更多,可用于试探性分析。一般有指导的聚类分析过程可以很快得出与预期相符合的聚类结果。

从另一个角度对动态聚类过程可以作如下分类:可以在初始聚类之前一次全部指定所有样本的判别状态,之后不断修正样本的判别状态直到判别结束,也可以逐步添加参加判别分析的样本个数。实证分析的结果表明,第一种动态聚类方法的聚类过程不稳定,有时会产生抖动现象,即某次的很多错判样本在修改组别后进行下一次判别后仍然为错判样本,如此不断反复,甚至出现循环。出现这种现象的原因可以解释为当错判样本较大时,即使改变了错判样本的组别,因为错判样本个数相对较大,错判的样本对新的判别模型仍然会产生很大的影响。另外因为分组本身存在的模糊性,某些样本本身属于两总体的概率就比较接近,也有可能导致该类现象的发生。

一个解决方案是为所有错判的样本,选择错判概率最大的样本改变组别,但这不能从根本上解决抖动现象的发生。用第二种动态聚类算法可以很好地解决此类问题,因为第二类逐步聚类分析方法中,每次判别分析都将错判样本的个数控制在相对较小的范围内,每次增加一个新的样本进入判别模型。图1给出第二种动态聚类过程的算法流程。

在动态聚类的算法流程设计中,所有样本没有判别之前,某次判别过程后,需要平衡不同组别的样本个数,使不同组别的样本个数差不大于1;在所有样本组别判别之后实行不平衡样本个数的判别过程。实际上也可以进行不平衡样本个数的动态聚类。这样得到的结果有可能与经典的聚类分析算法有很大的差异,但聚类结果仍然可以得到很好的解释。

两总体的判别分析算法以及相应的动态聚类分析算法已经应用在基于odbc和ado标准的数据库访问技术、sql server 2000数据库、visual basic 6.0编程工具,参考相关技术资料?[1,2,7]实现。以下分别给出不平衡样本个数的无指导动态聚类、平衡样本个数的无指导动态聚类以及平衡样本个数的有指导动态聚类的算例及其分析。

2关于该算法的实证研究

以下实证分析所用的原始数据以及用经典判别分析方法得到的结果均来自文献[3]。

2.1不平衡样本个数的无指导动态聚类

不平衡样本个数的无指导动态聚类更符合实际,但数据量少时,可能得到的结果不具有统计学意义。

对人文发展指数案例中14个样本的原始数据进行不平衡样本个数的无指导动态聚类过程得到的结果,与经典判别分析结果的分组完全相同。聚类结果如表1、2所示。在该聚类结果中,指标成人识字率(%)的权重仅为0.142 857。这与用逐步判别法进行判别分析时得出的判别式的结论比较一致。

另外还给出两种可能的聚类结果,分别如表3、4和表5、6所示。其中第二种聚类结果中出生时的预期寿命成为最重要的指标,分组的结果使得出生时的预期寿命相似的样本成为一组;同时使同组内样本在成人识字率以及调整后的人均gdp这两个指标上没有明显的差异。第三种聚类结果中调整后的人均gdp成为最重要的指标,分组的结果使得调整后的人均gdp相似的样本成为一组;同时使同组内样本在出生时的预期寿命以及成人识字率这两个指标上没有明显的差异。实际上已经有不少学者对联合国开发计划署人文发展指数的确定方法表示了怀疑。因为该指数本身的确定方法,包括所选的指标以及指标值的调整等都不存在令人信服的理由[8,9]。本文给出的这两种聚类分析的结果可以从其他角度给出人文发展指数的可能更合理的确定方法,即把所有参加评价的国家纳入聚类分析的范围进行探索性的分析,并选择可以接受的聚类?结果。

不平衡样本个数的无指导动态聚类算法当然可以作为一个数据挖掘算法用于挖掘离群点。但是有时候这并不符合聚类的初衷。因为聚类的结果并不能通过显著性检验,无统计学意义。

2.2平衡样本个数的无指导动态聚类

平衡样本个数的无指导动态聚类是指在所有样本没有全部被判别完之前,在每次判别之前对组别的样本个数进行判别。与不平衡样本个数的无指导动态聚类相比,不容易出现分组个数严重不平衡的情况,但并不能避免这种情况的发生。下面以人文发展指数案例的聚类分析中给出的第二种聚类结果说明这种情况。

第二种聚类结果如表7、8所示。在第二种聚类结果中,成人识字率成为判别能力最显著的指标。其中,阿联酋、南非和中国三个成人识字率最低的国家成为一组;其他11个国家成为另一组。各组内其他两个指标的差异不显著。因此该分组方案中识别的是所有样本在识字率指标上的差异。

2.3平衡样本个数的有指导动态聚类

将人文发展指数案例中的待判样本加入聚类样本中,并且把待判样本以外的其他样本的组别作为动态聚类的起点,得到的聚类结果如表9、10所示。聚类结果与经典判别分析结果一致,并且指标权重的计算结果表明实际人均gdp指标具有显著的判别能力,成人识字率判别能力不显著。

3结束语

本文在分析经典聚类分析和判别分析方法实质的基础上,给出了一种新的聚类判别分析框架,并利用改进的两总体判别分析算法依据此分析框架构造并实现了一种动态聚类判别分析算法。实证结果表明逐步动态聚类算法具有相对较好的稳定性;无指导动态聚类算法很适合寻找样本中的奇异点,适合作为一种数据挖掘算法使用;有指导的动态聚类更适合于经典聚类算法的聚类问题。

参考文献:

[1]沈毅,陈峰.六种常见的条件系统聚类法比较[j].中国卫生统计,2004,21(6):338-340.

[2]walter d f.on grouping for maximum homogeneity[j].american statistical association journal,1959,53(12):789-798.

[3]于秀林,任雪松.多元统计分析[m].北京:中国统计出版社,1999:61-153.

[4]何晓群.现代统计分析方法与应用[m].北京:中国人民大学出版社,1998:255.

[5]朱孔来.评价指标的非线性无量纲模糊处理方法[j].系统工程,1996,14(11):58-62.

[6]魏世振,杨磊,陈传明.上市公司财务状况判别分析算法的实证研究[j].系统工程,2005,23(1):108-110.

[7]张尧庭,方开泰.多元统计分析引论[m].北京:科学出版社,1982.

[8]保罗·斯特里滕.关于人文发展指数的争论[j].国际社会科学杂志:中文版,1996(1):31-44.

[9]金玉国.新hdi评介[j].山西统计,1995(5):44-45.

[10]陈峰.带约束的聚类分析[j].数理医药学杂志,1999,12(20):112-113.

[11]蔡红艳,韩立岩.上市公司财务状况判定模型研究[j].审计研究,2003(1):62-64.

[12]徐成志,陈少军.odbc 配置数据库应用程序[j].山东农业大学学报:自然科学版,2003,34(2):238-241.

[13]贺智明,李雯.采用动态数据库连接技术开发多课程通用考试信息系统[j].计算机应用与软件,2003,20(4):16-17,77.

[14]赵宇峰,张烨,黑新宏,等.vb 6 访问数据库技术的应用[j].计算机应用研究,2004,21(8):223-224.

[15]谷震离.ado访问sql server数据库技术分析及其应用[j].计算机应用与软件,2004,21(12):32-33,77.

[16]bradley j c,millspaugh a c.visual basic 6.0 高级编程[m].常晓波,刘颖,等译.北京:清华大学出版社,2003.

[17]altman e. financial ratios,discriminant analysis and the prediction of corporate bankruptcy[j].journal of finance,1968,23(9):589-609.

[18]吴德胜,梁?牛?笠??煌?P驮诓莆裨ぞ?抵ぶ械谋冉涎芯?j].管理工程学报,2004,18(2):105-108.

[19]刘洪,何光军.基于人工神经网络方法的上市公司经营失败预警研究[j].会计研究,2004(2):42-46.

[20]乔?韦华?韦华,牛芳.上市公司财务困境预测的fisher 判别分析模型[j].统计与信息论坛,2003,18(2):69-71.

[21]zmijewski m e. methodological issues related to the estimation of financial distress prediction models[j].studies on current econometric issues in accounting research,1984,22(9):59?82.

[22]grice j s,ingram r w.tests of the generalizability of altman’s bankruptcy model[j].journal of business research,2001,54(1):53-61.

[23]郭亚军.综合评价理论与方法[m].北京:科学出版社,2002.

[24]杨淑娥,徐伟刚.上市公司财务预警模型——y分数模型的实证研究[j].中国软科学,2003(1):56-60.

[25]mutapi f, mduluza t, roddam a w. cluster analysis of schistosome?specific antibody responses artitions the population into distinct epidemiological groups[j].immunology letters,2005,96(2):231-240.

[26]yuan h,parrill a. cluster analysis and three?dimensional qsar studies of hiv?1 integrase inhibitors[j].journal of molecular graphics and modelling,2005,23(4):317-328.

[27]ter braak c j f,herbert h, wies a, ?et al?. bayesian model?based cluster analysis for predicting macrofaunal communities[j].?ecological modelling,2003,160(3):235-248.

[28]liang g s, chou t u, han t c. cluster analysis based on fuzzy equivalence relation[j].european journal of operational research,2005,166(1):160-171.

动态分析基本方法篇12

2实例研究

为了验证投影寻踪动态聚类模型在房地产投资环境评价中的适用性,下文将进行实例研究.考虑指标数据的易获得性,以辽宁省工业地产的投资环境分析为例.张军涛和刘建国利用主成分分析法筛选了影响辽宁省主要城市投资环境评价的主要指标,之后利用聚类原理对数据进行了聚类分析;杨建喜和宋永发利用基于遗传算法的投影寻踪方法将高维数据降维到低维数据,然后利用雷达图对投影特征值进行聚类分析,研究了辽宁工业地产投资环境的排序.以上两篇论文中使用两类不同的方法得到了类似的排序和聚类结论.本文的研究以此为基础,通过投影寻踪动态聚类模型进行辽宁省工业地产投资环境评价,然后与文献的结论进行比较,以检验投影寻踪动态聚类模型的适用性.工业地产是区别于住宅地产,商业地产和综合用地以外的工业性质的房地产.影响工业地产投资环境评价的因素众多,参考文献从社会文化环境、基础设施环境、经济发展环境、工业发展环境4个方面选择36个指标对辽宁省14个地级市的工业地产投资环境进行分析评价。首先,确定辽宁省工业地产投资环境的分类数,这里参照文献的分类,将整个样本分为3类。同时得各个城市的投影特征值,投影特征值排序以及投影特征值聚类结果。最后,将本文的分析结果与文献的分析结果进行对比。所得排序和分类结果与用投影寻踪分析方法和用主成分分析方法基本一致,验证了本模型在房地产投资环境评价中的适用价值.但与文献中的基于遗传算法的投影寻踪算法相比:克服了需要根据经验来确定投影指标函数的密度窗口半径参数和对投影特征值要借助雷达图进行聚类再处理的过程;与文献的主成分分析方法相比:投影寻踪动态聚类模型能够更多的利用原始指标信息,使得出的结论可能更加客观可靠.同时投影寻踪动态聚类模型在对数据的排序过程中自动输出聚类结果,不需要再借助其他方法进行聚类分析.这具有文献中所用方法无法比拟的优势.在同一聚类数据中,个别数据的排序结果与文献中结论稍微不一致,这主要是由于在用遗传算法求解时每次生成的单位投影向量带有一定的随机性所致。

友情链接