数据分析的方法合集12篇

时间:2023-05-19 11:17:43

数据分析的方法

数据分析的方法篇1

中图分类号:F276.1

文献标识码:A

文章编号:1002―2848―2007(01)-0108―06

一、前 言

在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。

函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。

为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。

二、数据的函数性特征及经济函数性数据实例

一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。

函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。

实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。

在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。

利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。

三、从数据的函数性视角研究数据的意义

从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。

图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业

银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。

四、函数性数据分析的目标和步骤

函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:

(一)以对进一步分析有利的方法来描述数据;

(二)为突出不同特征而对数据进行展示;

(三)研究数据类型的重要来源和数据之间的变化;

(四)利用输入(自变量信息)来解释输出(因变量)的变化情况;

(五)对两组或更多的某种类型的变量数据进行比较分析。

典型的FDA主要包括以下步骤:

第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。

第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计

第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。

第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。

第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。

第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。

第七步,模型估计。

五、函数性数据分析方法的经济应用

为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。

在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。

关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。

为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:

为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。

利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。

为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。

六、结论

在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。

数据分析的方法篇2

中图分类号:P208 文献标识码:A 文章编号:1672-3791(2016)02(a)-0003-04

Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。

4 结语

该文针对社会调查数据处理与分析中存在的问题,建立了基于三维矩阵的数学模型,将单选题和多选题表示成向量,将排序题表示成多个列向量,从而每一题可以表示成空间的一个维度,每一个向量就是一个元素,这样每一张问卷就可以表示成一个矩阵,通过将多个矩阵叠加就可以得到三维矩阵。该数学模型可以利用三维矩阵的性质对其进行多种数学处理,如竖切、横切、像素化后投影等。在数学处理的基础上,该文又提出超图理论对数据进行聚类和检测冗余规则的分析。

参考文献

[1] 陈慧萍,王煜,王建东.高维数据挖掘算法的研究与进展[J].计算机工程与应用,2006(24):170-173.

[2] 张东.基于VFP的调查问卷通用统计汇总生成系统的设计与实现[J].科技资讯,2006(10):183.

[3] 奚维吉.用户满意度调查的数据处理[J].科技资讯,2007(8):253-254.

[4] 崔阳,杨炳儒.超图在数据挖掘领域中的几个应用[J].计算机科学,2010,37(6):220-222.

[5] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.

[6] 王志平,王众托.超网络理论及其应用[M].北京:科学出版社,2008.

[7] Jong Soo Park,Ming-Syan Chen,Philip S.Yu.Using a hash-based method with transaction trimming for mining associationrules [J].IEEE Transactions on knowledge and engineering,1997,9(5):813-825.

[8] 王海英,黄强,李传涛,等.图论算法及其 MATLAB实现[M].北京航空航天大学出版社,2010.

[9] H.Toivonen. Sampling large databases for association rules [C]// Proc. 1996 Int. Conf. Very Large Data Bases (VLDB'96).1996.

[10] Marco Dorigo, Vittorio Maniezzo, Alberto Colorni. The ant system: optimization by a colony of cooperative agents [J].Physical Review Letters,1995,75(14):2686-2689.

数据分析的方法篇3

Larry Kerschberg George Mason University

USA

Peter J.H.King University of London UK

Alexandra Poulovassilis University of

London UK (Eds.)

The Functional Approach To

Data Management

Modeling, Analyzing And Integrating

Heterogeneous Data

2004,483pp.

Hardcover EUR:69.95

ISBN 9783540003755

数据管理的功能方法

建模、分析和综合异质数据

彼得M.D格林莱瑞.克斯伯格,

彼得J.H 金, 亚历山大.波洛瓦斯里斯 著

功能数据模型和功能编程语言首次引入到计算领域已有20多年的历史了。随着数据库技术在生物信息、国家安全、犯罪调查和高级工程领域的卓越应用,数据库技术的重要性日渐凸现,本书所提出的更成熟的方法就越显得重要。

本书分为五部分。第一部分介绍了如何将数据管理与功能语言融合在一起的方法。功能语言是最新发展起来的运用于计算和规范用途的工具,在本书中主要是数据模型和计算的功能方法,能够带来语义网络的新时代和网络世界的资源分流。这比相关模型更具灵活性,而且很适合半结构数据。

第二部分是介绍异质数据库和生物信息学的一体化数据。在这部分中介绍了有关异质数据库和生物信息学的一体化数据新近的研究成果。至关重要的观点就是功能性的提取数据创造了独特的观察数据的方法,不论这些数据是如何被存储的,这对于程序员来讲或许有些陌生,主要是因为他们习惯了操作数据内部的特定排列或者凭借记忆中记录的结构。不过当来自不同信息源的资料一体化之后,隐藏存储细节并且在一个更高的概念层次上作业就变得重要了。

第三部分是理解力表。从计算的角度讲,功能方法允许我们调定功能然后重新书写并利用有参考性的图片转化功能表达。在这一部分中,将运用到设计、常规分析和功能数据语言最优化,包括了重要的精炼理解,并以数学结构为基础,这些原理的应用贯穿了全书。

第四部分介绍关于管理半结构化的数据、信息和知识的功能方法。本部分各章均采用XML语言来描述半结构化数据,或者使用以XML语言为基础的开放标准的描述语言。XML语言能够将数据描述语言和数据本身放在一起,使描述数据的元数据成为数据自描述的一种形式。本章还强调了不同来源的信息源数据整合和互操作。当来自不同信息源的异质数据放到一起时,需要通过数据整合来构建一个分布式资源的概念模型。这部分内容向人们展示了功能方法在建模、执行、管理和整合这些系统中的效用。

第五部分为指南。它能够使读者将全书的各部分统观贯穿起来,并加深对其他部分的理解和应用。

本书适合于有志钻研本项目的读者研读、学习。对于正在这一领域工作的人来说本书不啻为有价值的参考资料。

刘丽,副教授

数据分析的方法篇4

其实我想告诉他们的是,数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解。

使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。

简单地来说,分析可被划分为4种关键方法。

下面会详细介绍这四种方法。

1.描述型分析:发生了什么?

这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

2.诊断型分析:为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。

良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

3.预测型分析:可能发生什么?

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

4.指令型分析:需要做什么?

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

数据分析的方法篇5

· 数据分析的目的是什么?

· 数据分析的一般过程是怎样的?

· 有哪些数据分析方法?

· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?

· 在国内最容易犯哪些数据分析的错误?

因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。

(一)数据分析的核心作用

根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。

这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。

(二)数据分析的分类

最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。

所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。

探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。

而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。

(三)数据分析的一般过程

通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。

现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!

其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。

接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。

最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。

(四)客户中心常用的数据分析工具及简介1 Excel

Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。

2 SPC

SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。

3 SAS

SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

4 JMP

JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

6 Minitab

数据分析的方法篇6

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

数据分析的方法篇7

中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:

1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位:上海卷烟厂

数据分析的方法篇8

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)12-20ppp-0c

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚类分析是数据挖掘中的重要方法之一,它把一个没有类别标记的样本集按某种准则划分成若干个子类,使相似的样品尽可能归为一类,而不相似的样品尽量划分到不同的类中。目前,该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域,其目的在于区别不同事物并认识事物间的相似性。因此,聚类分析的研究具有重要的意义。

本文主要介绍常用的一些聚类方法,并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析,以便人们根据实际的问题选择合适的聚类方法。

2 聚类的分类

聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为以下几种[1,2,3,4]:划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

2.1 划分法(partitionging methods)

给定一个含有n个对象(或元组)的数据库,采用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且k≤n。在聚类的过程中,需预先给定划分的数目k,并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似,而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集,对大规模的数据集进行聚类时需要作进一步的改进。

2.2 层次法(hietarchical methods)

层次法对给定数据对象集合按层次进行分解,分解的结果形成一颗以数据子集为节点的聚类树,它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下,可分为凝聚聚类法和分解聚类法:凝聚聚类法的主要思想是将每个对象作为一个单独的一个类,然后相继地合并相近的对象和类,直到所有的类合并为一个,或者符合预先给定的终止条件;分裂聚类法的主要思想是将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者符合预先给定的终止条件。在层次聚类法中,当数据对象集很大,且划分的类别数较少时,其速度较快,但是,该方法常常有这样的缺点:一个步骤(合并或分裂)完成,它就不能被取消,也就是说,开始错分的对象,以后无法再改变,从而使错分的对象不断增加,影响聚类的精度,此外,其抗“噪声”的能力也较弱,但是若把层次聚类和其他的聚类技术集成,形成多阶段聚类,聚类的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

该方法的主要思想是只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对于给定的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处"噪声"孤立点数据,发现任意形状的簇。

2.4 基于网格的方法(grid-based methods)

这种方法是把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。

2.5 基于模型的方法(model-based method)

基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设:数据是根据潜在的概率分布生成的。该方法主要有两类:统计学方法和神经网络方法。

3 常用的聚类算法

目前,已经提出的聚类算法很多,常用的聚类算法主要有以下几种:系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法(FCM)。

3.1 系统聚类法

系统聚类法[5]是将n个样品看成n类,即一类包含一个样品;然后将性质最接近的两类合并成一个新类,这样就得到n-1类,再从这n-1类中找出性质最接近的两类加以合并,成了n-2类;如此下去,最后所有的样品均成一类;将上述类的合并过程画成一张图(这图常称为聚类图),这样便可决定分多少类,每类各有什么样品。

系统聚类法的计算简单,而且其聚类结果给出一个谱系图,因此,可以根据该图选择所需要的聚类结果。但是,它也有不足之处,其主要表现在以下几个方面:1)当样品数量很多时,而且只需要划分为较少的类别时,这种聚类方法的重复计算量很大;2)当某一样品划归某一个类后,其属性不变,若分类方法的选择不当,对聚类的精度影响很大;3)对大数据量进行处理时,计算机内存开销很大,有时,计算机受此限制而无法进行聚类分析,而且其速度很慢;4)抗干扰的能力很弱。

3.2 动态聚类算法

动态聚类法[5]就是在开始时先建立一批初始中心,而让待分的各个样品依据某种判别准则向初始中心凝聚,然后再逐步修改调整中心,重新分类;并根据各类离散性统计量(如均方差)和两类间可分离性的统计量(如类间标准化距离、J-M距离等)再进行合并和分裂。此后在修改调整中心,这样不断继续下去,直到分类比较合适为止。

动态聚类法使用随机方式选择 作为初始聚类中心,按照算法的迭代执行,整个算法的结束条件是类的重心(或凝聚点)不再改变,它的计算复杂性是O(nkt),其中,n为样本数量,k为聚类数,t为迭代次数。与系统聚类法相比,动态聚类法明显的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性,但其也存在一些缺点,主要表现在以下几个方面:(1)动态聚类法要求用户必须事先给出聚类的数目,选择初始划分的最佳方向、更新分区和停止准则,且其结果与数据输入顺序有关,不同的初始值可能会导致不同的结果;(2)对于噪声和孤立点敏感,很容易受例外情况的影响,适用于发现球状类,但不适合发现非凸面状的簇,不适合大小差别较大的簇;(3)一个对象只能属于一个类中,不能多维揭示其多重属性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫随机搜索聚类算法,是一种分割聚类方法。该算法是基于CLARA算法的改进,与CLARA算法不同的是:CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,则把中心点移到该邻居节点上,否则把该点作为局部最小量,然后再随机选择一个点来寻找另一个局部最小量。

该算法能够探测孤立点,并适用于大型数据库,但其计算复杂度复杂度较高,大约为O(n2);此外,该算法对数据输入的顺序敏感,适用于凸形或球形数据。

3.4 CURE算法

CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”,即合并两个距离最近的代表点的簇,直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。

该算法采用随机抽样与分割相结合的方法来提高聚类效率,对于大型数据库,它也具有良好的伸缩性,运行速度很快,而且有较好的聚类效果,其计算复杂度为O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇,否则先把它暂时标为噪声点,跳到下一个点,并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。

该算法可以数据集中的所有簇和噪声,但其不对数据集进行预处理而直接进行聚类操作,当数据集很大时,占用内存很大,而且I/O消耗也很大,如果采用空间索引,其计算复杂度为O(nlogn),否则,其计算复杂度为O(n2)。

3.6 STING算法

STING算法[2,3,8]是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,高层的每个单元被划分为多个低一层的单元,高层单元的统计参数可以很容易地从低层单元计算得到,而统计信息的查询则采用自顶向下的基于网格的方法。这些参数包括:属性无关的参数count;属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布(distribution)类型。该算法预先计算和存储每个单元的统计信息,它不依赖于查询的汇总信息。

该算法主要优点是效率高,有利于并行处理和增量更新;它通过扫描数据库一次来计算单元的统计信息,因而其计算复杂度为O(n)。在层次结构建立后,其查询处理的计算复杂度为O(m),其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度,粒度的大小会明显影响处理代价,特别是当数据集的维数较高时,由于生成网格层次及每一层的单元数较多,算法的效率会降低。

3.7 模糊聚类算法(FCM)

传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某类中,具有“非此即彼”的性质;而在实际中,大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,具有“亦此亦彼”的性质;鉴于此,人们开始用模糊的方法来处理这类问题,从而产生了模糊聚类的方法,也就是说,模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法,其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下:

(1)选择一个初始模糊分类方案,将n个样本分成k个模糊类,得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示样本Xi对模糊集Cj的隶属度,uij∈[0,1];

(2)利用矩阵 计算模糊评判函数的值,模糊评判函数通常是一个与对应的分类相联系的加权平方误差和

是第k个模糊集的中心,重新分配样本到各模糊集以减少评判函数的值并重新计算U;

(3)重复(2),直到矩阵U不再有较大的变动。

模糊聚类解决了一些混合对象的归类问题,同时,当样本数较少的时候,应用该方法的优越性也比较明显,另外,其抗干扰的能力也较强;但是,它对一些隐含类的提取能力还有待于进一步的改进,除此之外,预定的分类数目一般也是人为决定的,同动态聚类一样,就可能出现人为预定的分类数与实际存在的类数不相符这种情况,从而影响分类的结果。

4 聚类的性能比较

基于上述的分析,现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较,结果如下表。通过这些比较,可以给聚类算法研究和应用的选择提供参考。

5 结束语

目前,已经提出的聚类算法很多,每种方法都有其优缺点和不同的适用领域,可以根据上述的分析,选择适合特定问题的聚类方法;但是,在实际应用中,由于数据的复杂性,往往用某种聚类算法进行聚类划分得到的效果不佳,可能要综合多种聚类方法才能得到较好的聚类效果。因此,在将来的研究中,需要做好对现有聚类算法的改进和融合,以便得到更好的聚类方法。

参考文献:

[1] 孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.

[2] 覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.

[3] 梁志荣.数据挖掘中聚类分析的技术方法[J]. 电脑开发与应用,2007,20(6):37-39.

[4] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.

[5] 黄利文.基于几何概率的聚类分析[D]. 硕士学位论文,2006(1).

[6] 张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.

[7] 王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.

[8] 刘泉凤,陆蓓. 数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.

[9] 丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.

数据分析的方法篇9

[摘要]本文使用循证医学方法,对“临床医学数据的分析方法与利用”主题进行取词检索,检索中国生物医学文献、万方、维普、中国知网四大主流中文数据库,纳入相关文献进行分析。从临床数据的分析流程、临床数据的分析方法、数据在医疗领域的利用以及面临的挑战等几个方面展开讨论并加以归纳,为医疗大数据时代的临床数据管理提供参考。  

数据分析的方法篇10

“社会网络分析” (Social Network Analysis, SNA)是在人类学、社会学、心理学等众多领域中发展起来的研究个体之间关系结构的分析方法,是对社会关系进行量化分析的一门艺术和技术。SNA主要用于描述和测量个体之间的关系以及这些关系中所包含的资源、信息等,并根据这些关系建立模型,进而研究关系与行为之间的相互影响(刘军, 2004)。SNA从“关系”角度来揭示社会情境与嵌套于其中的个体的心理和行为的互动影响,即个体可以能动地构造他们的关系网络(选择效应,selection effect),同时这些关系又反过来影响个体的心理与行为(影响效应,influence effect)。因此,个体既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个体之间关系的数据称为关系数据(relational data),通常的数据类型是0、1二分变量数据,即1表示两个行动者之间存在关系,0表示不存在关系(马绍奇, 2012)。

SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。

心理技术与应用4卷

8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法

要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄?h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。

2缺失数据的原因

21边界规范问题

边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。

社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定选择的研究设计

固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。

在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。

23网络调查中的无应答

网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。

网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。

和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。

对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。

4缺失数据处理方法

41完整个案法

完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。

完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。

42有效个案法

有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。

Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。

有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。

一般而言,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。

重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。

44基于指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 ?? 模型,是用来描述x分布情况的概率质量函数,其表达式为:

其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈Θ),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。

基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。

5问题与展望

缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。

从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。

就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

数据分析的方法篇11

最简单的拆分方法就是不看平均值,看数据分布。因为凡 是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这自然是荒谬的。

可实际上,我们每天都在做着类似的判断,比如当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策,例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均停留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒,可实际上真正的顾客访问时间有长有短,差别巨大:

在一些数据中我们可以看得出来,访客平均停留在页面的时间非常的短暂,具体的也就是说,问需要在淘宝数据分析上面下工夫的,那么,究竟该怎么弄才能比较好的呢?这个就看个人是怎么想的了,这里也就不多说了。

再举一个例子,比如我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5000单超过2500元 ——客户购买习惯已经发生了巨大变化,一方面可能是客户订单在变小(可能是因为产品单价下降,采购数量减少,或者客户选择了比较便宜的替代品),另一方面 出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)。——看数据分布可以让我们更容易发现这些潜在的变化,及时的做出应对。

二、拆因子

很多时候我们很难直接从数据变化中分析出具体的原因,这时可以考虑拆分因子,将问题一步步细化找寻原因。

例如网站转化率下降,我们要找原因。因为“转化率”=“订单”/“流 量”,所以“转化率”下降的原因很可能是“订单量下降”,“流量上升”,或者两者皆是。按照这个思路我们可能发现主要的原因是“流量上升”和“订单量升幅 不明显”,那么

下面我们就可以来拆解“流量”的构成,例如拆成“直接访问流量”、“广告访问流量”和“搜索引擎访问流量”再看具体是哪部分的流量发生了变 化,接下来再找原因。这时我们可能看到说是搜索引擎访问流量上升,那就可以再进一步分析是付费关键词部分上升,还是自然搜索流量上升,如果是自然流量,是 品牌(或者网站名相关)关键词流量上升,还是其他词带来的流

量上升——假如最后发现是非品牌类关键词带来的流量上升,那么继续寻找原因——市场变化(淡季旺季之类),竞争对手行动,还是自身改变。假如刚好在最近把产品页面改版过,就可以查一下是不是因为改版让搜索引擎收录变多,权重变高。接下来再分析自己到底哪里做对了帮助网站SEO了(比如把页面导航栏从图片换成了文字),把经验记下来为以后改版提供参考;另

一方面还要分析哪里没做好(因为新增流量但是并没有相应增加太多销售),研究怎样让“产品页面”更具吸引力——因为对很多搜索引擎流量来说,他们对网站的第一印象是产品页面,而不是首页。

三、拆步骤

还有些时候,我们通过拆分步骤来获取更多信息。

举两个例子:

第一个例子:两个营销活动,带来一样多的流量,一样多的销售,是不是说明两个营销活动效率差不多?

如果我们把每个营销活动的流量拆细去看每一步,就会发现不一样的地方。营销活动B虽然和营销活动A带来了等量的流量,可是这部分流量对产品更感兴趣,看完着陆页之后更多的人去看了产品页面。可惜的是虽然看产品的人很多,最后转化率不高,订单数和营销活动 A一样。

这里面还可以再深入分析(结合之前提到的分析方法,和下一章要说的细分方法),但是光凭直觉,也可以简单的得出一些猜测来,例如两个营销活动的顾客习惯不太一样,营销活动 B的着陆页设计更好,营销活动 B的顾客更符合我们的目标客户描述、更懂产品——但是我们的价格没有优势等等这些猜想是我们深入进行分析,得出行动方案的起点。至少,它可以帮助我们

更快的累计经验,下次设计营销活动的时候会更有的放矢,而不是仅仅写一个简单report说这两个营销活动效果一样就结案了。(注:这是个简化的例子,实际上还可以分更多层)

第二个例子可能更常见一些,比如网站转化率下降,我们可以拆成这样的漏斗:

这样拆好之后,更能清楚地看到到底是哪一步的转化率发生了变化。有可能是访客质量下降,都在着陆页流失了,也可能是“购物车–>登录”流失了(如果你把运费放到购物车中计算,很可能就看到这一步流失率飙升),这样拆细之后更方便我们分析。

曾经有一个例子就是转化率下降,市场部查流量质量发现没问题,产品经理查价格竞争力也没问题——最后发现是技术部为了防止恶意注册,在登录页面加了验证码(而且那个验证码极度复杂),降低了“登录页面–>填写订单信息“这一步的转化率。

四、细分用户族群

数据分析的方法篇12

        0 引言

        随着计算机应用的深入,计算机技术的成熟,各种应用软件的普及,应用数据也随着日常工作而迅速增长,作为数据仓库的数据库的重要性也日益显著。                            

        数据库系统作为管理信息系统的核心,各种基于数据库的联机事务处理以及联机分析处理正慢慢的转变成为计算机应用的最为重要的部分,根据以往大量的应用实例来看,在数据库的各种操作中,查询操作所占的比重最大,而在查询操作中基于select语句在sql语句中又是代价最大的语句。如果在使用中采用了优秀的查询策略,往往可以降低查询的时间,提高查询的效率,由此可见查询优化在数据库中的重要性。本文就数据库查询优化中的策略进行介绍及探索。

        1 基于索引的优化

        数据库的优化方法多种多样,不同的方法对提高数据库查询效率也不相同。

        索引作为数据库中的重要数据结构,它的根本目的就是为了提高查询的效率。而优化查询的重要方法就是建立索引,建立适合关系数据库系统的索引,这样就可以避免表扫描,并减少了因为查询而造成的输入输出开销,有效提高数据库数据的查询速度,优化了数据库性能。然而在创建索引时也增加了系统时间和空间的开销。所以创建索引时应该与实际查询需求相结合,这样才能实现真正的优化查询。

        1.1 判断并建立必要的索引 对所要创建的索引进行正确的判断,使所创建的索引对数据库的工作效率提高有所帮助。为了实现这一点,我们应做到以下要求:在熟记数据库程序中的相关sql语句的前提下,统计出常用且对性能有影响的语句;判断数据库系统中哪些表的哪些字段要建立索引。其次,对数据库中操作频繁的表,数据流量较大的表,经常需要与其他表进行连接的表等,要进行重       点关注。这些表上的索引将对sql语句的性能产生重要的影响。

        1.2 对索引使用的一些规则 索引的使用在一些大型数据库系统中会经常使用到,这样可以有效的提高数据库性能,使数据库的访问速度得到提高。但索引的使用要恰倒好处,所以我们在使用索引时应遵守使用原则:建立索引可以提高数据库的查询速度,但索引过多,不但不能实现优化查询,反而会影响到数据库的整体性能。索引作为数据库中实际存在的对象,每个索引都要占用一定的物理空间。所以对于索引的建立要考虑到物理空间容量,以及所建立索引的必要性和实用性。

        1.3 合理的索引对sql语句的意义 索引建立之后,还要确保其得到了真正的使用,发挥了其应有的作用。首先,可以通过sql语句查询来确定所建立的索引是否得到了使用,找出没有使用到的索引。分析索引建立但没有使用的原因,使其真正发挥作用。其次,索引得到使用以后,是否得到了预期的效果,对数据库的性能是否实现了真正意义上的提高,只有合理的索引才能真正提高数据库的性能。

        2 优化sql语句

        在使用索引时可以有效的提高查询速度,但如果sql语句使用不恰当的话,所建立的索引就不能发挥其作用。所以我们应该做到不但会写sql,还要写出性能优良的sql语句。下面,就如何优化引用例子进行说明。

        首先,在进行查询时,返回的值应该是查询所需要的。在查询中应该尽量减少对数据库中的表的访问行数,使查询的结果范围最小,这就意味着在查询时,不能过多的使用通配符,如:select*from table1语句,而应该做到最小化查询范围,要查询几行几列就选择几行几列,如:select col1 from table1;多数情况下,用户并不需要查询到的所有数据,而只是部分或靠前的数据时,我们也可以通过sql语句来进行限制查询的结果,如:select top 50 col1 from table1。

        其次,对于一些特殊的sql语句,在使用时应正确选择。我们用一组例子来说明,如:exists,not exists。

        语句一:select sum(t1.c1) from t1 where((select count(*)from t2 where t2.c2=t1.c2)>0)   

        语句二:select sum(t1.c1) from t1 where exists(select*from t2 where t2.c2=t1.c1)

        两个语句所得到的结果相同,但,语句二的效率要远高于语句一,因为语句一在查询中产生了大量的索引扫描。

        在对数据库查询时,所使用的语句多种多样,但选择恰当的的字句能够有效的提高查询效率。

        最后,where子句在使用时应该注意的问题。

        在where子句中可以使用exist 和not exist代替in和not in。应该尽量避免使用in,not in,or 或者having。可以使用表链接代替 exist。having可以用where代替,如果无法代替可以分两步处理。

        3 其他优化方法

        数据库的查询优化方法不仅仅是索引和sql语句的优化,其他方法的合理使用同样也能很好的对数据库查询功能起到优化作用。我们就来列举几种简单实用的方法。

        3.1 避免或简化排序 应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。

        3.2 避免相关子查询 如果在主查询和where子句中的查询中同时出现了一个列的标签,这样就会使主查询的列值改变后,子查询也必须重新进行一次查询。因为查询的嵌套层次越多,查询的效率就会降低,所以我们应当避免子查询。如果无法避免,就要在查询的过程中过滤掉尽可能多的。

        3.3 创建使用临时表 在表的一个子集进行排序并创建临时表,也能实现加速查询。在一些情况下这样可以避免多重排序操作。但所创建的临时表的行要比主表的行少,其物理顺序就是所要求的顺序,这样就减少了输入和输出,降低了查询的工作量,提高了效率,而且临时表的创建并不会反映主表的修改。

        3.4 用排序来取代非顺序存取 磁盘存取臂的来回移动使得非顺序磁盘存取变成了最慢的操作。但是在sql语句中这个现象被隐藏了,这样就使得查询中进行了大量的非顺序页查询,降低了查询速度,对于这个现象还没有很好的解决方法,只能依赖于数据库的排序能力来替代非顺序的存取。

        4 结论

        对于数据库的优化,我们要抓住关键问题,提出改善查询效率,这样才能真正使数据库服务得到根本提高。本文在对数据库查询优化的方法上,进行了分析,提出了部分见解,有效的提高数据库查询效率。

参考文献: