数据分析方法合集12篇

时间：2022-02-04 10:48:43

数据分析方法

数据分析方法篇1

1、将收集到的数据通过加工、整理和分析的过程，使其转化为信息，通常来说，数据分析常用的方法有列表法和作图法，所谓列表法，就是将数据按一定规律用列表方式表达出来，是记录和处理数据最常用的一种方法。

2、表格设计应清楚表明对应关系，简洁明了，有利于发现要相关量之间的关系，并且在标题栏中还要注明各个量的名称、符号、数量级和单位等。

3、而作图法则能够醒目地表达各个物理量间的变化关系，从图线上可以简便求出实验需要的某些结果，一些复杂的函数关系也可以通过一定的变化用图形来表现。

（来源：文章屋网）

数据分析方法篇2

中图分类号：F01 文献标识码：A 文章编号：1006-0278（2013）02-024-01

在计量经济学中，我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析，但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中，截面数据回归分析会遗漏掉数据的时间序列特征，例如在分析某年中国各省的GDP增长数据时，单纯的截面数据回归分析无法找出各省GDP随时间变化的特征，使得分析结果没有深度。而如果只用时间序列分析，则会遗漏掉不同截面间的联系与区别，例如在分析中国单个省市的GDP随时间增长的数据时，无法找出各个省市之间经济增长的联系与区别，因而同样无法满足我们的需要。而面板数据，是一种既包括了时间序列数据，也包括了相关截面数据的复合数据，是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础，在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快，财政收入不断扩大，而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系，把握财政收入与经济增长之间的相互影响，发挥财政收入对经济发展的调节和促进功能，对于完善财税政策，深化财税体制改革，实现财政与经济之间的良性互动，具有重要的现实意义。文章就将从中国各省的面板数据出发研究，中国不同地域间财政收入和GDP之间的关系。

二、实证分析

（一）单位根检验

Eviews有两种单位根检验方法，一种在相同根的假设下的检验，包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下，包括IPS，ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设，因此序列GDP和CZSR均为一个2阶单整序列。

（二）协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的，那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列，其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中，Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设，同样Kao和Johansen检验方法也都拒绝原假设，因此，上述检验结果表明，我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验，说明变量之间存在着长期稳定的均衡关系，其方程回归残差是平稳的，因此可以在此基础上直接对进行回归分析，此时假设方程的回归结果是较精确的。

三、建立模型

混合模型：如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

我们根据混合模型的回归结果，得到财政收入和GDP之间的回归方程为：

CZSR=227.3123+0.103224*GDP

（26.47637）（0.002839）

R2=0.810995 F=1321.587

显然从模型的回归结构来看，R2的值达到了0.81，有了比较好的回归解释力，同时，GDP的回归系数为0.103224，表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型：显然，在中国各省之间由于处在不同的地区，因而拥有不同的区位优势，那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化，此时在进行模型回归的时候，我们就有必要考虑变系数模型。

在回归结果中，R2的值达到了0.97，比混合模型拥有更好的回归解释力，而在变系数模型回归结果中，GDP的回归系数大于0.5的只有、青海、宁夏三个省份，也就是说这三个省份的财政收入占到了GDP的50%以上，他们同处于经济并不是很发达的西部地区，由此可以看出，处在经济发达地区的财政收入占GDP的比重要低，而不发达地区则要高。

四、结论

通过以上的分析检验，我们发现针对于中国财政收入和GDP的面板数据，我们应建立起变系数模型，并通过模型分析，我们可以得出这样的结论，中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同，造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们，我国西部地区的财政收入占GDP的比例要明显高于东部地区，地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此，这为我们改善我国落后地区的经济发展提供了一定的新思路，就是对一地区的税收征收可以适当放缓，而将GDP中以前政府占用的部分归还于民众和企业，因为，按照发达地区的经验表明，财政收入所占比重过高，经济发展的活力或者就不会很高，对于进一步刺激财政收入的增加也没有任何帮助。因此，我们应该适度降低财政收入占GDP的比重，从而增加经济活力，使西部地区以及落后地区及早的跟上东部发达地区的发展步伐，从而消除我国经济发展的地域不平衡。

参考文献：

[1]谢识予，朱洪鑫.高级计量经济学[M].复旦大学出版社，2005.

数据分析方法篇3

【Abstract】 With the development of information technology， data sharing and interactive between the departments and grades increase rapidly， and the basic data flow diagram is incapable of mining and expressing the complicate data requirement of networked information system. An effective data requirement analysis method based on swimlane data flow diagram is presented in this article， which takes the advantages of swimlane flowcharts and data flow diagram.

【Keywords】 swimlane; data flow diagram; requirement analysis

管理信息系统建设的基础在于政府、军队、企事业单位的信息资源规划。信息资源规划的核心任务在于各部门、各层级数据需求的获取与分析，其主要方法来自于业务流程分析和数据流分析[1]。然而信息技术的飞跃发展，使得部门间、层级间的数据共享与交互呈现指数级的增长[2]，传统的基本形式的数据流图也不能充分的挖掘和表达复杂的网络化的信息系统数据需求，本文结合泳道流程图[3]和数据流图两者的优势，提出了一种基于泳道数据流图的数据需求分析方法。

1 基本形式的数据流图

数据流图（Data Flow Diagram），是从数据传递和加工的角度，以图形的方式刻画数据在系统中流动和处理的过程。

数据流图有以下几种主要元素：（1）数据流。数据流是数据在系统内传播的路径，由一组成分固定的数据组成。如订票单由旅客姓名、年龄、单位、身份证号、日期、目的地等数据项组成。数据流是流动中的数据，具有流向，除了与数据存储之间的数据流不用命名外，数据流应该用名词或名词短语命名。（2）数据源（终点）。代表系统之外的实体，可以是人、物或其他软件系统。（3）对数据的加工（处理）。加工是对数据进行处理的单元，它接收一定的数据输入，对其进行处理，并产生输出。（4）数据存储。表示信息的静态存储，可以代表文件、文件的一部分、数据库的元素等。

这里给出一个物资采购管理流程的数据流图的实例，如图1所示。

这个数据流图给出了数据源（评估人员），数据流，数据加工（如收货管理、采购统计等）和数据存储（如采购申请信息，供应商资料等），给出了数据输入与输出的流向，但是数据源或终点不够明确，数据产生和消费的职能部门、岗位以及时序等都无法清晰明了的展现出来，各部门，各层级间的独立信息和共享信息不能一一分明。为解决这些问题，可以采用泳道数据流图。

2 泳道数据流图

泳道数据流图是根据业务实际需求，在基本数据流图的基础上，结合泳道流程图具有的跨职能部门业务处理流程能力和数据流图刻画数据单元输入输出及其处理过程的能力，形成一种图形化分析跨职能部门业务数据需求的方法。

泳道数据流图包括以下几种基本元素：（1）数据流、数据存储、数据处理同基本形式的数据流图;（2）泳道。职能部门是业务处理的核心单位（业务流程主体），也是数据源或终点，在泳道数据流图中表现为一个泳道，是数据产生、处理或存储的容器或者空间。在这个泳道空间中，可以包含数据流、数据存储和数据处理。泳道空间所包括的数据处理，意味着由该职能部门完成该项数据处理，该职能部门是流入该项数据处理的数据流（含特定数据项）的消费者;其所包括的数据存储，意味着该项数据存储由该职能部门产生并维持其序列化，该职能部门是数据存储中所含数据项的生产者;在泳道数据流图中，泳道从左向右水平排列，也可从上到下垂直排列。（3）阶段。阶段是一个容纳业务流程元素或数据元素的时段，它是业务流程在时间上的意义分割，展现业务流程执行或控制的时序;同时也是业务数据产生、处理和存储的时序。在泳道数据流图中，阶段按时间先后可以从上到下排列，也可以按时间先后从左到右排列。（4）起始点。数据的输入输出以及处理追随着业务活动的过程，其起始点常常起于某项业务活动的开始。（5）终止点。数据处理的终点常常是数据输出，例如数据库存储、表单等。但业务活动常常有比较明晰的终止点。为简明表达业务数据需求，泳道流程图纳入终止点。（6）分岔点。数据处理过程常常因为业务逻辑的需要输出不同的数据项，从而产生分岔点。（7）数据项。数据项为数据流中的数据组分，具有明确的定义，包括名称、类型、长度、精度、取值范围、能否为空、是否主键等信息。

泳道数据流图中，以各个职能部门形成的泳道横向水平（或纵向垂直）排列，各个岗位纵向垂直（或横向水平）排列，由业务起始点开始，结束于终止点。分别明确各职能部门，各阶段的数据流、数据项、数据处理过程和数据存储方式和内容。

3 泳道数据流图的应用实例

以前文的物资采购管理流程为例，按照上述泳道数据流图绘制步骤，物资采购管理流程所涉及的泳道数据流图绘制如图2所示。

图中，职能部门分为申购部门，计划部门，评估部门、采购实施部门和财会部门。流程分为需求请领与评估、计划拟制、采购实施和财会审计四个阶段。流程起始于需求请领与评估阶段，由申购部门发起物资采购申请，该部门产生“采购申请信息”，处理“请购管理”过程，并将填写完备的“采购申请信息”发送到计划部门的采购计划拟制人员。计划部门接收“采购申请信息”、“样品评估信息”、“供应商评估信息”，从而“制定采购计划”，完成“采购单管理”，生成“采购单信息”。这个过程中，计划部门的采购计划拟制人员是“采购申请信息”、“样品评估信息”、“供应商评估信息”的消费者，又是“采购单信息”的生产者。其中“样品评估信息”由评估部门的产品评估人员生产，而“供应商评估信息”则由评估部门的供应商评估人员生产。后续的数据流信息则由采购实施部门和财会部门生成、处理并完成。

4 结语

泳道数据流图不仅拥有基本形式数据流图的优势，而且还可以清晰地分析数据项的生产者和消费者，分析数据流在跨职能部门间的流转过程，并给出数据处理和数据存储的执行者，从而更加充分的挖掘和表达信息系统的数据需求，是一种有效的信息系统数据需求分析方法和途径。

参考文献：

数据分析方法篇4

Key Words：Social survey data；Three-dimension matrix；Hypergraph

社会调查是了解各方面信息的重要途径之一，社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高，加上人为主观因素，数据类型主要为二元变量、离散变量、序数变量等为主，所以对于社会调查数据的分析和处理大都基于统计学，只对单一题目进行统计学分析，其分析方法主要是基于题型进行处理的，对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制，所以现在很多社会调查只能验证事先想好的内容和假设，很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题，该文建立了基于三维矩阵的数学模型，将单选题、多选题和排序题用向量形式进行表示，每一题定义为空间中的一个维度，从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体，作为后续算法的基础。

1 社会调查数据的特点

通常情况下，社会调查数据特点如下。

（1）相关性。对于一个样本个体而言，它具有本身的多个特征，这些特征之间就具有一定的相关性。对于多个样本而言，个体与个体的特征之间具有相关性。如果样本随时间而变化，那么该样本在不同时刻的特征之间又具有相关性。因此，由于上述多个原因使得社会调查数据具有了复杂的相关性，传统的统计学调查难以解决这样的问题。

（2）离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到，所以社会调查数据一般以离散变量为主，且这些数据之间只有标示作用，并没有严格的逻辑关系。

（3）模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念，因此，它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点，所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性，如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时，因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高，所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析，其结果也存在大量的冗余。因此，我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中，使得结果更准确。

2 社会调查数据的建模

研究中我们发现，三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义：由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵，又称立体阵。Ak，i，j表示三维矩阵A的第k层，第i行，第j列上的元素。其中n，p，q分别表示三维矩阵的高度，厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型：单选题、多选题和排序题。这三类题目都可以表示成向量的形式，其中每一道单选题、多选题可以表示成一个向量，排序题可以表示成多个向量组成的矩阵。对于单选题和多选题，可以按选项的顺序可以表示成一个向量，其中选中的项用“1”表示，未选中的项用“0”表示。对于排序题，可以表示成一个n×n的方阵，其中n表示该排序题的选项个数，。这样，每一题就可以定义为空间中的一个维度，从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示（M为题目的最大选项数），其在每一维上的选择称之为一个元素，这样每份问卷的信息就包括了N个元素。以第1，2，3题数据为例，其中第1题为单选题选择“B”，用向量表示为一个元素，第2题为多选题选择“ACE”，用向量表示为一个元素，第3题为排序题顺序为CBADEFIHG，用矩阵表示，每一个列向量是一个元素，如图1所示。

那么，假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加，形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型，如图2所示。

在图2中我们看到，该三维矩阵数学模型有三个坐标轴，它们分别是题目，人数，选项。题目轴以每一道题为一个单位；人数轴以每一份问卷为一个单位；选项轴的刻度为A，B，C，D，E，F等题目选项，其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上，这样的三维矩阵具有以下性质。

（1）在题目轴中选取对应的题目，将三维矩阵面向竖切得到截面1（如图2中01所示），截面2表示每一道题所有人选择的信息。

（2）在人数轴中选取对应的人，将三维矩阵横切得到横截面1（如图2中02所示），横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后，可对它进行像素化处理，置1的元素用黑点代替，置0元素的则空白，在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影，这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度，可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度，筛选出浓度大于一定程度的点，在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质，可依据调查问卷的需求进行转置，加权、相乘、筛选等数学处理，另外在数学处理的基础上，采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容，是对图论的推广[3]。超图是有限集合的子系统，它是一个由顶点的集合V和超边集合E组成的二元对，超图的一条边可以有多个顶点的特性，这与一般的图有很大不同。超图分为有向超图与无向超图两类，在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况，先将这每一题的每一个选项设成一个节点，然后将三维矩阵从上向下投影，如果某一题的若干个选项同时被一个人选择，就用一条超边包围这些节点，那么选这些选项的人越多，投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息，可以进行聚类处理。

利用有向超图，可以将关联规则表示成有向超图的形式，在得到了关联规则后，设实际中得到的关联规则的形式为：，前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示，有向超边的头节点表示关联规则的前项，有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个，如此便成功表示了复合规则，从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出，减少挖掘资源的浪费，从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度，然后通过相似度进行聚类，这样的方法对于低维数据有良好的效果，但是对于高维数据却不能产生很好的聚类效果，因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图，数据点表示成超图的节点，数据点间的关系用超边的权重来表示。然后对超图进行分割，除去相应的超边使得权重大的超边中的点聚于一个类中，同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先，将数据点之间的关系转化为超图，数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值，则它们能构成一个频繁集，就将它们用一条超边连接，超边的权重就是这一频繁集的置信度，重复同样的方法就可以得超边和权重。

然后，在基础此上，通过超图分割实现数据的聚类。若设将数据分成k类，则就是对超图的k类分割，不断除去相应的超边，直到将数据分为k类，且每个分割中数据都密切相关为止，同时保持每次被除去的超边权重和最小，最终得到的分割就是聚类的结果。

数据分析方法篇5

企业数据分析编写过程中，常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际，对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法，是指将两个或两组以上的数据进行比较，分析它们的差异性，从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法，在企业数据分析中的应用十分普遍。它的特点是，通过比较分析，可以非常直观地看出企业某方面工作的变化或差距，并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中，企业数据的对比分析，一般有以下几种具体情况：

一是将企业当年的数据与历年（去年或前几年）的数据进行对比分析，目的是为了搞清楚与去年或前几年相比，企业某一方面或某些方面的发展变化情况。比如，某公司2006年利润100万元，2007年利润115万元，年增长率为15%。通过这种对比，我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然，在许多时候，这种对比分析不会局限在某一个数据，而是一组数据。比如，在对企业当年的利润与去年利润进行对比分析的同时，还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析，从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业（外单位、同行业平均水平）的数据进行对比分析，目的是为了搞清楚与外单位、同行业平均水平，本单位某一方面或各方面的发展水平处于什么样的位置，明确哪些指标是领先的，哪些指标是落后的，进而找出下一步发展的方向和目标。比如，2005年，某发电厂供电煤耗为340克/千瓦时，当年全国火电行业平均煤耗指标为310克/千瓦时，该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析，我们可以看出，该发电厂在能耗方面存在着比较突出问题，如何节能降耗应该成为企业下一步重点关注的一个工作内容，也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果，对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法，是指通过对某一个或几个数据在一定阶段的变化情况进行分析，从而发现该数据所代表事物的发展趋势和规律，并可进一步分析形成这种趋势的原因，为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法，在企业数据分析的编写中，主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察，进而得出趋势性的结论。

一般说来，对数据进行趋势分析的结果不外乎以下四种情况：

一是某项数据的变化呈逐年加大的趋势，称为上升趋势。比如某企业利润额：2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论：该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势，称为下降趋势。例某企业产品的市场占有率：2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论：该企业产品的市场占有率呈逐年下降的趋势，说明该产品的市场竞争力正在下降，企业应该对该产品进行升级换代，或者开发生产新的产品。

三是某项数据或上升或下降，每年都有较大变化，称为震荡趋势。比如某企业的经营成本：2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论：该企业每年的经营成本变化较大，呈震荡趋势，说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变，或变化很小，称为稳定趋势。例如某企业的人均产值：2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论：该企业的人均产值每年变化不大，呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹，对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法，就是通过分析数据的构成情况，即分析构成某一数据的各子数据的情况和权重，从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法，通过这一分析方法，有利于我们发现和把握事物的主要矛盾和矛盾的主要方面，对企业而言，可以据此确定工作重点或经营的主攻方向。

在实际工作中，当我们需要对企业的某一数据作深入分析时，常常需要用到结构分析法。例如我们分析某供电局利润的结构情况：2007年，企业利润为1000万元，其中主业占80%、三产占20%。这就是结构分析的方法，从中我们就可以清楚地知道，主业和三产对企业利润的贡献比例。在这个基础上，我们还可以作进一步的分析，在200万元的三产利润中：火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%，是发展三产的主力军。从供电局的角度而言，抓好三产工作，重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况，结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时，往往不是单一地使用一种数据分析方法，为了使数据分析更透彻、更深入，更多时候我们都需要采用综合分析的方法。所谓综合分析法，就是将以上两种或两种以上的分析方法结合起来使用，从而多角度、多层次地分析揭示数据的变化、趋势和结构情况，以增加数据分析的深度。

综合分析法在具体应用中，有以下几种情况：

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析，从而发现数据所代表事物的发展趋势、差别和关系，并可进一步分析原因，为企业领导决策提供依据和参考。比如，我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如，我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析，所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较，从而可以看出构成这两个或两组以上的数据的各种因素的差异性，以此剖析产生这种差异的原因，并提出相应的对策措施。比如，2006年，A供电局利润500万元，B供电局利润700万元。如果只采取对比分析的方法，我们获得的结论就是：“B供电局利润比A供电局多200万元”。结合结构分析：A供电局利润500万元中，主业为450万元，三产为50万元；B供电局利润700万元中，主业为560万元，三产为140万元。由此看出，A、B供电局在主业利润差距并不大，差距主要在三产上。因此，发展三产应成为A供电局利润增长的主要着力点。

数据分析方法篇6

统计应用作为数学的重要领域，在大多数情况下，数据被收集并且通过一定方法在系统中存储，重要策略被记录，并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成，大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争，使用财务管理的统计整合是提高有效管理效率，优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高，数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时，技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加，其在管理中的用途正在进一步扩大。显然，加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面：

（一）宏观经济方面发展有若干规律。为了寻找有关经济发展的规律，强大的数据分析技术在宏观经济学中的应用非常重要。一方面，大数据分析统计数据用于从宏观经济发展行业收集数据，对相关行业信息进行实证分析，并调查行业发展和行业问题。使用SPS，Stata和其他数据分析软件，中国拥有最重要的发展法；同时，发现工业发展规律，规范工业发展，开辟新的经济发展方式也很重要[1]。

（二）企业经营管理方面1.提升企业竞争力的必然要求当前，业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略，并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面，诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总，为业务管理决策提供有效的信息。同时，企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作，例如运营财务管理、规避财务风险，因此需要建立相关部门的统计数据，以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策，对促进行业发展至关重要。另一方面，如何获取有关复杂数据管理的重要信息，在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法，并使用大数据统计分析技术来分类和提供业务流程管理，隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况，管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法，以及业务管理、财务管理、风险管理和管理的六个方面。如：

（一）宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法，统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前，不仅学者，业务经理也开始了解计算机技术的使用，并开始通过统计分析来发现工业发展中的若干问题，学习工业发展的原理。为了找出答案，我们选择了相关的影响因素并采取了相应的行动，采取措施提高工业发展效率。

（二）企业运营管理方面通常，在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面，通过将统计信息应用于业务的运营和管理，公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源，避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的，则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

（三）企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此，消费者的热点必须与受管理的信息系统对齐，以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作，可以满足消费者的需求，替代市场上的非反应性产品和服务。同时，开发新产品和服务企业领导者可以提供有效的决策信息，并为消费者创建新的热点[3]。

（四）企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据（尤其是财务数据），进行定性和定量分析，帮助评估相关活动，例如商业投资。财务管理是开展业务必不可少的部分，这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析，可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

（五）企业人力资源管理方面将统计应用于公司的人力资源管理，并使用统计分析技术结合公司业务管理部门的特征，选择适当的方法来提高效率。人力资源管理很重要，人才基本上是企业的无形资产，在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求，动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

（六）企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析，发现隐藏的规则和数据差异。重要的是，业务主管需要进行预测，做出正确的决定，解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪，则需要找出业务流程中具有的某些规则，因此业务主管需要寻找更多异常条件，尤其是财务管理，要注意关注状态的变化。另一方面，对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中，我们将了解如何从六个方面分析大数据的统计数据：宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用：

（一）社会宏观经济层面尽管存在宏观经济法则，但根据过去的经验，由于缺乏安全可靠的数据和分析方法，宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会，大数据技术使用数据创建系统，而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是，某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战，可以提高宏观经济发展效率。

（二）企业经营管理层面在公司上载和数据受限的情况下，企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制，因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾，该公司可以调整其总体战略并进行业务变更以优化管理理念。

（三）行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司，其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质，分析社会经济状况，能够了解共同的业务条件和业务发展情况，并优化或区分劣质产品。在某些情况下，此更改是提高产品价格的高级更改，如果消耗量和消耗品减少，则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构，还在进行公司管理。但是，各个行业的业务方向取决于消费者的需求。换句话说，公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言，通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

（四）企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效，但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出，并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据，公司可以预测潜在的市场和行业风险，以提供最佳解决方案，还可以提供分析大数据的方法，可以跟踪异常并快速发现异常。

数据分析方法篇7

前言

智能化的电网正在全面地实施建设。随着以大数据为中心的IT技术的不断融入，当前我国的供电企业展开了大数据分析的研究，以便更好地使得大数据应用到整个配网的规划当中。此外，还要根据电网的实际数据情况，把数据应用到智能变电站的建立、智能电网的调度及供电信息的采集等各个方面。进而有效地提高我国供电企业的管理水平及处理业务的能力。然而，信息化新技术在应用的过程中也具有一定的风险因素，所以需要建立大数据的安全分析结构，进而对数据进行相应的处理并把安全分析方法应用到整个供电企业的信息系统中去，进而更好地为供电企业的数据安全提供保障。

1供电企业的信息完全风险分析

大数据作为供电企业的管理工具是一把双刃剑，给供电企业管理提供了便利，提高供电企业的管理水平和管理能力的同时，也给供电企业带来了一定的挑战和风险因素。使得企业数据处理、收集及传输的风险等级提高。若企业内部的数据出现问题，则会使得数据在进行传输的过程中被盗取和窃听，这给企业的管理带来了很大的风险。除此之外，企业在进行数据中进行一定的储存和利用的过程中，也会由于大数据系统的内部维护不到位而带了很大的风险。若企业的数据被长时间地窃听，就会使得不法分子有机可乘，采用各种方法来对数据后台进行攻击和试探，并寻找系统的薄弱之处。最后实行致命的攻击，并造成系统的瘫痪。所以，大数据给在方便企业的信息管理的同时，也带来了一定的信息安全挑战。

2供电企业信息安全大数据所面临的数据安全的需要

传统的电力信息系统逐渐地走向了信息化处理的进程，智能化的电网模式带给了供电企业信息系统数据安全更大的要求。每次进行数据的访问时，都需要确定数据的访问权限，并核实访问者的身份，并查看是否被授权。供电企业的数据信息需要被完整地保护，并保障其不被删除或者恶意的篡改。一旦供电企业发生一定的突发事件，需要大数据平台对数据进行自动的备份，并使数据得到安全的保护。④要采取一定的措施来保证供电企业的数据在运行过程中的安全性不被破坏。⑤要切实保证整个供电企业的信息系统的网络安全，控制供电企业信息系统的基础安全信息网络和供电企业内部比较重要的业务系统的安全。

3供电企业的信息安全大数据分析思路

当前供电企业内容的安全信息系统逐渐地向着对抗型的信息安全系统方式转变，并使得电力系统的大数据网络可以积极地应对外界的攻击。并对潜在的敌人进行分析和识别，并归纳总结当前的供电企业的信息安全大数据的风险类型，从而采取相应的对策，并先发制人，提高安全大数据系统的防御能力。这就是当前供电企业的信息安全大数据的分析思路。大数据的分析和挖掘技术需要不断地融入到大数据的安全分析中去，下图是大数据的安全结构分析思路。供电企业的信息安全大数据分析思路是基于技术的安全分析和理念，是至今为止比较完善的大数据安全分析办法，是供电企业大数据的核心环节，是对相对分散的信息进行采集并实现存储，并对其进行一定的分析，最后把其分析结果进行分发，把所有的安全分析体系结合在一起，并实现安全技术的互动。

4供电企业信息安全大数据安全分析结构的数据处理

供电企业的信息安全大数据的结构具体根据业务的不同分为不同的数据库进行处理。关系数据库是当前最丰富的数据库，是进行供电企业信息安全处理的主要形式。而数据仓库属于一种多维的数据结构，可以允许用户进行汇总级别的计算，并对数据进行观察。事务数据库中记录了每一个事务，并同时附带了一些相互关联的附加表。文本数据库是对图象进行描述的数据库，文本数据库与图书馆数据库类似。而多媒体数据库则是对图像以及音频和视频的存储，并用于存放内容的检索。供电企业的信息安全大数据的存储往往需要先确定好处理的目标，并对数据进行量化的处理，最后对数据进行一定的评估，最后进行结果的展示。将大量的数据进行集中化的处理可以切实地反映出安全数据的指标，并根据指标对安全数据进行相应的评估。

5供电企业信息安全大数据安全分析方法

当前，进行供电企业信息安全大数据安全分析的方法有很多，随着大数据的技术体系逐渐成熟，目前对安全数据的分析算法也变得多样化，很多分析方法比如分类技术方法、序列分析方法等等对大量的数据的分析具有很好的效果。而对于不同的数据库可以采用不同的分析算法进行分析。比如，当利用关系数据库和事务数据库时，就可以利用序列分析的办法进行数据的挖掘和统计；而数据仓库除了需要进行联机处理以外，还需要进行数据的挖掘；文本数据库则是利用模式匹配以及关联分析等方法相互结合来进行数据的挖掘分析。

6结论

针对供电企业的信息安全的大数据分析有很多的途径，在进行供电企业信息安全的大数据分析时，需要对供电企业的安全数据信息进行全面预测，并利用多种分析办法综合处理。随着当前大数据网络技术的不断发展，根据大数据的分析特点进行安全分析的办法也在不断地完善。基于信息安全的大数据分析方法和思路具有很大的发展前景，安全大数据技术的不断革新，使得供电企业的防护网络更加地发达，并逐渐实现了供电企业的大数据信息安全的评估系统的完善，使得供电企业的信息安全大数据发展更为迅速。

参考文献

数据分析方法篇8

（一）统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法，对所得的监测数据进行深度剖析，做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

（二）合理性分析

实际的环境监测中，影响环境要素变化的因素错综复杂，而有效的能用于综合分析的监测数据十分有限，所以我们需要考虑到各种环境要素之间的相互影响，以及监测项目之间的关系，理论结合实际全面分析数据的合理性，这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正，在科学化环境管理政策中，提高环境数据分析质量很有必要。在前人的研究工作基础之上，我们提出了以下几种方法来提高数据分析质量。

（一）加强审核

加强各项审核是提高环境监测数据分析质量的重要方法，它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时，我们的工作一般都是连续性的展开的，一年或是好几年，因此，我们可以建立一个动态的分析数据库，录入每次的监测数据，包括每个污染源的详细信息（污染点的地理位置和排放口的排污状况等），在以后的审核中，我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时，可以及时的发现并找到原因，这可以对污染应急事故的发生起到提前警示的作用。另外，在数据审核中，也要密切注意到同一水样、不同的分析项目之间的相关性，比如：同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等，这样也能及时发现数据分析中出现的误差。

（二）加强监督机制

通过调研我们发现，目前在传统的监测数据质量控制系统中依旧存在许多不足，我们可以通过引入反馈和交流机制，加强监督机制来有效提高数据分析的质量。首先，通过强化平面控制，在系统内部全面优化管理的模式，提高工作人员的分析技术水平，尽可能的减少或消除数据误差，以此来提高监测分析的准确性；其次，我们应该主动接受来自外界的监督，对于外界有异议的监测数据要进行反复的检测；再次，我们也应该多举办技术交流会，让技术人员可以与各级环境监测部门的人员沟通，学习他们的先进技术和方法，同时进行数据分析结果对比，找到自身的不足，发现问题并能及时更正。

（三）加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前，都应该根据实际环境情况来制定采样技术细则，做好采样控制，比如：需要校准仪器并确保仪器可以正常运转；使用的采样管和滤膜要正确安装，采样器干净整洁没有受到污染源的污染，其放置的位置也能满足采样要求等。采集好的样品，要妥善存放避免污染。如果样品不能及时进行检测，考虑到样品的稳定性，最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前，首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中，也应该根据各种仪器保养规定，对仪器定期进行维护和校验，确保仪器可以正常运转工作。其次，需要准确调配各种溶液，特别是标准溶液，配置时要使用合格的实验用蒸馏水。测试数据时，先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程，并对实验系统误差进行测验，每一步都不能少。

数据分析方法篇9

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2017）03-0104-02

1 综述

1.1 简介

在数字化时代，需要新一代系统架构提升业务创新能力。在新一代系统架构中，大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据，就成为业务创新成败的关键。这就要在搭建大数据平台时，就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全，提升大数据平台服务能力，让大数据平台变得易使用、易获得、高质量。

但是，目前很多技术解决方案存在诸多安全和效率隐患：业务系统多，监管力度大；数据量庞大且呈碎片化分布，急需提升大数据质量；数据格式不规范、难以在短时间内找到所需数据；数据在各阶段的应用角度不同，需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上，以实现用户集成处理、、清理、分析的一个统一的数据处理平台；按数据类别分为线数据、归档数据；按数据格式分为非结构化数据、结构化数据；按数据模型分类为范式化模型数据、维度模型数据；按数据采集频度分为非实时数据、准实时数据处理架构；并提供数据中心平台与安全管理方案，为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据，一般要求为秒级或速度更快。首先应当将数据进行区分：在线数据、或归档数据。本平台中采用：Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段，变成小批量时间间隔处理，Spark抽象一个持续的数据流称为DStream（离散流），一个DStream是RDD弹性分布式数据集的micro-batch微批次，RDD是分布式集合能够并行地被任何函数操作，也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据，处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用：Hadoop、Spark技术生态体系内的框架进行计算，这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段，即使具备字段其长度也不固定，并且字段的又可是由可不可重复和重复的子字段组成，不仅可以包含结构化数据，更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取，这项工作目前仍依赖技术员进行操作，由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中，需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务，以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构，通常可以转换后最终用二维的结构的数据，并且其字段的含义明确，是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现，而非Hadoop的基于Java的Map-Reduce机制，将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作，为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为：非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身，但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询，但数据的再处理度不高，具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架，Redis作为高速缓存去缓存数据热区，减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用，时效性较低。通常用于数据的深度利用和挖掘，例如：因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为：范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式，通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区，建议使用并行MPP数据库集群，既具备关系型数据库的优点，又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术，而在大数据和开源框架的时代下，本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式，而是参考了MPP并行数据库的思想另起炉灶，省掉不必要的shuffle、sort等开销，使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用，以2016年在某银行的应用案例为例：该银行已完成数据仓库建设，但众多数据质量问题严重影响了数据应用的效果，以不同的数据存储方式，以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施，以元数据、数据标准、数据质量平台为支撑，实现了数据管控在50多个分支，60个局，1000余处的全面推广，实现了全行的覆盖；管理了120个系统和数据仓库，显著提升了新系统的快速接入能力；通过14个数据规范和流程明确了数据管控的分工；数据考核机制的实施，使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路，从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

数据分析方法篇10

中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相关分析法是在分析某个问题或指标时，将与该问题或指标相关的其他问题或指标进行对比，分析其相互关系或相关程度的一种分析方法，用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数，发现专业课程之间的相关度，对数据仓库中的数据进行约简［1］.

1 相关分析

1.1 相关分析概述［2］

相关分析（Correlation Analysis）是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系.例如，教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等［3］.

相关系数值为-1（完全负相关关系）～+1（完全正相关关系）之间，相关系数为0时，表示不存在相关关系.例：

正相关：学生的学习能力与学习成绩的关系；

负相关：教师的身体状况与缺勤率的关系；

零相关：教师的身高与教学能力的关系.

Pearson相关用于双变量正态分布的资料，其相关系数称为积矩相关系数（Coefficient of Product-Moment Correlation）.进行相关分析时，我们一般会同时对2变量绘制散点图，以更直观地考察2变量之间的相互变化关系［4］.

用Flag Significant Correlations 进行显著性检验，标出有显著性意义的相关系数，用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数；用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数［5］.

1.2 相关分析的表示方法

进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析，计算法则是根据不同类型的数据，选择不同的计算方法求出相关系数来进行相关分析.

1.2.1 图示法

图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是：以横轴表示2个变量中的1个变量（作为自变量），以纵轴表示另一个变量（作为因变量）.将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中，通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.

相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多，手工绘制的过程既费时，又不够精确.

1.2.2 计算法

相关系数也称为相关量，是用来描述变量之间变化方向和密切程度的数字特征量，一般用r表示.它的数值范围在－1到+1之间，它的正负号反映变量之间变化的方向；它的绝对值的大小反映变量之间关系的密切程度.

根据2个变量变化的密切程度，我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关［6］.

完全相关：│r│=1的相关；

高度相关或强相关：0.7≤│r│＜1的相关；

中度相关：0.4≤│r│＜0.7的相关；

低度相关或弱相关：│r│＜0.4的相关.

1.3 Pearson相关

Pearson相关也称积差相关，积差相关也称积矩相关，是英国统计学家Rearson提出的一种计算直线相关的方法，因而又称为Rearson相关［6-7］.

积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商［8］.

1.3.1 Pearson相关的使用条件

1) 2个变量之间是线性关系，都是连续数据；

2) 2个变量的总体是正态分布，或接近正态的单峰分布；

3) 2个变量的观测值是成对的，每对观测值之间相互独立.

1.3.2 Pearson相关的计算公式

r=∑ZXZYn=∑X－Y－nσXσY.

式中，[ZK（]n表示数据的对数；σX，σY分别表示X和Y变量的样本标准差；[JP]，分别表示X和Y变量的样本平均数.[ZK）]

对于学生成绩，其课程总体分布接近正态分布，满足Pearson相关的使用条件.在统计软件SPSS中，可以很方便地得出2变量之间的Pearson相关系数.[JP]

2 用相关分析法进行数据约简

2.1 学生成绩数据仓库的建立

数据选择上，主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩，收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级［9］，即：

成绩>=80“A”; 70=

2.2 用相关分析法进行数据约简

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间，这就常常使得这样分析变得不现实和不可行，尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘，显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同［10］.

数据约简并不是一个新的领域，现在已经提出了很多理论和方法，如：层次分析法，主成分分析法，随机抽样、免疫算法等.本研究根据实际需要，提出将相关分析方法应用于学生成绩的属性约简，即方便快捷又不失理论性.

在SPSS软件中，画出计算机专业课高等数学成绩的直方图，如图1.

用同样的方法，可以画出其他计算机专业课如C语言、数据结构等的直方图，可以看出，我们所建立的数据仓库中，学生计算机专业课程成绩基本上符合正态分布，满足Pearson相关的使用条件.

我们用双变量相关分析技术来分析相关课程之间的关联程度，并做出统计学推断，以最少的数据量反映最大的信息量，进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性，选择相关性强的属性而不直接利用数据库中的所有属性，从而减少大量冗余属性，以提高算法的效率.

在SPSS中进行课程间Pearson相关系数分析，得到计算机专业课程相关系数分析表如表1.

1：表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率（Sig.(2-tailed)）、样本个数（N）.“*”标记在α=0.05水平上有显著性意义的相关系数；用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数；

2：相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较，如果它大于0.05，说明平均值在大于5%的几率上是相等的，而在小于95%的几率上不相等；如果它小于0.05，说明平均值在小于5%的几率上是相等的，而在大于95%的几率上不相等；如C语言与数据结构的Sig是0，此数值说明C语言与数据结构有显著的线性关系（因为Sig0.05，则说明两变量之间没有明显的线性关系）.

由表1可以看出，同一门课程之间的Pearson相关系数为1，是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283，C语言与数据结构之间的Pearson相关系数为0.281，数据结构与数据库系统原理之间的Pearson相关系数为0.565，并且都有“*”标记，由此可以推断这4组课程之间有显著性意义的相关性.

3 结语

用相关分析技术对数据库进行约简，结果表明：线性代数、计算机导论及Pascal语言等多个因素相关性较弱；而C语言、数据结构、高等数学及数据库系统原理之间相关性较强，根据数据库约简原则，可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除，以便提高数据挖掘效率.

参考文献:

［1］段西凌，甘开鹏.数据挖掘在人口普查信息系统中的应用［J］.云南民族大学学报：自然科学版，2006,15（2）：170-172.

［2］茆诗松．统计手册［M］．北京：科学出版社，2003.

［3］TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用［M］. 邝祝芳，焦贤龙，高升，译.北京：清华大学出版社，2007.

［4］王艳.数据挖掘中关联规则的探讨［J］.成都信息工程学院学报，2004，19（2）：173.

［5］张儒良，王翰虎.论数据挖掘优化教学管理［J］.贵州民族学院学报，2004：133.

［6］赵辉.数据挖掘技术在学生成绩中分析中的应用［D］.大连：大连海事大学，2007.

［7］王月敏.基于遗传算法的智能组卷系统研究［J］.云南民族大学学报：自然科学版，2009，18（2）：173-176.

［8］刘利锋，吴孟达. 关联规则的快速提取算法［J］.计算机工程.2008，34(5)：63-65.

［9］李萍，段富.数据挖掘中数据约简的研究与应用［J］.微计算机应用.2009，25（2）：58-60.[ZK)]

［10］[ZK(#]蔡勇，韩永国，刘自伟.数据挖掘技术在生源分析中的应用研究［J］.计算机应用研究.2004，32（6）：48-51.

数据分析方法篇11

中图分类号V2 文献标识码 A 文章编号 1674-6708（2014）123-0164-02

当飞机处于某种特殊气动弹性耦合效应下的时候，就会出现抖振的随机振动现象，如果战斗机处于大攻角飞行姿态，通常需要承载一定量的抖振载荷，这会直接导致飞机内部部件的疲劳损伤，使得飞机发生飞行安全事故的概率大大增加，在目前的处理方式中，主要是在飞机制造之后，如果发现存在抖振问题，会对设计进行适当的修改，或者是采取抑制减缓措施，这会导致耗费大量的时间与经费，在飞机的研发周期中采取有效的措施减少其抖振问题非常的必要，这就需要在飞机设计、风洞模型试验、飞机试飞几个阶段做好抖振响应数据的处理工作，本文就主要对此予以简单分析探讨。

1 抖振响应数据的预处理工作

飞机在发生抖振时，其会产生抖振响应数据，对这些数据在处理的时候，为了防止发生静态响应影响数据处理的结果，需要对飞机各种飞行状态下的抖振响应数据进行去除均值的预处理，一般情况下，为了方便叙述，会将飞机不同飞行状态下的数据依据时间顺序依次进行存放，其中一个飞行状态之下的抖振响应数据称作数据仓，选随机选择一个飞行姿态喜爱的抖振响应数据仓，根据合理的时间间隔，将数据仓内的数据进行划分，可以分为多个子数据块，然后逐一进行编号，表示为：1，2，…，N，应用这种方法获取的数据块中包含n个数据点，为了使分辨率得到保证，临近的子数据块之间相互重叠的部分应该达到百分之五十以上。

首先对子数据块内的数据进行预处理，并简单进行分析，形成第i个子数据模块响应数据序列，即：yi1，yi2，…，yin，i=1，2，…，N，n表示的含义是：数据点的数量。然后对第i个子数据块中的数据平均方根值进行计算，将其表示为：RMSi（i=1，2，…，N），其计算公式如下式所示：

之所以要对其均方根值进行计算，主要是为了进行响应数据的无量纲化处理，对于定位样本的关键状态具有积极的作用。然后要对第i个子数据块的一组峰值进行搜索，并要获得第i个子数据块中第j个峰值与该子数据模块RMSi的比值，实现统计量的无量纲化。

其次对其给定飞行状态的样本数据预处理进行简单分析，其预处理流程主要表现为：（1）形成数据仓的RMS序列；（2）对数据仓中各个子数据块的RMS值的均方根进行计算，记做RSS；（3）获得给定飞行状态下第i个子数据块的RMSi与RSS的比值，实现其统计量的无量纲化。

2 子数据模块的数据统计方法

首先分析子数据块统计量的概率模型，由机抖动响应具有一定的随机性，尤其是具有明显的分散性，所以在对其响应数据进行处理的过程中，采用适当的统计学方法建立模型，在上文数据处理方法的基础上，建立概率分布表模型。因为得到的子数据块的时间很短，可以假设其中的数据来自于同一个总体，并且能够保持相互独立，那么可以选择总体Zi的样本为：Zi1，Zi2，…，Zin，在抖振响应峰值特性的概率分布模型的描述中，常用的有：Gumbel分布与威布尔分布，应用威尔分布对第i个子数据块Zi进行假设，那么其概率密度可以用下式来进行表示：

其中，f（Zi）表示的含义是：Zi的概率密度函数，Gi表示的含义是：威尔分布的大小尺度因子；Bi表示的含义是：威尔分布的形状因子。那么可以将其概率分布函数表示为：

其次，简单分析子数据模块统计学量分布参数，本次研究中，对于其分布参数估计应用最大似然估计，建立起威布尔分布的似然函数，并应用相关的参数估计方法，得到其简化之后的威布尔似然函数值为：

然后对似然函数取对数，并应用迭代法对相关数值进行求解，就能够得到最大似然参数估计量的值。

最后应用χ2拟合检验法来对子数据块中数据是否符合威布尔分布进行检验，根据上文中的样本观察值及最大似然参数等，来对总体分布假设进行检验。

3 数据仓RMS值的分布统计方法

为了分析给定飞行状态下的数据仓分布规律，依据上文研究的结果，进一步进行研究，在编制飞机抖振疲劳谱的时候，要得到对应的飞行状态，以此为基础获取疲劳荷载值及疲劳寿命，最后校核飞机抖振强度，在此过程中，还需要找到飞机的关键状态，尤其是其运行过程中的极限状态，在给定的飞行状态下，对其数据仓RMS分布进行分析主要是为了确对几个关键的RMS水平进行确定，并在相应的子数据模块中对其进行定位，再结合其响应模型进行响应分布的分析，这能够保证其很好的满足后续工作的需求，通过对给定飞行状态下数据仓RMS值分布进行统计分析，再结合飞机抖振应用背景及以往的工程实践经验，可以对其相应数据应用经验步进函数来进行描述，就能够很好的满足抖振寿命估计、抖振疲劳谱编制、抖振强度校核等工作要求，这对机抖振响应数据分析处理质量及工作效率的提升都具有非常重要的作用。

4 结论

飞机抖振响应数据具有随机分布的特点，并且具有鲜明的分散性，在对其进行处理时具有较大难度，飞机长期处于抖振载荷之下，会对其部件产生较大影响，容易导致安全事故的发生，本文就结合其抖振响应数据的实际特点，提出了一种统计模型分析法，并对其分析方法中的关键步骤进行了简单分析，对机抖振响应数据的处理分析具有一定的参考作用。

数据分析方法篇12

在探究中我们会收集到很多数据，我们可以把收集到的数据运用数学运算方法，得出各数量之间的关系。例如六上《杠杆的科学》一课中，学生通过实验得到了以下数据：

杠杆的科学

阻力点情况用力点情况

教师引导学生分别比较阻力点与用力点的钩码数和格子数，发现杠杆平衡时每组数据都是用力点的钩码数与格子数的积等于阻力点的钩码数与距离的积，教师利用数据之间的等量关系，帮助学生很好掌握了杠杆平衡的规律。

二、对比分析法

对比是常用的思维方法。在探究活动中，教师可以通过有意识控制一定的条件，让学生观察数据在不同情况的表现，找到它们之间的不同点和共同点，从而揭示事物的本质和现象。如在五下《摆的研究》一课中，针对摆的快慢与哪些因素有关这一问题，让学生利用三个钩码和三根长度不同的摆绳进行实验并采集了以下数据：

15秒摆动次数记录表

引导学生比较数据，可以得出这样的结论：在摆绳长度相同时，摆的快慢与摆重无关；在摆的重量相同时，摆线越长，摆的速度越慢。学生在数据的比较中，发现了摆的特点。

三、示意图分析法

示意图分析法是指利用简单的图和形，把实验采集的数据，绘制成简明的图形，用来说明所研究对象量与量之间关系的一种方法。如六上《下沉的物体会受到水的浮力吗》一课，学生采集了以下数据（见下表）：

下教师让学生用示意图，将重力和浮力之间的关系，用图示方法（见上图）画出，并附上简单的文字说明，然后利用示意图解释石块在水下沉的原因。在这里，教师用示意图搭建数据与概念之间的桥梁，把抽象的力之间的关系用直观的手段表现出来，帮助学生理解石块下沉的原因，突破了学生学习上的难点。

示意图直观，形象和简捷，通过示意图来分析数据，既有利于学生对知识的理解和记忆，又可以提高学生的学习兴趣，提升学生的学习能力及情感、态度和价值观等方面的素养。

四、图表图像法

图表图像法是结合数据与图形之间的密切关系，形象地表达数据趋势和规律的一种方法。在六上《抵抗弯曲》一课中，探究 “纸的抗弯曲能力和什么有关” 这个问题时，学生通过实验来获得纸在不同宽度和不同厚度时承受压力（垫圈个数）的数据。（见下表）

教师利用“折线统计图” 将上面的数据用统计图表示如下：

在完成图表和图像后，让学生结合表格中的数据观察折线图，在图上清晰看到了纸的宽度和厚度的抗弯曲能力，同时对纸的厚度更能影响纸的抗弯曲能力有了更直观的认识。在这里，教师利用统计图，引导学生比较纸的宽度和厚度的抗弯曲能力，方法巧妙，目标清晰，学生对概念的印象也深刻。

五、推理分析法

数据推理方法是运用数学思想，通过推导、分析一组已知数据，来判断、推测与它对应数值的一种分析方法。如五上《我们的小缆车》中，一小组在2、4、6个垫圈拉力时，测得小车运行时间分别为2.5秒、1.8秒和1.2秒，教师引导提问：“推测一下，你们的小缆车在8个垫圈的时候，速度大概是多少？并说说理由。”学生：“我们认为8个垫圈应该在0.6秒左右。”教师：“说说理由。”学生：“因为我们组2个垫圈是2.5秒，4个垫圈是1.8秒，6个垫圈是1.2秒，增加2个垫圈，时间减少0.6秒左右，所以我们估计8个垫圈在0.6秒左右。”教师：“那你们能不能利用刚才的实验装置来验证一下你们的猜测？”学生：“可以。”

……

在上述案例中，学生根据自己的实验数据，通过对相邻数据的连续观察，发现其中的一些科学规律，经过分析、推敲，得出一个可能的稻荨T谡飧龉程中，教师引导学生运用推理方法分析数据，不仅加深了学生对力与运动的进一步认识，而且提高了儿童的思维能力和探究能力。

上面所说的是一些科学探究活动中常用的数据分析方法。事实上，对科学探究中的实验数据进行分析、处理的方法很多。只有根据具体的实际情况，引导学生选择恰当的方法对实验数据进行合理处理，才能快速发现规律，得出科学的结论，形成科学概念。科学探究的过程是曲折的，在科学探究的路上，从一堆数据中找出规律来，有的要花费科学家毕生的精力，甚至需要一代又一代的不懈努力。我们在引导学生进行探究活动时，不能只为完成教学任务，急功近利，应多在引导学生分析数据上下功夫，真正让学生体会到科学探究的艰辛和乐趣。

参考文献：