数据分析的统计学基础合集12篇

时间:2023-08-27 15:11:09

数据分析的统计学基础

数据分析的统计学基础篇1

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)43-0101-03

一、研究背景

自2002年桂林理工大学在广西开办了第一个统计学本科专业以来,针对当时理学学位的统计学专业培养的学生虽然数理基础相对扎实,但普遍统计思想不够,实际应用能力较弱的现状和特点,对统计学专业进行了全方位的改革研究,确立了"数学与统计学相融,从培养学生扎实的数理基础和极强的统计分析应用能力有机相结合的理念出发,构建了新的课程体系和教学内容,取得了系列研究成果。2009年研究成果开创“应用性、实验性、案例性”一体化的统计学专业课程体系和教学模式,获得广西高等教育自治区级教学成果二等奖[1],并在其后分别把统计学学科建成广西重点学科和广西高等学校优势特色专业,以及把应用统计实验室建成广西高等学校重点实验室。

虽然我校统计学专业的教学改革和建设取得了许多成果,但近几年,我们也逐渐感觉到在大数据新形势下,我校应用统计学专业的教学体系还有一些不适应的地方,且某些问题还有日益凸显的趋势,我们原来的某些研究成果已不再适应新时代的要求,这就迫使我们继续进行改革研究,探讨在大数据背景的新形势下,如何培养统计学专业复合型和应用型人才,如何准确把握统计学的发展方向与发展形势,如何调整人才培养模式,如何调整相关课程和课程内容,以培养适应大数据背景下社会经济发展需要的统计学专业人才。

许多国家越来越重视数据在大数据时代重要作用,我国也不例外,2012年9月,国家统计局第7次局务会提出,尽快开展在政府统计中应用大数据的研究。2013年可以看作是我国政府统计之大数据元年。2015年9月《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)[2]颁布,标志着我国正逐步进入大数据建设的新时代,为此,国家统计局积极推动大数据在各方面的应用与实践。而大数据的核心是数据,应用统计学学科是与数据分析处理联系最为紧密的应用性学科,因此,应用统计学专业的教学体系应顺应大数据发展的趋势。在大数据背景下,应用统计学专业在继承传统数据分析技术的基础上,对所需的数据处理技能提出的需求更高了。这就是说,大数据对应用统计学的培养目标,以及教学内容等的冲击无疑是最大且不可避免的,这给应用统计学专业带来了巨大的挑战,同时也为应用统计学学科的发展带来了前所未有的机遇。

大数据逼迫人们改变分析、处理数据的手段、思维和理念,这就逼迫应用统计学专业改革必须引入新手段、新思维和新理念。培养应用统计学人才必须与时俱进,才能不断适应大数据新时代的要求,这关系到应用统计学专业培养的人才能否适应和满足社会的需求,因此,这一研究是十分必要、十分迫切且有着重要的理论和实际应用意义。

数据分析的统计学基础篇2

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)13-0054-02

大数据时代给社会经济发展带来了机遇和挑战,社会各行各业对数据分析需求大幅上升,需要借助数据分析实现数据的增值,挖掘数据背后的潜在价值,为其经营管理决策、投资决策提供智力支持。随着社会经济发展对具有数据管理和数据分析能力的应用创新型经济管理人才的需求逐渐攀升,也引发了对高校经管类专业学生能力的更高要求。面对纷繁复杂的社会经济环境,经管类专业学生必须能够广泛应用定量分析技术,能够从海量数据中获取有效数据,运用科学的方法从这些数据中提取出有用信息,建立相应的模型,作出最优决策。

统计学是培养经管类专业学生定量分析能力的一门重要课程,是众多高等院校经管类专业的专业基础必修课,是以后深入学习相关定量方法类课程(诸如计量经济学、管理运筹学、市场调查与预测等)的基础。因此,统计学课程体系设置是否合理,将直接影响到学生获取有效数据和分析数据应用能力的培养,进而影响学生定量分析能力的培养。

一、经管类专业统计学课程体系存在的问题

1.课程教学定位模糊。我国高等院校经管类专业统计学教学中的最大弊端在于一直按照前苏联划分方式将其归类为一门偏重于简单数据整理课程,而将相应的统计分析所采用方法和理论归为数理统计,因此在教学中不重视对后者的学习。然而,西方发达国家的统计学课程是同时包括这两个部分内容的,尤其是后一个部分内容是定量分析的重要基础。因此,在传统统计学教学定位下,学生只认识了基本理论与概念,却掌握不了处理和分析数据的能力,这与经管类专业应用型人才培养目标相背离,难以适应大数据时代社会各领域对经济管理人才素质的新需求。

2.课程体系有待完善,与经管类专业融合不够。目前,大多数高等院校经管类专业统计学课程设置只涉及理论统计学这一领域,未将统计分析方法与相关经管类专业知识有机结合。在这样的课程体系安排下,学生虽然掌握了统计基本理论和方法,但难以体会到统计在本专业学习中的应用价值,当面临现实的经济、管理问题却无能为力,不会运用所学统计方法,结合专业知识对实际问题进行定量分析。这种状况与经管类人才定量分析能力培养目的相违背,难以实现具有创新能力的经管类人才的培养目标。

因此,如能结合经管类专业特点,对统计学的课程体系进行优化建设,势必能够培养出具有定量分析技能,满足社会需求和企业需求,符合大数据时代人才素质要求的经济管理人才。

二、大数据时代经管类专业统计学课程体系构建

1.明确课程教学定位。目前,统计学教学中偏重于统计学基本概念、基本模型和基本方法的理论知识学习,系统性较强,有利于学生全面了解统计学的知识体系,但是对统计思维能力的培养和统计方法的应用重视不够,这不仅会让学生望而生畏,从而失去学习的主动性与积极性,更为重要的是学生不能够学以致用,在自己本专业深入学习过程中不会运用统计学知识来解决实际的经济管理问题,而在教与学中出现的这些问题源头在于教学定位不够准确。因此,本文提出新的课程教学定位:以应用创新型人才培养为导向,提高经管类专业学生定量分析能力为目标,结合经济学科和管理学科的特点,通过统计学的理论教学、案例分析、课程设计、实验(践)等教学环节,培养学生统计思维能力和统计应用能力,具备运用统计学理论与方法,研究社会经济管理领域有关数据收集、整理、分析等解决实际问题的综合能力,以适应大数据时代对经济管理人才的新需求。

2.课程体系优化建设。根据新的教学定位,统计学课程体系优化建设的基本思路:一是课程体系设置要强调基础知识、注重灵活应用、突出定量分析的教学理念和教学目标;二是课程结构上,突出专业针对性,强调统计学科和经济学科、管理学科的有机结合,使课程特色化;三是建立实践教学体系,加强学生实践能力的锻炼,为学生提供综合素质和能力提高的实训平台;四是将统计分析软件的运用融入到课程体系之中,加强统计分析软件的技能培养。

因此,本文将运用模块化系统集成思想,根据经济与管理类各专业的要求,提出按专业分模块,按模块分层次,按层次定内容的改革方案,构建“课程体系课程子系统课程模块具体内容”的递阶控制结构模型,具体如图1所示。

在统计学课程体系优化建设中,我们运用系统科学的方法构建出模块化、层次化集成的课程体系在整体功能上达到了最佳状态。

课程基础子系统是统计学理论基础和统计思维培养阶段,由统计学基本原理和基本理论构成,体现了“厚基础”的功能。课程应用子系统和课程案例子系统是统计分析能力训练阶段,首先结合认知性案例模块系统介绍统计分析方法,让经管类专业学生了解统计分析方法的基本原理,其次进一步结合专业特色案例模块和统计分析软件模块,通过分专业教学方式,使不同专业学生能够体会到统计学在本专业中的应用,增强学生的学习兴趣,体现了“强能力”的功能。课程实践子系统是统计应用能力实践阶段,是培养大数据时代应用型经管人才的重要环节。课程实践主要包括课堂实践和实验室模拟,课外实践主要包括社会实践活动、实训实习和相关竞赛,通过课程实践和课外实践两大平台训练学生运用所学统计调查、统计整理和统计分析等知识解决实际问题的综合能力。课程选修子系统是统计应用能力扩展阶段,该阶段在学生掌握统计学相关知识的基础上,通过选修统计预测与统计决策两大模块,进一步培养学生的定量分析能力。

三、结束语

大数据时代经管类专业统计学课程体系构建,应注重强化基础理论,突出知识的实用性和创新性,做到统计知识与实例分析相结合,与软件应用相结合,理论教学与实践教学相结合,与实际应用相结合。根据经管类各专业特色,以“知识+能力+应用”模式进行模块化、层次化课程体系设置,从本质上提升学生的数据素养和信息素养,提高解决实际问题的定量分析能力,以适应大数据时代对人才素质的新需求,使具有数据管理和数据分析能力的经济管理人才在就业市场上更具有竞争力。

参考文献:

[1]孙根年.课程体系优化的系统观及系统方法[J].高等教育研究,2001,(2).

[2]曾五一,肖红中、庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2012,(2).

[3]姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究(成都),2012,(3).

数据分析的统计学基础篇3

㈠根据《国务院对确需保留的行政审批项目设定行政许可的决定》(国务院第412号令)、《统计从业资格认定办法》(国家统计局第10号令)精神以及广东省统计局的相关安排,*年9月21日进行统计从业资格考试,考试科目为:《统计基础知识与统计实务》和《统计法基础知识》两科。

㈡要加大培训工作力度,扩大规模,进一步提高统计人员的业务素质,使更多的统计人员通过培训获得统计从业资格。培训对象为:不具备统计从业资格的在岗专(兼)职统计人员和有志于从事统计工作的人员。

㈢实行考、培分开原则,统计从业资格承办单位不得组织相关培训。

二、统计人员继续教育

*年我市统计专业继续教育主要开展以下项目:

㈠统计电算化培训—马克威软件与当代数据分析

马克威分析系统是中国第一套完全自主知识产权的大型统计分析和数据挖掘系统,是一套用于数据分析和决策支持的全中文软件系统,它由六大功能模块组成:数据输入、数据处理、统计分析、数据挖掘、统计制图和电子报表。课程重点介绍如何使用马克威系统2.0版进行数据处理及基础统计分析。

经培训考试合格者,同时发教育部考试中心印制的全国计算机应用技术证书。

㈡社会经济调查方法与实务

本课程主要介绍:1.社会经济调查的基本理论,包括调查方案设计、调查主体、调查客体、调查对象、调查法则与工具、调查结果的形成等;2.社会经济调查实际工作的基本内容和工作程序,包括二手资料收集、访谈调查的实施技巧、观察与试验方法。

㈢调查分析基本技能

本课程主要介绍调查数据分析的基本技能:包括调查数据的基本概念、基本分析方法,以及各种分析方法的原理、作用、运用条件、计算过程、计算步骤。具体内容包括调查数据的收集和调查数据整理以及调查数据的描述分析方法。

㈣调查报告写作

本课程通过将统计、写作和新闻三方面的基础知识合为一体,介绍调查报告写作和统计新闻写作的基本知识和技巧。

㈤基层统计报表实务

本课程主要介绍国民经济一些主要行业常用的统计报表制度及其部分统计报表实务。适合刚从事统计工作的统计人员学习。

根据人事部、国家统计局联合印发的《统计专业技术人员继续教育暂行规定》(人发〔*〕52号文)和《统计从业资格认定办法》第二十二条规定,对取得统计从业资格的人员实行统计专业继续教育。

三、统计人员学历教育

㈠自考本科、大专调查与分析专业(调查分析师证书)

调查分析师证书课程包括:1.初级证书:社会经济调查方法与实务、调查分析基本技能、调查报告写作;2.中级证书:消费者行为学、抽样技术(二)、调查数据分析、调查概论、市场调查实务;3.高级证书:市场分析方法、预测与决策、经济计量分析、商务统计。

全部课程成绩合格者,发教育部考试中心、国家统计局统计教育中心共同印制的调查分析师证书。

本科调查与分析专业课程除包含中级调查分析师课程外,还有思想概论、政治经济学(财经类)、英语(二)、管理系统中计算机应用、管理经济学、市场营销学等七门课程。

12门课程考试合格,并通过论文答辩,思想品德经鉴定符合要求者,发给广东省自学考试委员会、暨南大学本科毕业证。达到国家规定的学位条件的,授予经济学学士学位。

专科调查与分析专业课程除包含初级调查分析师课程外,还有马克思主义哲学原理、邓小平理论概论、法律基础与思想道德修养、计算机应用基础、经济数学、调查法规、现场调查组织与管理、调查方案设计、问卷设计、访问技巧、宏观经济指标分析、抽样调查案例等十二门。

㈡开放教育本科经济学专业(经济分析方向)

主要课程有:必修课:英语Ⅱ(1)(2)、计算机应用基础、西方经济学(本)、国民经济核算、国际经济学、金融学、财政学、投资分析、产业经济学、社会主义市场经济理论与实践专题、经济案例分析。

选修课:市场调查、经济法规概论、工商管理统计、基础会计、公共经济学、经济学说史、应用经济计量学、马克威分析软件、财务报表分析、现代金融业务、资产评估。

达到最低毕业学分(71学分),思想品德经鉴定符合要求者,发给国家承认学历的本科毕业证书。符合学位申请条件的毕业生,可申请首都经济贸易大学经济学学士学位。

四、其他培训

数据分析的统计学基础篇4

统计的研究对象是大量社会经济现象总体的数量方面,可以说统计就是研究量的,大数据时代恰恰是以数据为中心的,所以说统计人员必须学会用数据去思考问题。如何适应大数据时展的要求,如何在这样的背景下对统计学教学进行改革,是急需解决的问题。除了普查这种调查方式以外,许多传统的统计方法都是基于小样本数据而建立起来的,因此它并不适用于大数据分析的需要。在如今这样的大数据时代,这些传统内容的相对重要性也会随之发生改变。比如,传统统计的数据搜集,通常是根据研究目的,在已知来源的数据当中搜集,记录者的身份是确定的,而大数据时代,数据的来源是很难追溯的,而且对记录者的身份也很难确定。再如,传统的抽样推断是在概率保证的前提之下,以分布理论为基础,用样本的特征推断总体特征的,而在大数据背景下,分布状况是实际的,判断也是基于总体特征进行的。

二、大数据时代下的传统统计教学必要性分析

大数据一词是由统计学家提出来的,可见大数据与统计渊源甚深。目前大数据时代致使统计学的教学内容发生了重大改变,但是其中最基本的原理保持不变,因此在统计学的教学过程中,要能够让学生应用基本原理进行新的教学内容的理解。在教学过程中要能够采取理论与实际并重的教学模式,将基础理论以及实际应用进行紧密的结合。大数据虽然对传统的统计教学产生了近乎颠覆性的影响,但并不是所有的问题都有海量的数据,不是说传统的统计理论和方法就不能用了,也不是所有的数据问题都适合用现有的大数据处理技术来处理。

(一)统计基础理论的重要性

在教学过程中,理论教学的作用非常重要。应该强调统计学理论基础,并分析基本理论在实践当中的应用。虽然一些统计学中的概念在大数据背景下变得不再是普遍性问题,比如样本的概念。但是在淡化了类似样本和总体概念的同时,似是模糊了抽样推断这一传统统计分析方法,但事实上却是强调了归纳,本质来说仍是推断(归纳推断)。

(二)传统统计调查、整理方法的重要性

传统统计学在数据搜集、模型的选择方面,有相当的独特之处。虽然已经进入了大数据的时代,但是并不是所有的问题都有海量的数据。传统的统计数据搜集、整理的方法仍然适用,因此,相关知识的传统统计教学十分重要。

(三)传统统计分析方法的重要性

数据分析的统计学基础篇5

0 引言

我国从1965年开始修建地铁以来,城市轨道交通建设的规模不断扩大[1]。40多年虽然已完成数量巨大的工程地质勘察及轨道项目建设,但在项目中产生出的大量规划资料、基础地质勘察资料等的城市轨道基础地理信息,相当部分处在一种分散使用、分散保管、甚至大量遗弃的状态;此外,目前对城市轨道交通基础地理信息的存储管理还是以文字、图纸、图表为主的传统管理,查阅不便,尤其在处理大量工程数据时更是难以下手。因此,必须有一套现代的信息管理系统与之配套,而地理信息系统技术的发展为此提供了一种恰当和实用的工具。

地理信息系统(GeographicalInformationSys-tem,简为GIS)是20世纪60年代开始迅速发展起来的地理学研究技术,是多种学科交叉的产物。近年来,地理信息系统在全球得到空前迅速的发展,成为实现现代化科学管理的高新技术。它被广泛地应用到城市规划、城市地下管网管理、城市交通、社会服务等方面。GIS具有处理海量数据的存储、进行复杂的逻辑运算和数据挖掘的功能,同时也是实现空间图形显示与空间信息查询、分析的有效工具。利用GIS的数据输入、存贮、检索、显示和综合分析应用等功能[2-3],将轨道交通基础数据的空间信息与其相关的属性信息结合,能够实现城市轨道交通基础地理信息检索、统计、分析、修改、打印等,为城市轨道交通基础地理信息提供快速、准确的现代化管理手段;此外,城市轨道交通基础数据中有大量的工程地质数据和地下管线数据,传统的数据管理很难把不同类型的数据进行三维可视化显示,亦无法对数据进行分析和处理。而地理信息系统的三维可视化功能是以适当的数据结构建立特征数学模型,采用计算机图形技术将数学描述以3D图像的形式予以表现,这样可以实现城市轨道交通基础数据管理的可视化。

1 城市轨道交通基础GIS的分析与设计

1.1 总体结构

系统利用ArcGIS的强大的地图操作功能,来实现对城市轨道交通所涉及的地层、钻孔、监测、构筑物、管线等基础地理数据的可视化管理和分析。系统由硬件、GIS软件和系统软件、数据库、接口等4部分构成,其总体结构如图1所示。

1.2 模块设计

系统要对大量的轨道交通沿线的各种空间及属性数据进行管理,同时也要实现地层数据、构筑物数据和管线数据的可视化分析。根据通用软件设计原理,系统采用模块化设计。分为专题信息管理、基础信息管理和系统维护3个子系统总共由8个模块组成,如图2所示。

1.3 系统功能

系统要求把孤立、分散的各种城市轨道交通基础数据以地理空间为纽带建立起相关关系,在此基础上开发形成基于GIS的城市轨道交通基础地理信息系统。使各种钻孔数据、轨道周边构筑物基础数据、地面地形数据、地下管线数据等形成一个有机的整体;对城市轨道交通基础信息进行检索、查询、分析;同时可以使地层信息实现三维显示;并初步形成一个可扩展的城市轨道交通基础信息数据库。系统的主要功能如下:

1)地图的操作功能。包括地图的放大、缩小和移动等操作;对各种图形要素进行分层显示的功能;此外,还可以执行图形的任意范围打印输出功能。

2)属性数据录入编辑。对所有图形的属性建立专门的属性数据库表,通过数据维护子模块完成数据的录入、编辑、修改。主要的属性数据操作对象包括轨道交通概况、钻孔基本信息、轨道项目施工信息、地层分层信息、各类地下管线信息、地面建筑物信息、构筑物基础信息、监测数据等。

3)图形输入编辑。系统数据包括空间数据和空间属性数据两种。空间数据是指二维平面数据,主要包括轨道交通及站点、地形地貌、地质构造、建筑物、钻孔、管线、构筑物基础等点、线、面状数据。这些数据以层的方式进行组织,以矢量图的形式在平面图上表现出来。系统可通过数据维护子模块对空间数据进行编辑,即进行点、线、面的添加、删除操作。

4)信息检索与查询功能。系统可以同时对空间和属性数据进行方便、灵活、准确的查询与定位。实现空间图形数据和属性数据的双向联合查询和分析,既可由图形信息查询所需的属性信息,又可根据各种的属性信息条件查询图形信息。系统设计了点击、条件、逻辑等查询方式,具有空间位置、属性、范围等多种查询检索功能。

5)信息可视化功能。系统可以将数据库中的信息以文字、地图、图片等形式加以显示,并为用户提供分层显示和各要素的选择显示等功能。系统将以点、线为基本形态,以钻孔数据为基础,选用适当的内插方法,将零散的、局部的二维地质钻孔数据构成地层信息在三维空间中显示;并重现地下空间形态和组合关系,重建三维模型,用三维图形生动地表现出来,从而实现地下复杂空间结构与关系的表达、分析和过程的三维可视化。通过三维轨道可视化显示,可以直观、生动地反映轨道及其沿线各区域的概况。

转贴于

6)空间分析功能。强大的系统分析功能是GIS的优点之一。在现有的空间数据基础上,利用缓冲分析、网络分析、叠合分析与数据挖掘技术,支持复杂空间问题的决策研究,模拟预测变化趋势等。如:以轨道线为中心,建立任意长度的缓冲区,分析出在缓冲区范围内各种管线的分布情况,显示某范围内距离轨道最近的管线或者对其进行碰撞检查等;还可以对大量长期的轨道监测数据进行综合分析,建立回归分析模型,以预测轨道沉降变化。

7)数字影像叠合。对地面影像数据进行配准后可以叠合在矢量图上,以此来增加地面可视化效果。同时也可在此基础上进行地面要素分析。

8)用户权限设置。根据需要设置两类用户:管理员、客户。用户必须使用帐号和密码才能进入系统。管理员具有全部权限,可以进行系统备份、数据录入、修改、查询、删除、打印输出等,还可以增加、删除客户;客户的基本权限有数据查询、统计和打印输出等,客户可以有一个,也可以有多个。

2 城市轨道交通基础GIS的实现

2.1 数据库处理

依据系统基本功能和数据编码等,建立基于SQLSever的数据库管理系统。数据库中数据模型对象可分为如下几类:轨道工程信息表、钻孔基本信息表、剖面地层信息表、地层基本信息表、钻孔层位信息表、构筑物基础基本信息表、构筑物基础层位表、管线基本信息表、管线层位信息表等。以此来建立图形属性数据库,并建立图形属性值与索引字段关联。由图形属性值定位数据库索引字段,以此来调用其他相关字段内容。

2.2 GIS二次开发技术

系统采用ArcGIS作为二次开发平台,调用Ar-cGIS部分优秀的功能模块,并对其进行修改、完善,具体体现在:

1)图形数据属性编辑。根据相关行业规范定义图形属性及其结构,建立与数据库的连接,提高软件的专业化水平。

2)库文件扩充。根据行业标准定义图例及各种专业符号,扩充ArcGIS的图例库、图形库,用于显示调用。

3)以缓冲区分析和叠加分析为基础进行轨道沿线构筑物基础数据和管线数据的专题分析。

2.3 城市轨道交通基础数据一体化显示

1)采用遥感图片配准、建筑物贴图和三维造型技术,实现地面景观和建筑物的立体显示。

2)根据坐标的精确定位,确定构筑物基础数据、管线数据和轨道数据的位置关系,实现地下轨道基础数据的显示。同时,可以在ArcGIS功能模块支持下,进行系统查询功能开发,实现轨道范围内各种管线和构筑物基础数据的查询、分析。

3)依据多层DEM\TIN混合算法,以钻孔数据为基础,对轨道通过的地层数据进行可视化显示。首先,确定轨道沿线区域的综合地层顺序;其次,逐层形成单个地层的构建,各个地层体是通过上下两个地质层面表示的;最后,在区域范围内,在两层面间填充颜色、纹理[4-5]。

3 应用

1) 图形显示功能。如图3为本系统主界面,显示上海轨道交通规划图。

2) 轨道、管线等基础数据查询。点击图形要素,显示图形属性信息;亦可以输入查询条件,搜索数据库信息。如图4所示。

3) 地面建筑物三维显示。将遥感图像配准后,叠加在三维环境中显示,如图5所示。

4) 地下基础数据三维显示界面,如图6所示。

4 结语

1)城市轨道交通基础地理信息系统具有开放、通用、易操作、易维护、易扩展等特点,是一个集实用性和综合性为一体的多功能信息管理系统;

2)城市轨道交通基地理信息系统的应用,可以融合各种不同来源的城市轨道交通基础数据,进而达到数据的共享;

3)三维数据模型建立及其分析功能实现了轨道沿线各类基础地理信息的可视化表达,提供了一种直观的城市轨道交通基础地理信息游览查询,促进了城市轨道交通基础数据管理的信息化;

4)初步实现的地上建筑与地下要素关联显示和分析功能,具有良好的普适性,可进一步深入开发应用;

5)在充分实现系统内在功能的基础上可以不断深入地进行数据挖掘、开发集成所需的新功能,将可大大提高城市轨道交通基础信息管理的效率与质量,使城市轨道交通基础信息管理向科学化、数字化、可视化大步迈进。

参考文献

[1]贾学天.关于地理信息系统在地铁中应用的初步设想[J].中国市政工程,2003(5):71.

[2]陈述彭,鲁学军,周成虎.地理信息系统导论[M].北京:科学出版社,1999.

数据分析的统计学基础篇6

中图分类号:G642.41 文献标识码:C DOI:10.3969/j.issn.1672-8181.2013.15.023

高等学校的理科基础课是理工科专业学习专业课程的基础,高等数学、线性代数、大学物理、概率与统计等课程也是本科生在低年级学习中的重点与难点。如果理科基础课程教学效果不理想,将导致学生在专业课程学习时数理基础不牢固,极大影响到以后高年级专业课的教学质量和教学效果。而闭卷考试是高等教育教学中的一项非常重要的教学内容,是掌握学生知识获取程度的主要方式及衡量人才培养质量的重要评价途径。

1 成绩分析的必要性

近年来,伴随高校对本科生大规模的扩招,生源质量明显下降、师资力量缺乏的问题进一步突显,致使各类课程,尤其是基础课程教学效果不佳,教学质量的下降等一系列问题。而作为教学效果反馈的一种主要形式,对于课程成绩的详细分析,可以对课程前一阶段教学效果作出评定,教师会获得教学情况的反馈,了解学生掌握知识和技能的程度,并据此调整教学的内容与方法,同时学生也会根据成绩分析判断自己的学习情况,对教师的教学实践和学生的学习活动都具有良好的反馈作用。[1]

目前,高校教育中教学管理系统中已经存储了大量的学生成绩数据,因此可通过构建成绩分析系统,筛选对教学有指导意义的有效数据,充分利用这些数据,得到制定决策的依据,成为提高教学质量、优化教学资源配置有效的途径。作为量化课程教学效果的重要指标,考试成绩很大程度上代表了学生对课程内容及知识能力的掌握情况,因此学生成绩的分析就显得尤为重要。作为高校的管理者,应该通过对学生的成绩分析,探讨基础课教学改革的方法,提出解决问题的相应对策。

2 传统成绩分析存在的问题

虽然目前很多高校已经运用成绩分析的方法,以期为教学活动的实施提供良好的反馈,但传统的成绩分析还存在很多问题,比如领导和教师都对其重视程度不够;成绩分析系统数据统计、计算方式单一,可操作性不强;各任课教师之间的分析方法不统一,横向成绩比较很难实现;没有形成良好的反馈机制。

2.1 成绩分析系统的重要性没有得到应有的重视

很多高校、学院和任课教师对于成绩分析并不是特别重视,忽视成绩分析的重要作用。没有对成绩分析系统的构建投入充足的人力和物力,也没有形成成绩分析系统的有效的运行和反馈机制。同时任课教师也没有把成绩分析作为检验教学效果的手段,并没有将成绩分析的结果正确地运用到之后的教学过程中去,造成成绩分析的虚有其名。

2.2 成绩分析系统所用分析方法过于简单

目前比较常见的成绩分析方法有以下几种:①等级分析法;②定性分析法;③图形分析法;④综合分析表。[2]成绩分析仅局限于对原始成绩分数进行简单、粗略的加工,分析的指标也仅仅为平均分,90或80分以上的学生人数,分析指标非常单一,同时没有构建有效的成绩分析系统,没有从多维度,多类型题目进行分析,分析结果不能全面真实地反映学生对课程内容的掌握程度,及课程的教学效果和学生学习情况。

2.3 没有建立行之有效的成绩分析反馈机制

虽然目前很多高校也在开展成绩分析的工作,但由于管理层、学院和任课教师都没有形成成绩分析系统的反馈机制,达不到成绩分析对教学决策、教学改革,任课老师改变自身教学方式的依据作用,成绩分析更多的流于形式。

基于以上几点,为帮助任课教师更好地了解学生知识的掌握情况,在科学数据分析指导下,改革教学模式及教学内容,构建详细有效的成绩分析系统势在必行。

3 成绩分析系统的构建

基于成绩分析对本科教学的重要性,以及传统成绩分析存在的问题,从2008-200年天津科技大学理学院创建了本科生成绩分析系统,首先应用于全校高等数学、概率统计、线性代数三门数学基础课的学生成绩分析,逐渐推广到大学物理、无机与分析化学、有机化学等各门数理化基础课中,积累了十余万条数据。教师将所教班级学生的成绩录入系统之后,系统自动产生统计结果。

此系统主要从六个方面统计数据:全校成绩分数档分布情况;按小题统计得分;各门课程总分分布情况;班级成绩排名情况;任课教师所带班成绩排名情况;学院成绩排名情况。按此六方面统计数据体现了本系统改进传统成绩分析的主要两大功能:

第一是对每份试卷每道题的得失分情况进行统计,为试卷质量评价提供充分的数据支持。通过这部分数据就可以利用各种统计公式,进一步对试卷从信度、难度、区分度、效度、覆盖度等指标进行质量评价。如图1试卷各题得失分统计:

系统的第二大功能是对全校的数理化基础课程考试成绩进行统计分析。教师将每个学生成绩按照各答题录入系统,系统自行计算平均分、及格率、不及格率、各分数段人数及比例分布,从而全面了解本次考试学生的答题质量;同时系统还提供各种查询方式,使用者可以按照“班级、学院、大班和任课教师”查询学生考试成绩分布情况,也可以查询班级、学院和任课教师的成绩排名。

4 成绩分析系统在高校的实际应用情况

成绩分析系统的创建对全校理科基础成绩有了更系统的统计和分析,最终目的还是指导教学,通过此成绩分析系统统计的数据体现的对教学的指导作用主要有以下几点。

4.1 指导了教学计划的修订工作

学生是否对知识进行了一定深度的吸收和理解,分析、解决问题的能力是否得到提升,这些都是检验教学计划制订是否合理完善,能否达到预期培养目的的标准。而考试成绩的分析结果能够比较清晰地反映学生对于这些知识的掌握程度,任课老师可以以此为依据,并结合实际教学情况,对制定新一轮的教学计划进行相应调整,以便做到因材施教的效果。[1]

4.2 为理科基础课程教师改进教学内容与方法提供了依据

成绩分析系统将各门课程的成绩进行分析后,提供给任课教师后,教师可以根据分析后的结果,判断学生对于课程各部分知识内容的掌握情况,了解自身讲课中可能存在的不足与缺失,并据此找出问题症结,在下一步的课程教学中调整教学内容和教学方法,以提升理科基础课程的授课水平及质量。

4.3 规范了各类基础课程的命题工作

教师在课程考试的命题中,一定要严格遵照教学目标对学生的要求,依据教学目标出题。通过对考试结果的评价,分析哪些试题能准确地反映出教学目标的要求,可以继续使用;哪些试题需要修改或淘汰等。尤其是目前各个高校都在试图通过利用计算机题库完成试卷的组织而真正实现考教分离,而试卷的分析对于题库的完善及改进组卷质量提供了第一手信息,利用分析结果的反馈信息建立并不断完善试题库,在此基础上提高命题、组卷水平,使每套试卷的平均难易度、试题区分度等指标更好达到预定的水平,使命题更加科学、规范。

4.4 促进了学风建设工作

通过横向和纵向考试成绩的分析,可以观察整个班级甚至整个年级的学风情况,有利于了解学生的学习态度、努力程度和学习效果,及时发现学生在精神、心理上存在的问题,以便进行妥善处理。成绩分析还可以与平时作业、上课纪律、出勤率、回答问题等情况有机地联系起来,及时反馈给学生管理部门,增加对学生学习管理与指导的针对性和实效性,促进学风建设工作。

4.5 为科学有效的教学管理提供了重要依据

成绩分析可以说是高校日常教学管理的重点工作之一,其作为高校教学质量监控过程的重要一环,越来越受到高校管理层和教师们关注。而我校成绩分析系统的构建不仅为理科基础课程教学改革提供了重要的参考,而且为学校及学院开展科学有效的教学管理提供了决策信息,为今后的教学质量评估奠定了良好基础。

自从建立成绩分析系统后,不仅应注重学院内反馈,在各次教学检查结束后,召开反馈会议,把教学检查、成绩分析和试卷质量评价中发现的问题,督导组提出的意见及建议反馈给教师本人。另一方面,还要通过反馈教师所带班级学生成绩,帮助教师明确个人教学效果在学院内所处位置,在此基础上教师总结教学经验,找出教与学两方面的差距和问题,拟定整改措施,充分发挥教学特长,不断形成与升华教学风格。同时另加注重日常教学信息的积累,尤其是定量分析理科数理化基础课的各类考试成绩的相关数据,这种方法更为科学,更加准确,更具说服力。此平台的建立,通过成绩分析平台撰写分析报告,上报学校相关部门和主管领导,为学校教学质量监控、分析、预警、决策提供数据支持,也将为其他高校理科基础课的教学改革提供参考依据。

参考文献:

[1]邱妍.成绩分析引发的思考[J].文教资料,2010,(33):182-183.

[2]朱娴.成绩分析引发的思考[J].湖北广播电视大学学报,2012,32(11):79-80.

数据分析的统计学基础篇7

中图分类号:G434 文献标志码:B 文章编号:1673-8454(2015)10-0013-03

随着大数据时代的到来,各行各业都在利用大数据推动本领域的发展。常熟理工学院自2009年开展教育信息化建设以来,在数据分析方面进行了不断地探索与实践,目前广泛应用于教学和管理中。

一、数据分析的必要性和可行性

高校内部一般都建有:教务系统、科研系统、学工管理系统、人事管理系统、资产管理系统等独立业务系统。这些系统都各自记录着学校方方面面的数据,却都静静地躺在服务器硬盘里,犹如埋藏在地下的金矿,不能为高校全局决策提供支撑。

数据分析的目的就是要让数据发声,通过直观的数据图表来为高校管理提供辅助决策。例如:对教师的专业与学校开设专业的统计分析可以为人才引进提供参考;对学生的校园卡使用记录和校内上网认证记录结合起来,可以为判断学生的行为指明方向;对各二级学院的资产数据统计分析有助于学校对二级学院进行成本核算。

二、数据仓库的建立

数据库是数据分析的源头,数据仓库的建立是数据分析的基础。

建设过程中,首先要统一数据标准,只有准确的数据才是有价值的,如果各系统的数据标准不统一,就会造成不准确的数据分析结果,也就无法为高校管理提供真实有效的统计数据;

其次要建立公共数据平台,公共数据平台是指实现校园内各种信息系统的互通互连和数据共享,包括多个系统业务数据集中存储、备份、数据共享和数据管理的公共平台,为学校各应用系统提供基础数据;

三是要规范数据流程,把各业务系统中形形的数据按标准定期抽取到学校公共数据平台中。确保任何业务系统的添加和修改不影响其他系统的正常运行,同时新建应用系统应建立在统一的数据规范基础和统一身份认证基础上,调用公共数据平台的基础数据(如部门、教工、学生等基础信息),应用系统产生的数据也应成为公共数据平台的基础数据,可供数据平台共享访问。确保提供反映学校全面情况的数据信息,为整个学校提供决策支持所需的数据信息,为今后应用系统的建设和信息服务奠定良好的数据基础。

图1为数据架构图,最底层的是各业务系统,他们产生的数据按编码标准经过抽取、转换、加载到数据中心,数据中心再按需要把相关数据同步给相应的应用数据库或各数据集市,最后形成各类主题数据分析或综合决策系统。

三、基于数据仓库的数据分析

在统一数据仓库的基础上,我们利用数据仓库技术(ETL、OLAP、REPORT)和数据挖掘技术,对多种数据集市进行数据分析,建立了校情综合统计分析系统。该系统从学校基本情况、教职工信息、学生信息、教学信息、科研信息、资产与设备信息、图书资料信息与师生消费等方面进行统计分析,为学校管理提供辅助决策支撑数据。

该系统从学校全局出发,通过多元主题展开分析,以文字、报表、图表等多种形式展现分析成果。

该系统的推出实现了教学质量、学生学习、生活行为等各种信息的监控与分析,对高校资源配置优化、提高高校管理科学化等方面具有不可估量的重要意义。这里笔者将以校园卡和教务数据分析功能为例进行阐述。随着校园卡在校园生活中使用范围的日益扩大,在应用过程中产生了大量数据。校园卡仅仅一年的交易数据就有大约1000万条记录。

校园卡数据分析主要实现以下五大类的分析功能:

(1)各时间段消费情况分析

①从“月、季度、半年、年”的角度来查询消费总额、消费用户数和人均消费等,反映出用户消费支出的趋势,也可反映出物价的变化情况。

②从“几点几分”的角度查询消费人数可反映用户在时间点上的消费习惯,对于各营业部门来说可以合理地调整工作时间、工作人员等,以加强服务。还可根据教职工就餐时间点来分析他们是否严格遵守学校作息时间。

③从“早、中、晚”的角度统计分析学生早餐、中餐、晚餐的就餐率。

(2)各类消费人群消费情况分析

①对于学生工作管理层来说,从“个人、班级、院系”的角度来查询消费金额作为发放贫困补助的依据。

②通过查询一个时间周期内(三天)学生消费人数,起到了解学生是否在校的危机预警作用。

③从学生所属院系、专业、年级等角度来查询消费人数、消费金额和分布情况。

④从学生性别、来源地区(省、市、区)、年龄等人的自然属性来查询消费人数、消费金额和分布情况。

⑤分析教职工的消费水平。

(3)各营业单位消费情况分析

从各个营业单位角度来查询校园用户消费人数,消费金额和分布情况。

(4)各交易类型消费情况

从消费类型角度来查询用餐、购物、上网、上机、水电消费等情况。

(5)工作站、终端个数统计

为直观反映上述消费数据,我们除用表格形式将分析结果展现在用户终端外,还提供了柱状图、饼图、曲线图、点图等形式来展现。图2展示了我校2010年至2014年学生早、中、晚三餐平均价格,呈逐年稳步上升状态,这给餐饮部门提供准确统计数据的同时,也稳定了学生就餐消费水平的承受心理。

高校教学信息化建设积累了丰富的业务数据,根据需求,教务数据分析功能主要包括三大类:教学任务、学生成绩和教学评价。图3为教务数据分析数据源视图,围绕教师的教学工作量、学生取得的成绩以及学生对教师的评价等,我们做了一系列的报表。例如:教学场地信息、学生情况、任课教师情况、各学期教学任务情况、成绩信息、教学评价、历年各专业招生人数、各学院历年教学情况、各学院历年学生对教师评价。

另外,为满足各二级学院要求,做了学业预警方面相关报表,各二级学院可根据年级、专业,通过总学分排行、课程门数排行来关注排在后面的学生情况。

数据分析表明,教师平均教学任务逐年增多,教师总体比较年轻,平均年龄男教师比女教师高,年龄在30-39之间的教师平均课时最多。管理学院历年招生数比其它学院明显高出很多,其中财务管理专业的学生数百分比最高。我校学生的成绩也完全符合正态分布曲线要求。

四、结束语

大数据分析是一种发展趋势,我们目前也仅仅就单项主题进行了逐个分析,如果把这些主题串起来,进行关联分析,将会得出更有趣更有价值的结果,这也是将来我们努力的方向。

参考文献:

[1]戴红芳,冯翔,先晓兵等.商业智能在校园一卡通中的研究与实践[J].微电子学与计算机,2012,29(7):175-179.

数据分析的统计学基础篇8

中图分类号:TP315文献标识码:A文章编号:1673-1131(2015)12-0155-02

作者简介:刘阳(1979—),女,江苏徐州人,讲师;研究方向为计算机科学技术

为了提高计算机数据安全管理的效率与质量,就需要进一步完善相应系统的设计,以在提高计算机操作能力的基础上,确保计算机的安全、可靠运行,进而为用户带来安全且便捷的服务体验。

1系统总体需求与构架设计分析

1.1系统总体需求分析

系统总体上需要具备实时性、安全性且稳定性的需求特点,具体来讲:要确保客户端程序的稳定、可靠运行,同时要具备良好的隐蔽性;数据库的构建要满足相应管理工作开展需求,以明确数据业务的划分来提高管理与维护的效率;在控制端,相应的人机交互界面要具备操作简单且方便的特点;整个系统的设计需要具备一定的可拓展,能够为后期开发等工作的落实奠定基础。

1.2总体构架设计

在落实总体构架设计的过程中,首先要明确计算机分析与数据管理系统所应具备的基本功能,即:数据采集、数据统计与分析、管理与控制以及人机交互;其次,在性能上,要求这一系统需要具备安全性、有效性、方便性、使用性、灵活性以及标准化。系统总体构架设计为:以计算机远程监控技术为基础,以C/S为结构模式,基于这一开放性的系统体系构架,能够基于该模式的开放性特点来确保实现用户界面、软硬件平台以及网络协议开放性,进而确保相应的用户能够以自身实际需求来构建出适用于自身业务需求的程序模式,同时,通过对核心RDBMS功能的调用,确保相应的网络接口能够在确保数据完整性的基础上,能够实现对数据的保密处理,并且在系统发生故障时易于修复。基于开放性数据库服务器模式下,能够为实现灵活的系统的开发提供保障。

2计算机操作行为分析模块的设计

2.1该模块设计的目标、技术选择以及运行原理

该模块的设计是落实管理工作的重要保障之一,能够通过计算机操作行为分析模块来实现对客户端用户操作路径的有效分析与描述,进而通过分类数据的过去来确保数据的完整性与真实性,为企业落实绩考核并提高自身的工作效率奠定了基础。将钩子技术应用于Windows系统中,能够实现相应消息处理机制平台的构建,进而通过对消息的监视为实现有效处理奠定技术基础。改程序段的挂入能够优先获取消息控制权,主要采用的技术类型为局部钩子以及全局钩子,而按照功能划分,则包括了监视键盘消息的(低级)键盘钩子、监视鼠标的(低级)鼠标钩子、监视Shell事件消息的外壳钩子、监视系统事件记录的日志钩子以及监视目标窗口的窗口过程钩子。在实际运行的过程中,运行的原理为:在程序中挂入全局钩子,然后以各不同功能的钩子来截获相应的消息,在此基础上,对回调函数的调用与消息处理,再次将消息进行传递或者是终止。

2.2系统构架与功能分析

在构建这一模块的过程中,主要目的是实现对当前数据信息的采集,进而形成操作行为分析数据文件,然后通过系统传输将数据传输到服务器,接收后则以后台数据库中所包含的程序名称为基础,实现相应的统计与分析工作,同时将数据进行存储。在此基础上,相应的控制端则能够下载到相应的操作行为分析数据,这就为提高管理效率、解决数据冗沉问题奠定了基础,同时数据保密性与安全性也随之提升,且具备了一定的灵活性。系统功能分析:数据采集与整理。数据采集能够在计算机工作与空闲的不同状态下,通过钩子技术的应用来获取相应的信息数据,然后对数据进行统计处理,处理的过程中主要是以时间与运行程序为原则进行界定的,通过对数据的详细分析与统计分析来获取最终的统计结构,然后将相应的信息进行存储。行为分析的展现。要想实现数据信息的有效完善展现,则就需要以高质量的软件界面为基础,确保系统性能的同时,保证人机交互行为的准确、灵活且方面落实,同时通过友好界面的设置来迎合用户实际操作需求。在展现时则是通过单个或者多个客户端进行,并且通过排序功能以及辅助软件来提高使用效率。

3计算机数据安全管理系统设计

3.1落实数据安全管理的重要性

在实际应用信息系统的过程中,用户需要借助计算机系统实现对数据信息资源的有效采集、分析整理与存储,进而通过对数据信息的有效应用与管理来提高自身的管理效率,为实现各项决策信息的科学制定奠定基础。但是,在实际应用的过程中,不可忽略的问题是随着计算机技术的发展,网络安全隐患问题频发,网络黑客的恶意攻击下,木马病毒等的入侵致使计算机数据信息存在着严重的安全隐患问题。因此,为了实现对数据信息资源的高效管理,确保私密数据信息的安全性,避免数据信息遭受到恶意破坏与盗取等,就需要以完善数据安全管理系统的设计来保证数据的安全性与可靠性。

3.2数据安全模型层次构成

从目前计算机数据安全管理的现状看,基于信息数据安全管理意识淡薄,黑客与病毒攻击行为下计算机数据面临着极大的风险隐患,这就需要实现相应数据安全管理模型的构建,以通过完善安全防护措施的落实来提高计算机数据安全管理的能力与水平。整个数据安全模型的层次划分为:应用系统安全、计算机网络安全、计算机系统安全、法律制度保障体系。

3.3设计目标与各安全管理系统的具体设计

基于相应安全模型的构建,该系统模块设计的主要目标是:通过这几个层次的构建来确保建立完善的数据安全管理制度,能够在完善落实数据采集分析与存储工作的基础上,实现病毒防护以及防火墙设计,进而确保应用系统的安全性。在实际落实的过程中,通过数据加密、监控电子邮件以及实现移动存储设备监控来实现。具体设计方案为:在数据加密上,为了确保数据传输的安全性,避免数据在传输过程中遇到拦截与盗取,可采用数据加密处理技术来实现,主要的技术方法为加密算法下的对称密码算法以及公开秘钥算法;电子监控邮件的设计。主要采用的技术为TCP/IP、Winpcap抓包体系、HTML以及EMALL编码等,进而通过网卡监听以及抓包获取数据来实现对电子邮件的读取;在移动存储设备的监听上,是通过监控设备复制文件与操作来明确相应的路径,进而当出现问题时则能够获取有效的证据。

参考文献:

[1]陈俊峰.计算机操作行为分析与数据安全管理系统[D].大连理工大学,2006

数据分析的统计学基础篇9

随着教育现代化以及教育改革的不断深入,学评教成为国内外许多高等院校评判教师教学质量的重要手段和依据[1]。在大数据时代的今天,如何设计合理的评教体系来获取、分析海量的学生评教数据,并从数据中分析出目前教学运行中存在的问题,成为各高校面临的重要问题。

1.学生评教

学生评教即学生参与对教师教学的评价,一般是指学校组织学生根据一定的教学目标和评估标准,对教师的教学行为及其态度、水平等方面进行的过程与效果的评价,并在客观分析评价结果和学生意见的基础上向教师反馈并提出改进要求。

2.双均值偏离数据分析法

教学评价中,各方面影响因素很多,评价方法也不尽相同,从多个角度对学生评教的结果进行分析,会产生如下两个问题:考虑尽可能多的指标;指标过多又增加了问题的复杂性。同时很多评教指标彼此之间常常存在着一定的相关性。针对目前评教分析方法存在的种种问题,在坚持定量评价与定性评价相结合的评价原则下,我们制定出一套较为客观的基于“双均值偏离数据分析法”的学生评教系统。“双均值偏离数据分析法”是一种标准统计技术,可用于分析不同标准来源下的数据,可以相对精确地估计最终均值,从而获得更为科学、准确的研究结果。

本模型涉及学生、教师、课程三个实体,学生、教师通过课程相联系,建立如下E-R图,并在此基础上设计数据库。其主要思路是:

(1)计算出每位学生给所有教师评价的均值;(2)计算出每位学生对其所有授课教师的平均水平=某一位学生给某位教师的评价成绩-该学生对所有教师的平均评价成绩;(3)计算出所有学生对其授课教师的平均评价水平。(4)进行数据分析,得出最终结论。

此评教分析方法中,最终得出的某名教师在所有学生评教中的分数与不同学生评教平均值的平均偏差。这个平均偏差的值越大,说明学生对该老师的评价与对所有老师的评价相比偏差就越大。如果偏差是正值,绝对值越大,说明学生对教师的评价越高;反之是负值时,绝对值越大,学生对教师的评价越低。如果平均偏差值接近于0,说明学生对教师的评价趋于平均值。故所得的平均偏差能够体现出教师在所有学生评教中的相对地位。总体来看,此评教分析方法是一种定性与定量相结合的评教分析方法。

3.系统的设计与实现

本系统为学生对任课教师进行网上评价的评教系统,系统的使用者分为学生和管理员两种[2]。评教过程中,学生需要进行身份认证,管理员可以对教师的成绩进行统计和分析。

图1 系统流程图

3.1评教系统组织结构

根据系统流程图,系统可分为以下几个部分:基础数据管理、问卷管理、数据统计分析。

(1)基础数据管理。该部分用于提供学生信息、教师信息、课程信息,包括学生信息管理、教师信息管理、课程信息管理。

(2)问卷管理。该部分用于提供评教问卷,包括问卷设计、数据收集、问卷管理。

(3)数据统计分析。该部分用于对学生提交评价的实时管理及对教师的意见反馈,包括教师成绩及排名分析。

3.2系统功能模块的实现

(1)用户及其权限管理。本模块主要用于对学生、管理员登录本系统进行权限验证。

(2)基础数据模块管理。本系统基础数据为教师、学生、课程等数据表,通过JSP技术读取数据库中的相关数据。

(3)问卷管理模块。学生通过本模块完成对问卷问题的评价和提交,所提交数据提交到数据库中。

(4)数据统计分析。读取数据库中学生提交的数据,通过本文所述双均值偏离数据分析法计算出标准成绩和教师的平均成绩,通过标准成绩和教师成绩的差值分析教师的教学质量。

3.3数据库访问的实现

配置Myeclipse及SQL Server2005数据库,建立与数据库的连接。

4.展望

本文设计的学评教系统所实现的各项功能是在笔者团队经过研究、讨论后设计出来的。本系统所用体系是基于双均值偏离数据分析法的一套数据评价分析方法体系,本系统的实施尚需要一套完善的评教问卷来支撑,因此,如何设计一套完善可靠,具有良好信度效度的评教问卷是本团队的下一步科研目标。

数据分析的统计学基础篇10

摘 要:数据是企业的重要资源,利用大数据管理,通过对数据资源的深入开发和利用,形成指导企业生产经营管理的知识信息,为做好统计管理基础、实现辅助领导开展管理决策,提升企业核心竞争能力,提供了智力支持和技术保证。

关键词 :数据管理;架构;统计管理;资源开发

中图分类号:TD672 文献标志码:A 文章编号:1000-8772-(2015)02-0093-02

综观企业信息化,主要包括硬件、软件和数据三大部分的建设和管理工作。其中硬件是基础,软件是平台,数据管理是根本核心,也是最高层次。“三分技术、七分管理、十二分数据”,就说明仅有硬件和软件系统并不等于成功和完善的企业信息化,更重要的是要构建一套科学、合理的企业数据管理体系架构,以实现有效支撑数据资源的深入开发和利用工作。

一、构建通钢股份数据管理体系架构

通钢股份公司数据管理体系的架构应分为四层,即:操作数据层、数据清洗转储层、数据仓库层和数据在线分析层(见图1)。

(一)操作数据层(ODS)

ODS (Operate Data Save)——操作数据存储。在这一层次中主要包括企业内部的采购数据、生产数据、质量检斤数据、销售数据、财务成本数据、人事数据等。目前,比较常见和流行的大型数据库管理系统有:Microsoft SQL Server、Oracle、DB2、Sybase、Informix等。通钢采用的是Microsoft SQL Server大型数据库管理系统。在操作数据层的管理上必须注意两点。

1.重视数据资源规划工作

数据资源管理的核心和基础,是进行数据资源规划工作,主要包括数据元素规划和信息分类编码。数据元素是最小的不可再分的数据单位,是一类数据的总称,它的质量是建立坚实的数据结构基础的关键。因此,应根据国家或行业标准结合企业实际,建立数据元素标准——数据元素命名标准、标识标准和一致性标准。通过对基础数据的分析和规划,建立统一的数据标准,以打好通钢股份公司信息化应用的基础。

2.重视基础数据的录入、采集和管理工作

在开展信息化的过程中,务必要避免“重硬轻软”“重软轻数”的观念。避免出现 “大马拉小车”“跑空车”或“拉错人”等现象。

(二)数据清洗转储层(ETL)

ETL:数据抽取(Extract)、转换(Transform)、清洗(Clean)、装载(Load)。从操作层的基础数据到数据仓库,必须经过ETL过程的处理,即,根据数据分析和利用工作对数据仓库的要求,首先,要从基础数据源抽取出所需的数据,再经过数据转换和清洗,最后,按照预先定义好的数据仓库模型,加载、转储到数据仓库中去,这是构建通钢数据仓库的重要一环。

1.通过ETL过程处理数据的必要性

一是数据集中管理的需要。

二是数据规范化的需要。

2.在ETL过程中,必须注意解决好两个问题

(1)解决好ETL数据处理的速度和运作软件信息系统工作效率的关系

利用大数据管理技术;采用先进的数据库管理系统;优化数据抽取机制,如分为实时抽取和定时抽取;利用数据映像技术将ETL数据处理过程合理分解成数据抽取和数据转换、清洗、装载两个阶段,这样做可以有效降低数据抽取工作对数据源的影响。总之,必须要实现ODS和ETL两项工作对数据库系统的操作达到负载均衡,实现ETL过程中的数据抽取和转换、清洗、转储工作安全高效。

(2)在基础数据库与数据仓库之间建立良好的接口标准

将基础数据转储到数据仓库以后,在将来的数据分析和利用工作中虽然主要是针对数据仓库进行,但在进行钻取、切片和其它分析工作时也可能需要连接到基础数据库中提取数据。因此,必须在基础数据库与数据仓库之间建立一套良好的接口标准。

(三)数据仓库层(DW)

数据仓库(Data Warehouse)是指在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,它是通过对原有的基础数据时序性地进行抽取、转换、清洗、装载而形成的真实、全面、统一的数据结构形式,是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和获取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径,并通过运用在线分析处理技术(On-Line Analytical Processing)、数据挖掘技术(Data Mining)来实现企业生产经营管理等决策支持(DSS)的数据应用。

1.建立数据仓库的必要性

目前,通钢对现代信息技术的应用主要集中于运作软件信息系统,虽然它能保证业务处理过程的自动化,但对这些操作型基础数据的应用,一般被限制在运作软件信息系统所规定的固定功能上,缺乏更灵活的数据查询和分析能力,无法满足更高层次数据分析和决策支持的需要。

2.做好数据仓库的设计和建模工作是构建数据仓库的基础

数据仓库要求能够良好的支持海量数据和快速查询的功能,要求能以面向主题、以多种维度进行挖掘和探索数据,这就要求必须对数据仓库从网络物理构建、数据库存储管理技术、内部数据结构标准规范等各方面进行超前设计,并建立科学实用的数学模型,解决数据建模的综合评价、综合排序、预测与决策等问题。

3.做好维护和优化工作,是保证数据仓库持久运行在最优状态的关键

数据仓库永远处于发展和变化当中,它是随着企业各项业务管理工作、运作软件信息系统的不断运行以及企业对数据分析、决策支持的不断发展的需求而发展变化的。要对数据仓库持续不断地进行维护和优化,以确保数据仓库持久运行在最优状态,满足企业对数据管理的各种需求。

4.关于数据集市

从基础数据来源的角度分析,相关运作软件信息系统生成的操作型基础数据库,是数据集市产生的数据基础;从面向主题的数据分析和决策支持需求的角度分析,数据集市恰恰是面向某个特定主题的数据集合,这是数据集市产生的业务需求原因;从均衡数据仓库操作负载的角度分析,数据集市的存在可以在一定程度上缓解访问数据仓库的瓶颈,这是数据集市产生的技术原因。

(四)数据在线分析层(OLAP)

在线分析处理(On-Line Analytical Processing),是基于数据仓库的应用,对数据进行层次更深、范围更广的分析、挖掘以及信息,为通钢股份公司科学决策提供支持服务。主要工具有统计分析工具、数据挖掘工具等。

1.在线分析和应用数据信息以提供决策支持是加强数据管理真正的目的和最高阶段

利用大数据处理技术和统计分析、数据挖掘等工具,依据数学模型,对存在于数据仓库中的不同时期、企业内外的相关数据进行科学、深入的分析,揭示企业运行状况,找出优势与不足,利用决策支持系统(Decision Support System)形成客观的分析结果并直观地展现给企业管理者,以辅助进行企业生产经营管理重大决策,真正达到提升企业核心竞争能力、实现企业生存与发展的最高目标。

2.利用统计分析工具实现编制统计报表、数据分析和数据展现

利用统计分析工具,可以定期或不定期地按照需求提取数据,编制各种统计报表,对数据进行详细分析,并可展现分析结果,同时可以更好地支持企业统计工作,实现统计管理信息化。

3.利用数据挖掘工具对数据从时间及空间维度上进行提取、分析和展现

数据挖掘(Data mining):是一种决策支持过程,是一个跨学科的知识领域,它汲取了数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算、数据可视化等方面的成果,对数据采取钻取、切片、旋转等各种分析动作,深入剖析数据,高度自动化地分析企业原有的数据,进行总结分析和预测,支持企业决策者做出正确的决策。

4.建立决策模型

建立科学、严谨的决策模型是对数据进行深入分析、提供解决方案、辅助企业管理者做出科学决策的必要基础。建立决策模型必须了解通钢股份公司生产经营管理相关知识,必须掌握科学的管理决策知识,必须掌握数据信息与企业运行状况之间的内在联系,必须熟练掌握数据仓库、数据字典,通过长期经验的积累,需要形成一整套指导企业运行的统计管理和预警指标体系。

5.信息系统

信息系统,是将分析形成的数据信息及时到相应的地点和用户。基于Web的信息系统是满足多用户访问的最有效方法。

数据分析的统计学基础篇11

中图分类号:G4

文献标识码:A

doi:10.19311/ki.1672-3198.2017.08.085

地方本科教育必须面向区域经济发展,加快改革,实现经管人才的供给侧改革。统计大数据的到来,经管专业担负培养与社会需求匹配的可以进行大数据挖掘及分析的人才,这亟待改革大数据时代的经管人才培养方案。进行经管人才供给侧改革有必要,研究经管专业大数据人才教学改革极具现实意义。首先,从《2013年大数据市场应用与趋势调研报告》显示,全球28%的企业和中国25%的企业利用大数据进行分析市场,淘宝,阿里巴巴等都在利用大数据进行消费者消费喜好,发现空白细分市场进行蓝海战略营销计划。利用传统统计中的推断统计结果具有一定的抽样误差更迫切需求大数据经管人才。欧美著名大学和国内名校(北大、人大MOOC)的在线教育平台,为传统教育带来挑战。大数据时代,获取知识渠道多样化,人才培养方式通过利用有效的知识平台,促进师生教学共长,努力培养具有创新能力和意识的应用型人才极具意义。

1 大数据时代经管人才必备的技能

当前,我国高校培养的大数据分析人才集中于计算机科学与技术,人工智能等理工科极强的学科,市场对大数据人才的需求分别在各个专业尤其经管专业的大数据人才(金融、会计学、市鲇销调查等等)需求量极大,对从事经管行业的经管人才特提出更高的要求。

1.1 较强的经管专业基础

一个优秀的经管数据分析人员,首先应该具备扎实的统经济管理专业基本理论。经管大数据分析人才需要较强的专业基础及统计学能力,既要具备对现象的敏锐洞察力,又要有专业的经济学知识,扎实的传统统计理论基础,又要有大数据的挖掘能力及收集数据的能力。因此,大数据经管人才具备的行业知识储备越扎实,善于捕捉行业发展的热点与方向的能力越强,切合行业实际需要的分析结论越具有现实经济意义,这是大数据时代经管人才的复合型能力的体现。

1.2 计算机软件操作能力

传统的统计学理论及传统的统计软件(excel、spss)仅仅能体现学生的动手能力,动动鼠标能完成基本的数据分析,但对于数据分析模块及分析原理并不清楚,同时对计算机的编程能力较弱。大数据时代,数据分析范围不是抽样调研数据,不是传统的入户调查数据,而是对海量数据的挖掘及分析归类、分析得出结论,数据海量是传统统计软件完成不了的,大数据背景下,经管人才一定要具备计算机软件操作机编程能力,它主要涉及到数据库、程序设计、软件开发等计算机软件的各个方面。掌握的计算机能力水平越高,能够挖掘的数据信息越丰富,提供决策支撑力度就越大,发现空白市场,潜在客户的能力就越强。

1.3 扎实的统计学理论基础

大数据产生的基石是传统数据基础理论,传统统计主要的分析方法是统计和推断统计,通过样本数据统计量推断总体参数过程,从而描述总体特征。经管人才必备的实践能力必须首先建立在具有扎实统计理论基础之上的人才。拥有统计学相关理论知识,利用概率论及数理统计分析现实经济问题便能熟能生巧。大数据知识的掌握及充分利用,必须以统计学知识为前提。

2 大数据经管人才模式构建

我国经济发展之迅速,如何在现有经济条件下寻求新的经济增长源泉,发现新的经济增长空白,是建立在定性和定量分析的基础上,尤其定量分析及其重要。因此,构建大数据经管人才模式势在必行。首先是要培养大数据应用型教师团队。大数据人才模式的构建首先需要培养教育新思想的应用型教师团队,高校教师学习能力强,要主动充实自己,寻求专业前沿知识。应用型地方本科院校应鼓励授课教师向双师双能型转化,取得相关经管职业资格证书,并去企业兼职,这样才能成为理论兼实践相结合的实用性人才。同时,要培养校外知名专家到学校开设专题讲座,补充学校师资力量,只有与社会需求匹配的教师才能培养出与社会需求匹配的人才。其次是开放互动教学,培养具有数据素养的大数据经管人才。传统灌输式的教学方式及单一教学手段是当前课堂教学的主流,利用互动式思维,研讨式教学理念培养学生、激励学生的问题意识及批判思想,用收集大数据、大数据案例教学、大数据数据分析及相关问题挖掘学生的潜能。譬如,教师上课时,可以设计一个大型项目,需要大数据挖掘,学生组队进行挖掘数据,分析数据并设计算法,同时编程建模,撰写分析报告,从项目设计到结论生整个流程都是由学生完成。学校要多鼓励学生积极参加大学生各类创新实践项目比赛,从比赛中提升自己,锻炼学生的实践创新能力。第三充分利用校企合作平台,提升学生认知数据信息的重要价值。市场竞争激烈,经管尤其金融等行业以及电子商务专业的人才供需错位。当前教学内容重理论轻实践,重系统缺针对性,加速供需错位比。因此,学校可以搭建校企合作平台(非学校、企业、社会本位模式)的第四种“学校+企业”复合教育模式。该模式培养的经管人才以市场和社会需求为导向,整合双方优势资源,进行交换和合作,人才既有扎实理论基础,又有企业实践能力,并能在企业合作中完成自己不具有知识的积累,这将是学校完成大数据经管人才培养的重要补充和深化。校企教育平台建设(笔者所在院,现在正在逐渐搭建的与苏州产业园区的冠名班正是基于此思路)同时可以从具体的项目招收,共同构建课程体系,并共同修订现有人才方案完成大数据经管人才的培养,并从供给侧经管人才结构改革方面实现人才的匹配供给,从而培养出具有独立利用大数据思维及能力进行经管数据挖掘、整理分析、管理与决策的经管复合型人才,以适应社会发展之需。

3 结语

随着大数据时代的来临,经管数据的海量特征,尤其金融会计行业的整体数据规模巨大特征,其客户及商业商户交易数据的价值既蕴含商机又能开拓潜在市场,对我国经济发展将会带来巨大变革,但当前经管大数据挖掘人才稀缺,形成了供需错位的现象,通过大数据应用型经管人才的培养,培养高水平及实践性较强的经管人才既能适应当前的社会发展,又能对区域经济的发展起到重大贡献,同时也能解决毕业生一毕业就面临失业的尴尬局面。因此,地方高等院校培养实践性、应用型的经管人才势在必行。

参考文献

数据分析的统计学基础篇12

中图分类号:TP31 文献标识码:A 文章编号:1007-9416(2017)02-0086-03

对于软件数据挖掘系统而言,其数据资源的挖掘是一种对数据发现模型构建及规律认知的过程,通过对数据资源信息的优化分析可以实现对数据资源系统的有效收集。在实际软件系统开发的过程中,通过对软件信息资源的有效收集,可以实现对软件基础编码及测试依据的有效分析,而在现阶段软件数据挖掘系统分析的过程中,怎样实现软件系统的有效处理,逐渐成为数据资源信息模型构建中需要解决的问题。所以,在研究中,通过对数据挖掘系统的模型构建,进行了软件挖掘系统的分析,核心目的是通过信息资源数据库的稳定优化,实现数据资源模型的稳定构建。

1 数据挖掘的过程分析

对于典型的数据挖掘系统而言,其基本的过程可以通过图1所示。

1.1 数据挖掘对商业目标的理解

在数据资源挖掘的过程中,首先应该在商业的角度对用户的真实需求进行理解及分析,其中,信息资源的收集及理解会将行业的信息作为基础,通过对行业运行现状的分析,进行问题的理解及确立。同时,在问题分析的过程中,需要对项目的实行计划、项目风险以及受益项目进行合理性的问题的有效设计,充分保证资源项目评估的稳定性及优势性,从而为项目目标的优化设计提供稳定支持。

1.2 数据挖掘对数据资源的理解

数据资源系统构建的过程中,项目设计者需要在了解数据挖掘的商业目标之后,进行相关原始数据信息资源的优化设计,并通过对数据相关特征的分析,进行数据格式、形式及数量的优化统计,从而保证数据资源信息的稳定连接。

1.3 数据资源的准备

在软件系统数据资源准备的过程中,通过数据资源的准备及数据挖掘过程的稳定分析,可以发现在数据资源准备系统设计的过程中,主要内容应该包含数据的集成、数据的清理、数据的选择以及数据的变换,通过这些步骤的确定,保证数据资源在大量、全面及丰富的状态下,实现对数据资源的准备及集成性分析。同时,在数据集成问题分析的过程中,应该通过对多种异质数据的有效整合,保证数据资源库数据处理的原始性特点。数据清理主要是通过对噪音数据、数据冲突现象的消除,实现对数据信息的有效填补,从而为数据资源系统的数据污染处理提供稳定支持。数据选择主要是通过对数据清洗后的数据进行集成化的样本筛选、维度提升,使数据样本在项目优化设计的基础上,保证数据信息挖掘的技术性及分类型特点,实现数据格式资源转化的合理性。

1.4 数据模型的算法实施

在数据资源整合及设计的过程中,通过优化的测量进行参数资源的设定,可以保证数据资源挖掘算法的稳定性执行,并在模型构建及模型规则分析的基础上,实现系统阐述的稳定设计[1]。

1.5 评估模型的设计

在数据挖掘系统结果分析的过程中,应该将数据挖掘的结果中作为分析的对象,并将数据挖掘的学习类型作为项目的指导,从而寻找并认识到设计评估的基本规则及模型。在评估系统设计的环境下,其内容不仅需要包括对数据资源的处理及检测,而且也应该发现数据结构设计系统的中心环节,保证项目的设计的稳定性及核心性,从而实现系统评估及评价模型设计的科学性。

1.6 商业实践环节优化

通过对数据挖掘过程的分析可以发现,其资源库的构建可以指导企业进行稳定性的社会实践,并在某种程度上满足商业实践的基本标准。在商业实践优化设计的中,应该注意的是,数据信息库的资源处理,应该充分展现动态化的知识活动构建体系,并在商业实践及资源挖掘的基础上,保证商业活动柜的有效拓展,从而为数据挖掘资源平台的设计提供稳定支持。

2 数据挖掘系统需要解决的问题

2.1 数据准备及处理阶段的问题

在现阶段设计挖掘系统设计的过程中,很多数据资源库的设计在数据准备及预处理的过程中,并没有形成自动化的数据库资源分析模式,而且,对于冗余、冲突以及异常的现象缺乏应急性规定处理制度,从而导致数据库的资源选择以及样本筛选都需要得到专业人群进行干预,造成了资源的严重浪费[2]。

2.2 数据挖掘对象的问题

在设计挖掘对象分析的过程中,要求数据挖掘系统需要面对大规模的数据资源模型,但是,在现阶段数据资源挖掘系统设计中,其数据异质性现象较为突出,数据的特征及维度空间也相对较高,因此,在特征及属性间关系优化分析中面临着繁杂的特点,同时,在数据系统非机构化数据处理及分析的状态下,其结果也很难得到量化的处理。

2.3 企业数据库资源不完善

数据挖掘库作为信息资源储存的重要平台,在现阶段数据挖掘系统设计的过程中,企业存在着数据仓库系统设计不完善的现象,这一问题的出现也就会为信息数据的收集及整理造成较为严重的时间浪费[3]。

2.4 数据挖掘系统知识体系不成熟

数据挖掘问题分析的过程中,由于知识的形成及表示方法的差异性,导致在实际数据资源挖掘及项目指导及分析中,存在着领导人员缺乏专业性的数据挖掘知识的现象,使指导工作面临着一定的制约。

2.5 对系统处理方式没有形成有效体系

在稻葑试赐诰蚣按理的过程中,系统项目在某种程度上会起到指导性的作用,所以,对数据系统的算法及模型的处理应该保证项目评价的客观性,这种客观性评价也是数据资源信息挖掘中较为关键的环节。但是,在现阶段数据挖掘系统设计的过程中,存在着系统不完善的设计现象,从而为系统资源的处理造成了制约[4]。

2.6 样本分布中的不均匀现象

在系统设计及样本分析的过程中,其不均衡的数据集中问题存在着一定的制约性问题,其主要的内容包括了对学习理解不深刻、算法不合理以及评价不完善等,这些不均衡的因素得到了广大学者的广泛关注。因此,在现阶段数据挖掘资源优化的过程中,应该认识到样本分布不均匀的问题,通过对数据资源挖掘系统的有效分析,保证系统运行的稳定性及科学性。

3 软件数据挖掘中的模型研究

3.1 聚类挖掘中数据模型系统的构建

在对城市发展类型化问题分析的过程中,其初始环境中的数据模型构建,应该在数据实例设计分析的基础上,进行聚合关系的有效确定,但是,在现阶段数据模型分析中,系统内容并没有形成系统化的建模方式。因此,在现阶段数据挖掘系统优化设计的状态下,应该通过对聚类问题的有效分析,进行数据挖掘技术的有效优化[5]。

第一,层次状态下的聚类分析。对于系统聚类方式而言,是一种层次化的聚类方式,其使用的范围相对较广。在系统运行的状态下,通过对各个样本类型的分析,合理规定样本之间的相互距离,然后在两类合并分析的状态下,形成一种全新的类型模式,通过对其他聚类数据资源的计算,重复两类合并化的工作内容,并将相关的工作成本合为一类,保证数据资源的合并化及顺序化处理。同时,在数据挖掘系统处理的过程中,软件系统会提供一种hclust()的函数层次聚类方式,hclust()聚类方式是hclust(d,merhod=“ward”,members=NULL),函数中的d是指距离结构的距离,而merhod是一种制定的聚类方法,在运用的过程中,可以通过最短距离、最长距离以及中间距离方式的运用,进行数据挖掘系统 的有效设计。对于聚类系统而言,是也中非监督的模式,通过对各个数据资源的合理关注,可以通过对实际状况的分析及调整,进行聚类内容的程序优化。在程序设计的过程中,其基本的程序如下所示。

subest

city

hclust

Plclust(hclust)实现系统绘制程序的聚类化谱图

result

第二,划分聚类方式分析

在聚类方式分析的过程中可以发现,k-means是一种较为经典的划分模式,其基本的设计思想是通过对聚类化指标的最小优化,进行聚类准则及聚类函数的样本分析,从而保证距离的最小化。因此,在整个聚类方法分析的过程中,第一,应该通过对制定聚类数据的分析,进行聚类项目的合理确定,并保护走E初始聚类中心设计的稳定性、合理性。第二,通过对养成集里以及样本最小距离的分析,可以对不同的聚类样本进行平均聚类中心的稳定设计,从而保证数据资源系统处理的优化设计[6]。

3.2 分类模型的设计

在社会运行及发展的状态下,人类在生产活动设计的过程中,需要对不同的信息系统做出预测,如天气变化状况以及股票指数等内容,通过预测可以对相关数据的历史指数进行综合性的分析,并在指标分析及评价的基础上,划分出综合性的预估内容,保证项目生产活动效率的稳定提升,降低数据模型构建中出现的风险因素。有效提升生a活动的整体效率。在分类技术分析的过程中,需要对控制变量的控制进行预测及取值特征的分析,因此,在预测状态下,可以将其内容分为分类及回归两种。因此,需要对预测的项目内容进行分类处理。在数据挖掘模型输出结果设计的状态下,我们会将其过程称为回归学习方式。通常情况下,在分类技术概述分析的状态下,对决策树进行分析。其中的决策树主要是一种无序性的数据记录内容,并通过对数据资源的有效分析及结构的表述,实现数据挖掘资源的有效处理。

首先,通过这种本属性值的比较及分析,可以构建分子化的系统处理模式,从而保证分类树资源结构优化的合理性,其基本的决策树分类技术可以分为以下几点:第一,ID3算法内容思考的分析中,其核心的工作内容是对样本数据进行检测,并在计算的各个活动中,实现信息增益的资源优化处理,实现不同属性值建立的稳定性。通过对ID3算法理论的科学化分析,可以保证数据资源的稳定设计及便利性分析,并在此基础上,扩大数据集成性的理想内容,保证数据资源项目核算的稳定优化及合理改进。第二,C4.5算法。对于C4.5算法而言,在计算的过程 中会在项目设计的基础上实现对数据挖掘的有效改进,并在此基础上,建立了分类树的项目过程。首先,需要构建数据决策树,这种决策方式与ID3的构建决策方式呈现出一直化的发展变化,其主要的区别是ID3在信息增益分析的状态下,可以实现对属性分子问题的有效解决,而C4.5算法需要通过对信息收益率的综合性分析,并进行属性不足的确立。其次,在对已经形成分类树剪裁及处理的状态下,应该通过对噪音数据分支问题的分析,进行离散化的项目处理,从而保证数据资源处理状态下的系统缺失值,并在最大程度上为决策树算法的运用提供良好依据[7]。

其次,在函数类分类算法分析的过程中,应该支持向量机化的合作管理模式,并在理论统计及学习的基础上,保证函数项目设计的稳定性发展。因此,在函数类分类算法分析的基础上,应该通过对样本信息模型的复杂性设计,应该寻求复杂性及学习性的分类算法,有效克服传统信息模型设计的局限性,从而保证函数分类的广泛性发展。同时,在函数分类算法分析的同时,为了支持向量机化学校模型的构建,就应该构建集样本是否为线性化的分析,对线性函数进行稳定的构造,所以,在函数类分类算法过程中,应该做到以下几点内容:第一,认识到训练集体成本的的构造分类,从而实现数据挖掘环境下非线性映射技术的空间化转化。第二,在支持向量机采用投影技术确立及使用的过程中,应该对非线性的特征进行系统化的设计,保证全局项目上合计的最优化处理,保证期望风险的有效执行[8]。

3.3 实现模型选择的不均衡性模型构建

对于不均衡分类模式而言,主要是在分类问题处理的过程中,通过对多数样本数量的分析,进行少数样本数量的合理优化。同时,在不均衡分离的理念下,可以将其分为不均衡的数据集约分类方式,通过数据的稳定研究,可以实现数据资源挖掘状态下的全新发展,例如,在软件系统检测中,当发现了软件缺陷问题,应该保证模块在98%以上,其错误的软件模块应该时刻小于2%,从而实现数据挖掘系统分类算法的合理预测及系统分析,实现模型项目设计中信息价值的稳定提升。同时,在集成学习模式构建的状态下,也需要对组合学习项目进行优化,通过对原数据训练分类模型的好送将诶,可以额保证分类模型及子分类模型的优化设计,实现模型测试项目的集中化及预测化判断,为不均衡性模型的优化设计提供稳定性的技术支持[9]。

4 结语

总而言之,在现阶段数据挖掘系统优化设计的过程中,为了保证资源项目设计的稳定性及合理性,不仅应该保证系统挖掘的完善性及功能性,而且也应该对用户界面进行综合性的设计及分析,从而保证数据挖掘系统设计条件的稳定性,实现数据挖掘系统的实用性。同时,在软件挖掘系统优化的状态下,也可以通过对不同语言程序的开发及挖掘能力的提升,充分展现出资源数据目标挖掘的基本特点,完善数据资源的挖掘功能,从而保证数据资源系统设计的稳定性及互动操作的特点。而且,在图形界面数据资源可视化效果的分析,需要通过对流程化资源挖掘状态的分析,进行功能及用户界面的有效改进,实现数据资源挖掘系统的优化提供稳支持。

参考文献

[1]王勋.基于多目标决策的数据挖掘模型选择研究[D].电子科技大学,2013.

[2]龚璞.数据挖掘在软件项目风险管理系统中应用研究[D].大连理工大学,2014.

[3]陈荣鑫.R软件的数据挖掘应用[J].重庆工商大学学报(自然科学版),2011,(06):602-607.

[4]林立,朱小冬,刚,阎旭坤.基于数据挖掘的软件故障诊断研究[J].微计算机信息,2010,(34):156-158.

[5]王辉,杜庆峰.基于软件信息库挖掘的软件缺陷预测方法[J].计算机工程与设计,2012,(08):3094-3098.

[6]崔广风.数据挖掘中的统计方法及其应用研究[D].西南石油大学,2014.