数据挖掘技术分析论文合集12篇

时间:2023-03-20 16:25:55

数据挖掘技术分析论文

数据挖掘技术分析论文篇1

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

数据挖掘技术分析论文篇2

中图分类号:TD65 文献标识码:A 文章编号:1674-7712(2012)20-0013-02

最近几年,在信息技术的作用下,经济社会的各项事业得到有了突飞猛进的进展,在国民经济的15个主要行业中,都已经不同程度的与信息技术展开了合作或者融合,部分行业还直接将信息技术作为其求得发展的必然工具。而随着数据库技术的日渐成熟与数据应用的广泛普及,无论是数据库的数量、单个数据库的容量还是数据类型的复杂程度都今非昔比版的得到了前所未有的增加。在这些庞大的数据库中丰富的信息源蕴含其中,如果能够对这些数据进行分门别类的处理将会得到大量有价值的信息。在这一社会需求的背景下,数据挖掘技术应运而生,并且在多个不同的领域得到了广泛的应用和功能的提升。对现代煤炭企业而言,其安全管理已经是一个广泛的范畴,不但涉及到传统的生产安全和生命安全,在信息化的社会中,为了竞争的需要,信息安全也被提到了企业发展的战略高度,如何在竞争激烈的市场中实施信息管理,如何通过对科学技术的应用加强信息的安全管理,已经成为煤矿生产和发展中的重要问题之一。本文以此为基础,对数据挖掘技术及其在煤矿信息安全管理中的应用问题进行了系统的研究,首先对数据挖掘技术及其分析方法进行了阐述,然后给出了煤矿信息安全管理中数据挖掘系统的结构与数据仓库的设计,最后从多个不同的层面讨论了该技术的应用。希望通过本文的工作,为时下煤矿企业的信息安全管理问题提供一定的可供借鉴的信息,更好的促进该行业的健康高效发展。

一、数据挖掘技术及其分析方法

数据挖掘是一项复杂的计算机技术,它能够在众多纷繁复杂的信息池中进行搜索,将有用的信息挖掘出来,供决策者使用。一般而言,数据挖掘技术的分析方法主要有以下几个方面:

(一)关联分析技术

关联分析指的就是生成所有具有用户指定的最小置信度和最小支持度的关联规则,其工作原理是通过关联规则对数据进行挖掘,在实际操作中有多种不同的关联规则可以进行使用,挖掘算法较多[1]。在数据挖掘中,关联分析的目的在于挖掘出隐藏在数据之间的关系,发现数据库中隐藏的知识。在进行关联分析时,用户需要同时输入两个参数,分别是最小置信度与最小支持度。

(二)序列模式分析技术

与关联分析相似,序列模式分析的目的同样是为了挖掘出数据之间的关系,但后者的侧重点与前者不同,在于分析数据之间的“前后序列关系”。通过序列模式分析技术,能够发现数据库中具有时间序列特征的知识。因此,序列模式分析描述的问题往往是在给定交易序列的数据库中,每个序列都按照交易时间排列成一组交易集,将挖掘序列函数作用在该交易序列数据库之上,并借此返回该数据库的一种高频序列[2]。当然,在进行序列模式分析时,同样要输入最小置信度与最小支持度。

(三)分类分析技术

该技术通过分析示例数据库中的数据,对每个类别做出准确的描述,以此为基础,建立起分析模型或者挖掘出相应的分类规则;然后,利用该规则继续对其它数据库中的数据进行分类,通过这一过程,实现对数据的分门别类,增加数据的归属性。比如,在煤矿的信息管理中,煤炭企业可以通过数据库中保存的客户的记录,对客户的信誉程度进行分类,并对类别标记相应的记录。因此,分类分析技术就是分析数据库中的记录数据,为决策者提供决策的依据。

(四)聚类分析技术

与前几种分析技术不同,聚类分析技术通过分析数据库中的记录数据,根据特定的分类规则,将数据合理的划分为不同的记录集合,以此确定出不同记录的所在类别。聚类分析技术采用的分类规则由聚类分析工具决定,包括系统聚类法、分解法、运筹方法等多种不同的方法[3]。因此,从计算过程看,聚类分析与分类分析两者是互逆的过程。比如,在初始分析中,技术人员要根据原始的经验把需要分析的数据进行标定和再划分类别,然后通过分类分析方法对该数据集合进行分析,挖掘出不同类别的分类规则;然后,再通过这些分类规则对这个集合进行重新划分,以期获得更为理想的分类结果。

二、煤矿信息安全管理中数据挖掘系统的结构与数据仓库的设计

(一)数据挖掘系统的结构

数据挖掘系统一般分为三层结构:第一层为数据源,包括数据库、数据仓库。数据挖掘工作不一定建立在数据库基础之上,但是,将数据挖掘和数据仓库协同在一起,会较大限度的提高数据挖掘的效率和效果;第二层指的是数据挖掘器,通过数据挖方法分析数据库中的数据,其中的方法便包括前文中的关联分析方法、序列模式分析方法、分类分析方法、聚类分析方法等[4];到第三层便是用户界面,在该层面,系统会把获取到的信息以便于用户理解与观察的方式(比如可视化工具的使用)反馈给用户。

(二)数据仓库的设计与开发

数据仓库能够较好的支持煤矿企业进行决策分析,便于对数据进行实时的处理,加之数据仓库是面向主题的、集成的、相对稳定的、体现历史变化的数据集合[5],因此,其中的数据能够反映一段时间内的历史状况,便于技术人员进行统计、综合和重组。对煤矿信息管理系统来说,信息安全数据仓库的开发、使用周期一般分为以下阶段:第一阶段要对数据仓库进行规划分析,通过调查、分析的形式,确定数据仓库的内外部环境,完成对数据仓库的开发规划,并在此基础上确定出数据仓库的开发需求。当然此阶段要建立起E-R图、星型模型、元数据模型等[6],然后依据主题区数据模型开发数据仓库的逻辑模型;第二阶段主要是对数据仓库的设计和实施,此时,要依据数据仓库的逻辑模型对数据仓库的体系结构进行设计,然后通过物理数据库的元数据来填出元数据库,并对数据仓库进行测试;第三阶段要完成对数据仓库的使用和维护,同时要对数据仓库的用户进行培训和指导,并在应用过程中不断的进行改进和维护。

三、数据挖掘技术在煤矿信息安全管理中的应用

(一)数据挖掘技术在选煤信息管理中的应用

将数据挖掘技术应用到选煤信息管理活动中,将有助于提高企业决策中信息利用的深度和广度。目前,很多选煤厂都装配有大量的应用于生产调度、运销、技术检查、物资供应、设备、计划统计、人事、劳资、档案及内部核算等部门科室的系统。这些系统能够辅助企业完成选煤厂相关信息数据的采集和简单的统计查询功能[7]。此时,数据挖掘就可以充分利用这些系统提供的基础数据,为企业在多个方面决策提供支持。此外,通过聚类分析来还能够对企业的生产经营费用进行控制,通过将原始数据标准化,对企业的综合成本控制水平进行直接、准确地比较分析。同时,还能够借用数据挖掘分析的结果,促进企业的决策朝着科学化和规范化的方向发展。

(二)数据挖掘技术在煤炭企业ERP中的应用

目前,许多煤炭企业都采用了ERP系统,但是ERP软件本身的功能尚存在着一定的不足,有的甚至只能提供一些基本的数据用于查询和分析,也有的模块由于缺乏对高层次的数据分析和决策行为的支持,只能部分的发挥作用,需要通过数据挖掘技术在ERP中的应用来改善现有ERP系统。在传统的数据分析和处理方法模式下,根本无法快速、有效地从大量数据中获取所需的数据。而与数据挖掘技术结合在一起,煤炭企业ERP系统就能够最大限度的得到高层次的数据分析与决策支持,除了能够提供一定的数据显示与数据查询功能外,还可以为企业的管理决策者们提供庞大的业务数据,在隐藏的知识中得到决策的支撑信息[8]。

(三)数据挖掘技术在煤矿煤种决策中的应用

在煤矿的煤种决策中,数据挖掘技术的应用能够以实际生产数据为基础,基于数值型模糊关联规则,处理燃煤采购中的核心问题与关键性的技术难题。基于数据挖掘技术的煤种决策是一种方便快捷、成本低廉的最经济煤种决策方法,能够综合考虑燃煤采购决策、生产过程的多个环节和因素。其主要功能使:找到煤质特性和发电企业运营成本之间的关联,确定煤质特性和发电企业的燃煤装卸倒运成本、污染物排放成本、原煤采购成本、脱硫系统运行成本、辅机耗电成本以及设备维护成本之间的关系,为最经济煤种决策提供必要的数据信息。

(四)数据挖掘技术在煤矿电网管理中的应用

随着煤炭开采量的不断增加,煤矿安全形势依然严峻。通过数据挖掘技术实现对电网故障发生的预测、识别、诊断是实施有效预防电网故障的前提和关键。在数据挖掘技术的作用下,传统的只能在局、矿调度室显示的监控数据得以在煤矿企业内部信息网上进行传输,并且在本地服务器上利用数据仓库技术保存有效数据[9]。在引入了数据挖掘技术之后,煤矿电网远程监控运行数据得到了实时的关注,大大的提高了数据分析的效率和深度,解决了许多困扰煤矿生产现场多年的井下供电监控技术难点与安全运行中的重大隐患问题,因此,数据挖掘技术在煤矿电网管理中的应用具有一定的理论价值。

四、结束语

在我国当前情况下,互联网技术、基于互联网的通信技术、基于计算机的复杂计算技术在不同的领域得到了前所未有的发展,这种在个人和群体之间进行迅速普及的态势,将电子消费产品、计算机网络技术以可以预见这一趋势的发展结果。这是因为,无论是在中国还是在世界上的其他国家,在未来几年内对消费类电子产品的需求会节节攀升,该类产品的应用领域会越来越广泛和深入。在这种情况下,数据挖掘技术必将随着这一潮流逐渐渗透到煤矿信息安全管理之中,最大限度的企业对数据存储的愿望和要求。

参考文献:

[1]刘兴安.煤矿信息数据挖掘方法的研究[J].煤炭技术,2007,2:26-28.

[2]冉进财,徐守坤,唐芙蓉.数据挖掘技术及其在选煤厂信息管理中的应用[J].选煤技术,2008,6:52-54.

[3]李治,廖坚.基于数据挖掘技术的煤炭企业ERP应用研究[J].煤炭技术,2012,2:183-185.

[4]马正华.数据挖掘技术及其在煤炭企业中的应用研究[J].煤炭工程,2005,12:80-81.

[5]曹露燕,孟凡荣,蒋晓云.煤矿系统数据挖掘模型的研究与设计[J].计算机工程与设计,2006,23:4547-4550.

[6]王守中.煤炭企业数据挖掘理论与应用研究[J].中州煤炭,2005,6:3-4.

数据挖掘技术分析论文篇3

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

数据挖掘技术分析论文篇4

【关键词】数据挖掘 理论基础 数据采集 实践应用

数据挖掘理论,可以在地理信息测绘的过程中,为测绘系统提供依据,而且也可以实现预测及决策的功能,而在理论依据应用的过程中为了得到有效性的信息,就应该建立数据采集平台。但是,在现阶段数据挖掘理论的应用过程中,仍然存在着一定制约性的因素,为整个数据内容的采集带来了制约性的影响,因此,应该逐渐优化我国测绘地理信息事业的技术理念,从而在经济发展的同时实现数据挖掘的核心理念,如果在数据采集系统的应用过程中,没有得到有效性的数据内容,就会为整个地理信息测绘技术的建立造成严重性的影响。因此,在现阶段技术逐渐优化的过程中,应该实现系统性、科学性数据挖掘理论以及数据采集平台的建立,从而为测绘技术的应用营造良好的空间。

1 数据挖掘的基本含义及功能分析

1.1 数据挖掘的基本含义

数据挖掘主要是指:在实践过程中所产生大量的、模糊的以及随机数据中,提取出隐藏在数据中的潜在性数据内容,对于提取处理的数据进行系统性的分析,处理,从而发现数据与数据之间的关联性,为地理信息测绘技术的优化奠定良好的基础。而且,在理论应用的过程中也可以实现新型的技术处理形式,同时也可以实现大量的业务数据转换、分析等模型的处理。也就是说,数据挖掘是一种深层次数据分析理念,与传统的测量方式存在着一定的差异性,而且,其目的的结果主要是用来分析数据的价值,验证命题的正确性。而数据分析主要是指,在没有明确假设的前提之下挖掘信息的关联性,对于挖掘出的信息而言,对测绘技术的设计具有一定的应用价值。

1.2 数据挖掘的功能性分析

在测绘地理信息技术的分析过程中,其数据挖掘的理论可以将采集到的数据转化为相关的测绘知识,再通过对数据内容的运用,可以实现以下几种功能:第一,是聚类功能,就是按照数据内在的规律,将数据聚合分类;第二,是关联分析功能,主要是在数据分析的基础之上发现重要的问题形式,并建立多次的检测形式,在分析的过程中如果发现数据之间的差异性较小,也就说明在数据挖掘的同时存在着一定的关联性;第三,分类功能,通过对不同数据内容的分析可以发现,其分类的内容及标准会形成不同的检测形式,而且,在分类偏差系统的优化过程中,可以对技术进行科学化的调整,从而优化功能性的问题分析。在实践的过程中可以发现,事物是具有一定内在联系的,为了充分实现数据的总结、分类以及聚类,就应该对采集的数据进行系统性的分析,从而为技术人员的工作提供充分性的保证。

2 数据挖掘理论在数据采集中的应用

2.1 建立科学化的数据采集平台

随着科学技术的之间发展,数据采集以及平台应用理念逐渐推出,在数据采集平台的建立,可以实现大量的数据储蓄,根据最新的统计显示可以发现,一个完整的数据采集平台一次就可以形成50万以上的数据。而在数据分析的过程中很多数据是表面上的数据,而通过数据挖掘理论系统的建立,与数据挖掘理论进行充分性的融合,可以做出准确性的预测性分析,从而也可以将单独的数字进行总结、分析以及管理分析,将分散性的数据进行系统性的整合,从而挖掘出隐藏在系统中的信息,同时也可以实现技术应用过程中的管理及优化的技术处理形式。

2.2 数据挖掘的应用基础

由于科学技术的不断优化,数据库的储存量不断充实,导致数据采集需要在不断完善中得到发展。而且,随着信息储备量的增大,数据平台的信息量储存发生了很大的变化。首先,系统的版本得到了不断的更新,例如,Web数据采集中的系统版本,由08c版转变为现阶段的10a001版;其次,是汇总部分字段以及文字采集的阶段,数量逐渐增加,从而使数据采集平台形成了规模化的发展。而且,在整个过程中也不断强化了数据与数据之间的关联性,为数据挖掘理论的应用提供了基础平台,同时也为技术人员合理的运用数据挖掘理论提供了充分性的保证。

2.3 关联规则的挖掘理论

在关联规则的使用过程中,主要是将独立的、单独的数据内容进行充分性的结合,从而多角度、多方位的分析某一事物的变化。对于初次使用数据平台的技术人员而言,在数据采集的过程中,如果要根据数据采集的现状,对测评系统进行合理化的设计,是十分困难的,他们在分析的过程中,很难发现数据与数据之间的关联性。因此,在现阶段数据挖掘理论基础的建立过程中,就应该充分的认识到这一点内容。在工作的过程中全面培养技术性人才,通过对员工工作状态的分析,发现存在的问题,然后在制定出科学化的工作决策理念,从而为员工树立正确性的发展方向。与此同时,数据采集平台只是为了提供数据,而在数据挖掘理论内容的分析过程中,是为了发现数据与数据之间的关联性,挖掘出数据检测中的基本理念,从而在根本意义上为技术的应用建立科学性的依据。

3 结束语

总而言之,在数据挖掘平台建立的过程中,为了实现数据采集平台的应用技术,就应该在采集平台建立的同时,强化数据挖掘的理论基础,从而实现数据处理的合理性。但是,在整个理念应用的过程中,由于其自身的局限性,所以在使用的过程中,应该对测绘技术进行合理化的分析,优化数据的采集,从而为整个数据挖掘的理论性应用提供合理化的依据。

参考文献

[1]许敏.数据挖掘理论在数据采集中的应用[J].科技传播,2013,21:222+211.

[2]崔彬.数据挖掘中多维数据可视化的研究[D].武汉理工大学,2006.

[3]谭广宇.数据挖掘理论在状态数刁尾采集平台上的应用[J].广西教育,2011(6).

作者简介

欧萍(1978-),女,贵州省晴隆人。现为贵阳学院副教授。研究方向为计算机软件与理论。

数据挖掘技术分析论文篇5

中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)02-266-02

A Brief Analysis on DM Technique

ZHU Yong-chun, WAN Min

(Computer Center, Henan University, Kaifeng 475004, China)

Abstract: Data Mining (DM) is the knowledge discovery from databases. This paper briefly introduces DM technique, including the DM definition, common technology, key applications and its development trends.

Key words: data mining; KDD; association rule; decision tree

数据挖掘DM(Data Mining),又称为数据库中的知识发现KDD(Knowledge Discovery in Database),根据Usama M.Fayyy等[1]给出的定义:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘其实是一类深层次的数据分析方法,分析组织原有的数据,做出归纳推理,从中挖掘出潜在的模式,为管理人员决策提供支持。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。简单的说数据挖掘就是从大量数据中提取或挖掘知识。注意不是所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。即使如此,数据挖掘也已被用来增强信息检索系统的能力[2]。

1 数据挖掘中的常用技术

数据挖掘是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。常用的数据挖掘技术包括:

1) 统计技术:统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

2) 关联规则:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3) 神经网络技术:神经网络技术是属于软计算领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要从复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。经过训练后的神经网络可以想象为具有某种专门知识的“专家”,因此可以像人一样从经验中学习。它已广泛地应用于各种DM(KDD)工具和软件中。神经网络技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,神经网络就需要复杂的结构、为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。

4) 决策树:决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而易于理解。这种方法一般限于分类任务。

5) 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。它是解决各种组合或优化问题的强有力的手段,这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。

6) 进化式程序设计:这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的物种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。

7) 基于历史的MBR(Memory-basedReasoning)分析:先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。

8) 回归分析:回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性回归模型。

9) 连接分析:连接分析,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式,同时将产生的概念应用于更广的用户群体中。

10) 粗糙集:粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现实世界数据,通常有些类不能被可用的属性区分。粗糙集就是用来近似或粗略地定义这种类。

11) 模糊集:模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的真值表示一个特定的值是一个给定成员的程度,而不是用类或集合的精确截断。模糊逻辑提供了在高抽象层处理的便利。

12) 差别分析:差别分析的目的是试图发现数据中的异常情况,如噪音数据,欺诈数据等异常数据,从而获得有用信息。

13) 概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。

2 数据挖掘技术的具体应用

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。而数据挖掘技术最集中的应用领域包括以下四个方面,而且每个领域又都有自己特定的应用。

1) 金融领域:金融事务需要收集和处理大量的数据,通过对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括数据清理、金融市场分析预测、账户分类、信用评估等。

2) 医疗保健领域:医疗保健业有大量的数据需要处理,但这个行业的数据由不同的信息管理系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费用。例如,GTE实验室开发的KEFIR,它能进行多维分析,用以分析GTE的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表[3]。

3) 市场领域:市场经济中存在形形的经济实体,这些经济实体共同造就并推动市场的繁荣与稳定。应用数据挖掘技术可协助经济实体进行市场定位、消费者分析、辅助制定市场营销策略、销售预测、库存需求、零售点的选择、价格分析等。

4) 科学研究领域:在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。

3 数据挖掘技术的发展趋势

当前,数据挖掘与知识发现研究方兴未艾,与其相关的软件研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式和SQL查询语言等理论和方法的指导,才能使数据挖掘与知识发现的应用得以普遍推广。预计在本世纪,数据挖掘与知识发现的研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面[4]:

1) 应用的探索:目前正探索扩大其应用范围,如生物医学、考古、电信、电子商务、保险等领域。

2) 改进数据挖掘算法:为了提高数据挖掘系统的可用性、可扩展性、高效性,我们需要对一批数据挖掘算法进行改进,需要探索新的挖掘算法,以适应新知识环境下的数据挖掘。

3) 数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成:数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。

4) 数据挖掘语言的标准化:数据挖掘语言的发展经过了数据挖掘查询语言、数据挖掘模型语言和通用数据挖掘语言或标准数据挖掘语言三个阶段。在通用数据挖掘语言的研究上一样取得了很大的进展,但还远没有达到像SQL查询语言的那种通用程度。实用的业界统一的标准语言将是未来数据挖掘语言努力的目标。

5) 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化是进一步的研究目标。

6) 复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重要的前沿研究课题。

7) Web挖掘:有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。

8) 数据挖掘中的隐私保护与信息安全:任何事情都有其两面性,数据挖掘领域也不例外,在挖掘数据产生财富的同时,随之产生的就是隐私泄露和信息安全的问题。1995年隐私保护与信息安全成为了数据挖掘的一个研究主题,经过十几年的发展,仍不成熟,在今后将是一个研究的热点方向。

4 结束语

数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。

参考文献:

[1] 崔丽群.人工神经网络在数据挖掘中的应用研究[D].辽宁工程技术大学,2004.

数据挖掘技术分析论文篇6

关键词: 数据挖掘技术;课程;教学

Key words: data mining technology;course;teaching

中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01

0 引言

数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。

1 数据挖掘技术课程特点

数据挖掘技术具有自己独特的课程特点:

1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。

1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。

1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。

1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。

2 数据挖掘技术教学过程存在的问题剖析

数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:

2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。

2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。

2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。

3 提高数据挖掘技术课程效果的对策建议

3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。

3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。

4 结束语

数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。

参考文献:

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

数据挖掘技术分析论文篇7

统计学如何为数据挖掘服务,这是在“数据挖掘”飞速发展的今天,统计工作者必须回答的一个问题,我国厦门大学的朱建平教授提出:“统计学应该随时关注数据分析,哪里有数据,哪里就应该有统计分析。”统计学是搜集、展示、分析和解释数据的学科,它拥有非常深厚的理论基础,并在社会生活的各个领域发挥着巨大的作用。近代统计学方法与信息处理的关系日益密切,作为信息处理的一个基本工具,统计学方法将发挥越来越重要的作用。

数据挖掘是近十几年里发展起来的一门崭新的学科,由于它与统计学都关心从数据中发现某种结构,因而从数据挖掘诞生之日起,就与统计学有了千丝万缕的联系。

一、统计学与数据挖掘的涵义

统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察的系统数据,进行量化的分析、总结,进行推断和预测,为相关决策提供依据和参考;它分为描述统计和推断统计。描述统计包括对客观现象的度量、调查方案的设计,对所收集的数据资料进行加工整理、综合概括,通过图示、列表等方式进行分析和描述。推断统计是在搜集、整理监测样本数据的基础上,对有关总体做出推断,其特点是根据随机性的观测样本数据以及问题的条件和假定,对未知事务做出以概率形式表述的推断。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又具有潜在价值的信息和知识(模型或规则)的过程。这个定义包括以下含义:数据源必然是真实的、大量的、含噪声的;发现的知识可接受、可理解、可运用,并不要求发现放之四海皆准的知识,仅支持特定的发现问题。它能高度自动化的分析原有数据,做出目的性推理,从中挖掘出潜在的模式,从而帮助决策者调整策略,做出正确的决策。它融数据库技术、人工智能技术、数理统计技术和可视化技术为一体,是一个多学科相互交叉又融合所形成的一个新兴的具有广泛应用前景的研究领域。

二、统计学与数据挖掘的联系

(一)数据挖掘虽不同于统计分析,但许多挖掘技术又来源于统计分析,数据挖掘中有许多工作可以由统计方法来完成。比如预言算法(回归)、抽样、基于经验的设计等。

(二)数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。

(三)数据挖掘技术的出现为统计学提供了一个崭新的应用领域,也对统计学的理论研究提出了挑战。数据挖掘技术有相当大的比重是由高等统计学中的多变量分析所支撑。

(四)统计学与数据挖掘的结合日益紧密。数学是传统意义上统计学方法的首要工具,而计算机和网络为代表的信息技术,正逐渐成为统计学应用的首要工具。随着数据源的不断膨胀和数据结构的日益复杂,单纯依靠数据挖掘技术,已渐露力不从心之态,而统计学的同步发展,正不断充实、完善着数据挖掘技术。因此,随着信息化水平的提高,统计学与数据挖掘的应用平台渐趋统一。

三、预测性挖掘中常用的统计学方法

数据挖掘中应用的统计学预测性方法主要有判别分析和回归分析。其中,判别分析用于对离散型目标变量的预测,而回归分析则主要用于对连续性目标变量的预测。

数据挖掘技术分析论文篇8

一、引言

数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域,该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解:广义的数据挖掘等同于知识发现过程,共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤;狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步,但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作,为挖掘阶段做准备。

随着数据挖掘技术的兴起、发展与成熟,很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域,用于发现海量数据中隐藏的信息。事实上,数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2],本文将从煤矿产业角度出发,介绍数据挖掘技术在传统产业中的应用。首先,本文着重介绍数据挖掘常用的技术;其次,我们以电子商务和用户节点特征挖掘为例,介绍数据挖掘技术在煤矿产业中的应用场景,并总结在具体应用中常见的思路和具体方法。

二、数据挖掘技术综述

现实世界中的数据极易受到许多干扰,如噪声、缺失值、不一致数据等,低质量的数据将直接影响挖掘的结果,因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识,分为分类和回归方法;而无监督模型用于对要挖掘的模式毫无先验知识的情况,分为聚类和关联分析方法。本章将以分类和聚类算法为例,具体介绍数据挖掘的基本思想[3]。

1. 数据预处理

数据预处理方法很多,一般分为四个步骤:

数据清理:包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。

数据集成:把多种数据源的数据组合从而形成一个完整的数据集,这里的数据源可能包括多个数据库、数据立方体及一般文件。

数据规约:通过聚集、删除冗余特征或聚类来降低数据规模,得到数据集的规约表示,而使得信息内容的损失最小化。

数据变换:用汇总、聚集等方式,将数据变换为可挖掘的统一形式。

2. 监督模型

分类算法是监督模型中常用的算法,适用于数据集或数据集中的部分数据有标签的情况,它从每个数据元素都包含分类标签的训练数据开始,通过对训练数据的学习建立一个分类模型,用于将新的数据元素自动分类到训练数据提供的类别中。也就是说,数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类别)。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。

决策树分类器:是从有分类结果标号的训练数据中学习,从而形成一种类似流程图的树结构,每个内部结点表示在某一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。

叶斯分类器:属于一种统计学分类方法,用于预测类隶属关系的概率。对分类算法的比较研究发现,朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。

基于规则的分类器:规则是表示信息或少量知识的好方法,基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提,THEN部分表示规则的结论。

3. 无监督模型

聚类算法是无监督模型中的常见算法,适用于数据集合不包含任何标签的情况,即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程,使簇内对象相似性很高,但与其他簇中对象相似性很低。相异性和相似性是对结果的评估,主要用距离度量。如果数据源包含大量文本内容,对其进行聚类操作时,通常将文本关键词表示为矩阵形式,进而用余弦距离度量文本相似性。聚类算法可从多方面分类,如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。

划分方法:聚类分析最简单、最基本的方法是划分,它是把数据对象划分成多个互斥的组或簇的过程。具体来说,划分方法是将目标集合中的n个对象划分成k个分区,每个分区即代表聚类结果中的一个簇(kn)。

层次方法:通过对数据集的层次分解完成聚类,分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上的,首先认为每个对象各自为一个簇,然后通过迭代逐渐把初始的小簇合并成越来越大的簇,直到所有对象成为一个簇,或满足某种终止条件。分裂聚类是自顶向下的,首先它把所有对象置于一个簇中,然后从根开始递归地把这些簇划分成多个较小的子簇。

基于密度的方法:基于密度的方法在于弥补基于对象间距离的方法只能发现球状簇的缺陷,该方法可用于发现任意形状的簇。基于密度的方法把簇看做数据空间中被稀疏区域分开的稠密区域,当“邻域”中的密度超过某个阈值时,该方法继续增长给定的簇。

基于网格的方法:上述方法都是数据驱动的,它们划分对象集并自动适应嵌入空间中的数据分布。而基于网格的方法采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。该方法中的网格指多分辨率的网格数据结构,它将对象空间量化成有限数目的单元而形成网格结构,在该结构上进行所有的聚类操作。

三、数据挖掘技术在传统煤矿产业中的应用

传统煤矿产业每天也产生着大量的数据,这些数据中同样隐藏着各类有价值的信息,通过数据挖掘技术可以帮助分析数据中暗含的隐藏价值。本章将以电子商务和用户特征挖掘为例,介绍数据挖掘方法在煤矿产业中的应用场景,并介绍具体求解思路和方法。

1. 煤矿电子商务的数据挖掘场景

当全球资源化越发畅通和普及,网络技术和信息的传播作为数据大幅增长的重要传载体,企业中产生了以电子商务领域为主的大量业务数据。如何满足企业运作的高效要求,是目前电子商务急需解决的问题,将数据挖掘技术完善地应用到企业电子商务中,也显得更为必要[4]。文献[5]从现在电子商务的的概念与特性讲起,介绍了煤炭交易的电子商务活动中的数据分析和运用特点,并针对这些特点引入数据挖掘技术概念,详细分析了煤炭交易中电子商务数据挖掘的类型及相关方法。这里我们将概括该论文的具体思路,论述数据挖掘技术在煤炭交易电子商务场景下的应用。

煤炭交易电子是利用计算机技术、计算机互联网技术和通信技术,实现在煤炭交易的活动过程中的电子化、数字化和网络化。煤炭交易电子商务中产生的是基于计算机和Internet的Web数据,其具有鲜明的数据新特性:动态性、海量性和直接性。在电子商务的实际运用过程中,根据用户访问和顾客或企业访问产生的信息进行数据提取,大致可以分为3种数据挖掘的数据类型,即使用记录数据、内容数据和结构数据类型。相应地,基于Web的数据挖掘技术分为:使用日志或访问记录的数据挖掘模式、内容数据挖掘模式、结构数据挖掘模式。数据挖掘在电子商务的应用实现过程大致分为4个步骤:数据收集、数据预处理、模型评估、解释模型得出结论。

2. 煤矿产业中的用户节点特征挖掘场景

社交网络中有很多关于用户节点特征挖掘的研究,如对用户基本信息的挖掘、对用户行为和人格特征的挖掘、对用户兴趣喜好的挖掘等。这类方法同样可以借鉴到煤矿产业中,具体可以有两类应用:一是将员工看作用户节点,根据已记录的员工基本信息和工作信息,推断员工的工作习惯、兴趣爱好等隐藏信息,从而对员工有更深入的了解,有助于企业人文关怀的开展;二是将煤矿资源看作用户节点,根据已知的煤矿资源位置、属性及特点预测其他煤矿资源的信息,并帮助预测未发掘的煤矿资源位置。

该场景最常用到的方法是统计分析、分类、聚类和推断学习。其中,统计分析是各类方法的基础,几乎所有的研究都需要首先通过一定的统计分析过程发现数据规律,进而根据这一规律建模求解。分类是已知要挖掘的用户节点标签类别时常用的一种方法,除了本文第二章介绍的基本分类方法外,神经网络、SVM支持向量机、遗传算法、瀑布分类器等也都是常用的分类方法。聚类是在要挖掘的用户标签类别未知时常用的一种方法,除本文第二章介绍的基本聚类方法外,实际中常用的还有模糊聚类、基于概率模型的聚类等方法。推断和学习算法是根据其他信息学习目标信息,常用的是基于概率或网络图谱的方法。

四、结语

在当今数据r代下,每天来自商业、社会、科学和工程、医疗以及我们日常生活的方方面面的数兆兆字节或数千兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。可用数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生,这一技术已经并将就在我们从数据时代大步跨入信息时代的历程中做出贡献。

很多传统产业也开始利用数据挖掘技术解决生产过程中的实际问题。本文首先介绍了数据挖掘的常用基本算法,然后举例提出了在煤矿产业中可能的应用场景:一是将基于Web的数据挖掘方法应用到企业电子商务中;二是通过统计分析、分类、聚类和推断学习方法挖掘用户员工或煤矿资源的特征。事实上,数据挖掘理论在煤矿产业中的应用远不止这些,对生产资料的调控与分配、安全事故的分析和预警等同样可以通过数据挖掘技术解决。数据挖掘在传统煤矿产业的应用在为传统产业带来新机遇的同时,也为理论算法的进一步完善提出了新的挑战。

参考文献:

[1]韩家炜,坎伯.数据挖掘:概念与技术[J].北京:机械工业出版社, 2001: 232-233.

[2] 董建新.计算机数据挖掘技术在煤矿行业的应用[J].煤炭技术,2012,31(004):87-89.

数据挖掘技术分析论文篇9

中图分类号:TP311.13

互联网是人类快捷获得信息的一种重要渠道,为社会做出了巨大贡献,随着经济技术的进步,互联网越来越复杂,在当前时代,既是机遇,也是挑战。信息资源数据库对信息的储存和查询很有帮助,使人们能够更为方便地获得所需信息,当Web技术与数据库系统相结合后,信息的开放性也引发了信息的安全质量问题,因此,需要对Web数据库进行深度挖掘,以更好地为人们服务。

1 Web数据库及数据库挖掘技术

1.1 Web数据库

近些年来,网络技术已深入到社会各个角落,数据库系统也有了极大的进步,将两者相结合来开发Web的深度资源已成为当前重点研究的问题。Web数据库技术是一种以Web查询接口方式对数据库资源进行访问而且能够实现远程操控的技术,通过数据库与Web的连接可以产生一个在任何地方皆可操作的动态页面,即对核心数据库的信息资源进行查询,系统会以Web页面作为访问接口,并将查询结果以Web页面的形式展现出来。目前的Web数据库通常有数据收集、数据供应以及元搜索三种集成方式。

1.2 数据库挖掘技术

在当前信息化时代,人们的信息需求量骤增,信息资源储存量也不断扩大,加大了查询的难度,因此,如何在最短时间内获得所需信息是当前必须考虑的问题。深度挖掘技术具有关联分析、偏差分析以及分类等功能,能够从随机的海量数据中提取潜在有用的信息资源。须注意的是,并非每一个数据库信息的发现都是数据挖掘,如查询数据库管理系统中的记录等属于信息检索的领域。数据库挖掘技术在不断地改进,为进一步实现信息的传递,该技术融合了模式识别、统计学、进化计算以及搜索建模等知识。

2 Web数据库挖掘技术分析

2.1 数据的预处理

挖掘效果取决于被挖掘数据的质量,在实际采集中,数据存在着很多问题,如不完整性;在异常数据较多的情况下,常会带有噪声;数据的不一致性也是较为常见的问题,如数据名称的差异等。因此,预处理就显得尤为重要,在数据挖掘中的作用不可小觑,尤其是挖掘一些有残缺的数据资源时,为了提升挖掘质量,务必要提前对所挖掘的数据对象进行预处理。

2.2 模式识别

挖掘技术具有相关分析及计算的功能,模式识别即是借助统计法对识别的结果进行挖掘计算。实现算法可以采取一般的统计方法,也可以利用其他形式的结果,主要包括页面的浏览时间、访问次数以及统计分析等。在此阶段,关联规则的作用是发现用户访问的各个页面之间的关系。当利用浏览器对相关Web站点进行访问时,可建立相应的模型,以方便统计用户的访问模式。

2.3 模式分析

该环节即是采取科学的技术方法以及必须的操作工具对挖掘结果中的用户模式进行分析,经过对比,选择最为合理的模式,进而更好地对数据信息进行理解,充分利用各种用户模式。同时,在此阶段,有些比较特殊的信息结构,能够滤除诸如特定数据或超链接网页等模式。从当前的统计结果看,大约有30种商业性质的Web分析工具,合理地利用这些工具,有利于获得更多的信息,包括网页点击率、用户群特点及用户爱好等信息。须注意的是,这些数据在使用时常会很多问题,如维护较难、不够灵活、结果准确度得不到保障等。

3 Web数据库挖掘方法及应用

3.1 挖掘方法

(1)粗集方法

该方法对信息的要求较为简单,而且便于运算表达,但准确度上稍有瑕疵。利用该方法处理信息对象,和二维关系有所相似。连续属性在数据库信息表中较为普遍,而集合论是该方法的数学基础,采用粗集法不能直接处理一些连续的属性,因此,尽管数据库技术有了很大进步,为挖掘技术提供了必要的前提条件,但在实际操作中还是会有很大的制约。

(2)模糊集方法

该方法主要是在解决一些实际问题时,利用模糊集合理论对其进行的模糊识别分析。通常来说,数据库系统越是复杂,模糊性越强,在描绘模糊事物的属性时,模糊集合理论多采用隶属度进行。随着研究的进一步加深,以传统的模糊理论为基础,结合概率统计,专业研究人员提出了一种新的模型,即云模型,并建立了相应的云理论。

(3)覆盖正例排斥反例的方法

该方法的理论思想即是指覆盖所有的正例,或者排斥所有的反例,以此来寻找内在的规律。具体方法如下,在正例集合中任意选择一个正例种子,与反例集合中的所有种子逐一比较,若与字段取值构成的选择相容,则将之去除;若相反,则将其保留。按照这种方式对全部正例种子进行选择,最终得到正例的规则。

(4)统计分析法

一般而言,数据库的字段之间有函数和相关两种关系,利用统计学分析法可对二者进行仔细分析,即对统计学理论加以运用,从而更好地分析数据库中的信息资源。除了统计分析法,还可利用相关分析、差异分析等方式。

3.2 应用分析

(1)电子商务应用

随着信息化技术的进步,电子商务的作用日益重要,同时也存在着些许不足,如客户量较大,不好处理;信息的安全性等。采取Web数据挖掘技术,能够深度挖掘来访客户的信息,并按照一定的标准对其进行分类,然后分析客户的具体特征,保证企业能够全面完整地了解客户,以便提供更好地服务。同时,利用挖掘技术的关联分析功能寻找相关的客户资源,或者保留客户在页面上出现的时间段,从而创造更大的利润空间。

(2)网络教育应用

如今,互联网已经很普及,许多行业都纷纷引进了网络技术,教育也朝着网络化的方向发展。通过网络,学生能够快速获得所需信息,而且知识比较全面,学校也能根据此对学生的学习需求作进一步的了解。因为学生不同,网络教学需要提供个性化的教学方式,Web数据库挖掘技术能够从海量的信息数据库中将学生感兴趣的、隐含的信息资源挖掘出来,从而为学生提供更加方便的网络教育服务。

4 结束语

随着人们信息需求量的增加,数据库技术迅速发展,而互联网是当前获得信息的重要途径,二者结合将会构成一个巨大的数据库,同时也加大了信息传递的难度。以Web数据库为基础的数据库挖掘技术能够提高信息检索的速度和准确度,在网络教育、电子商务等领域得到了广泛应用。

参考文献:

[1]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(2):174-176.

[2]艾孜海尔江・艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217-219.

数据挖掘技术分析论文篇10

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

数据挖掘技术分析论文篇11

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)05-0132-02

数据挖掘是信息技术领域发展最快的技术之一,这项技术是人们自进入信息社会后,随着对信息认识不断的提高而产生的。对于数据挖掘技术来说,简单的讲,就是从众多的数据中发现并提取出隐藏的、非平凡的、未知的及有一定潜在应用价值的信息或模块。数据挖掘技术本身在数据库的研究中就是一个非常具有价值的领域,这是结合了人工只能、机器学习、统计学、数据库等等多个领域的技术。我们要了解数据挖掘模块在CRM上的系统实现及应用浅析,我们首先应该知道CRM的基本概念和数据挖掘技术的相关理论及体系。

CRM即客户关系管理(如图1),这是利用科学信息技术,用以实现市场销售、服务、营销等活动自动化,CRM作为一种现代化的管理理念,是以企业能更加高效率的为客户提供周到、满意的服务为目的。

1 数据挖掘目前的研究状况

在过去的很长一段时间,大量数据中很多有用的信息并没有得到人们的重视。近几年,随着收集数据的能力的飞速提高,大量隐藏的数据都被得以广泛的利用,数据挖掘模块可以帮助企业进行CRM、提高资金的利用率、减少不必要的投入。但数据挖掘仍然存在以下几个方面的问题。

1.1 基础理论研究不够成熟

就目前数据挖掘技术来说,有关方面的理论研究还没有完全的成熟,数据挖掘的理论基础能够从很多不同的角度去进行研究。最开始的时候,各种商业数据是保存在计算机数据库中的,随后逐渐发展到对数据库进行访问和查询,后又发展到对数据库的即时遍历。数据库进而慢慢发展成不仅能对过去有过的数据进行查询和遍历,同时也可以辨别数据间的潜在联系,加强了信息的传递,由此,计算机进入了一个更加高级的阶段。现在发展相对成熟的基础挖掘技术分别是强大的多处理器计算机、海量数据搜集、数据挖掘算法这三种。随着现在经济的全球化,商业数据库正在呈一个几何空间的速度在迅速增长,同时,数据库仓库也逐步的广泛应用于各个行业。

1.2 数据挖掘模块优化不够完善

数据挖掘优化的方法一般分为两种:一是在数据挖掘模块中,将优化作为其中的一个过程组件,其次就是应用完全基于优化的数据挖掘技术。数据挖掘过程中主要设计优化的问题有:主动式学习、对属性选择和数据挖掘模型的优化。除此之外,也有很多不同方法被应用到分类优化中。

2 数据挖掘模块在CRM上的系统实现

2.1 统计业务往来

数据挖掘模块主要是能够实现基本的统计功能,并且从客户的往来只利用数据统计客户量、总的业务量以及各种类型的业务数量。利用设置动态组,记录各个子项的统计个数。通过设置的动态组来保存各个子项的统计百分比和最小置信度。

2.2 实现客户购买特征分析

数据挖掘在实现客户购买特征分析上,可以针对不同类型的客户,来分析出客户的心态,从而制定出对应的营销策略,该方法的使用,能使推销更加的具有针对性,体现出对待不同类型客户因人而异的定制需求。

2.3 实现关联分析功能

关联分析是实现数据挖掘的主要形式,体现在基于交易数据的购物篮分析中。利用关联分析,能够很好的发现客户交易中,不同物品之间存在的间接或者直接的联系。可以利用推导出来的集合公式,编写循环算法并让其自动执行。利用分析出客户购买的意向,为后续销售服务提供一定的参考。

3 数据挖掘模块在CRM中的应用

数据挖掘一般能解决客户管理中的:客户群体管理、客户信用管理、客户保持分析、数据库营销、欺诈发现等问题。下文将详细介绍CRM中常见的数据挖掘模块。

3.1 挖掘新客户

市场中存在着大量的潜在客户,数据挖掘能帮你找寻到这些潜在的客户,并能够助使将这些潜在的客户发展成直接客户。数据挖掘新客户本来就是系统对未来的一个预测,而不是像检索历史数据一样。这种数据挖掘一般是需要建立一个预测的模型,这个模型会根据输入的数据计算出对某些销售建议的反应。

3.2 对客户进行分类

数据挖掘模块能够根据不同的客户,按照客户的年龄、性别、职称、文化程度、职业等条件经行划分。这种划分的好处在于可以使在市场竞争中,可以根据不同的客户群体采取不同的市场策略,这样,极大的适应了市场的需求。在对客户进行分类时,一般是原理是:将客户的一系列自身条件采用聚类分析技术分为若干类,然后提取出某种具有行为特征的客户,然后对他们的信息进行分析并找出客户自身条件和客户基本特征之间的隐藏联系。

3.3 交叉销售

作为同客户关系想更加深远的方向拓展的主要措施之一,交叉销售一直是一个不错的选择。交叉销售是指:在客户对于企业某一品牌有一定忠实度后,像客户介绍企业的其他产品或服务,然后可以利用数据挖掘技术来找出其中最适合客户的服务组合分类,然后利用其进行有针对性的营销策略。要想使用数据挖掘技术来实现交叉营销,一般都是从现有客户的购买上着手,一步步对客户喜好进行分析,这不失为一种开拓新业务的一种有价值的思路。

3.4 维持客户的稳定

客户维持,一般是指尽可能的留住可能会流失的一类客户。企业在不断得到新客户的同时,也应该注重老客户。此时,可以利用数据挖掘技术对老客户历史数据库进行分析,从而得出哪些客户可能会流失,并采取措施进行尽可能的挽回。在这一点上,数据挖掘能体现出很好的价值。

4 结语

CRM系统作为一个软件系统,在实施的过程中要解决好管理理念和给客户关系管理提供信息技术支持的问题。管理理念这个问题解决不好的话,CRM就失去了基础,所以说管理理念是CRM成功的基本条件。而数据挖掘模块在CRM中的运用,能够使能以最小的付出管理最大的资料,创造出更高的效率。数据挖掘模块在CRM上的系统实现和应用构建了一个包括分析层和操作层的全面系统。

参考文献

[1]王朔,刘俊,李润平.金融领域中的数据挖掘应用探索[J].福建电脑,2011(08).

[2]王聪.基于数据挖掘的分析型CRM系统在通信行业中的应用[D].东华大学,2008.

[3]郑阳洋.数据挖掘技术在烟草企业CRM中的研究与应用[D].山东师范大学,2011.

[4]吴志勇,吴越.数据挖掘在电信业中的应用研究[J].计算机应用,2005(s1).

数据挖掘技术分析论文篇12

中图分类号:C93 文献标志码:A 文章编号:1673—291X(2012)28—0227—03

一、时代背景

互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。

二、网络舆情监测引导的技术支撑

在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。

(一)Web数据挖掘

Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。

根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。

(二)Web挖掘过程

Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。

1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。

2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。

友情链接