数据信息论文合集12篇

时间:2023-03-15 14:56:27

数据信息论文

数据信息论文篇1

2交换机常见的攻击类型

2.1MAC表洪水攻击

交换机基本运行形势为:当帧经过交换机的过程会记下MAC源地址,该地址同帧经过的端口存在某种联系,此后向该地址发送的信息流只会经过该端口,这样有助于节约带宽资源。通常情况下,MAC地址主要储存于能够追踪和查询的CAM中,以方便快捷查找。假如黑客通过往CAM传输大量的数据包,则会促使交换机往不同的连接方向输送大量的数据流,最终导致该交换机处在防止服务攻击环节时因过度负载而崩溃.

2.2ARP攻击

这是在会话劫持攻击环节频发的手段之一,它是获取物理地址的一个TCP/IP协议。某节点的IP地址的ARP请求被广播到网络上后,这个节点会收到确认其物理地址的应答,这样的数据包才能被传送出去。黑客可通过伪造IP地址和MAC地址实现ARP欺骗,能够在网络中产生大量的ARP通信量使网络阻塞,ARP欺骗过程如图1所示。

2.3VTP攻击

以VTP角度看,探究的是交换机被视为VTP客户端或者是VTP服务器时的情况。当用户对某个在VTP服务器模式下工作的交换机的配置实施操作时,VTP上所配置的版本号均会增多1,当用户观察到所配置的版本号明显高于当前的版本号时,则可判断和VTP服务器实现同步。当黑客想要入侵用户的电脑时,那他就可以利用VTP为自己服务。黑客只要成功与交换机进行连接,然后再本台计算机与其构建一条有效的中继通道,然后就能够利用VTP。当黑客将VTP信息发送至配置的版本号较高且高于目前的VTP服务器,那么就会致使全部的交换机同黑客那台计算机实现同步,最终将全部除非默认的VLAN移出VLAN数据库的范围。

3安全防范VLAN攻击的对策

3.1保障TRUNK接口的稳定与安全

通常情况下,交换机所有的端口大致呈现出Access状态以及Turnk状态这两种,前者是指用户接入设备时必备的端口状态,后置是指在跨交换时一致性的VLAN-ID两者间的通讯。对Turnk进行配置时,能够避免开展任何的命令式操作行为,也同样能够实现于跨交换状态下一致性的VLAN-ID两者间的通讯。正是设备接口的配置处于自适应的自然状态,为各项攻击的发生埋下隐患,可通过如下的方式防止安全隐患的发生。首先,把交换机设备上全部的接口状态认为设置成Access状态,这样设置的目的是为了防止黑客将自己设备的接口设置成Desibarle状态后,不管以怎样的方式进行协商其最终结果均是Accese状态,致使黑客难以将交换机设备上的空闲接口作为攻击突破口,并欺骗为Turnk端口以实现在局域网的攻击。其次是把交换机设备上全部的接口状态认为设置成Turnk状态。不管黑客企图通过设置什么样的端口状态进行攻击,这边的接口状态始终为Turnk状态,这样有助于显著提高设备的可控性。最后对Turnk端口中关于能够允许进出的VLAN命令进行有效配置,对出入Turnk端口的VLAN报文给予有效控制。只有经过允许的系类VLAN报文才能出入Turnk端口,这样就能够有效抑制黑客企图通过发送错误报文而进行攻击,保障数据传送的安全性。

3.2保障VTP协议的有效性与安全性

VTP(VLANTrunkProtocol,VLAN干道协议)是用来使VLAN配置信息在交换网内其它交换机上进行动态注册的一种二层协议,它主要用于管理在同一个域的网络范围内VLANs的建立、删除以及重命名。在一台VTPServer上配置一个新的VLAN时,该VLAN的配置信息将自动传播到本域内的其他所有交换机,这些交换机会自动地接收这些配置信息,使其VLAN的配置与VTPServer保持一致,从而减少在多台设备上配置同一个VLAN信息的工作量,而且保持了VLAN配置的统一性。处于VTP模式下,黑客容易通过VTP实现初步入侵和攻击,并通过获取相应的权限,以随意更改入侵的局域网络内部架构,导致网络阻塞和混乱。所以对VTP协议进行操作时,仅保存一台设置为VTP的服务器模式,其余为VTP的客户端模式。最后基于保障VTP域的稳定与安全的目的,应将VTP域全部的交换机设置为相同的密码,以保证只有符合密码相同的情况才能正常运作VTP,保障网络的安全。

数据信息论文篇2

Abstract:DataisveryimportantforLandInformationSystem,AkeytoLandinformationthesystem''''sdevelopmentssuccessiswhetherthedataquantityisaccuracy.ThispaperwillStudythedataquantitytheprobleminLandinformationthesystemestablishtheprocess.

Keywords:LandInformationSystems;DataQuality;Error;Accuracy;RemoteSensing;Digitize;Resolution;CoordinateTransformation;VectorData;RasterData;Topological.

一、前言

土地是人类的宝贵财富,是人类社会进行物质生产所必需的基本条件和自然基础。如何科学、合理地利用有限的土地资源,如何及时了解与掌握土地利用变化数量和空间特点,对于保持耕地总量动态平衡和土地持续利用具有十分重要的意义。

随着社会经济的日趋多样化,土地部门的业务工作及范围也在不断扩大,原有的靠手工操作,图纸管理的模式已经越来越不能满足高效率的需求。为强化土地管理,满足社会对土地资源信息更多、更细、更完善的服务要求,各土地管理部门纷纷加入信息化、数字化的改革大潮。特别是在市场经济条件下,因土地管理部门工作的严肃性、准确性、科学性和规范化要求,管理中任何规定的确定和变更都需要完成大量的信息收集、分析、综合、决策和评估等工作,土地管理也只有强有力的信息技术(IT)的支持下,才能做到真正的科学决策和管理。

土地信息系统(LIS)是地理信息系统的一个分支,是一种基于宗地[以宗地(地块)为单位]的计算机管理信息系统。是一种利用计算机技术及其属性数据进行采集、处理、管理、查询、分析、应用和维护更新的空间信息系统,是土地管理的现代化工具,是土地规划和管理定量化、科学化的方法、手段。但是,在土地信息系统的建设过程中,还存在许多问题,给土地信息系统的建设及发挥带来一定困难。这里仅对土地信息系统建设中的数据质量问题进行探讨。

二、对LIS数据质量的认识

数据是一种未经加工的原始资料,是客观对象的表示,它可以是数字、文字、符号、图像,数据是信息的具体表达形式。一个LIS系统包括空间数据、属性数据、空间数据之间的关系以及空间数据与属性数据之间的关联。

人们往往以为计算机为基础的信息系统的数据质量是可靠的,很少怀疑利用信息系统产生的分析结果在数据质量方面会有问题,但事实远非如此。在某些情况下,由于多种原因,计算机分析的结果甚至会比手工分析的误差更大。这里除软件、硬件的质量问题,计算方法上的问题,以及分类、编码、输入、操作的明显疏忽外,数据本身的质量是重要的原因。

众所周知,数据是LIS的“血液”,是组成系统的重要元素。数据质量的好坏是土地信息系统成功与否的关键所在;数据质量的高低优劣,都直接影响到土地信息系统的经济效益和社会效益,决定了系统应用价值的大小;数据的可靠,质量的好坏将直接影响到整个系统的成败。系统如果不能提供正确、可靠的信息,这个系统也就失去了存在的价值。

数据质量的好坏是一个相对概念,并具有一定的针对性。衡量其好坏主要有以下几个指标:误差、数据的准确度、数据的精度和不确定性[1]。数据质量是数据整体性能的综合体现。

统而言之,数据的质量问题主要表现在两个方面:一是数据是否及时反映了现实世界;二是数据是否保持了一致性和完整性。

土地信息系统的数据量大,数据来源广,数据采集的任务重,在数据库建立过程中会出现许多人为和系统的误差,甚至还有可能产生数据错误,最后采集的数据无法准确反映规划和管理的实际状况,建立在此数据库基础上的系统往往也就达不到管理自动化辅助决策的目的,而只不过是“看看而已”的一种“摆设”罢了。

数据库(包括空间数据库和非空间数据库)是土地信息系统最基本、最重要的组成部分,也是投资比重最大的部分。数据质量的好坏,直接影响系统的功能和应用。不仅要根据技术规程衡量数据质量,还要从数据使用角度分析数据质量问题。数据质量通常是指数据的可靠性和精度,它主要用数据的误差来度量的。现就土地信息系统建立过程中的数据质量问题作进一步的探讨。

三、数据源质量的问题

土地信息系统的数据源指建库中所需要的各种数据类型的来源。它是土地信息系统最基本、最重要的组成部份。土地信息系统的数据源多种多样,主要包括有:地图,地图是系统最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别和属性可以用各种不同的符号加以识别和表示。土地信息系统其图形数据大部分都来自地图,土地信息系统的属性数据主要有地籍图、宗地图、土地详查图、土地利用现状图、行政区划图、专题图、乃至地形图等各种图件的矢量化地图数据。二是遥感影像数据,遥感影像数据是一个极其重要的信息源。通过遥感影像可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影像还可以取得周期性的资料,这些都为土地信息系统提供了丰富的信息。三是统计数据,包括土地的分类、面积、权属、分布及质量、等级状况、利用状况、非法占地等统计资料。四是实测数据,包括GPS点位数据、地籍测量数据等。五是数字数据,包括数字图形数据和属性数据。数字数据主要有地籍号、档案卷宗号、地类号、图号、手簿号、宗地界址点点号及坐标控制点坐标,宗地面积,面积中误差、年代、日期等等。属性数据包括图形、图像以外的各种文字、数字信息。其中文字信息主要是与宗地档案,文件档案组成相关的各种检索和查询信息(如:土地权利人姓名或单位各称、土地座落,文件档案的标题、发文机关、公文字号等等),以及土地登记、地籍调查、权属审核、登记发证各办公流程中的各种键盘输入信息。六是各种立法文件和文字档案,主要有地籍档案、文件档案等具有法律效力或需要经常查阅的原始文件材料,它们是土地信息的重要组成部分,在土地的规划管理中起着很大的作用。

数据源质量问题指数据的采集和录入中可能产生的误差,建库所需的各种类型的数据的可靠性和精度。

从土地信息系统建立的过程来看,它的主要因素有:各种测量数据,地图和遥感数据等的误差;调查和统计造成的属性数据误差,以及文档数据的错误等,数字化前的预处理、手扶踀自动化的分辨率和矢量化精度。

1、遥感数据

地理信息系统、遥感和计算机辅助制图是现代地理学的重要技术手段。遥感作为一种获取和更新空间数据的强有力手段,能及时地提供准确、综合和大范围进行动态监测的各种资源与环境的信息,因此遥感数据是土地信息系统的一个重要数据源。

所谓遥感(RemoteSensing)就是遥远感知的意思,也就是不直接接触目标物和现象,在距离地物几公里到几百里、甚至上千里的飞机、飞船、卫星上,使用光学或电子仪器接受地面物体或发射的电磁波信号,并从图像胶片或数据磁带形式记录下来,传送到地面,经过信息处理,判读分析和野外实地验证,最终服务于有关部门的规划决策[2]。土地管理部门可以运用遥感技术快速获取现状空间的信息。

尽管遥感技术有很多好处,但因其自身特性,获取的遥感数据可能存在一些误差。如:不同的高度引起的问题,由于传感器的结构及稳定性产生的问题,对信号进行数字化产生的误差。传感器在航线、航向上出现的误差,大气辐射产生的误差,地形和地貌等因素产生的误差等等。在遥感资料的获取时,有些误差是可以控制的,有些则不可控。因此必须对原始数据进行预处理,包括利用地面控制对原始数据进行几何校正,图像增强和分类。对获取的遥感数据进行光谱校正,特征提取,自动识别分类、自动成图等处理[3]。

2、测量数据

各种原始的测量数据是土地信息系统的主要来源之一。包括宗地的权属界线、位置、形状、数量、面积、各级行政界线、地形图测量等。由于人和环境的因素,测量数据不可避免地受到人为误差(对中、读数、平分等误差)、仪器、环境的影响。来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差除了继承了控制点的误差外,还受自身观测方法,观测精度和地界的人为判断,以及地物地貌的取舍等因素的影响。当然原始数据误差受观测仪器、观测者和外界环境三种因素影响。除此之外,还有测量数据的实时性以及数据老化,采集数据的密度不合理,或概括取舍不合理,选取测量规范标准不一致或精度等级不一致造成测量数据的不一致的影响。

地籍要素是构建土地信息系统极为关键的一步,其测量数据的精度高低决定了系统功能能否得到正确和充分发挥。

从地籍测量成果的有效性和土地管理的可能性来考虑,为了保证各权属单元之间的界线清晰,边界无争议,并且双方都能接受而不损害他人和国家的利益,地籍测量要达到一定精度。因此,必须要有相应的数据采集方法作为保证。地籍要素的采集方法目前主要有两种,一种是传统的模拟式外业测图方法,另一种是野外全数字化数据采集方法。传统方法的主要作法是在地籍控制测量的基础上,用解析法测量出权属界址点坐标,以控制点或以界址点为基础施测成地籍图,要形成入库数据信息,则要通过对原图数字化来实现。用传统数据采集方法形成地籍要素数字信息其误差影响因素较多,主要误差来源为:测站点误差m1,量距误差m2,在测图板上描绘方向线误差为m3,刺点误差m4,数字化仪采点误差m5等。按有关专著论述,一般情况下,m1≈±0.12mm,m2≈±0.2,m3≈±0.1mm,m4≈±0.14mm,这四项误差为野外采集误差。数字化m5的影响因素比较复杂,误差产生首先与图形要素有关,要素本身的复杂程度对数字化精度有显著影响,数字化仪本身的精度更应引起重视。正常情况下,用常规数字化仪进行数字化时,精度一般可达到±0.13mm。综合上述得,地籍要素采集精度m采为:

m采=±

=±0.02mm

按1:500比例尺来考虑,实地误差将达到±10cm,由此可见,按传统方法施测,则拟入库的地籍要素信息很难达到规定的±5cm的精度标准[4]。

采用野外全数字化方法,界址点野外数据采集一般采用直接测定坐标法,即将全站仪或测距仪置于测站点上,对界址点上的移动棱镜进行水平角和距离测定,电子手薄记录计算。此种方法的主要误差来源为水平角测角误差mβ和测距误差mD,测角中误差角保守为±5″,测距误差主要来自移动棱镜偏离界址点位置误差,其偏离值按2cm考虑。测距平均边长取100m,按点位误差精度估算公式m2=来计算,则m≈±2cm,即便考虑测站误差和其他偶然的联合影响,点位精度也肯定在规定范围内,所以地籍要素信息数据的野外全数字化有利于提高界址点精度,从而保证地籍数据的质量。

3、调查、统计、文档数据问题

土地信息系统的建设过程中,涉及大量的调查统计数据,这些资料尚存在许多不足之处,为土地信息系统的建设带来了一定困难。

建立土地信息系统,必须首先进行土地基本信息的搜集,开展地籍调查工作,核实宗地权属,掌握土地利用状况,获得宗地位置、形状及其面积的准确数据,为建库奠定基础。

现就地籍调查工作加以探讨,众所周知,权属调查的工作之一是填写地籍调查表。由于权属调查技术性强,工作量大,参与人员多且水平不同等原因,填写后的地籍调查表或多或少会出现下面一些问题。在填土地使用者名称时,单位本应填写全称,可出现了类似这样的情况:某林业局有3宗地,而在3份地籍调查表上出现了xx林业局、县林业局、林业局等名称。按这样的名称录入建立信息系统,将导致不能正确地自动的归户。在填写土地使用者性质时,本应该写“全民”或“集体”或“个体”或“个人”,而出现了“国营”或“国有”或“私营”这样的名词。在填写宗地四至时应说明权属界线所经地物名称及归属、位置、与誰接壤。但出现了东(南、西、北)至xx,而未填出接xx。且有的四至填写错误,如两宗地共用一堵墙时,则只能出现两宗都至墙中,或一宗至墙内另一宗至墙外,但填出了两宗都至墙外或墙内等情况。在填写界址标示处的界址线位置时也有类似错误,有的表填写字迹潦草,或使用简化字,让人难以辨认。有的内容还可以猜出,但户主的姓名、调查员、勘丈员的签名等内容实在难辩;有的表中该填的内容而未填,任意涂改。

共用宗的处理,一个地块被几个权属单位共同使用,而其间又难以划清权属界线,这样的地块称为共用宗[5]。不少县(市)是这样处理的:有多少土地使用者就填多少份地籍调查表,表上的内容按各分宗填写。这样做的好处是所填的内容详细,调查表和土地登记申请书、审批表形成一一对应的关系。但其弊端也是显而易见的,其一较大地增大了填表的工作量,其二增大了复杂程度,在填写四至时,如遇一个土地使用者使用几个地块则不得不写清几个地块的四至;为填清界址指标,又得设置内部界址点,增加了宗地草图和地籍图的负荷量,填表时如不小心还会造成表与表之间的相互矛盾。为了和地调表统一,有的在形成宗地界址点成果表时,除了有宗地界址点成果表外,还有分宗的界址点成果表。如果内部界址点是在纸图上图解的,则将该宗地的宗地界址点和内部界址点和计算机展点后,会出现界址线混乱的情况。在土地信息系统建库时,这些内部点是不能当界址点录入进库的。如进库则在面积统计时,这种内部界址点所围成的区域的面积就被多统计了一次。

建立完备的信息系统,必须具备这样的条件:大比例的地形图或地籍图;野外测量的界址点数据;宗地的属性数据(土地登记申请书、地籍调查表、审批表等)。全省在进行大大规模的城镇地籍时,由于受当时的条件限制,自动化程度低,各作业单位作业水平的不同,或多或少出现一些问题。在建库时所发现的问题主要是界址点的坐标成果与地籍上的位置不吻合;相邻宗的同一界址点坐标不同;界址边长、宗地面积计算有误。某些县(市)为了进行土地登记,由于多方面的原因,在进行初始地籍调查时,只作权属调查,不作规范的地籍测量。为了计算面积,用皮尺或钢尺丈量界址边长及相关尺寸,用几何图形法计算出宗地面积,而不测址点坐标和地籍图。这样做不利于信息化的管理。

4、图形数字化

影响数据质量的因素是多方面的,有相当一部分来自于建库过程中的数字化过程。建库过程中的数据质量,包括数字化前的预处理,纸张变形、手扶跟踪数字化精度或扫描数字化的分辨率和矢量化精度。

(1)数字化前的预处理

用于数字化作业的地形图(工作底图)一般采用聚酯薄膜图,其变形一般小于0.2‰。采用纸质图纸时,图纸的尺寸随湿度和温度的变化而变化,温度不变的情况下,温度由0%增至25%,则纸的尺寸可能改变1.6%[6]。因为纸的膨胀率和收缩率不相同,即使温度回到原来的大小,图纸也不能恢复原来的尺寸。因此在数字化时要适当的比例因子,通过仿射变换进行几何纠正,以减小工作底图变形产生的位置误差,达到相应的精度。

对不同种类和比例的工作底图进行数字化时,应注意它的投影方式是否一致,比例是否匹配。对于不同投影方式应在数字化后及时变换为系统要求的投影方式。对于不同比例应将比例尺和精度记录到元数据中,以便估记由此可能产生的误差。

(2)跟踪数字化

手扶跟踪数字是一种自动化精度较低的数字化方式,其数字化精度也因操作员及其工作的疲劳程度而异,操作员的劳动强度较高。随着大幅面扫描仪的成本不断降低,扫描和矢量化技术不断完善,这种数字化方式可能成为自动扫描数字化的一种补充。

手扶数字化是从地形图输入空间数据的最广泛采用的输入方法。把地形图放置于数字化桌上,用手持设备,跟踪每一个地图特征、数字化设备精确量测鼠标的位置,产生数据形式的坐标数据。

影响跟踪数字化数据质量的因素很多;主要有:数字化底图中地理要素的宽度、密度和复杂程度对数字化结果的质量有着显著影响。数字化仪的分辨率和精度对数字化数据质量有着直接的决定性的影响。《地形图数字化规范》规定,数字化仪的分辨率不能小于每厘米394线(约1000dpi),精度不低于0.127mm(0.005英寸)。常见数字化仪在分辨率方面通常能满足要求,而在精度方面却有相当一部分不能达到要求。在选择数字化仪时要特别注意其精度指标,以满足LIS工程的需要。数字化操作员的技能与经验不同而引入的人为因素误差是不同的,由于操作员视力、操作习惯,熟练程度和疲劳程度的不同,最佳采样点位值判断,十字丝与目标点重合程度的判断会有一定程度的差异,影响数字化的质量。操作方式(如曲线采点方式和采点数目)也会影响数字化数据的质量。

假定各种误差影响符合误差传播规律,手扶跟踪数字化的综合精度应按下式求得:[7]

m数=±

其中:m数表示手扶跟踪数字化的综合精度;m定表示工作底图定向误差,m仪表示数字化仪精度,m人表示人为因素误差。

(3)、扫描数字化

扫描数字化用高精度扫描仪将图像等扫描并形成栅格数据文件进行处理,将之转化矢量图形数据。规范规定:图形定位控制点扫描误差不大于0.1mm,相对于工作底图,矢量化后的扫描点误差不大于0.15mm,线划误差不大于0.2mm。影响扫描数字化质量的因素除原图质量外,还包括:扫描精度、定向精度、矢量化精度损失等。

①扫描仪的分辨率和精度

扫描仪的分辨率和精度对扫描数字化质量的影响是至关重要的。因此,要根据具体情况选择适当的扫描仪。目前,大幅面扫描仪大致有,滚筒式(drum),平板式(flatebed),直进式(directfeed)3种。这些扫描仪能够输出一种或多种形式栅格数据文件(二值、灰度和彩色)。

滚筒式扫描仪精度较高价格较贵,能以较高的分辨率扫描AO或更大的图纸。

平板式扫描仪与滚筒式一样精度高、价格贵、分辨率很高,但一般幅面不会超过A1幅面。由于平板式扫描仪幅面小,扫描后多需进行拼接,从而增加了工作难度,引入了更多的误差源。LIS工程一般不选用这种扫描仪。

直接式扫描仪精度较低,价格也较便宜。通常能够满足一般LIS工程的需要。

目前,需要的大幅面扫描仪品牌有:CONTEX、VIDER、ANATECH等。

在选择扫描仪时,应注意其是否采用硬件消蓝。光学分辨率代表了扫描仪的分辨率能力,而经销商往往只是给出插值分辨。同时,应注意扫描仪的歪斜失真,歪斜失真的大小与扫描仪的走纸方式有关。

②栅格数据矢量化的精度损失

在土地信息系统中,栅格数据与矢量数据各具特点与适用性,为了在一个系统中可以兼容这两种数据,以便有利于进一步分析处理,常常需要实现两种结构的转换。

栅格的矢量转换处理的目的,是为了将栅格数据分析的结果,通过矢量绘图装置输出,或者为了数据压缩的需要,将大量的面状栅格数据转换为由少量数据表示的多边形边界,但是主要目的是为了能将自动扫描仪获取的栅格数据加入矢量形式的数据库。

在栅格数据矢量的过程中的细化、跟踪等均可能引入一些误差。复杂图形全自动化矢量化效果极差,会产生众多的交叉线,导致多边形跟踪错误。对此,应采用交互式矢量化方法。因此在选择矢量化软件时不应仅仅关心自动化程度(全自动矢量化软件价格往往很高)。还要特别注意是否具有以下功能:智能去斑,裁剪,扭曲较正,比例控制,水平校正,光栅编辑和交互式矢量化等。

③扫描数字化方法误差

扫描数字化的几何分辨率是扫描数字化方法误差中最重要的误差源,减小这种误差的唯一方法就是提高扫描仪的几何分辨率。但是,随着分辨率的提高,栅格数据量以平方级速度增长。这往往造成计算机存储资源耗尽,数据处理时间平方级延长。以300dpi(约每mm12个点)的分辨率扫描时,独立点间距离的相对精度为1.4/1000左右。全自动矢量化细化过程所产生的点位误差为1~2个像素点,而交互跟踪矢量化最大点位误差可以控制在一个像素点。按300dpi计,每个像素点相当于图上0.01mm。扫描数字化综合精度可按下式计算:

M扫=±

其中:M扫表示扫描数字化的综合精度;M定表示底图定向误差;M仪表示扫描仪精度;M矢表示矢量化误差。这里,M定取±0.12mm,按300dpi计算M仪取±0.09mm,M矢取±0.1mm。则M扫=±0.180[8]。

四、数据处理质量

土地信息系统的数据库建立后,其中已经包含了数据源和数据库建库所引入的误差。数据库中的多源数据,经过系统的各种分析处理后,在形成新的数据和最后产品的过程中还会产生新的数据质量问题。这些问题包括:几何改正,坐标变换和比例变换,几何数据的编辑、属性数据的编辑、空间分析,数据格式的转换等。

1、空间分析

空间分析是对分析空间数据的技术的通称。从客观上区分,可归纳为:空间的图形数据的拓扑运算;非空间属性数据的运算;空间和非空间属性的联合运算等[9]。空间分析赖以进行的基础是空间数据库,土地信息系统的空间数据分析,是实现土地资源信息系统的实际运用的重点途径。

空间分析中的叠加分析是土地信息系统中十分常用的一种分析方法,是用户经常用以提取数据的手段之一。通过同一地区不同内容的多幅地图的叠加组合,产生新的图形和属性信息。在这个过程中往往产生拓扑匹配、位置和属性方面的数据质量问题。由于叠加时多边形的边界可能不完全重合,从而产生若干无意义多边形。对这些无意义多边形进行处理的结果往往会改变界线的位置,叠加后形成的新的多边形的属性值也可能存在由于属性组合带来的误差。

2、坐标变换

土地信息系统数据来源较多,各种数据输入信息系统应便于系统对数据进行图形显示,叠加查询,统计分析处理。LIS要实现这些功能,一个首要和基本的前提就是各种不同来源的数据在系统内必须在一致的地形图坐标系下。但是,在实际的数据采集过程中,大量的数据坐标并不一定属于系统用户所要求的坐标系,原始数据为一种坐标系,系统要求的数据为另一种地图坐标系,有的数据坐标根本没有地理意义,对此情况,必须提供从一种地图坐标系到另一中坐标系的坐标变换。

在具体的操作过程中,有可能产生新的误差。在不同比例尺下对坐标数据的重新设立产生误差,进行投影变换和/或基准面变换时产生的误差。生产实践中为提高数据质量,确保系统的数据精度和可靠性,通常用仿射变换和相似变换等模型来进行数据处理,以减小或消除误差。

坐标变换的实质是建立两个平面点之间的一一对应关系,现有一般GIS(LIS是GIS的专题)软件大都提供了以下两种模型实现坐标变换。

一是仿射变换:仿射变换也称六参数变换,其变换公式为:[10]

x´=Ax+By+C(Ⅰ)

y´=Dx+Ey+F(Ⅱ)

其中,x´、y´为地图输出坐标系中的坐标点对;x、y为输入坐标中的坐标点时;A,B,C,D,E,F为方程参数。参数在坐标系空间上的几何意义为:A和A分别确定点(x,y)在输出坐标中x方面和y方向上的缩放尺度。B和D确定旋转角度,C和F分别确定在x方向和y方向上的水平移尺寸。

二是相似变换:当式(Ⅰ)、(Ⅱ)中的参数满足条件A=E=Scos@,B=-D=Ssin@时,则得到四参数的相似变换公式:

x´=Ax+By+B(Ⅲ)

y´=-Bx+Ay+D(Ⅳ)

式中,x´、y´为输出地图坐标系中的坐标点对;x、y为输入地图坐标中的坐标点对;A、B、C、D为方程参数,相似变换实质上也是坐标系间的平移,旋转和缩放尺度的变换,式中C和D分别为坐标在x轴和y轴上的平移大小,为缩放比例,@=arctg(B/A)为旋转角度。

为了求出以上公式中的参数,建立两种坐标之间的仿射(或相似)转换关系,至少需要三个(或两个)已知的控制点坐标。而实际上,应选择多于三个(或两个)控制点,方能按照最小二乘法原理进行平差,得出系数值,代入上述方程即建立输入和输出坐标系之间的仿射(或相似)变换数学模型。

可以看出,仿射变换和相似变换都为线性函数变换模型,可实现对原图形的平移、旋转和缩放,相比较而言,相似变换不能进行x轴、y轴不均匀缩放的变换,而仿射变换能保证更高的数据精度。

3、数据变换

(1)CAD向GIS的转换

目前我国土地管理中存在一个较为普遍的问题是土地信息系统的构建与图形数据采集较少作用一个整体来通盘考虑,地籍测绘大大超前于信息管理系统构建。中小城市这种问题表现得更为突出。为满足土地确权发证,土地定级估价等需要,1995年前测绘的地籍图等图件因受技术条件的限制绝大部分是采用传统白纸测图方法完成的。随着计算机技术的发展和在测绘工作中的普及应用,1995年之后数字地图逐渐取代传统测绘。但一个不容忽视的事实是,绝大多数测绘图软件是在AUTOCAD上进行二次开发完成的。有些甚至是采用低版本的CAD,有些测绘图软件虽然测的是数字图,但只有非编码的图形文件,不保留信息,或者图形编辑以后,返不成信息。这种数字图说到底仅仅是从传统的白纸图过渡到计算机驱动绘制的白纸图。本质上与传统测绘没有什么区别。有些虽然采用了较高版本的CAD基础软件二次开发成数字测图软件并采用了数字编码技术,但由于较少考虑CAD与GIS的数据共享问题(土地信息系统属于专题GIS)。在着手考虑构建土地信息系统时,遇到的突出问题则是如何充分,有效利用已有数字信息资料,并确保数据转换质量。

对于传统模拟图或难以返成信息的所谓数字图只能采用原图数字化,形成数字信息后方可加以利用,但其精度丢失是不可避免的。

对于采用了编码技术,也能返成信息的数字图,其数字信息可以通过数据转换来实现数据共享,但由于CAD与GIS图形数据之间其数据格式,数据内容甚至数据概念都有很大差异,数据转换时应注意以下三个方面:[11]①数据格式转换。不同的软件有不同的数据格式,有些可以通过通用数据格式如DXF实现转换,但转换过程中的数据丢失也的确令人烦恼。②数据元素转换。CAD与GIS两者之间的图形元素不是一一对应关系,CAD图形中的图形元素种类要比GIS图形文件中的图形元素种类多,GIS中只有点、线、面三类基本图形元素,而CAD中包括有点、线、面、注记、矩形等多种图形元素,在具体转换中,CAD的图形元素哪些转换成GIS的点,哪些元素转换面面,什么元素需要转换成GIS的属性数据,什么元素则不需要转换到GIS中去等。CAD与GIS图形元素之间的对应关系,都需要认真细致地加以技术处理,使空间数据和属性数据在输入系统后正确地连接起来。③拓扑关系的形成。因为CAD的图形元素之间没有拓扑关系,实现CAD向GIS数据转换的一个重要内容就是要将转换后的图形数据按照一定的技术要求经过编辑,在GIS环境下建立几何元素的拓扑关系。

在实际转换中,还会出现许多意想不到的技术问题,会影响数据转换质量,有待进一步解决。

(2)矢量数据结构向栅格数据结构的转换

土地信息系统的建设中,许多数据如行政边界,交通干线,土地利用类型、土壤类型等都是用矢量数字化的方法输入计算机或以矢量的方式存在计算机中,表现为点、线、多边形数据。然而,矢量数据直接用于多种数据的复合分析等处理将比较复杂,特别是不同数据要在位置上一一配准,寻找交点并进行分析。相比之下利用栅格数据模式进行处理则容易得多。加之土地覆盖的叠置复合分析更需要把其从矢量数据的形式转变为栅格数据的形式。

矢量数据的基本坐标是直角坐标(x,y),其坐标原点一般取图的左下角。网格数据的基本坐标是行和列(i,j),其坐标原点一般取图的左上角。两种数据变换时,令直角坐标x和y分别与行与列平行。由于矢量数据的基本要素是点、线、面,因而只要实现点、线、面的转换,各种线划图形的变换问题基本上都可以解决[12]。

矢量数据变成栅格数据的原理与方法并不困难,但由于矢量数据的记录方式各不相同,也会产生一些问题。如多边形之间公共边原来只有一条交界线,转变成网格后成为有一定宽度的界线,产生了一定的近似性。特别是几条线交叉处,一个网格元素中包括了相邻的几种类别,转换时只能用其中的一种类别作为交叉点所在的元素的类别,这种误差应在允许的范围以内。而减小网格尺寸,虽提高了精度,但大大提高了数据的冗余量。

栅格数据结构需要大量的计算机内存来存贮和处理数据,才能达到与矢量数据结构相同的空间分辨率,而矢量结构在某些特定形式的处理中,如象多边形叠置,空间均值处理等尚有大量的技术问题来解决。值得注意的是,无论采用哪种转换方法,转换的结果都会不同程度地引起原始信息的损失。

通过矢量数字化或扫描数字化所获取的原始空间数据,都不能避免地存在错误或误差。属性数据在建库时,也难免会存在错误。诸如:空间数据的不完整或重复,空间点、线、面数据的丢失或重复,区域中心点的遗漏,栅格数据矢量化时引起的断线等,空间数据位置的不准确、线段过长或过短,线段的断裂、相邻多边形结点的不重合及空间数据的变形等。因此,必须对图形数据和属性数据进行一定的编辑。

土地信息系统数据编辑是消耗时间的交互处理工作,对空间数据不完整或位置的误差,主要是利用LIS图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、装饰)、插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例尺变换和纠正来处理。

在数据的编辑过程中,由可能产生一些新的问题。如:线段的相关与延伸出现的问题,图形的平移与旋转出现的问题,删除“细部多边形”时产生的误差,数值计算与变化的误差;文件的合并以及形成新文件的问题;属性数据的重新定义和更新的问题。有的问题时可能避免的,有的问题则无法避免。因此,必须进行检核。通过耐心细致的检查,主要误差都能从数据中寻找出来,并有效消除误差。一般采用叠合比较法,目视检查法和逻辑法。

叠合比较法是空间数字化正确与否的最佳检核方法,按与原图相同的比例尺把数字化的内容绘在透明材料上,此后与原图叠合在一起,在透光桌上仔细的观察和比较。一般。对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须把遗漏、位置错误的地方明显地标注出来。目视检查指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,包括线段过长或过短,多边形的重叠和裂口、线段的断裂等。

5、由计算机引起的问题

在计算机中,数据是由一定字长的编辑数码表示的,由计算机字长可能引起一种误差。这种误差出现在各种数值运算和模型分析中,由这种误差引起的问题很多[13],例如LIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变换对拓扑关系的影响等。削弱误差影响的主要方法有:改变数据在计算机中的表示方式,采用合适的算法等。

除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据时,则不能胜任。

五、数据应用质量

土地信息数据在使用过程中往往出现一些质量问题,这些问题包括数据的完备程度,时间的有效性,拓扑关系的正确等。

1、数据的完备程度

数据的完备程度指地理数据在范围、内容、及结构方面满足所有要求的完整程度。包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。

一般来说,空间范围越大,数据的完整性就越差。在土地信息系统的建库过程中,数据不完整最简单的例子是缺少数据。如计算机从GPS接收机传输位置数据时,由于软件受干扰或其它因素的缘故,只记录下经度而丢失纬度,以至造成数据不完整。另外由于GPS接收机无法收到四颗或更多的卫星信号而无法计算高程数据也会造成数据的不完整。又如某个应用项目需要1:5000的基础底图,但现在的地图数据只覆盖项目区的一部分,底图数据便不完整。

在土地信息系统底建库中,涉及大量的地籍档案。地籍档案来源于土管机关的地籍部门,数量大、形式多、浩繁、零乱,随着时间地推移,以及人为和自然的各种因素地影响,有可能遭到损坏。如档案老化,书写材料低劣、地籍档案变到污染,变色、虫蛀等现象,进而影响到整个系统的质量。

2、数据的现势性

数据的现势指数据反映客观现象目前状况的程度。数据的现势差,反映的客观现象就可能不准确。不同现象的变化频率是不同的。如地形的变化一般来说比人类建设要缓慢,地形可能会由于山崩、雪崩、泥石流、人工挖掘及填海等原因而在局部区域改变。但由于地图制作周期较长,局部的变化往往不能及时地反映在地形图上,对那些变化较快的地区,地形图就失去了现势性。城市地区土地覆盖变化较快,这类地区土地覆盖图的现势性就比发展较慢的农村地区会差些。地形图上记录着所用航空像片获得的年代。若又用其他数据进行过修改(一般是较新的航空像片),也应记录于上。

在土地信息系统建库中,要求地籍信息和地籍图必须具有现势性。地籍信息变更比较频繁,如土地利用类型,权属或宗地的重划,合并等。由于受自然因素和人为作用的影响,土地资源的数量、质量、分布和使用情况都处在经常变化之中。基于这一特点,土地管理部门提供的数据很难保证现势性,这也是影响数据质量的一个重要方面。

3、拓扑关系

在LIS中,为了真实地反映地理实体,不仅要包括实体的位置、形状、大小和属性,还包括必须反映实体之间的相互关系,这些关系就是指它们之间的邻接关系,关联关系和包含关系,拓扑关系。拓扑关系的核心是建立点、线、面的关联关系。通常有以下几种空间关系:点-点关系、点-线关系、点-面关系、线-线关系、线-面关系、面-面关系。空间数据的拓扑关系,对数据处理和空间分析具有非常重要的意义[14]。

利用拓扑关系,可以确定一种空间实体相对于另一种空间实体的位置关系。利用拓扑关系,可以确定某县有多少耕地,分析土地利用类型及对土地适宜性做出评价等。

在拓扑关系的建立中,拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化,拓扑关系的不正确等情况,导致空间分析的结果错误,给土地管理决策带来一定的影响。

六、结论

数据是LIS最基本和最重要的组成部分,同时也是一个LIS项目中投资比重最大的一个部分。数据质量的好坏,会直接影响到LIS的系统功能和应用质量问题的三个方面(数据源的质量问题、数据处理质量问题、数据应用质量问题)着手,对LIS的数据质量问题进行了一定的归纳总结和初步的探讨。众所周知,LIS的数据质量是影响LIS的一个瓶颈环节,LIS数据量大、数据种类多、数据结构复杂。因此,在LIS的建设过程中,如何在数据采集与建库中实施质量控制,保证数据质量对土地信息系统建设来说显得尤为关键。

七、总结与体会

毕业论文的撰写是一次再学习和锻炼的机会,是对所学知识的一个融会贯通的过程。通过毕业论文的撰写,我对所学的知识有了更深层次领悟和掌握,对自己所学的土地管理专业有了一个整体认识。毕业论文不仅是对所学知识的总结,也是运用所学知识探求新知的方法、手段。既是一次再学习的过程,也是一次深入学习的机会。同时,毕业论文写作,为今后的学习工作奠定了一定的基础。通过毕业论文的写作,我真正懂得理论联系实际的重要性。在撰写毕业论文中,我运用所掌握的基本知识、方法和技能,研究探讨了土地信息系统建立过程中数据质量的有关问题。通过毕业论文的撰写,我进一步完善了自己的知识结构,学习了更多的知识。不仅如此,我对土地信息系统数据质量控制措施与方法方面有了更进一步的认识。

通过毕业论文的写作,不仅强化了我的学习素质、研究素质和创业素质,而且培养了我的创新意识,激发了我探求新知的欲望。认真写作毕业论文,不仅能进一步巩固所学的理论知识,而且还能进一步提高自己的各项基本技能,实践能力和解决问题的能力。

八、谢辞

在论文的写作过程中,玉文龙老师给予了很大的支持和帮助,为论文的写作提出了许多宝贵性的意见和建议;在他的指导下,这篇论文得以顺利完成。在资料的搜集过程中,图书馆工作人员为我们提供了很大帮助,本组同学也给予了很多支持,在此表示衷心感谢。

参考文献

[1]钱乐祥,余明全.土地信息系统的几个基本问题.测绘通报,1999(10).

[2]张超等.地理信息系统.北京:高等教育出版社,1995.

[3]阎正等.城市地理信息系统标准化指南.北京:科学出版社,1998.

[4]范爱民,景海涛.地图数字化质量问题.测绘通报,2000(4).

[5]严星,林增杰.地籍管理.北京:中国人民大学出版社,1999

[6]-[7]郝向阳等.地图扫描数字化点位精度分析.测绘学报,1995,25(1).

[8]毛锋等.地理信息系统建库技术及应用.北京:科学出版社,1999.

[9]汤国安,赵牡丹.地理信息系统.北京:科学出版社,2000.

[10]徐建刚.城市规划信息技术开发及应用.南京:南京大学出版社,2000.

[11]司少先.地籍信息系统源数据质量问题探讨.测绘通报,1999(4).

数据信息论文篇3

二、信息管理的发展对档案数据库建设发挥指导作用

(一)数据库离不开信息管理。数据库内容反映的是一个现实的实体单位的历史记录,保证了档案数据具有一个坚实可靠的立足点,这就应用到信息管理,是单纯地依靠逻辑分类方法所达不到的。

数据信息论文篇4

2当前我国计算机数据库技术在信息管理中的应用现状

在很早之前,我们的数据信息管理完全依靠人力,然后利用纸笔进行记录,这个过程不断非常耗费人力物力,而且一旦发生突况,丢失的危险也比较大。而数据库技术就解决了这样一部分问题,例如数据库进行数据系统的优化,将数据进行分门别类的保存,然后根据已有的程序进行保护。这种技术上的进步减少了不少人力资源的浪费。同时数据库技术还能发挥另外一个重要的作用,即数据的共享作用,只要在同一个系统当中,有无数的人都可以进行资源的分享。但是,在众多优势的背后,不得不看到当前我国信息技术管理中、数据库应用的许多问题,例如:数据库系统的独立工作能力较差,在平时的工作中维护的效率也相对较低,安全性与可操作性更是需要进一步完善的方面。2.1数据库的安全性问题。当前我国的很多企业单位都采用了数据库技术,在数据库中保存了各自单位的相关信息甚至行业机密。针对这种情况,有些不法分子看到了可乘之机,即利用相关行业竞争对手的心理,对有些企业的数据库进行数据盗取,这种行为不仅仅是犯罪行为,同时也可能扰乱社会秩序,造成用户客户的信息流失,造成企业的信誉下降与经营危机。2.2数据库的兼容性问题。事实上,应世界的发展趋势与国家的要求,很多行业都需要“共享”“共赢”才可能发展。这种情况下,就需要对有些数据信息进行共享,所以要求我们的数据库技术的兼容性可以更上一个层次。但当前显然我们的数据库技术的兼容性还有待进一步提高。2.3数据库的操作性问题。数据库技术需要良好的操作性,只有在随时可控与合理优化的前路上,数据库才能够更加安全。但当前我国的数据库技术现状是很多程度的操作性不够强,在这样的情况下,信息管理的效率不但受到影响,既有可能在外来操作入侵的时候,不能够完全应对导致数据泄露甚至系统崩溃。

3数据库技术的特点

当前的数据库技术进入到一个新的阶段,所以具备这个阶段的相关特点。只有更好的了解数据库技术的发展方向以及现有特点,才能够更好的将其应用在信息安全管理上。数据库的特点有主要有:独立性、组织性、灵活性与共享性。3.1独立性。数据库的独立性特点主要是由其本身的结构所决定的,具体指在实际工作过程中,先前使用过的数据相关信息发生了改变,但并不会影响之后数据库的逻辑运行。逻辑结构的独立性是数据库技术的最大特点,它在各个部分的运行逻辑都是相对独立的,不会因为一者的改变而发生改变。所以在运行的过程当中,可以放心的部分的数据库运行逻辑产生更改。3.2灵活性。灵活性在计算机数据库中主要体现在相关信息的修改与编辑上。数据库技术不仅能够进行数据的存储与管理,还可以编辑数据,修改数据以及查询数据。这一特点可以似的用户查找所需资料时方便快捷,节省时间。3.3组织性。数据库技术的独特性不仅仅体现在独立性上,还体现在组织性上。组织性是指在数据库中存储的某些文件会根据其相关的逻辑关系产生一定的逻辑关系,这些就可以更好的体现出数据库的优势。3.4共享性。数据库技术在当前应用最广泛的一个特点就是共享。随着互联网的发展,计算机数据库技术做到了资源的有效共享。通过计算机数据库技术能够及时处理数据库内的数据信息,同时,还能将数据库内的数据信息应用到一个计算机应用程序中,也可同时应用于多个计算机程序中。由于计算机数据库技术具有资源共享性特点,所以对于不同用户提出的信息安全管理需求能够很好的满足。

4强化信息安全在数据库技术中的技术

信息安全是数据库技术中当前需要首要解决的问题,因此要从各个薄弱的环节入手,找出症结所在,然后进行一定的合理的技术分析,提出可行性的建议,最后进行实际操作的检验,只有这样,才能真正使信息安全问题不再成为单位、企业甚至个人在计算机网络高速发展时代所担心的问题。作者将从以下几个方面提出建议。4.1保证计算机数据扩技术的安全。在前文中,作者已经多次提到计算机技术安全性的重要性,这里就不加以赘述。计算机数据库技术的安全性应该从以下几个方面入手:保证数据的安全完整、避免不法分子对数据库系统进行破坏、建立安全完善的保密协议以及使用条件。计算机数据库的安全等级还应该进行分类,例如涉及国家机密的军事、财政等方方面面要进行最高程度的安全防护。这就要求我们在发展数据库应用的过程中进行不断地努力,前路维艰,任重而道远。我们要学习国外的计算机技术,但不能止步于此,进行自足研发,是我们的数据库技术的安全性有一个质的飞跃。由于数据库共享性的特点,势必会降低数据库的安全性,所以我们在做好共享的同时,保密工作不容忽视,例如:针对DBMS的统一控制要求,严控使用权限,用户访问过程中必须采取数据加密、视图机制,对于没有合法使用权限的用户,不得实施相关操作。4.2将计算机数据库技术的理论与实际相结合。由于各个事物都是在不断的发展过程中进行的,所以计算机数据库理论与实际情形也随着各种环境的不断改变而发生变化。因此,在实际的工作过程中,我们应该保持着一颗时刻学习的心,不断的将最新的理论成果与研究成果应用到实际业务上面,使其更科学、更高效、更严谨。反过来,也应该针对实际中计算机数据库技术出现的问题进行研究,达到一个共促共进的效果。

总之,计算机数据库技术是一个在现在以及未来都将改变世界的重要技术,所以应该给予其足够的重视以及研究力度。但是,共促共进不能停留在纸上,应该使更多的人看到其带来的实际效益,这样才是一个有力的循环,才能推动进一步的发展。4.3保证数据库中数据的完整安全性保证数据库中数据的完整性指的是从源头上保证数据库中信息的安全。当一个危险靠近数据库时,数据是第一个接触源、然后系统的安全防火保证是第二个保护层,最后是系统中的数据库保护措施。我们要从源头控制危害信息安全的因素,即在数据从中心网络接入的入口处设置相关的防火墙,只只针对特定的IP地址允许访问,设置访问人口的黑名单,一旦有过不良记录便拒绝再次进入。还要遵循不同区域进行各自管理的原则,即分区原则。将不同区域部署为面向客户应用的Web服务器层、应用层和数据库层,从安全访问控制、入侵防御、应用加速等方面进行网络安全。

5信息安全管理中计算机数据库技术的应用实例

根据有关数据,信息安全管理中计算机数据库技术的实际应用非常广泛。例如:在银行系统的工作中,将存在着大量的个人信息,这时在系统中会建立一个安全的有自身识别特点的数据库,并且设置多层保护系统。一旦有外来数据入侵时,系统会发出警告,确保数据库内信息的安全。

6结语

在信息安全的道路上,计算机数据库所要进行探索的道路还有很长。本文针对现存的一些问题,如安全性、共享性等,提出了一些建议。但作者认为这些还远远不够,只有将计算机数据库技术的相关性能发展的更加完善,才是根本解决之道。

作者:高鹏 单位:北京农业职业学院

参考文献

[1]赵亚男.信息管理中计算机数据库技术的应用分析[J].科技风,2016(01).

[2]李磊.信息安全管理中计算机数据库技术的实际应用探究[J].网络安全技术与应用,2015(09).

[3]钱坤.信息管理中计算机数据库技术的应用探析[J].电脑知识与技术,2014(34).

数据信息论文篇5

(一)必要性

根据IDC在2011年6月的《数字宇宙》(DigitalUniverse)研究报告,2011年全球新建和复制的信息量超过1.9ZB(1.8万亿GB),五年时间增加了近九倍。随着数据量的指数级增长、数据源种类(包括结构化数据源和非结构化数据源,如社交媒体、富媒体文件以及地理空间信息)的飞速增加,以及数据产生速度的加快(如实时传感器数据),传统的数据库和架构无法处理、管理和分析如此庞大的数据集。政府、金融、电信、互联网等大数据应用的行业先锋目前均面临大数据的问题。不仅如此,随着物联网、云计算、移动互联网、车联网、智能手机、平板电脑的飞速发展,大数据技术拥有了更为广泛的数据资源。因此,IT产业界及行业用户都亟需针对大数据设计和优化大数据存储、管理和查询平台,来替代传统关系型数据库平台。在技术发展的前沿阶段进行实验平台建设对我学院师生具有重要意义。该实验平台能够为学生提供一个了解最前沿技术的机会,不仅能够提高学生学习兴趣、自学能力,还为学生就业、更好地规划未来的职业发展提供了机会。大数据技术的机遇与挑战带来了很大的人才缺口,目前大数据技术平台开发、方案实施人才紧缺;由于云存储、大数据技术带来的信息安全问题,也亟需大量信息安全领域的人才;由于大数据技术在物联网、电子商务、移动互联方面的应用,对了解大数据技术的电子商务专业人才也更青睐。通过本实验平台的培养,感兴趣的优秀学生还可以尝试考取与大数据技术密切相关的Hadoop专业认证———ClouderaCertifiedDeveloper/AdministratorforApacheHadoop,为学校、学院在该领域带来正面影响,增加更多合作和就业的机会。该实验平台能够为信息系统专业试点班培养计划的很多核心课程(包括管理统计学中的业务报表与分析、商务智能方法与应用、商务智能实践、数据挖掘和BA综合实训等)形成较好的前后衔接关系,能够丰富实践教学环节,深化教学大纲的内容,从建设更合理的课程建设体系来说具有很大的必要性。近几年学生就业压力越来越大,迫切需要对教学内容和实践环节不断突破创新,才能具备持续发展能力。因此在原有课程体系和实践教学环境的基础上增设本实验平台非常必要。

(二)可行性

教学计划中的相关程序设计课程为学生学习云存储技术、熟悉大数据开发平台、了解最新大数据技术的发展、进行大数据平台基础上的开发、实现对大数据的分析、可视化演示打好了基础。英特尔ApacheHadoop平台是目前大多数大数据处理的技术基础,目前该技术已经发展成熟,并随之产生很多基于该平台的大数据处理工具,可供实验室建设实验平台使用。

二、建立大数据实验平台的基本构想

(一)实验平台人员

实验平台人员负责实验平台的建设、维护,实验设计与指导人员由在大数据相关领域、课程建设以及实践教学方面都有着丰富的经验的教师与实验室工作人员构成,同时与大数据企业进行合作,获得其核心技术人员的支持、培训和大力配合,可以共同组成一个经验丰富、精炼实干的建设团队。

(二)软件调研

大数据的特点为4个“V”:第一,“Volume”,指的数据量大,包括大的数据块,或数据总量巨大,从TB跃升到PB;第二,“Variety”,指的是数据种类繁多,包含大量非结构化数据,例如网络日志、音频、视频、地理信息等;第三,“Value”,价值稀疏性,大量数据中有价值数据很少;第四,“Velocity”,指的是处理速度快,这与传统数据挖掘有很大区别。选择有数据分析基础、在业内发展领先的企业进行调研并选择适合高校规模的合作企业是建立实验平台的重要工作。很多公司给出了可供使用的大数据平台:IBM誖InfoSphere誖BigInsightsTMBasicEdition是一款基于开放源码ApacheHadoop的分析平台,用于分析大量本机格式的非常规数据,支持结构化、半结构化和非结构化内容,以实现最大程度的灵活性;IBM誖InfoSphere誖Streams是一个高级计算平台,帮助用户开发的应用程序快速摄取、分析和关联来自数千个实时源的信息;惠普公司Vertica分析平台6.1,能够通过Hadoop分布式文件系统连接器来优化大数据;ClearStoryData大数据分析新创公司,通过Clearstory,公司客户可以将自身的数据与行业的公共数据融合,寻找统计上的新视角,目标是取代目前市场上的主流数据可视化工具,包括QlikView和Tableau等老牌工具;Informatica9.1提供首款Hadoop编译器Hparse,这是一种针对Hadoop而优化的数据转换环境,该软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源;Datameer:Hadoop海量数据分析平台允许用户在缺乏技术知识的情况下能够分析大量数据;Infochimps平台以其完备的基础设施和专业知识,为客户提供端到端的大数据解决方案,Infochimps是一家位于美国德克萨斯州奥斯丁的创业公司,2012年2月从数据市场转型为大数据平台提供商后获得谷歌投资;甲骨文大数据机———OracleBigDataAppliance集成系统融入了Cloudera的DistributionIncludingApacheHadoop、ClouderaManager和一个开源R;微软SQLServer新增PDW功能,可以帮助客户扩展部属数百TB级别数据的分析解决方案;亚马逊将MapReduce作为一项服务,其弹性MapReduce编程是一项能够迅速扩展的Web服务,运行在aws的亚马逊弹性计算云和亚马逊简单存储服务上;Teradata是企业级数据仓库(EDW)的领导者,在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果,因此收购了AsterDa-ta———一家提供SQL-MapReduce框架的公司。AsterData是高级分析和管理各种非结构化数据领域的市场领导者和开拓者,为Teradata带来了大数据分析市场商机。

(三)方案实施

实验平台的设计同时立足于大数据技术的发展的前沿性与本学院学生专业特点,与学生前序的理论、实践课程均有良好的衔接,符合人才培养计划,深化了教学大纲的内容,并针对不同专业学生设计实践学时、内容和难度。本实验平台可以同大数据行业中的公司科研部门共同合作建设,双方确定在人才培养、师资培训、共建实验室和实训基地、推动大学生校外实习和社会实践活动的开展等方面开展全面、广泛、长期、深入的合作。该实验室建设将丰富实践教学体系,也可推动学院科研项目立项、新课题研究、专项基金申请和联合开展商用项目开发等;该实验室使师生能接触高新大数据开发平台,了解最新大数据技术的发展,进行大数据平台的开发,实现对大数据的分析、可视化演示,增强学生的动手能力并提升就业质量;与此同时,提升了教师的项目管理能力和教学能力。

数据信息论文篇6

2.专业管理的范围数据管理是利用计算机软、硬件技术对数据进行有效的收集、存储、处理和应用的过程。将专业管理的范围分成四大部分:网络数据管理、服务器数据管理、终端设备数据管理和人员管理,涉及公司客户服务中心、安全运检部、财务资产部等各专业部门和单位。针对每一部分的特点制定相应的管理方案,保证数据的独立性、可靠性、安全性与完整性,减少了数据冗余,提高数据共享程度及数据管理效率,使信息数据安全管理覆盖整个信息网络。

二、信息数据安全管理实施过程

1.信息数据管理为了保障信息数据的安全,信息中心根据网络实际运行情况对防火墙及交换机进行安全配置,添加防火墙访问策略及交换机访问控制列表,对外部用户访问进行限制,只允许访问指定服务器,防止来自外部的黑客攻击;对局域网划分网段,配置访问权限,保证局域网内部传输安全。利用终端安全控制软件对局域网内所有联网终端进行统一管理,监控终端机器运行状况,禁止用户私自对终端硬件及系统设置进行修改,锁定终端机器光驱,软驱,移动存储介质等数据交换设备,终端USB端口只识别公司专用U盘及打印机,并对终端数据的流入流出进行安全审计,保存记录,保障公司信息数据的流出、流入安全。

2.服务器运行管理信息机房值班人员每天定时对机房进行巡视,查看服务器机房温湿度及空调、UPS电源运行状态,确保服务器运行环境稳定。检测服务器软、硬件运行状态,并填写机房巡视记录,保证信息服务器稳定运行。执行“切换冗余服务器”运行管理,重要信息系统服务器运行实现双机热备,其它信息系统进行双机互备,如果一台服务器运行出现故障,需要较长时间修复,则立即启动备用服务器,恢复信息系统运行,保证服务器稳定高效运行。

3.数据存储备份管理根据公司实际将重要信息数据划分为公司级重要数据和个人重要数据,并对规定的计算机专责人(兼职)进行权限的设置,公司级重要数据备份后存入指定备份文件夹,个人重要数据由个人整理后转存至备份服务器中个人备份空间。计算机专责人(兼职)按规定的备份周期,利用自动备份软件对所管理信息系统进行本机数据备份。农电营销系统数据每月十八日进行上一月数据的完整备份,电费收取计算时,每日进行备份;其它信息系统每周一进行上一周数据的备份。信息系统管理员将本机数据进行可用性检查,确认数据无误,将数据刻录成DVD数据盘并备份至本地备份服务器进行存放,确保数据存放安全。重要数据存储备份采取“数据异地多点存储”,与潍坊市领近县公司建立互备关系,并在服务器中实施了相关安全策略和设置对应访问权限,签订了数据互备安全协议,保证数据在异地的安全,确保在本地发生重大灾难时,能够有效的恢复系统数据。

4.移动存储设备管理信息中心利用移动存储认证管理软件,将唯一代码写入移动存储设备内进行认证,认证后只能在公司许可机器中识别读取。人员调离工作岗位需要交回移动存储介质,信息中心在收回认证移动存储设备后,确认数据不再需要,将移动存储设备信息进行集中销毁,保证数据不会流出。

5.数据恢复管理信息数据管理员将数据拷贝至服务器相应文件夹内,进行信息数据的恢复操作。进行数据恢复操作以后,登陆信息系统查看数据恢复情况,进行数据恢复测试,测试恢复的数据是否完整可靠,确保信息系统恢复正常运行。

三、效益分析

1.经济效益当前电力企业的财务、人事、生产等信息都已实现了电子化,所有的业务数据都存放于服务器中,随时读取,随时更新,大大减少了数据查询和存储的时间,不仅节省了人力、物力,而且大大提高了生产率。但随着信息化的迅速发展和信息技术运用的深入、普及,信息数据安全管理变得日益重要,其存储的安全性越来越令人担忧。重要信息数据一旦丢失,将为企业带来不可估量的损失。加强信息数据安全管理,可为企业信息化建设和各项工作的持续开展保驾护航。

2.管理效益信息数据的安全管理保证了管理信息系统的稳定运行,使我公司各级管理人员能够在日常工作中方便、快捷的查询业务数据,切实做到了日常工作的网络化、实用化、效率化,管理者借助于现代计算机技术的优势,可快速查阅准确、完整的各类数据的统计分析,提高了工作效率,显著增强了企业办公与服务水准,促进了企业现代化建设管理的进程。

数据信息论文篇7

1.1挖掘企业内部的信息在企业之中,普遍存在着一些“信息孤岛”的现象,部门之间的信息混乱而且并不能够形成科学有效的全面性分析。相关的数据挖掘负责部门或者企业的管理者可以利用数据挖掘的技术对不同的部门在经营过程之中所形成的海量的数据进行相应的分析以及阐述,并且根据相应的分析对部门自身的管理的问题做出把控。

1.2搜集外部环境各种重要信息企业在生产以及经营的过程之中,政治、经济、政策、科技、金融等环境方面的变化,影响着市场、竞争对手、供求信息、消费者等主体的行为的变化,这些数据的收集、处理以及分析,是对企业的经营以及管理有着非常重要的作用,使得企业能够抓住市场的机遇,从而及时地调整管理方法和策略,能够促进以及实现企业的健康和稳定发展。

1.3内外部信息进行整合以及筛选数据挖掘的另一个主要的作用便是在处理企业的内部以及外部的信息的基础之上,对于涉及企业所有的信息进行整合以及筛选,最终目的是能够提供对于企业的发展有着重要作用的信息。通过对于企业的内、外部信息进行合并以及挖掘,找出企业的内部以及外部之间相关的影响的信息。从而实现企业的内外部信息的综合处理以及应用,在其中提取有价值的知识,并且增强企业的管理功能,提高企业的信息化管理的效率。

2数据挖掘在企业信息化之中的实际应用

企业的信息化的建设在企业之中是一项比较复杂并且需要长期的资金以及人力投资才能够完成的事情,企业的管理者需要从企业的自身出发,从而选拔经验比较丰富、技术水平较高、立场比较中立的主体对企业提供的数据进行诊断以及分析。数据挖掘本身与企业利润没有直接的关系,企业为了能够使得数据挖掘带来的效益表现在企业的利润之上需要进行一次有关于数据挖掘的循环:确定目标、选择数据集、数据挖掘、知识应用、计划执行、结果反馈。

2.1企业信息诊断阶段的应用企业的信息化的诊断阶段主要包括预备、正式以及总结三个部分。首先要对企业的相关的经营活动,无论外部以及内部都需要进行原始数据的收集,其中可以包括企业的产供销、研发过程管理以及外部经营环境等。然后整合到企业的数据库之中,根据数据挖掘需要达到的目标,编写数据挖掘需要的相应的数据算法,挖掘出相应的有价值的信息,从而为企业的发展战略、外部环境、企业文化甚至组织机构以及制度管理提供数据依据。

数据信息论文篇8

二、个人信息与隐私的含义,区别与联系

个人信息是指与自然人个人或家庭密切相关数据或者资料,有些能够定位或者识别个人身份,有些虽然不能定位或者确定身份,但与个人特征、信仰、健康状况、行为习惯、联络方式等有关。隐私在我国是历史上是早已有之的概念,但1949年以后至今,新中国法律意义上的隐私最早是1956年《全国人大常委会关于不公开审理案件的决定》首次在立法中使用的“阴私”提法:“人民法院审理有关国家机密的案件,有关当事人阴私的案件和未满十八周岁少年人犯罪的案件,可以不公开进行。”此后,1979年刑事诉讼法,人民法院组织法,最高法院在批复中也使用的是“阴私”这个提法,并界定了阴私案件的范围。从1982年《民事诉讼法(试行)》开始,1991年实行的《未成年人保护法》39条规定“任何组织和个人不得侵犯未成年人隐私”,从此我国法律和司法解释开始使用“隐私”而不再用“阴私”的提法。隐私的含义主要是指当事人不愿意他人知晓或者他人不便知晓的个人信息,事宜或不愿意或者不便他人介入的领域。《现代汉语词典》第五版对阴私的解释是不可告人之事,多指不好的事情,1998年重印的修订本解释则为“不可告人的坏事”,隐私:“不愿意告人或者不愿公开的个人的事”。可见,即使从非法律的普通人理解来看,隐私范畴大于阴私,隐私概念更为中性,没有贬义,除了阴私还有个人信息的内容可以构成隐私。

个人信息与隐私有区别也有联系:个人信息的内涵和外延都较大,与隐私有一部分交集,也有不完全相同之处。通常个人的信息包括:姓名,性别,年龄,婚姻家庭情况,联络方式(特别是手机等通讯设备号码,或者其他用户身份识别标识,包括码号,电子邮箱,即时通讯账户ID,家庭住址,可用以判断用户地理位置的移动或者其他设备的地理位置信息,等),健康状况,病史,基因信息,生物识别信息(指纹,脚印,血型,等),行为信息,包括个人活动信息,因使用移动计算机终端设备产生的浏览,搜索,交易,支付等信息。个人信息的概念比较中性,原来不是法律术语,2003年《居民身份证法》开始对警察泄露个人信息行为予以法律约束,2009年刑法修正案七规定非法提供、获取个人信息定为犯罪,此后,此概念成为法律用语,换言之,刑法先于民法对个人信息进行了保护。但目前还没有法律对个人信息的含义与范围作出规定或者限定,根据目前技术发展迅速的特点,个人信息的概念可能还会随着技术和商业发展有所变化。

目前正在从个人计算机为主的互联网走向移动互联网时代,隐私主要有:与性有关的行为或者其他信息,不宜公开的照片及音视频资料,财产、个人金融信息,生理情况,个人卫生和排泄等行为,不便公开的健康和疾病信息,等,在网络时代比较突出的网络隐私主要有:个人计算机终端设备产生、访问的敏感信息,用户通讯内容,用户的各类账户密码信息,等。

目前开始崭露头角的可穿戴设备,以及具备检测人体各项指标的手环,手表等各种设备,其对人体各种数据的采集即使个人信息也属于隐私。因而,如何确定个人信息的使用将平衡个人隐私保护与新技术给人类带来的福音。

三、中外个人信息与隐私的案例比较与分析

我国已经发生的个人信息泄露与滥用的案件很多都与隐私受到侵犯密切相关,比较典型的案例有“海运女”案件,“微博开房门”事件,“郭美美”事件,王菲诉张乐奕“北飞的候鸟”侵犯隐私案,等。美国发生过的有较大影响的个人信息案例包括2012年FTC调查谷歌隐私案,因safari浏览器隐私问题而对谷歌处以2250万美元的罚款。

在海运女案件中,法院判决搜索引擎因未履行《互联网信息服务管理办法》规定的监管责任,“百度公司在知道或应当知道网络用户利用其服务传播侵权内容的情况下,未采取合理的必要措施,应当承担责任”。本案判赔金额仅仅为2.2万元。在另外一个影响甚广的王菲诉张乐奕“北飞的候鸟”案件中,法院经公开召开研讨会,后判决侵权成立,赔偿人民币5000元。如果说后案因为存在道德上的争议,法院判决赔偿较低可以理解的话,前者的赔偿金额较低,就是我国目前常见的“赢了官司输了钱”现象的反映了。相比较而言,2001年Double Click公司就设立了首席隐私官职位,2007年该公司并入谷歌,2012年谷歌还是发生safari浏览器隐私问题罚款2250万美元。可见网络个人信息和隐私保护必须从长计议,不是简单某个措施就可以解决的。

四、个人信息保护的法律途径:

刑法修正案七,非法获取个人信息罪,这是对于新兴网络现象刑法再一次走在民事立法之前,刑法率先对个人信息的贩卖等行为采取严厉刑事制裁措施。

2011年修订的《居民身份证法》第6条规定:“公安机关及其人民警察对因制作、发放、查验、扣押居民身份证而知悉的公民的个人信息,应当予以保密。”第13条规定:“有关单位及其工作人员对履行职责或者提供服务过程中获得的居民身份证记载的公民个人信息,应当予以保密。”第19条规定:“国家机关或者金融、电信、交通、教育、医疗等单位的工作人员泄露在履行职责或者提供服务过程中获得的居民身份证记载的公民个人信息,构成犯罪的,依法追究刑事责任;尚不构成犯罪的,由公安机关处十日以上十五日以下拘留,并处五千元罚款,有违法所得的,没收违法所得”。

2012年底通过的《全国人大常委会关于加强网络信息保护的决定》,明确提出保护能够识别个人身份和涉及隐私的电子信息。2014年3月15日实施的《消费者权益保护法(修正案)》规定,个人信息依法得到保护,确立了工商行政机关可以对侵犯个人信息进行行政处罚的职能,确认了公民可以向法院起诉。但这两部法律都没有解决如何赔偿问题。因而,在法律实施到现在,还没有发生有影响力的个人信息方面的民事案件。日常生活经验表明,个人信息广泛被贩卖和滥用的情况没有取得明显的好转。仍需要思考如何从制度上确立预防和制止个人信息泄露与滥用的有效机制。

国外关于个人信息的保护,主要立法经验有:美国有《隐私权法》《电子通讯隐私法》等多部法律,主要是隐私保护,在美国隐私观念深入人心,用户有较强的隐私保护意识。欧盟以《个人数据保护指令》确立的个人数据保护模式,德国于1976年颁布《联邦资料保护法》,法国于1978年通过《法国自由、档案、信息法》,1984年英国制订《数据保护法》。根据笔者与来华的这些国家国籍的朋友交流情况来看,这些国家个人信息滥用远不如中国严重,笔者分析认为主要原因还在于较强的隐私意识文化传统及其成熟的法治,一旦侵犯个人隐私会承担较为严重的法律后果。

笔者认为,根据目前已经能看到的个人信息在移动互联网时代的广泛采集和应用,原有隐私权不能满足对个人信息应用和保护的需要,有必要在民法上创设个人信息权概念,是一种人身权(人格权)兼具财产权性质,类似知识产权的一种复合型民事权利。具体权能为:知情权(对采集、应用、存储、管理和销毁个人信息有知情了解的权利),处分权(允许采集、应用、存储、销毁个人信息),受益权(对个人信息的商业性使用获得收益的权利),不作为请求权(对不符合个人意愿的个人信息采集使用行为有拒绝、请求停止、消除的权利,此权能可以包含美欧目前已经被广泛讨论的“被遗忘权”)。隐私权的生活安宁权虽能涵盖一部分前述的权能内容,但个人信息可以许可他人使用,并从从获取经济收益,这些行为与传统的隐私权人格权特征有较大出入,因而单独确立个人信息权可以成立。

五、个人信息民事立法的基本制度构建

虽然我国已经在个人信息保护上进行了若干立法,但仍然存在明显的缺陷,即没有惩罚性的民事制裁措施,无法从制度上预防个人信息滥采滥用,也无法斩断个人信息的灰色利益链条。由于行政处罚需要证据,刑事处罚需要一定门槛,法律规定的行政惩罚措施和刑事打击在日常生活中罕见使用,因而在经济利益驱动下,几乎每个人在生活中都仍然难免经常性遭遇个人信息泄露与滥用的危害。借鉴博弈论的经济学理论,笔者建议在个人信息保护立法中建立以下基本民事制度,以引导企业遵守保护个人信息的法律规范:

首先是设立个人信息使用者和收益者对个人信息来源进行合法性审查的合理谨慎义务。即要求使用个人信息进行商业宣传或者其他推广的机构和个人应当对信息来源合法性进行合理谨慎的注意,为避免企业通过子公司或者第三方规避此义务,因而有必要加上受益人也负有此责任,包括广告主和实际受益人,不限于广告经营者或者直接者。只有建立了此制度,才能杜绝正规企业采购营销服务不审查个人信息的合法性,从而在客观上助长个人信息泄露与滥用的现象。同时,如果能够较好执行本制度,等于打击和消灭了非法采集和滥用个人信息的销售、变现渠道,使其失去违法的经济驱动力。

其次是建立递进式惩罚性赔偿制度。我国立法已经确立了企业对个人信息和隐私的保护义务,可以在此基础上扩展为企业对个人信息的安全保障义务。对于违反企业信息安全保障义务的,确立递进式惩罚性赔偿制度。我国侵权责任法已经有惩罚性赔偿制度的规定,但由于法院在确定赔偿时过于审慎,迄今为止没有看到有影响力的适用侵权责任法关于惩罚性赔偿的民事判决案件。消费者权益保护法自立法之初即确立了对欺诈的惩罚性赔偿制度,二十年来,通过典型案例的媒体报道,在社会上有广泛的影响,是我国民事法律中发挥了较好引导作用的法律规范。而且,我国的惩罚性赔偿限于欺诈或者主观恶意,消法修改后,欺诈的惩罚性赔偿额限于实际损失三倍以下,也规避了美国司法制度中赔偿过于庞大的负面作用。

因而,在个人信息侵权行为的民事赔偿方面,有必要继承前述法律已经有的成果。鉴于个人信息侵权行为往往难以证明损害后果,如果法律不规定法定赔偿标准或者计算方法,由于我国法院坚持填平式赔偿原则,实际诉讼中赔偿将延续目前较低局面而不会具有威慑力,仍然无法改变在利益驱使下泄露滥用个人信息的局面。因而,比较现实可行的是建立递进式的惩罚性赔偿制度,即对于三次以上侵犯个人信息权,或者经行政处罚或者诉讼判决侵权成立,仍然拒不改正的,法律应设定较大的法定赔偿责任,或者在按照普通民事侵权三倍以下予以赔偿,或者经由消费者保护组织起诉的,可以设定较大额赔偿,由消费者组织在受害者中予以分配。只有违法行为人了解一旦实施违法行为其法律责任将超过其获得的收益时,才可能根本上扭转个人信息过度收集,随意泄露和普遍滥用的混乱局面。

第三是建立个人信息规范、合理使用的制度。在大数据应用前景极为广阔的今天,应该为企业大数据应用留下空间,引导企业规范使用,而不能因噎废食,因限制过严导致企业无法开展大数据应用,公众也无法享受网络技术发展带来的便捷与进步。因而,建议确立在满足下面三个条件的前提下,允许企业采集、应用、存储、管理并销毁个人信息:

1、经公示或者告知信息收集目的,收集、应用、存储和销毁规则,并且采取合理措施履行保护个人信息避免泄露和滥用;

2、不披露具体个人的信息,也不能根据数据应用的结果反向联系或者确定到具体个人;

3、不违反隐私保护的强制性规定。

个人信息的合理使用,是指为履行与用户所订立合同目的,或者为保护用户之合法权益,按照最低必要限度原则收集个人信息,并诚实信用使用个人信用使用个人信息,包括身份验证,通知联络,履行合同订立的先合同义务以及履行合同后的附随义务等。合理使用应当是非商业目的,并且不得违反法律的强制性规定。

数据信息论文篇9

信息素养,通俗的理解是对信息的搜索、加工、处理,再结合自己的知识结构,对信息内化,提出自己的看法。这种素养、能力在网络时代显得尤为重要,也是幼儿教师朝专业化发展的重要素质。幼儿园教师的信息素养应当是“知道如何利用计算机和网络技术以获取相关学前教育教学信息,创造性地开发、丰富幼儿园教育资源,合理、灵活运用多种信息解决幼儿园教育教学实际问题的技术技能”。

泉州儿童发展职业学院,是闽南地区重要的学前教育培养基地,每年都会为社会输送300~500名学前教育专业的学生,分布在闽南、闽西和闽北等地区,为提升海峡西岸的学前教育质量做出贡献。为适应学前教育信息化进程,学院每年都会举办幼儿园信息技术师资培训,培训内容从以前单一的办公化软件应用基础,发展到现在的多媒体软件应用、课件制作等更高技能。

由于幼儿园教师多来自闽南三地,数量庞大,可以利用深度访谈、网上问卷、网下答卷等多种形式收集所需的信息,从而建立起相关的数据库。随着调查研究的展开,数据资料和信息量将会急剧增大。以泉州地区为例,截止到2004年共有幼儿园604所,加上各种幼教机构,将达到700个单位,一个普通幼儿园一般师资有40人左右,这样单单泉州地区从事幼教行业的人员就有近3万人,而每个教师的数据资料包含有多方面,其中包含着巨大的信息资源。要如何合理地、高效地挖掘出这些数据之间的关系,从而为我们的教育培训提供指导,单靠传统的数据分析手段是无法胜任的。因此结合笔者的实际工作以及所在单位的需要,引入一个新的研究方向:面向学前教育师资信息素养的数据挖掘技术研究。

数据挖掘,现在已经在一些领域上得到成功的应用,在高层次的教育管理领域的应用得到越来越广泛的重视,不仅是师范院校、综合大学,包括很多大公司、大企业也参与到这项造福未来的事业中。

在学前教育管理领域上,数据挖掘还是个全新的课题。本文将利用数据挖掘方法,分析被研究对象——幼儿园教师在使用信息技术过程中表现出来的信息素养,包括:

1.个人信息意识与态度,包括教师的业务能力、信息环境建设,以及教师的信息意识,利用信息手段解决工作和生活问题的主动性。

2.个人信息知识和技能水平,包括教师多媒体软件使用情况、多媒体课件制作能力、网络技能、知识技能与课件制作的能力。

3.个人信息素养综合因素以及学习目标,包括信息化教学意识、信息道德与安全、信息技术培训要求以及信息技术困难。

通过对以上三方面的研究分析,我们希望能从中找出影响教师信息素养提升的主观和客观因素,从而指导教师信息技术培训方案的制订,更有助于学前教育师资职前教学计划的制订以及培养目标的调整。

二、教育领域的数据挖掘技术应用现状

在教育管理领域内,数据挖掘技术正在慢慢地被推广,主要是应用在图书管理、教务管理、教学评价、数据分析等事务中,但总体上研究不够成熟。当前国内各大师范院校也意识到数据挖掘的重要性,在教育专业课程设置方面均开设了“数据挖掘”等相关课程,如南京师范大学的“Web数据挖掘与推理”、“数据库与数据挖掘”等课程。随着关联分析、聚类、概念描述、偏差检测等技术的不断发展和完善,数据挖掘必将在教育领域中发挥越来越大的作用,同时随着人们对这一技术的日益关注,相信其在教育领域的应用范围也会越来越广,从而快速推进教育的改革和发展。

在学前教育领域内,由于管理人员在技术上的不足,数据挖掘的相关应用基本上是空白,更多的是利用Excel图表或SPSS等工具对调查结果进行简单的汇总分析,得出结论。随着信息技术的广泛应用,学前教育界的专家也开始注意到信息素养的培养问题,并对幼儿园教师信息素养进行调查研究,但对于得到的数据、问题之间的内在关联、相互制约等关系,没能进行更有意义的发现、推理。

三、研究意义及方法

在学前教育领域中,作为主体的幼儿教师是一个特殊的年轻群体,她们普遍学历不高,研究水平有限,学习能力也不如中小学教师,但却是个充满朝气、积极向上的群体。由于特殊的教育环境、教学对象,使得她们需要借助更多高效的教学手段、教学模式来丰富课堂,吸引幼儿的注意力,提高教学效果,而信息技术正是最好的工具。因此,如何加强幼儿教师的信息技术能力,提升幼儿教师的信息素养,是一项非常重要的任务。笔者已通过调查问卷、网络答题等方式,不断地收集、积累相关数据,构建数据库,而如何利用有效的途径,并从这些数据中发现有用的信息,进而对信息技术教育课程改革提供指导,有着长远的意义。

因此,本次研究的主要内容和所采用的研究方法可以概括为:

1.持续地通过问卷调查,网络答题等方式获取数据,形成“学前教育师资信息素养数据库”,并结合个别访谈形式,探讨泉、莆、厦、漳、龙岩等地幼儿教师信息技术整体水平;

2.根据领域专家要求,将各因素分成11个挖掘问题,并利用挖掘工具探索各因素之间的关系;

3.设计数据挖掘模型,利用数据挖掘工具,对不同的挖掘问题分别采用关联规则、聚类方法进行研究;

4.探讨不合理规则,利用测试数据集对挖掘结果进行检验;

5.挖掘结果可视化、直观化,方便用户对结果的理解。

参考文献:

[1]杜安平,周期玉.Big6与当代大学生的信息素养构建[J].实践研究,2006,(6):730-734.

[2]戴莹.东台市幼儿园教师信息素养调查研究[C].江苏省2005年度学前教育优秀论文,2005.

数据信息论文篇10

地方文献是指内容上具有地域性,同时具有重复使用价值的文献。由于它完整、系统地记录了特定地域内自然和人文方面的各种信息,从而为人们提供了研究特定地域内历史、现代及未来的有关资料。

地方文献的类型多种多样,报刊文献是其中的一种。它具有信息量大,传递周期短,内容相对客观、翔实等特点。但由于它的总量太大,有关的地方文献信息分散在不同时期、不同品种的报刊之中。仅靠浏览原始文献,迅速查到有关资料,几乎是不可能的。地方文献报刊索引就是为解决这一问题而编制成的一种检索工具。

在手工时代,地方文献报刊索引表现为篇目索引或题录索引的形式,即将报刊中所载地方文献篇目按一定顺序编排起来,以利读者查找文章的所在位置。这种索引不反映文章的具体内容,只具有指向和示址作用。同时,也对地方事物起着揭示和报道的作用。除了作为一种综合性的检索工具外,还可以在这种索引的基础上编制各种情报报导刊物,或围绕特定学科及专业进行定向报导和检索,以服务于地方的各项事业。

鉴于地方文献报刊索引的重要作用,许多公共图书馆都曾积极编制这种索引。例如,首都图书馆自50年代起开始编制《北京地方文献报刊资料索引》,涵盖了本世纪以来的内容;甘肃省图书馆也是在同一时期开始编制西北五省的地方文献报刊索引;长春市图书馆也曾编制了《东北地方文献索引》等检索工具。为了避免目录体系过于庞大,这种卡片式篇目索引一般仅以分类方式编排。因此读者也只能从分类途径对报刊上的地方文献信息进行检索。 进入计算机时代以来,以数据库形式来处理地方文献信息已成为图书馆地方文献工作的必然趋势。计算机所具有的自动识别与排序功能,使地方文献信息的编排检索变得更加方便、更加快捷。通过全文扫描技术完成的报刊全文数据库,使得报刊上的地方文献信息得到更充分地揭示和利用。由于计算机具有一次性输入,多途径输出的功能,因而在对地方文献信息进行存储与检索时,增加了篇名、著者、出版、文摘等多方面的途径。尤其是从主题途径检索地方文献信息的问题得到了很好地解决。

在地方文献报刊信息数据库(以下简称报刊信息库)中,分类标引和主题标引都是以揭示文献内在特征为目的的标引方法,只是揭示的角度有所不同。由于地方文献的史料特征极为明显,故地方文献的读者往往是从特定的事件、人物、时间、地域的角度入手进行检索。因而可以说主题检索是一种最直接反映地方文献内容特征的检索途径,也是建立检索工具和检索系统的基础和前提。近些年来,图书情报界对有关主题标引的原则和操作方法有过许多研究和探讨,撰写过很多的著作和文章。但由于地方文献中连续出版物本身所具有的特征,其主题标引的原则和方法与其它类型文献的标引还是有所不同。本文拟从报刊信息数据库的建设入手,探讨有关地方文献报刊信息主题标引的一些问题。

2 地方文献报刊信息数据库中的主题标引

2.1词表的编制

报刊信息库与其它类型数据库相比,最突出的特点是要反映地方文献本身所具有的特征。同时还要满足地方文献用户特殊的检索需求。因此,选择一部适合地方文献特征的主题词表是开展标引工作的首要问题。

《汉语主题词表》(以下简称汉表)是一部供机检使用的综合性基础型词表。它所收录的词汇可以供各个机构和行业从中选词,以编制适合本专业或本机构使用的专业词表。实际上,我国很多专业情报机构和图书馆都是在参考这部国家词表的基础上编制自己词表的。在编表过程中,抽取主题词时当尽可能不破坏原有词表的词间关系。但必要时,词间关系及基本范畴还是需要重新确定的。

由于地方文献是对某一地域自然和人文现象的客观描述,它所表现出的地域性和专指性极强。用综合性的《汉表》来标引各地的地方文献,则将有相当部分的文献不能被准确地表达其主题概念;其次,地方文献的内容范畴与《汉表》中的基本范畴也有所不同。《汉表》是以学科体系作为划分范畴的基本依据;而地方文献则是以特定地方的自然环境、人文环境和地方事业作为划分范畴的基本依据。所以地方文献主题词表需要在《汉语主题词表》的基础上自行编制。

地方文献主题词表中所收录的主题词来源主要有:

①《汉表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的地方文献主题词表所收词汇的绝大部分。由于是从《汉表》中选词,所以它们是相对规范的。

②《汉表》中没有的,带有地方特点的词汇,如:北京地方文献的“琉璃厂”、天津地方文献中的“皇会”、广东地方文献中的“早茶”等,这部分词汇虽然在未来的地方文献主题词表中所占比例不会很大,但它们却是出现频率相对较高的词汇。对于这部分词汇及其词间关系,地方文献工作者需要加以规范。

③《汉表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录,在新编的地方文献主题词表中收录这部分词,也需要加以规范。

由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊信息库主题标引工作的迅速展开。因此,可以采用另一种方式,即首先确定一段时间为试验期,先进行地方文献的标引工作。由标引人员直接从报刊所载的地方文献信息内容中选取有检索意义的关键词作为主题词。这种主题词是未经规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉表》使之规范化。确定好词间关系和基本范畴,从而形成适用的词表。这种词表是后控式的,采用这种方式选词更直观,专指性强,还能使标引工作与修改词表同时进行。而且标引时不用考虑词间关系及查表抽词,所以标引速度快。在标引时采用自然语言,对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。

2.2主题词字段的设置

无论是先有词表,还是先进行标引工作,在报刊信息库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要注意反映地方文献的时空特征;在空间方面完整、系统地记录特定地域内自然和人文方面的各种信息;在时间上又形成了一个连续的信息集合。这是一切地方文献工作最基本的原则。

在报刊信息库中,首先应设置涉及文献基本内容的“内容主题词”字段。此字段选词灵活性大,标引的内容也十分广泛。它对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。从地方文献的性质和特征来看,它是对特定地区自然、社会、人文诸般事物的历史与现状进行全面系统地综合性记录,涉及的内容极为广泛。如反映一个地区所能观察到的天文现象、地质水文结构、地形地貌、气候与气象、物种与资源以及反映该地区的人文地理、历史、地方人物、社会经济、地方政治、社会结构、地方文化、教育等各个方面。

报刊信息库中“内容主题词”字段的主题词性质绝大部分是综合性的,与其它非地方文献数据库中的主题词无太大区别。例如“社会治安”,“计量管理”、“住宅区”、“软件产业”等;也有一部分是地方文献内容所特有的地方性词汇,如“敦煌石窟”、“庚子事变”、“厂甸”等;另外,新产生的一些地方文献信息的内容,也应通过内容主题词来表达。总之,凡是涉及到地方文献的所有内容特征,都应在此字段予以反映。

这一字段并非地方文献数据库所特有,有关具体标引方法的讨论从略。

另一种主题字段的设置应反映地方文献内容特征以外的其它特征。地方文献最大的特点,就在于文献所记载的现象、事实和人物都被限定在某一特指的时空范围内。也就是说。地方文献所涉及的内容范畴均会通过特定的时间、地点、团体机构、人物等因素反映和输出。地方文献用户的检索习惯也往往是从某一地域范畴、地区名称、某一事件、某一人物入手。因此,有必要在地方题录库中设置“地域主题词”、“时间主题词”、“团体主题词”和“个人主题词”诸字段。它们是揭示地方文献的本质特征所必须的字段。同时也是地方文献数据库系统中所特有的。

以上四个主题词字段所反映的是有关地方文献信息中客观存在的某些因素,如“地域主题词”中的“东城区”、“梅山县”、“个人主题词”中的“梅兰芳”、“秋瑾”等。尽管这四种主题词的标引与“内容主题词”的标引相比,相对容易些,但仍需积累到一定数量后进行规范。例如“团体主题词”中的机构名称是用全称还是用简称,以及“个人主题词”中的人物名称是用本名还是用笔名,这些都需要地方文献工作者在以后的工作中根据本地区的具体情况加以规范。

具体的标引方法是:

地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。如有关北京地方文献的内容不用标“北京”,直接标引具体的“东城区”、“昌平县”等行政区划名称;内容涉及到较具体的地名时也可标引地名,例如“王府井大街”、“方家胡同”等;如果文章中所反映的地区更详细,区(县)、街道(乡镇)、村等具体名称都有,可逐级进行标引,中间用分隔符隔开,如北京地方文献中的“顺义县%赵全营镇%北郎中村”;在标引中,遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政区划名称同时标引作为检索点,现有行政区划名称或新地名标在前面, 旧行政区划名称或旧地名注于其后,可用括号括起。如“东城区(内三区)”。以上的标引方法主要是针对地方文献用户特定的检索需求而言。

年代主题标引的是文献内容所涉及的时间范围,而不是文献撰写或出版发行的时间。清以前的历朝历代均可使用“朝代%年号”的方法标引.如“清代%乾隆”,中华民国时期(1919年前)可标引成“民国时期”,到了1920年以后可以标引成“二十年代”、“六十年代”等。

团体主题和个人主题标引的是文章内容所涉及到某一具体机构、个人,或与某地方有关系的机构和个人。团体主题标引时,用机构和单位的标准全称,如“北京市中级人民法院”、“重庆市技术监督局”等;而个人主题的标引,是标具体人名,例如“梅兰芳”;如果遇到同一人物有本名与笔名时,要同时标引,如“鲁迅”与“周树人”、“老舍”与“舒舍予”之间可用符号“%”隔开;遇到清代人物或少数民族人物的名称较长时,一般应标引人物的全名,如“爱新觉罗·溥仪”。

总之,无论标引什么类型的主题词,标引人员都要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供有价值的地方文献信息。因此,在对报刊信息库进行主题标引过程中一定要确定好标引深度。地方文献报刊索引的标引深度,则取决于地方文献各类用户的检索需求。地方文献的研究级用户的检索需求包括:决策、管理人员宏观的检索需求、科研人员较专深的检索需求及设计生产人员的针对性检索需求等。

尽管采用数据库系统处理地方文献信息这一手段在全国各类图书馆的地方文献业务中开展得还不够普遍,但这是地方文献工作发展的必然趋势。结合地方文献本身的特点来制订适用的主题词表、分类表,是实现地方文献信息处理标准化的必要步骤。它可为今后进行联机检索,进入国家和地区网络,从而实现地方文献资源共享打下坚实的基础。同时,计算机多途径检索所产生的效果也会使地方文献信息资源得以更充分地研究与利用。

参考文献

1 韩朴.图书馆地方文献工作.北京:文津出版社,1992

数据信息论文篇11

1.数据信息的采集

因为只有将客户相关的数据信息收集起来,才能在分析之后,将个性化的服务提供给客户,也就是说电子商务网站向客户提供个性化服务是基于说数据信息采集的。销售商能够得到客户在注册过程中保存的信息,即客户的基本信息,包括姓名、籍贯、家庭住址、出生日期以及爱好等,同时还能根据客户所浏览的网页和商品等信息,对客户关注和倾向的商品进行判断,进而为客户建立相应的服务档案。而且客户人员还能在计算机的数据库中存储客户与自身交流时的数据信息。当客户完成订单和付款之后,可以对其收货地址信息加以确定,进而掌握客户的所在地等信息,进而进一步完善客户对应的信息数据库。同时还能够对客户的投诉和评价进行分类整理,使客户的服务档案得到不断的完善,以此为网站的优化提供更加有利的数据资料。与此同时还会将数据挖掘技术引入到网络服务器中,进行一个可以对客户浏览途径和页面以及点击产品信息加以记载的数据库系统,实现各企业资源共享的目标,并且还不会对网络服务器的访问速度产生影响。

2.数据信息的分析

想要设计出一个成功的电子商务网站,就应该在保持对客户完全透明的基础上,及时、快速、准确的分析客户资料及其访问行为,进而保证客户访问页面的处理时间不被占用的条件下,为客户提供一个可以更方便、快捷的进行网购、网上交易等商务活动环境。首先,就要分析客户行为和登录方式,对网站客户群进行划分归类;其次在进行内容设计的时候重点考虑客户群的年龄、爱好和特点等方面,将网站内容加以归类,并针对不同类别的客户群,展示客户感兴趣的商品信息,最后再根据客户的访问、浏览信息以及订单信息,为客户的行为资料进行及时修改和完善。

3.个性化服务

这就是通过挖掘网络数据信息,了解和掌握客户的需求和兴趣,准确的向客户提供个性化的产品推荐,这不但要根据客户的诸多方面对其提供满足其需求的信息,而且还是主动为客户提供所需信息,使网站的个性化服务的特点更为突出,进而吸引更多的客户。并且为了使得客户类型更加稳定和准确,就需要优先臭氧统计具有较长注册时间、较多浏览记录以及产品购买数量大的客户。

数据信息论文篇12

1.1探讨确权系数精度由表5可知,变异系数法和熵权法有6个指标的排序相同,对最重要指标的判定相同。图2中,不同指标体系下,变异系数法同熵权法的赋权结果的走势一致,同升同降。表5和图2反映变异系数法和熵权法的赋权结果极大趋同性。同时,在差异组指标体系下,对熵权法和变异系数法的赋权结果进行相关性检验,相关系数均在0.9以上,且双精度检验值绝大部分小于0.05。这说明熵权法、变异系数法独立数据差异信息离散程度的确权系数是相近的。确权系数的精度决定赋权结果的合理性,合理性由排序的准确性和权重数值的区分性体现。由于变异系数法同熵权法在排序上基本一致,从权重的区分性来判断方法的优劣。在差异组的各指标体系下,对变异系数法、熵权法的赋权结果,分别求标准差,熵权法对应的赋权结果的标准差总是大于变异系数法的,熵权法的区分度好。在假设变异系数法、熵权法的指标排序都合理的情况下,熵权法的赋权结果在区分度上由于变异系数法。均方差法利用标准差度量差异信息的离散程度,但是当进行2个或多个样本离散程度的比较时,当且仅当度量单位与平均数相同,可直接利用标准差来比较。如果单位和平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值来比较,而变异系数为标准差与平均数的比值,可以消除单位或均值的影响,更能合理反映数据的离散程度。故变异系数法较于均方差法。图2中,多数指标体系下,变异系数法同均方差法的赋权结果走势图有很大出入,这归因于均方差法不能消除指标均值的影响,难以合理比较不同指标的离散程度,赋权结果不合理。表5中,原始指标体系下,均方差法同离差最大化法有3个指标排序相同。图2中,随着指标体系的变化,较于其他2种方法,均方差法和离差最大化法的赋权结果走势相对一致。在差异组指标体系下,对均方差法和离差最大化法的赋权结果进行相关性检验,相关系数在0.8左右,且双精度检验值绝大部分小于0.1,说明均方差法同离差最大化法的赋权结果的趋同性强。但是,原始指标体系下,均方差法对最重要指标的判定同熵权法、变异系数法一致,而离差最大化法的判定则是将熵权法中第4重要的指标判定为第1重要指标,这种决策失误来源于离差最大化法公式中指标极大值、极小值的选取错误,从准确性考虑均方差法优于离差最大化法。对于1个指标体系赋权,保证合理反映指标的相对重要程度是前提,因此均方差法优于离差最大化法。前面推论,熵权法优于变异系数法,变异系数法在合理性、区分度上都优于均方差法,均方差法优于离差最大化法。因此,利用差异信息赋权的方法中,熵权法最优。

1.2赋权原理不同的方法比较熵权法利用差异信息赋权;复相关系数法利用重复信息赋权。但是,对于任意指标体系都包含差异信息和重复信息。为探讨2种方法的适用条件、赋权结果有无一致性,建立同差异组对立的相关组,研究熵权法在相关组的赋权结果、研究复相关系数法在差异组的赋权结果,进而比较分析。相关组,利用修正的复相关系数,对每1个指标存在1个容许度,定义容许度为TOL,TOL=1-R2,TOL越小,指标的相关性就越强[12]。利用容许度,定义方差膨胀因VIF=1/TOL,单个方差膨胀因子大于10或者平均方差膨胀因子大于1,说明指标之间的相关性强,独立性越弱[12]。利用方差膨胀因子均值,分别构建相关性递增指标体系和相关性递减指标体系。由图3可知,在相关性递增指标体系下,复相关系数法的赋权结果中指标权重的区分度不是很明显。在相关相关性递减指标体系下,复相关系数法的赋权结果中指标权重的区分度相对明显。现实条件中,指标体系的建立,尽力选择相互独立的指标,某一指标为其他指标所能解释的程度越弱,指标体系所包含的信息量就越大。图3说明,复相关系数法的适用条件并不要求指标间的相关性很强,相反的指标的独立性越强,复相关系数法的赋权结果越能合理。由图4可知,差异组离散性递减的指标体系下,复相关系数法赋权结果中指标权重均衡化明显,难以有效的区分指标的相对重要性。差异组离散性递增的指标体系下,复相关系数法赋权结果中指标权重的区分度相对明显。图4说明,复相关系数法在数据离散程度较高的指标体系中赋权结果更为合理。由图3~4可知,熵权法在差异组、相关组中的赋权结果指标权重的区分度都很好,复相关系数法对指标独立性强、数据离散程度高的指标体系的赋权结果更为合理。综合评价过程中,指标体系的建立,选择独立性强的指标保证极大程度地反映评价对象信息,样本中同一指标对应的数据避免重复,保证数据的有效性。故熵权法、复相关系数法适用于任意科学建立的综合评价指标体系。由图3~4可知,复相关系数法、熵权法的赋权结果不存在趋同,权重数值存在很大的差异。表5中,熵权法判定指标的重要程度排第1、2、3、4,在复相关系数法中分别排第2、3、1、8。8个指标的重要程度排序,无任何一致性。对各指标体系下,复相关系数法和熵权法得到的赋权结果进行相关性检验,相关性系数往往为负值。存在这种差异,是由于熵权法基于指标数值的离散程度,复相关系数法要是基于指标的相关性性赋权,这2类赋权方法分别利用了指标体系的不同信息,赋权结果一致性极低,相互补偿的作用很小。

1.3一种组合优化方法土地系统的整体性、动态性、开放性、阶段性说明土地系统是一个复杂巨系统,土地体统的复杂性要求在进行土地评价的过程中必须辩证的考虑问题[12]。指标赋权是土地评价的重要过程,要求系统的、辩证的衡量各指标的重要性。定量评估指标重要性,有2种原理:(1)利用指标数值的差异信息赋权;(2)利用指标数值的重复信息赋权。原始数据信息由差异信息和重复信息组成。为了充分利用原始数据信息,保证赋权结果的合理性,对1组指标体系数据分别用熵权法、复相关系数法进行赋权,利用乘法组合赋权将熵权法、复相关系数法的赋权结果进行归一[10,13-16]。其公式见(1)。式中:wj(1)为熵权法赋权结果,wj(2)为复相关系数法赋权结果。由图5可知,组合赋权法,对2种赋权方法的结果都有兼顾,借鉴了熵权法和复相关系数法对各指标的权重,尤其是最重要指标和最不重要指标的判定,充分利用原始数据信息。