大数据技术论文合集12篇

时间:2023-04-08 11:50:25

大数据技术论文

大数据技术论文篇1

通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。

1.2云计算的发展

云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。

1.3云计算相关技术

(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。

2基于云计算的大数据处理

目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。

2.1数据采集存储

大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。

2.2数据计算模式

这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。

2.3数据分析挖掘

数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。

2.4数据解释展现

将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。

3大数据和云计算的未来挑战

大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。

3.1重要战略资源

在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。

3.2数据隐私安全

大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。

3.3智慧城市

人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。

大数据技术论文篇2

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2017)02(c)-0003-02

随着我国信息技术以及网络化的不断发展,信息量的增加和数据类型的增长已经逐渐超出了人们的承受范围。这样一来造成的后果就是全球近80%的数据都没有得到真正的利用,而70%的数据都是非结构化的数据和半结构化的数据,最关键的是这一比例仍旧在不断增长当中。信息量也逐渐呈现出了指数级的增长,数据结构的复杂化逐渐脱离了人们的实际控制。在这样的一种大背景下,对图书馆的知识服务体系进行变更和完善是非常有必要的,而且对其进行更新也有助于以大数据为基础的科学研究和新型知识服务范式的形成,但是从目前的实际情况来看,现阶段实行的信息技术以及信息管理模式并不利于大数据的获取和形成,最主要的是它还面临着技术落后、人员队伍不适应重大灾难性危险等问题。

再加上已有数字图书馆的相关建设需求以及构建模式都面临着被新知识服务需求与服务模式所取代的危机。数据量的不断增长也使得数据的结构变得日益复杂化,使得图书馆的知识服务体系逐渐成为半盲区。因此在这样的时代背景以及图书馆发展背景下,开展图书馆大数据体系构建的基础理论与实践研究工作是非常有学术价值的。

1 大数据体系构建的学术环境

1.1 发展历程

大数据这一概念由来已久,其发展历程非常独特,我们这里所说的大数据并不是指海量的数据和超大规模数据,但是从字面上分析的话,其实二者之间的区别不是很大,从数据管理技术发展的角度来分析二者之间的联系,对于研究人员进一步理解大数据的概念以及相关的技术问题都是非常有帮助的。

1.2 大数据理论与应用研究发展

从数据发展的历程角度就断定大数据的出现是不客观的,研究人员还需要从更多的角度和层面来考虑大数据这一全新的理论技术,笔者此次主要对大数据理论与应用研究发展进行详细的分析,以此来感受大数据体系构建所处的学术环境。虽然说大数据技术与实际理念之间的冲击的确能够让图书馆知识服务受众、供应者以及运营者本身得到充分的体现,而且还能够通过对结构化以及非结构化数据的常规分析,实现对图书馆知识服务创新能力的有效性分析。但是大数据对于图书馆来说,并不意味着所有,也不是一蹴而就的,一般大数据处理以及管理技术都是处于诱发阶段,距离真正投入到实施中还有很长的一段时间,也就是说二者并不是等同的,这段时间是研究人员建立图书馆大数据体系的重要阶段,同时也是图书馆研究人员非常重要的缓冲时期。

2 图书馆大数据体系构建战略思考研究

2.1 大数据对图书馆的影响

在对大数据进行分析和应用的时候,研究人员就要首先考虑图书馆大数据体系构建以及图书馆的信息职能服务问题,目前我国对大数据工程技术的研究已经领先于大数据科学研究,而大数据科学研究也走在了大数据知识服务体系的前面。当前,很多工程领域专家都是以自我的认知为中心来处理图书馆领域的大数据信息。而信息领域的专家则起到辅助的作用,在与应用领域的科研人员进行合作的时候,主要解决的是应用领域大数据处理的相关技术问题。而信息服务领域的专家则暂时独立于大数据知识服务体系之外。这样一来也就使得大数据知识服务体系的运用被推迟了5年左右。也正因为如此,图书馆大数据问题成为了当前研究的热点问题。

由此可见,如果想要研究大数据对图书馆的真正影响,就绝对不能简单地将图书馆看做一个单独的个体进行分析和讨论,而是要结合图书馆当前所处的学科背景以及研究背景等多个方面进行综合考虑。

大数据对图书馆的影响并不是单纯地体现在技术手段上,由于图书馆所处的时代背景和学术背景都属于有机整体,而大数据理论与应用研究对整个图书馆的影响是由内而外的,所以说大数据对图书馆的信息资源以及图书馆领导以及管理者甚至建筑设备都会产生直接的影响。

2.2 图书馆的相关应对措施

在大数据的引领下,图书馆运营体系也迎来了全新的机遇和挑战,图书情报领域要从自发到自觉、局部到整体,全方位地实施管理应对措施。只有这样才能够有效地应对当前图书馆大数据体系构建的实际社会需求以及科研发展带来的挑战。图书馆要想合理地构建大数据生态体系,就一定要做好以下应对措施。

第一,图书馆的领导层和管理人员在制定大数据的全局战略规划时,一定要根据不同的情况来创建大数据战略角色定位,并结合图书馆所处的实际地理位置,综合各方面因素来制定分层、分级的实施策略,进而有效协调,创建大数据知识服务纲要。

第二,图书馆一定要在思想意识形态以及技术手段、服务技能等方面进行全面的提升,我们的图书管理人员除了要掌握图书馆学、信息管理学等专业的理论知识以外,还要熟练地掌握信息科学、教育学、心理学等学科知识,尤其是大数据、云计算、移动互联网等基础的理论和技术。进而树立一个嵌入式的知识合作服务理念。

第三,研究图书馆大数据体系构建的要素以及驱动因素主要是从环境架构、战略架构以及业务架构等方面来探索图书馆大数据体系构建的相关理论及应用研究,探究图书馆在促进大数据科研发展中应该发挥的具体作用和地位。

第四,研究人T还要研究支持图书馆大数据体系的知识服务环境。作为集数据、工具、平台等于一体的知识服务环境,除了具备学术搜索、知识服务行为分析以及决策等功能以外,还要实现与传统图书馆自然环境、人文环境以及技术环境的无缝对接。

第五,按照图书馆大数据的数据全生命周期来进一步实现图书馆大数据的获取、存错、组织、分析等功能,结合大数据的来源以及用户的实际服务需求来解决主要的技术型问题,进而提出科学系统的基础理论体系。

第六,我们还要研究图书馆大数据的技术型人才以及服务型人才的主要培养方案,着重分析这类人才的知识结构以及专业技能,将培养计划真正付诸实践,为今后图书馆大数据体系构建提供有用的人才,除此之外,还要从大数据的源头抓起,进一步提高全民的数据素养以及数据的方法和方式。

2.3 ν际楣荽笫据体系构建的几点思考

从客观的角度来说,目前还是有很多人对大数据产生质疑,正如图书馆技术出现之后,图书馆界也出现了很多质疑的声音,认为图书馆技术在今后的发展中不会占据任何优势,而图书馆人员在研究大数据的时候也同样遭受到了此类质疑,基于此,笔者针对图书馆大数据体系构建阐明以下几个观点:(1)大数据体系只是一种全新的图书馆管理体系,它并不代表对图书馆所有的传统信息服务模式和信息技术都进行替换,大数据体系主要是在已有的信息服务模式基础上,对信息技术和人文情怀进行完善和补充,就好比我们将当前的数字图书馆、移动图书馆以及云图书馆进行整合。大数据体系作为信息资源管理技术的标准,并不意味着后续的技术会完全取代传统技术手段,技术体系以及人文情怀的渗透和融合在大数据体系中的运用也是非常有意义的。(2)在面对大数据的挑战时,图书馆领域有责任承担起图书馆大数据体系构建的重任,尤其是图书情报领域中处于一线的科学技术研究人员以及图书馆情报学家,他们的贡献和付出使得图书馆的整体发展有了极大的进步。

3 结语

我们这里所说的大数据不仅是数据量的增长,而是信息技术的更新和人类对客观世界认知程度的不断提升,对大数据基础理论知识的应用进行有效的分析和研究将会极大地推动图书馆情报学等学科的发展,而且也为社会以及所服务的机构提供了更加先进的知识服务机会,但是需要注意的是,我们所面对的不仅仅是图书馆新型知识服务体系构建上的变化,还要综合考虑由量变到质变,由局部到整体的图书情报领域观察模式的转变,大数据有可能会引起图书馆生存方式以及生存方法上的改变,所以我们一定要充分发挥自身的知识水平,支持图书馆大数据体系构建的基础性研究,不断增强学科内以及学科之间的学术交流。

参考文献

[1] 冯晴君.“云图书馆”环境下的地方文献工作新模式――以“贵州数字图书馆”和“珠江三角洲数字图书馆联盟”为例[J].贵图学刊,2012(3):1-3.

[2] 蔡津津,郜新鑫,付建俐.基于业务元数据标准化的金融财经数据仓库及服务系统架构探讨[C]//中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集.2012.

[3] 张丽丽.科学数据与数据科学小议[C]//安徽首届科普产业博士科技论坛――暨社区科技传播体系与平台建构学术交流会论文集.2012.

[4] 王红会.图书馆动态WEB数据库应用[C]//图书馆改革与发展――陕西省社会科学信息学会第六次学术讨论会论文集.2003.

[5] 张侠.浅谈现阶段图书馆的数字化建设[C]//陕西省图书馆学会第五次会员代表大会暨学术研讨会与全国图书馆部室主任工作、学术研讨会论文集.2003.

[6] 闫贵恩.回顾与展望――中国图书馆事业百年――图书馆数字化与现代化服务[C]//中华医学会第十次全国医学信息学术会议论文汇编.2004.

[7] 贾怀忠.高校图书馆电子阅览室的建设与管理[C]//拓展与深化――全国民办高校图书馆与图书馆地方文献工作研讨会论文集.2005.

[8] 支晓红.新建高职高专院校信息资源建设的策略[C]//拓展与深化――全国民办高校图书馆与图书馆地方文献工作研讨会论文集.2005.

大数据技术论文篇3

中图分类号TN95 文献标识码A 文章编号1674-6708(2012)81-0221-02

1 概述

激光雷达成像压缩传感技术是近年比较活跃的一类信息技术,它是在传统激光雷达成像的技术基础上,加入了新的信息获取理论,即压缩传感技术,有效降低数据采集量,并提高了信号传输质量。

激光雷达成像压缩传感技术特定主体情报信息搜索系统,是以科技论文、技术专利、作者、地域等特定主体为信息搜索目标,综合运用计算机处理等技术,对激光雷达成像压缩传感技术的有关情报信息进行识别和获取,并实现对情报数据的预处理和判断,实现激光雷达成像压缩传感相关技术的专利、论文、互联网数据的实时动态监控,进而获取和掌握技术情报数据。

在此划定激光雷达成像压缩传感技术特定主体包括:

1)中文核心期刊论文数据搜索与跟踪;

2)外文EI、SCI期刊论文数据搜索与跟踪;

3)中国专利数据搜索与跟踪;

4)美国申请专利数据搜索与跟踪;

5)美国授权专利数据搜索与跟踪;

6)欧洲公开专利数据搜索与跟踪

7)世界知识产权组织专利数据搜索与跟踪;

8)中国专利法律状态数据搜索与跟踪;

9)欧洲和世界知识产权组织专利同族数据搜索与跟踪;

10)美国专利交易数据搜索与跟踪;

11)互联网数据搜索与跟踪。

2 系统架构设计

系统主要由信息搜索模块、信息监控模块、信息采集模块组成。

信息搜索模块主要针对三大检索论文数据,中文核心期刊数据,中国、美国、欧洲、世界知识产权组织的专利申请数据、授权数据、法律状态数据、专利权转移数据、同族专利数据、引证数据,互联网数据进行搜索;信息监控模块利用搜索模块的功能,针对技术、机构、人员、国家的相关数据进行监控,发现各类信息的异动;之后,由信息采集模块完成数据采集,存入相应数据库。

对于不同来源的数据,采用网络爬虫技术设计搜索和跟踪的后台程序,后台程序不间断的扫描搜索和监测任务,一旦采集条件成立,启动采集,获取包括html、xml、txt格式的原始数据,然后由信息抽取程序抽取相应的格式化数据经过ETL转换存入到数据库中。以搜索任务为核心的业务表与元数据管理表建立关系,任务由用户设定,与用户的搜索条件一一对应,每个任务下可以包含来自一个数据元的任意多个专利,多个任务构成一个分析项目;每个任务根据其数据的来源设定任务所采用的处理方案,每个方案对应一个数据源的数据结构特征、数据清洗方案、数据分析方案,属于元数据的一部分。

图1 搜索任务创建示意图

3 搜索算法

互联网中的网页相互连接,彼此连同,构成一个巨大的网络结构,相对于专利和论文来说,对其进行搜索,技术难度略大。对于互联网数据则要采用网络搜索算法进行网页的深度搜索。激光雷达压缩传感技术信息搜索系统网络搜索算法以深度优先搜索算法为主。

深度优先搜索所遵循的搜索策略是尽可能“深”地搜索网页节点。在深度优先搜索中,对于最新发现的网页顶点,如果它还有以此为起点而未探测到的链接边,就沿此边继续汉下去。当网页结点的所有链接边都己被探寻过,搜索将回溯到发现网页结点那条边的始结点。这一过程一直进行到已发现从源网页结点可达的所有网页结点为止。如果还存在未被发现的网页结点,则选择其中一个作为源结点并重复以上过程,整个进程反复进行直到所有结点都被发现为止。

如下图,采用深度优先搜索算法,输出的网页顺序为:A->B->D->H->I->E->J->

C->F->K->G->L->M

主要搜索算法如下:

public void DFSTraverse()

{

InitVisited();

DFS(items[0]);

}

private void DFS(Vertexv)

{

v.visited=true;

Nodenode=v.firstEdge;

while(node!=null)

{

if(!node.adjvex.visited)

{

DFS(node.adjvex);

}

node=node.next;

}

}

private void InitVisited()

{

foreach(Vertexvinitems)

{

v.visited=false;

}

}

4 结论

本研究以情报信息搜索为核心,以特定主体为信息来源,运用计算机网络技术,构建了一套技术情报信息搜索系统,实现了对特定主体技术情报的跟踪和监控,为摸清有关技术发展态势、掌握潜在竞争威胁提供了手段,为管理决策部门制定技术发展路线、做出准确部署判断提供了有效的情报支持。

参考文献

大数据技术论文篇4

中图分类号:TP317;J528 文献标识码:A 文章编号:1005-5312(2015)18-0141-01

非物质文化遗产是人类文明发展的重要组成部分,早在20世纪70年代,相关研究者和学者已采用摄影技术、录音技术等技术对文化遗迹、考古发现等多种非物质文化遗产进行记录和保存。而在实际工作中,这些资料却无法由于相对局限的技术手段得以长存,例如图像的失真、录音的老化等等。计算机技术和互联网技术的发展使数字化保护走入非物质文化遗产保护的范畴,并在当前取得一定的成绩。本文试从剪纸非物质文化遗产的数字化保护出发,对相关理论研究和实现手段进行探讨,为相关非物质文化遗产数字化保护提供一种新思路。

一、相关理论和技术

在非物质文化遗产保护的技术上,当前主流的技术有两种。其中一种是使用信息技术手段对非物质文化遗产所具备的信息进行采集、转换并使其适应存储环境。再之则是对其所具备的信息或做简单处理或直接不处理进行存储。后者在实现上较为简单,却为后续工作带来不少麻烦。例如信息的简单编码处理如若深度不够,后期将花费更多的资源和人力参与研究延续非物质文化遗产的内容,对非物质文化遗产的传播和原生态环境的重构也是一个困难。

相关文献指出,对于非物质文化遗产,其信息与数据的区别在于前者在于对数据进行精简之后取得的更容易被计算机或相关第三方所理解,而后者是某种物理量的真实反映。因此数据处理在某种程度上代表了处理者对信息处理的主观意愿。在此之前,英国学者提出了知识资产研究中的信息空间,即被业界广泛所知的“I模型”。I模型的出现也为非物质文化遗产的数字化保护提供了一个理论基础。I空间的三个坐标分别代表编码、抽象以及扩散。编码程度在非物质文化遗产保护上是用于衡量表达方式在多大的程度上可以为计算机所理解接受;抽象则用于对其理论的综合描述和特征提取;扩散则在另一方面体现了非物质文化遗产的传播以及后续的信息恢复和原生态构建。通过I空间,理论研究可以对非物质文化遗产的价值与传播、形式与存储、保护及其目标进行进一步讨论,此处不再赘述。

剪纸艺术是2006年国家公布的518项非物质文化遗产之一,是广大人民群众的艺术积累和结晶,品种多、分布广。在对剪纸的技术保护上,信息的采集点在于制作的技术手法和作品的表现形式。特别是作品的表现形式,是对剪纸非物质文化遗产的主要概括。当然,两者也是联系紧密的,根据上述的I空间理论,剪纸保护可以根据其在I空间的位置进行讨论。

二、剪纸的数字化保护

(一)数据库的设计

综上所述,剪纸的种类多,且表达方式多、表现效果丰富,如何对其进行数据上的信息提取是实现数字化保护的关键,结合当前计算机技术,数字化保护的基础在于数据库的设计。在实现上必须对剪纸的艺术特点进行数字化抽象提取。其中基本元素和典型符号库的设计是数据库设计的根本所在。因此首先对覆盖较为完整的剪纸图案进行收集和分析,提取出常用的元素。例如剪纸中的曲线、直线、多边形、花样、小孔、月牙形、水滴形等等。其次,对图像进行归纳,形成图像数据库。对收集的剪纸图案,可以分为动物、人物、植物、风俗、服饰和建筑等多种类别,并在软件后台数据库中建立相应的表与其对应。再之,根据应用目的,可以将其分为美化环境类、礼仪喜庆类、祭祀信仰类和服饰佩戴类四大类,四大类进行下一级的分类,通过多重分类实现库的搭建,此处亦不再赘述。

(二)软件设计

在数据库构建完毕后,软件设计可以分为图像处理模块、数据库管理模块、查询模块、数据存储模块。实现上可以通过VISUAL2010和SQL SERVER 2008进行搭配设计。

各模块功能在实现上可以由如下进行:首先图像处理模块提供了图形编辑器,人机交互界面提供给操作者绘图平台,绘制完毕的图像将进入数据存储模块中的基本图像数据库和基础元素数据库。

三、结语

本文结合非物质文化遗产的数字保护对剪纸艺术的数字保护做了理论浅析和探讨,并借此简单阐述对剪纸艺术的数字保护技术实现方式,包括数据库的搭建和软件的设计,为剪纸文化的保护与开发提供一种实现思路。

参考文献:

[1]许中美.民间剪纸里的动物图形寓意[J].菏泽学院学报,2007(04).

大数据技术论文篇5

“元数据档案整理技术”已被档案界普遍接受,“非元数据档案整理技术”则还是一个刚刚提出的概念。这里只是利用“非”这一重要的逻辑概念表明,只要西方的“元数据”不是档案整理的唯一技术,那么在“元数据”之外,就应该有“非元数据”档案整理技术的存在。大家必须理解,我们提出“非元数据档案整理技术”,并不是要去反对和否定元数据档案整理技术,而只是要用“非元数据档案整理技术”的概念开道,来梳理在中国已经出现的档案整理技术,并证明它们同样是现代的,而且是更适应中国档案实践的档案整理技术体系。

一、元数据档案整理技术

“元数据档案整理技术”是西方档案界提出的一种档案整理技术。而西方产生这种技术的实践基础是,他们利用计算机网络及其技术实现了“电子政务”,并且使“电子政务平台”成为他们日常行政管理的实践基础和管理工具。

在这种特殊的条件下,电子政务系统本身不仅能产生着电子文件、而且也能提供电子文件的实体信息(数据),并且能根据电子文件生成的具体环节,提供隐含在具体环节背后的、电子文件与社会实践及其过程之间的对应信息——元数据(数据的数据),即档案实践通常所称的“档案历史联系信息”。于是,嵌在电子政务平台中的档案整理系统就可以在电子政务的支持下,利用所采集的“元数据”完成“档案历史联系”的整理,它不但获得了“电子文件实体集合”,而且具有了足以使这一文件实体集合转化为档案的“档案历史联系的记录”。而“电子文件实体集合”和“档案历史联系的记录”这两种物质实体的获得,就构成了它所要得到的电子档案实体。因此“元数据档案整理技术”本身是一个具有科学性、高自动化程度的档案整理技术体系。

由于现在西方和我国还只是将“元数据档案整理技术”嵌入到了电子政务系统,所以有人可能误认为,元数据档案整理技术只适用于电子政务。其实不然,它不但能适应电子政务的档案整理,而且也能适应诸如电子银行、电子商务、电算化会计等等电子管理平台的应用。事实上,只要人们能为某一社会实践的管理建立电子管理的平台,那么元数据档案整理技术就能嵌入这个电子管理系统,成为适应它的档案整理技术。所以“元数据档案整理技术”本身是一种具有很宽实践范畴的实用档案整理技术。

“元数据档案整理技术”所具有的特征是,它彻底变革了传统档案实体整理的技术,成为“文件实体整理”与“档案历史联系整理”分离的技术。这种文件实体与档案历史联系整理的技术分离,使元数据档案整理技术中的“档案历史联系整理”,不再受电子文件实体的干扰,而使档案整理真正地进入了多元的时代,使档案整理原则从一维的“来源原则”,发展为具有“实践主体”、“实践客体”和“年代”的多维“历史原则”。“元数据档案整理技术”所具有的“文件实体整理与档案历史联系整理技术的分离”、“档案历史联系整理的多维化”、“档案整理原则的多元化”和“档案物质实体的双重构成”是其档案整理技术的四大特征。

二、非元数据档案整理技术

在档案整理技术中“非元数据”与“元数据”是相对存在的两种档案整理技术。从概念上说,除了“元数据”的档案整理技术之外,都属于“非元数据”档案整理的技术范畴。但本篇文章不再研究传统的档案实体整理,它包含的只是新提出的“以‘件’为单位的档案整理技术”、“双套制的档案整理技术”和“不同载体的混合档案整理技术”。

不管是“以‘件’为单位的档案整理技术”,还是“不同载体的混合档案整理技术”,它们的档案实体整理与档案历史联系整理都是相互分离的。“双套制的档案整理技术”比较特殊,从表面上看,它是用整理纸质档案的方法完成了电子档案的整理,但它同样告诉我们,也能够用整理电子档案的方法整理纸质档案。由此我们可以看出,中国档案界提出的这些非元数据的档案整理技术,具有一个共同特点,即它们都是“档案实体整理”与“档案历史联系整理”相互分离的档案整理技术。由于这些“非元数据档案整理技术”是“档案实体整理”与“档案历史联系整理”相互分离的技术,所以它们就同样都能实现档案历史联系的多维化。它的档案整理原则,也可以从一维的“来源原则”,过渡到具有“实践主体”、“实践客体”和“年代”的多维“历史原则”。它们最终都要形成由“文件的实体集合”和“档案历史联系的记录”两种物质实体共同构成档案。

于是我们发现,中国提出的非元数据档案整理技术虽然还存在着许多的缺点,但在“质”上,这些非元数据档案整理技术都具有“文件实体整理与档案历史联系整理的分离”、“档案历史联系整理的多维化”、“档案整理原则的多元化”和“档案物质实体的双重构成”的四大档案整理技术的特征。

三、两种典型档案整理技术的比较

我们的研究发现,虽然非元数据和元数据档案整理技术的技术环境、流程和操作方法有着很大的不同,但它们具有相同的四大特征,并且这两种档案整理技术具有相同的内在结构,完全可以用同一的《档案整理结构的模型》来认识和解释它们的机理和过程。或者说,是因为它们具有相同的档案整理结构,所以它们才具有它们的共同特征。所以非元数据和元数据档案整理技术这两种看似非常不同的档案整理技术,其实是同一档案整理结构的两种不同技术表现形式。

为什么会产生这两种不同的档案整理技术形式,或者说,西方为什么采用元数据档案整理技术,而中国为什么要采用非元数据档案整理技术,而这是相同的档案整理原理为适应不同国家档案实践条件而产生必然结果。在中国,其实始终存在着两种不同的档案实践和理论体系。一种是,从民国时期开始的“文档连锁法”,后来的“文档一体化”和现阶段提出的“文件中心”,与之相应的则是文件生命周期理论;而另一种则是,与文书实践分离的档案实践,在解放后,中国接受了前苏联的档案实践和“立卷人——档案室——档案馆”的档案实践体制,同时也就形成了有别于西方的档案学理论。

原理、价值和理念要过渡到实践,就需要技术的中介,由于技术离实践更近,所以它更要受到实践的约束,先进的技术并非在哪里都适用,对谁都是具有实用的价值。中国人民大学王健教授在国家社科基金项目“OA环境下的文件、档案一体化管理研究”的技术报告中就客观和直率地提出,在中国“无论是档案行政管理机构,还是档案馆,都无权指导各机构的文件工作,……因而无法具备全面的一体化功能。”①对于在中国建立文件中心的问题上她也指出“全盘否定档案室的态度是不科学的,完全撤销档案室的做法是不现实的,在保留档案室的基础上再重建一套文件中心是不必要的,简单地将档案室改名为文件中心也解决不了根本问题。”②这些认识对于认识档案整理技术的发展同样有效。

我们应特别注意,计算机化与现代化是两个不同的概念,比如,一种档案整理技术虽然没有实现计算机化,但如果它能实现多维的档案历史联系联系整理;而另一个虽然实现了计算机化,但它形成的档案历史联系却是一维的,那么我们究竟应该将哪种技术判断为现代档案整理技术呢?档案整理技术现代化的关键是档案整理技术内容上的现代化,计算机化只是档案整理现代化的一种外在的形式。

在自动化和计算机技术应用的程度上,元数据显然要高于非元数据档案整理技术。但在中国发展元数据档案整理技术,有着诸多档案界自身无法克服的现实障碍,但只要我们放弃部分元数据档案整理技术的高自动化要求,那么就可以在不改变档案工作体制、不需要实现“文档一体化”、能脱离电子政务环境、不用制定也不依赖“档案元数据集”的条件下,创造出一种可应用于文书和科技档案、并适用于纸质文件、电子文件和实物混合的、非常实用的档案整理技术。所以不要简单化地根据计算机技术的应用程度,来论档案整理技术的长短。

四、中国档案整理技术前景的展望

通过“非元数据档案整理技术”与“元数据档案整理技术”的比较研究,我们认为:

中国档案界,须在元数据和非元数据档案整理技术之间做一抉择,这是不能回避的。它不是单纯的档案理论和技术问题,而是干系到中国档案事业未来发展的一次抉择。它是档案工作者、档案学者和中国档案事业的领导者都必须倾心关注的问题。

不应该排斥元数据档案整理技术,但在相当长的一段时期内,“非元数据档案整理技术”应该是一条更适应中国国情的档案整理技术路线。我们甚至认为,它是迟早要被国人所接受的一种档案整理技术。

“非元数据档案整理技术”虽然已经有了基础,但技术整体还处于相当混乱的状态。我国应该在夯实它的档案学理论基础、简约它的技术、注重它的实用性的前提下,统一制定中国的档案整理技术规范。其结果应该是创造出一种具有中国特色的档案整理技术体系和理论。这也是中国档案界在世界有所建树的一个契机。

大数据技术论文篇6

 

数字图书馆(Digital Library,简称DL)是国家基础设施的重要组成部分,目前已成为国际高科技竞争中新的制高点,成为评价一个国家信息基础设施水平的重要标志,也是目前世界各国图书馆正在竞相研究和发展的重大课题。我国图书馆界和信息科学领域对数字图书馆的研究起步较晚,但近年来有了突飞猛进的发展,成为当前图书情报界研究的一个热点问题。

为了解近十年来我国数字图书馆领域的研究成果及发展趋势,比较准确的呈现我国数字图书馆的研究现状,本文以数字图书馆为检索词,对维普中国科技期刊数据库中1997—2006年发表的论文进行了检索,共得到相关论文1028篇。由于检出文献数量巨大,为便于分析,笔者筛选了图书情报工作、大学图书馆学报、情报杂志等17种图书情报类核心期刊,得到抽样论文300篇。下面就以这些论文为依据,对近十年来我国数字图书馆的研究方向及研究内容进行总体上的概括和评价。

1 基础理论研究

1.1 数字图书馆的定义

自从数字图书馆概念出现以来,始终没有一个统一、明确的定义,不同的论文作者从不同角度对其进行了各自的阐述,形成了颇具代表性的几种观点:⑴数字图书馆是采用现代高新技术的数字信息资源系统,是下一代因特网信息资源的管理模式,将从根本上改变目前因特网上信息分散不便于使用的现状。免费论文参考网。通俗地说,数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心。⑵数字图书馆是超大规模的、可以跨库检索的海量数字化信息资源库。并详细解释为,所谓数字图书馆就是对有高度价值的图象、文本、语音、音响、影像、影视、软件和科学数据等多媒体信息进行收集,组织规范性的加工,进行高质量保存和管理,实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。同时还包括知识产权、存取权限、数据安全管理等范畴。⑶数字图书馆是一个全球性的、分布式的大型知识库,即以分布式海量数据库群为支撑,基于智能技术的大型、开放、分布式信息库。综上所述,虽然对数字图书馆不能给出一个规范的、权威的定义,但是从不同的定义中我们却可以发现,数字图书馆的内涵要比传统图书馆广泛得多。数字图书馆的定义将会随着数字图书馆研究和建设的深入而不断完善。

1.2 数字图书馆的特征

关于数字图书馆的特征,主要有以下几种不同表述:

杨沛超、魏来认为,数字图书馆可以有许多不同的表现形式,但从根本上看,它就是利用网络设施将数字化的信息资源,通过多种途径快速、有效的提供给用户的一种全新的图书馆形态。其特征主要表现在三个方面:① 数字化资源;② 网络化存取;③ 分布式管理[1]。徐文伯提出数字图书馆的三个特征为:① 分布的、但在统一的标准下建设;② 可以在统一的网络平台上运行;③ 可以不断扩展[2]。罗维维指出,和传统图书馆相比,数字图书馆具有以下特征:首先,它本身并不是一个实体单位,而是虚拟的,不存在物理上馆舍的界定。其次,它不是简单的数字馆藏,数据库的数据范围要比图书馆的收藏范围大得多。第三,它的研究和实施是由计算机通讯领域的研究人员为主,参与制作数据库的人员涵盖许多不同行业,其中信息科学领域和图书馆界作出了很大的贡献[3]。综上所述,数字图书馆是21世纪图书馆的发展方向,尽管目前还不能完全准确地把握数字图书馆的所有特征,但从发达国家已经出现的数字图书馆雏形和以上学者的描述中,可勾画出它的某些特征,初步展示了未来数字图书馆的风采。

2 建设模式研究

近年来,学术界在实践的基础上,探讨了数字图书馆的三种模式:第一种是单纯化的理想数字图书馆模式,即技术指导型。它支持面向对象的分布式查询的资源库,并且通常支持基于知识内容的检索,具有人性化的人机界面。这一模式囊括了现代信息技术的大成,但依靠图书馆自身的力量,有重重困难。第二种模式,就是传统图书馆向数字图书馆转型的模式,它是传统图书馆与数字化资源有机结合的复合型图书馆,又称混合式图书馆,它不是本质意义上的数字图书馆。第三种模式是前两种模式的综合或者说是简化。

3 技术研究

数字图书馆是当今计算机、通讯、信息内容处理等高新技术之综合体现,也是目前世界上信息技术领域的前沿研究课题。免费论文参考网。目前,我国学者对数字图书馆的技术研究着墨很多。镇锡惠认为数字图书馆系统主要技术的需求包括:数字图书馆体系结构方面的技术需求;计算机系统—网络系统—存储网络系统模型的技术需求;数字资源加工编辑相关的技术需求;数字图书馆用户服务系统相关的技术需求[4]。刘锋指出CDL(China Digital Library)的关键技术是① 图象、文本、音频、视频数字化技术;② 压缩存储和还原技术;③ 元数据库技术;④ 分布式数据库技术、数据仓库技术;⑤ 知识挖掘、管理技术;⑥ 在线服务技术;⑦ 人机交互技术;⑧ 认证和网络安全技术[5]。胡昌平、吴叶葵讨论了基于Agent的个性化主动服务,并给出了具体的实现方案[6]。赵伟、郑巧英分析了其在广播式、查询式客户端程序设计和结构中的应用以及在协作网中的应用[7]。彭国莉分析了信息推送的类型、服务形式和图书馆信息推送服务的实现[8]。傅湘玲则介绍了推送技术软件和Push技术的应用前景[9]。

4 元数据研究

数字图书馆研究中,元数据研究是重要的组成部分。网络技术的发展,使得以Web形式存在的网页资源呈几何级数上升,要有效地利用这些信息资源,除了搜索引擎外,就是采用相关的著录标准对这些信息资源进行著录,元数据技术由此产生。在元数据的研究成果中,李惠较为系统地概括了元数据在数字图书馆中的应用、收集和维护。她认为元数据可用于信息资源的组织和检索,也是设计和维护数据库的工具,可以成为用户使用数字图书馆的向导。免费论文参考网。在元数据的利用方面,她还介绍了元数据与检索工具相结合的四个集成层次[10]。梁雯指出了元数据在数据仓库的重要角色:它起着定位数据仓库的目录作用,为数据仓库的创建提供必要的信息、描述和定义[11]。而宓永迪、夏勇则介绍了自行开发的网络资源元数据搜索、查询系统,包括了系统的总体结构、工作原理和实现方法。这是一个具有可操作性的实践方案[12]。在网络信息的元数据标准方面,人们已经认同元数据标准是一个网络信息的管理工具,国外的经验值得参考借鉴[13]。未来,元数据研究的侧重点应是:① 技术元数据;② 权限元数据;③ 保存元数据;④ 资源发现元数据;⑤ 元数据检索的工具和系统;⑥ 元数据的标准化问题。

5 知识产权问题研究

知识产权是指人的智力活动创造的精神财富,即智力劳动成果所享有的权利,它包括:著作权、发明专利、商标、厂商名称等等。数字图书馆的知识产权问题主要是针对著作权问题而言。所谓著作权是指著作权人对其文学、艺术和社会科学、自然科学、工程技术等作品享有的署名、发表、使用、出版以及许可他人使用和获得报酬等项权利。加强版权保护可以从多方面采取措施,如通过立法补充和修改《知识产权法中关于保护计算机网络上的版权、作品著作权》的规定,在社会上宣传和普及公众保护知识产权的观念,培养尊重他人著作权的意识,规范和管理网上版权作品的传播使用和出版发行。目前,数字图书馆管理中使用的版权保护方法主要有:⑴ 采取多种多样的技术措施:访问控制技术、数字水印技术、软件加密技术。⑵ 强化权利管理信息的管理:是强化知识产权执法措施的标志,是权利人行使版权的手段;它为版权人设定用户使用作品的条件、监控作品的传播以及追究侵权责任起着至关重要的作用[14]。

6 信息营销机制研究

数字图书馆实行信息营销,是适应时代需要、谋求自身生存发展和满足用户需求的必然要求。数字图书馆实施信息营销时,重点是迅速获取用户需求的变化趋势,整合内部微观环境,作出适应环境变化的反馈。通过信息营销,了解需求,提供服务,把最好的信息,用最方便的方法,在最好的时机送到最需要的人手中,更好地服务读者,树立形象,扩大影响,取得良好的经济效益和社会效益[15]。

7 结束语

近十年来,国内数字图书馆的研究可谓是硕果累累。我们相信,随着对数字图书馆理论研究和实践的不断深入,我国数字图书馆建设一定能够再上一个新台阶,实现我国数字图书馆的宏伟目标,整体推动我国信息化进程,为人类文明的进步做出应有的贡献。

参考 文 献

[1] 杨沛超、魏来. 论中国数字图书馆发展策略[J] . 情报资料工作,2001,(3):16—21.

[2] 徐文伯. 关于数字图书馆的几点认识[J] . 情报资料工作,2001,(3):33—38.

[3] 罗维维. 浅议数字图书馆建设中的几个问题[J] . 中国图书馆学报,2001,(3):64—.69

[4] 镇锡惠. 数字图书馆的主要技术需求[J] . 国家图书馆学刊,2000,(4):21—23.

[5] 刘峰. 国家863计划中国数字图书馆发展对策及研究动态[J] . 情报资料工作,

2001,(2):54—59.

[6] 胡昌平、吴叶葵. 基于三层Agent的个性化主动服务系统的探索[J] . 情报科学,

2001,(4):30—33.

[7] 赵伟、郑巧英. Z39.50技术在上海地区文献资源共建共享协作网中的应用[J] .

图书馆杂志,2001,(5):9—11.

[8] 彭国莉. 图书馆信息推送服务[J] . 图书馆杂志,2001,(5):41—42,53.

[9] 傅湘玲,甘利人. 面向内容的网络信息资源开发的几种新技术探讨[J] . 情报杂志,

2001,(2):37—39.

[10] 李惠. 元数据在数字图书馆中的应用[J] . 情报理论与实践,2001,(1):220—222.

[11] 梁雯. 决策支持新技术——数据仓库[J] . 情报理论与实践,2001,(2):21—22.

[12] 宓永迪、夏勇. 网络资源元数据搜索、查询系统的实现[J] . 图书馆杂志,

2001,(5):36—37.

[13] 吴慰慈,张久珍. 网络信息资源的标准化体系研究[J] . 情报科学,2001,(1):40—45.

[14] 潘芳莲. 数字图书馆管理中的知识产权问题[J],图书馆,2005,(3):66—68,76.

大数据技术论文篇7

〔中图分类号〕G250.7 〔文献标识码〕A 〔文章编号〕1008-0821(2012)10-0146-03

“江苏省高校图书馆现代技术应用平台建设”是 “江苏高等学校数字图书馆(JALIS)”三期工程的项目之一,也是JALIS“十二五规划”的预研项目,由扬州大学承建、南京大学等14所江苏高校图书馆参建。该项目的目标之一是面向江苏省高校图书馆技术人员,建设大型技术资源共享的门户网站——“江苏高校数字图书馆技术联盟网络平台”[1]。

1 项目背景

数字图书馆环境建设与服务推广,已经将技术部门推到图书馆服务的前台,图书馆所有服务都依赖技术部门的工作,技术部门的保障能力、将直接关系到服务的开展。图书馆技术人员在数字图书馆建设中角色越来越类似于服务设计者,而非直接的平台构建与技术支撑维护者、软件设计者、资源生产者。

数字图书馆联盟建设经历了两个明显的阶段,即本地管理软件的同构化共建阶段与广泛的资源共知、共建、共享阶段,必将进入第三阶段,即区域范围内甚至全国性的数字图书馆技术力量协作与联盟运作阶段[2]。

“江苏省高校图书馆现代技术应用平台建设”项目的长远目标是通过对优质技术资源与技术服务的整合,发挥整合效益,迎接联盟建设第三阶段,以保持JALIS的持续创新力。通过江苏高校数字图书馆技术联盟网络平台建设,探索人才资源整合的方式;探索充分利用网络化的环境,开展更为有效紧密的业务培训方式,提升队伍的素质;探索如何发现与归纳需求,并通过需求的发现,整合图书馆技术队伍现有的优势,形成解决共性问题的组织方式;探索人才资源整合与发展过程中完善的管理机制建设。

项目的近期目标是研发一批图书馆小型应用软件,形成管理信息与技术标准库(汇集技术标准、业务规范、技术白皮书、文献采购招标相关参考文本、设备通用参数文件等),形成网络自助业务培训机制,提供技术论坛,建成江苏高校数字图书馆技术联盟网络平台。

江苏高校数字图书馆技术联盟网络平台建设,预期以先进的网络技术为依托,建设一个由JALIS所有成员馆参与,为JALIS建设、为数字图书馆发展提供基础服务的支撑平台,作为实现技术发展、人才培养、管理机制三方面创新的基础平台。依托平台建设,整合全省高校图书馆的技术队伍,使之从松散走向集中,从自发走向自觉,从而形成合力,形成互补的优势,对现有的研发、人才培养模式进行创新,以整体的合作去共同面对未来的挑战[3]。

2 需求分析

江苏高校数字图书馆技术联盟网络平台是一个大型共享资源门户网站,也是服务全省高校图书馆技术用户的综合门户。它面向江苏省高校图书馆技术人员,提供软件提交下载、技术白皮书(含规范文档、通用设备参数文档等)和技术标准的提交下载、技术专家库、自助培训模块、测评数据、技术论坛等模块等,同时反映项目动态,提供JALIS建设项目的导航服务。

来宾可在网络平台上浏览相关软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件的目录信息,但不可下载;浏览论坛帖子,但不可发言;

注册用户(实名注册)可浏览、下载、上载软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件、使用论坛,支持RSS订阅;

各图书馆管理员用户可管理、审核注册用户,浏览、下载、上载、管理审核软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件,管理论坛,管理各类资源的分类标准,上载导航与动态信息;

超级管理员用户可管理、审核注册用户及图书馆管理员用户,浏览、下载、上载、管理审核软件、标准、白皮书、测评数据、会议信息、技术专家库与业务培训相关课件,管理论坛,管理各类资源的分类标准,上载导航与动态信息。

3 系统设计

3.1 功能设计

3.1.1 共享软件

小型共享软件是指江苏高校图书馆技术部门自行研发、自己使用或小范围使用的小型可共享软件(需含软件详细文档或软件源代码),有汇文辅助、网站建设、数据库建设、其它软件等几个类型。本模块提供软件上传与下载及评论信息,分前台(浏览下载),后台(提交审核分类评级)等功能(如图1)。

图1 注册用户使用共享软件模块流图

3.1.2 技术标准

提供各类新兴信息技术与图书馆应用技术标准的上传下载服务,含文献信息加工标准规范,文献信息服务体系建设规范,文献信息服务系统建设技术标准,文献信息服务标准和规范,信息组织的元数据标准,图书馆建设相关领域的技术标准和规范等几个类型,流程同软件。

3.1.3 技术白皮书

提供各类图书馆应用技术白皮书(含服务器软硬件配置、架构方法、设备标准配置、文献电子资源招标采购附件及合同)的上传下载服务,含系统安装、数据库使用说明、操作规程等几个大类,模块设计方式同软件。

3.1.4 技术专家库

江苏高校图书馆技术部、信息技术部、系统部、数字化部工作人员,与江苏高校图书馆界有良好合作关系的IT技术公司技术人员。本模块由注册用户直接形成。

3.1.5 会议信息库

报道共享各类会议信息,包括各类图书馆业务、计算机与信息技术相关的研讨会、工作会议信息,第一步形成图书馆工作类、图书馆学术研讨类、计算机与信息科学类、其他类几种类型会议信息的提交浏览,模块流程设计同软件。下一步形成会议管理模块,涵盖会议通知、人员注册、会议进程管理、会议相关材料自助下载、会议信息归档等几个方面。

3.1.6 测评信息

提供软件(通用)、硬件、系统测评信息文本与资料的上传下载服务,并可组织测试测评活动,根据贡献度给参评人员评分。

3.1.7 自助培训

支持静态技术课件、教学录像、教学纲要、教学参考书,学员绩效考评、学业成绩评价,学习成绩证明出具等模块。第一步实现提供各类图书馆业务培训的静态课件、教学录像等提交下载、在线学习、个人课程定制、实时学习笔记、笔记保存与调用等服务,后者支持在线播放;主要类型为图书馆类、计算机类、其他类,格式支持MPG、MOV、WMV、MP3、SWF、PPT、DOC、XLS等。

3.1.8 技术交流区

采用论坛架构,是与平台主体功能部份合一的BBS系统,不需要专门注册,登入系统即可使用;分三大板块:技术讨论区、休闲娱乐区、论坛服务区,其中技术讨论区板块分技术交流、技术开发、技术服务、技术应用、技术管理、技术研究等六大模块,用于搜集需求、系统共维护、协同研发、形成成果、提供服务。

3.1.9 导航和项目动态

提供JALIS项目动态(含项目概况、管理机构、项目动态、成果展示等几个栏目)及相关新闻,博客链、会员网址自助等导航功能。

3.2 管理设计

3.2.1 对象管理

对象管理又分图书馆管理与用户管理两个模块。图书馆管理通过管理员输入或批量导入方式将江苏高校图书馆等数据录入,这是防止用户注册时输入名称不规范而采取的措施,一旦数据录入,用户注册时即可选择所在图书馆;用户管理分为三层四级制,三层是审核管理层(负责权限分配、模块调整组合、资源调度)、管理用户层(省内各高校图书馆管理员,负责本馆资源组织与提交)、普通用户层(又分为注册用户级,可享受下载服务、技术论坛、培训等模块的服务;浏览用户级,具有浏览权限)。

3.2.2 参数管理

主要是对各类型资源进行分类数据管理、下载设置管理、动态管理,管理用户层以上用户可设定资源大类小类、下载的文件类型空间限定等、动态新闻上载、导航相关网址上载等。

3.2.3 注册与登录

游客可直接浏览相关资源目录,而不能进行上载、下载、评论操作,江苏高校图书馆技术部门工作人员、IT公司技术人员可通过注册成为平台用户,注册后须通过管理用户的审核,审核后成为注册用户;因用户注册后将自动进入技术专家库,注册时需用户将有关信息填写完整,包括技术特长、项目建设经历、论文论著情况等;超级管理员可视情况将某注册用户升格为图书馆管理员,系统提供接口让管理员察看待审核用户情况。

3.3 结构设计(如图2)

图2 系统结构图

4 系统实现

江苏高校数字图书馆技术联盟网络平台的体系结构采用目前通用的B/S应用模式(浏览器/服务器模式),是一种三层的C/S(客户机/服务器)模式,即Web浏览器,Web服务器和数据库服务器。其中,浏览器是客户服务层(表示层),负责接收用户输入并向Web服务器提交用户申请,接收Web服务器返回的执行结果并显示;Web服务器是业务服务层(应用功能层),负责应用程序的开发、运行和维护;数据库服务器是数据服务层,负责提供数据的存储,执行查询和更新数据的请求。

基于B/S模式的系统结构将技术联盟网络平台的应用逻辑与用户界面和数据访问分开,方便了应用程序的开发和维护,可以使网页设计和应用逻辑设计分别由不同知识结构的开发团队完成,能加快项目的开发进度,利于各开发团队发挥各自的特长。

江苏高校数字图书馆技术联盟网络平台的硬件设备采用一台高性能的PC服务器作为Web服务器和数据库服务器,并接入校园网,对江苏省各高校开放。Web服务器端采用支持Java技术的Tomcat作为应用服务器的软件平台,数据库服务器采用Oracle公司的Oracle 8.1,客户端直接通过IE浏览器进行访问。开发语言选用SUN公司推出的JSP,JSP(Java Server Page)是一种服务器端的动态网页技术,实际上是一种基于Java的Web服务器应用技术体系。JSP的脚本语言采用Java使其完全继承了Java的所有优点,主要体现在:系统具有很好的稳定性和安全性、与平台无关性(一次编写程序各处运行)、面向对象的程序设计等,使其已成为跨平台应用开发的一种规范。

系统的安全性方面,平台对数据库中用户密码采用MD5加密方式进行加密,对常见攻击预先做好防范。对用户提交的提交给服务器的数据采用encode方式加密,服务器端接受采用decode解密,保证提交信息不泄漏。对异常提交信息进行处理,拒绝非法的提交。在容错性上,对用户输入数据有检查机制,用户输错数据都有提示信息,具有较好的容错性能。系统的封闭性较好,用户基本上在提示信息下输入数据。

5 结 语

江苏高校数字图书馆技术联盟网络平台的建设思路是首先将平台架构形成,并落实需求中所涉及的功能,使之尽快汇集资源、提供服务,当中不周到之处在所难免,恳请同行专家批评指正。下一步将深化设计,体现开放、共享、协作理念,严格遵循数字图书馆门户建设的相关规范与标准,充分借鉴数字图书馆建设中的博客、维基、知识库及远程会议支持等技术的长处,参考数字图书馆建设中新兴的WEB2.0、LIB2.0及VCASE技术,集中组织,模块化实现,保证平台的运行与实施效果。

参考文献

[1]江苏高校数字图书馆技术联盟[EB/OL].http:∥58.192.141.200:8089/jalis/,2010-07-31.

[2]周玉陶.技术联盟:图书馆数字化建设协作的新发展[J].图书情报工作,2008,(9):127-129.

[3]周玉陶.数字图书馆联盟背景下图书馆技术队伍整合[J].图书馆建设,2009,(6):91-93.

大数据技术论文篇8

信息时代飞速前行,因而单位或个人都有很多数据进行系统化管理,故而数据库管理技术成为比较常用的技术之一。该技术有广泛的应用前景,能够使用在经济、政治和文化领域内,在发展中给人们生活带来诸多便利。因此,需高度重视计算机数据库的信息管理应用要素,不仅将数据库看成是一项管理技术,更要将其看成是一种管理方法,通过应用该技术能有效提升工作效率,让工作更高效和准确。

1计算机数据库技术特点

1.1组织性

数据库的构成不是杂乱无序,而是有一定内在联系,相同数据库之间的文件有着内在的联系,并按照一定的关系形成组织结构。故而从总体角度考虑,认识同一个集合中的数据都有着相似的特点。

1.2共享性

共享作为数据库的主要特征之一,更是数据库建立的关键性要素,如果数据库不具备共享性能,那么数据库存在的价值将会大大打折[1]。具有共享性能的数据库,不但能够为单位内的各个部门以及个体提供数据共享资源,并且这些资源可以被不同的单位、地区与个体共同享用。

1.3独立性

数据库的独立性主要涉及两大方面:一方面是逻辑独立性和物理独立性,另一方面是逻辑独立性让数据库的总体结构产生质的变化,能够变革数据库的逻辑关系,其中包括于数据定义的修改、新数据类型变化、数据之间的逻辑变更,但是这些都要在修改原有数据程序的基础上进行;另外,物理逻辑性主要是指数据存储结构产生的变化状况。例如,更换物理的存储设备、位置、方法等,故此数据的物理结构变化对数据的逻辑变化影响不大,更不会引发应用程序的变革。

2计算机数据技术应用于信息管理中的现状

2.1应用范围广

1)计算机技术结合数据库技术能够有较好的生命力,并能迎合广泛的市场前景。2)在计算机应用范围逐步扩大的情况下,目前已经涉及到多个行业包括与工业、农业、商业等相关专业,在相关管理信息不能及时更新的前提下,信息管理效率将无从提升。3)应用数据库技术的优势是,为很多行业提供相关的信息技术保障,带动行业的生产发展,提升行业的管理水平。4)由于计算机数据库的适用性较好,故而在实际应用的过程中能提出较多的优势,进而得到同行业的认同,这将有助于计算机数据库的技术与实践理论提升。

2.2发展态势强劲

1)计算机数据库发展的优劣与否,能在实际使用中展现出来,由于计算数据库的应用效果能够体现出数据管理的重要性,故而判定数据库的优劣对信息技术有着至关重要的影响。2)数据库技术的发展与数据技术的发展有着极为密切的联系,数据库技术从产生到发展已经历十几年的发展历程,可以分为四个主要发展阶段,初期是网状数据库,然后提升为层次数据库,最后变化为关系数据库,目前发展为对象数据库[2]。3)数据库的发展历经不断实践和成熟磨练阶段,在发展逐步成熟起来,并且发展过程中适用性以及可操作性较强,因而这种适用范围更大,更具快捷和可操作性,并能为数据的后期发展提供更为强劲的动力。4)结合当前的发展状况获悉,发展中关系数据库与对象数据库适用最多。

3数据库技术在信息系统中应用的改进措施

3.1提升数据库的安全系统性

计算机数据库的系统安全技术与计算机安全、计算机数据库技术有着紧密联系,当前部分用户在使用时出现安全意识薄弱的情况,故而需要通过安全系统技术的建立帮助用户做好信息把关。加之部分用户在日常使用中不重视网络安全问题,导致安全措施不能真正的落实下去,故而发生很多安全事件。就此,数据库的安全性是数据库系统的生命而存在,如果数据库系统安全那么存储在其中的数据信息也将安全,能保有内部数据的机密性。数据库技术的应用涉及到很多重要的商业利益,因而需加大数据库安全性能,并将数据安全看成计算机安全技术的关键构成部分。但是数据库安全薄弱的环节主要是在数据共享方面,因而关注的重点则集中在数据共享保障上,为保数据库的安全就需要确保数据库安全技术,并解决其中可能出现的泄密环节,这是安全技术推行的重要解决难点。

3.2数据系统理论实践结合

计算机数据系统的理论需伴随着计算机技术、数据库原理等方面的发展而发展,因而在发展中需要理论与实际相结合,目前计算机系统理论更新换代较快,故而可以将研究的最新成果应用在实践指导上面,进而提升实践的科学性能[3]。另外计算机数据库系统理论研究要将实践看成研究的基础,理论只有通过应用才能体现其价值,很多理论研究在理论上有可行性,但是如果进行实际应用则会有很多脱节的环节,因而应结合理论做好实践,让理论与实践相结合,最终提升计算机数据库系统理论研究的针对性。若计算机数据系统有较好的适用性,那么也就决定计算机数据库未来将有良好的发展前景,并且在研究中不断的努力,力求让数据库更快成长,以期计算机数据系统在将来有更好地发展,安全高效地应用在信息管理系统内。

4结束语

伴随着计算机数据库技术以及信息管理技术的前行和发展,计算机数据库将在信息管理中有着广泛地应用,故而在实际工作中,应加强关于计算机数据库与信息管理结合的探究,让两者之间相互配合相辅相成,利用两者的优势,让理论结合实践,在创新发展中,满足两者的应用标准,实现计算机数据库技术的合理应用。

作者:祁贝贝 单位:新乡职业技术学院

参考文献:

大数据技术论文篇9

本课题所涉及的问题在国内(外)的研究现状综述

1.1.课题背景简介

随着WWW应用领域的不断拓展,人们已不满足于只用Web服务器浏览和发布静态的信息,人们需要通过它发表意见、查询数据甚至进行网上购物。原来的静态Web页面已经满足不了用户对信息服务的动态性、交互性的要求。这就迫切需要实现Web与数据库的交互。

Web与数据库这两者结合意味Web数据库将存储和管理大量重要数据,然儿一但它们被盗用或篡改,可能会带来巨大的政治和经济损失。基于广域网的Web数据库访问会带来很大的安全问题。首先是数据库的非法访问;另一方面数据通过网络传输,可能被截取、篡改。还有黑客的攻击可能使系统瘫痪。

在动态Web不断发展的今天,人们对其依赖性也越来越强,但由于其开放性,在设计时对与信息的保密和系统的安全考虑不完备,及人们对保护数据库的安全意识薄弱,造成现在数据库攻击与破坏事件层出不穷,给人们的日常生活和经济活动造成了很大麻烦。因此,研究网络环境下的Web数据库系统的安全保障已经成为了重要的课题。

1.2.课题发展现状

目前Web技术与数据库管理系统(DBMS)相互融合的研究已成为热点研究方向之一。但是由于Internet本身并没有提供任何安全机制,所以Web数据库系统对于外界攻击的防卫能力显得十分脆弱,以至Web数据库被攻击事件屡有发生。

1.2.1.Web数据库系统的产生与发展

随着互联网Internet的不断发展,以及网上信息呈几何级数的增加,同时由于传统的数据库管理系统中的数据库资源不能被Web直接访问,影响了数据库资源的共享。如何将分布在Internet上的大量信息有效的管理起来,如何使现有的数据库中的信息发布到Internet上,而且使发布的信息具有交互性、动态性和实时性,也就是将Web技术和数据库技术想结合,开发动态的Web数据库应用,成为当今Web技术研究的热点所在。数据库技术适于对大量的数据进行组织管理,Web技术拥有较好的信息发布途径,这两种技术天然的互补性决定其相互融合成为技术发展的必然趋势。

1.2.2.Web数据库应用系统安全威胁分析

为了让数据库能为处于网络上的用户服务而暴露在网络中,网络上的任何用户都可以访问这个数据库,这种情况下对数据库访问的控制只能通过用户控制既用户名/密码来进行。任何知道密码的拥护都可以访问,这增加了密码保护管理的难度,同时用户名/密码通过Internet传输很容易被人窃取。

其次,数据应用放读取的数据是通过Web传输,而这些数据缺乏有效的安全措施保护,从而可能被截取、篡改。

另外,Web数据库中存储着大量的数据信息,往往成为信息系统的关键,这就需要数据库及数据库所在的计算机能够安全运行。数据库放在Internet中很容易受到黑客的各种攻击。

随着网络信息系统的应用,数据库远程访问的安全问题日益突出。这个问题可采用网络传输加密,用户身份认证等安全措施解决。但由于日前的主

审计

访

用户

Web数据库服务器

备份

图1数据库安全模型

流数据的网络传输部分都由数据库厂家来完成,恰恰缺少这些安全措施,因此上述安全技术在普通的数据库系统中难以直接应用。另外利用操作系统和数据库管理系统提供的安全保护功能是常用的数据库安全解决方案。但是Internet本身并没有提供任何安全机制,只要Web站点和Internet连通,就可能被任何人访问。

Web数据库受到的威胁大致包括泄漏、窃取、窜改、冒充、延迟、重传、遗失、越权存取数据、否认已收送数据及侵犯隐私权等。

1.2.3.数据库安全结构模型

Web数据库安全威胁涉及许多方面,我们认为安全措施应综合考虑,具体可以采用下列技术措施:(1)安装防火墙;(2)身份认证和数据完整性认证服务;(3)对机密敏感的数据进行加密存储和传输;(4)访问控制机制;(5)安全审计和监视追踪技术;(6)数据库备份与故障恢复。Web数据库安全模型见图5。

1.3.文献综述

文献一:窦丽华,蒋庆华,等.基于Web的信息系统安全研究.北京理工大学学报.2002.6,22(3):361-363.

摘要:研究基于Web的信息系统的安全问题及如何充分并合理地利用操作系统、Web服务器和数据库管理系统所提供的安全设置,以有效地保证信息系统的安全性.利用应用程序所具有的灵活性,可以弥补操作系统、Web服务器和数据库管理系统的安全漏洞,结合某单位业务信息系统的案例,分别从操作系统、Web服务器、数据库管理系统、应用程序4个方面对安全问题进行分析,同时给出了建议.

文献二:曾爱林.基于Web的网络数据安全体系的建立与完善.湘潭师范学院学报.2004.6,26(2):69-72.

摘要:随着Web数据库的应用越来越广泛,Web数据库的安全问题日益突出.本文从介绍几种流行的Web数据库访问技术出发,针对Web数据库的安全问题,建立一个Web数据库安全体系的初步模型,并指出安全问题应以预防为主,应该在构建Web数据库服务器时,及时进行漏洞检测、风险评估,根据检测结果,有意识地加强数据库服务器某方面的防范措施.

文献三:王惠琴,李明,王燕.基于Web的数据库安全管理技术与实现.2001.4.27

(3):61-67.

摘要:随着

Internet/Intranet

技术的发展和普及,Web数据库已逐步取代基于传统的

Client/Server

模式的数据库系统,因此对于基于Web的数据库安全管理技术的研究具有实际意义.介绍了目前常用的几种Web数据库的连接技术,并结合ASP技术对如何利用防火墙、身份认证、授权控制、监视跟踪、存储过程、审计、备份与故障恢复等技术来实现数据库的安全管理进行了详细的阐述.

文献四:王燕,李明,王惠琴.Web数据库的连接技术及安全控制.计算机工程与应用.2001.2,P126-128.

摘要:随着

Internet/Intranet

技术的发展和普及,Web

数据库必将逐步取代基于传统的

Client/Server

模式的数据库系统.对于数据库与Web技术融合的研究具有实际意义.文章就目前常用的几种Web数据库的连接技术进行对比分析,并对利用ASP技术实现Web与数据库的连接和Web数据库系统的安全控制进行了详细阐述.

文献五:吴春明,郑志强.基于Web数据库加密研究.西南农业大学学报.2004.4,26(2):121-126.

摘要:计算机和网络技术的广泛应用,给信息安全提出了更高的要求,在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键.数据库是基于WEB信息系统的核心组成部分,面临来自外部和内部的双重威胁,对其进行加密处理,是进行数据保护的有效手段.文章提出了一种基于JCE的WEB数据库加密模型,并对模型进行了行为分析及安全性分析.

文献六:帅兵.Web数据库系统开发技术研究.安徽机电学院学报.2001.6,16(2):29-32.

摘要:利用Web服务器的信息服务能力和数据库服务器的数据管理能力来构造信息服务系统已成为人们关注的热点,其开发技术的关键是数据库网关的实现.介绍了目前采用的传统Web数据库解决方案中数据库网关实现几种技术:CGI、IDC、ASP、JDBC,并分析了其缺点,提出了一种的新的Web数据库解决方案.

文献七:徐锋,吕建.Web安全中的信任管理研究与进展.软件学报.2002.13.(11):2058-2064.

摘要:信任管理是当前

Web

安全研究的热点.介绍了信任管理思想的出现,给出了信任管理的概念和模型,并概述了几个典型的信任管理系统和信任度评估模型.讨论了当前研究存在的问题以及今后的研究方向.

文献八:韩效鹏,官法明,等.关于Web数据库安全性问题探讨.胜利油田师范专科学校学报.2004.12.18(4)83-85.

摘要:按照DBMS对数据库安全管理的思想,在基于Windows环境的Web数据库应用中,安全控制问题主要包括如何有效地对通过页面访问的数据库中的数据进行保护,实现数据库级别的分权限访问等.在实施过程中,可使用用户身份认证、授权控制、使用日志监视数据库、参数化存储过程等安全管理技术来构筑管理信息系统的安全体系.

文献九:杨成,王恒山,张乾宇.Web数据库在线维护方法研究.

上海理工大学学报.2003.6.27(4):40-43.

摘要:本文讨论了结合互联网数据中心(IDC)的服务器托管形式下对网站Web数据库在线维护的形式和内容.并以上海理工大学管理学院学院网站为例,介绍了如何利用JSP动态网页编程语言和JavaBeans来方便、快捷地实现对学院网站Web数据库在线维护功能.

文献十:贺红,徐宝文.Web信息系统的安全隐患与网络管理员对策.计算机工程与应用.2005.18,P151-153.

摘要:基于Web的信息系统安全性体系大致分为网络系统、操作系统、Web服务器及应用程序和Web数据库等多个层次,该文分别阐述了造成各层次安全隐患的主要原因,以及从网络管理员的角度出发,在各安全层次上消除和减少安全隐患的实用性安全对策.

2.设计(论文)要解决的问题和拟采用的研究方法(论文框架)

2.1.Web数据库应用系统要解决的问题

2.1.1.用户身份认证

基于Web的数据库应用系统中包含大量的敏感数据和机密数据,为保证系统数据在存储时和网络传输时不被未经授权的用户访问或解读,可以利用用户名来标明用户身份,经系统鉴别用户的合法性后,再利用口令进一步核实用户身份。为保证口令的安全性,在口令的提交过程中,可以利用安全套接字协议(SSL),通过使用公共密钥和对称性加密提供非公开通信、身份验证和消息集成。

2.1.2.授权控制

经身份认证的合法用户根据自己的权限来访问系统,因此用户的授权管理机制甚为重要,其严密性将直接影响整个系统的安全性。在该安全体系中,可以利用Windows

NT的NTFS和DBMS的用户角色在不同层次分别对用户权限进行限制。

2.1.3.监视跟踪

日志系统具有综合数据记录功能和自动分类检索能力。完整的日志不仅要包括用户的各项操作,而且还要包括网络中数据接受的正确性、有效性及合法性的检查结果,为日后网络安全分析提供可靠的依据。

2.1.4.存储过程

在基于Web的数据库应用系统中,可通过建立参数化的存储过程实现数据库的访问,这通常是增强Web安全的一个最佳方案。

2.1.5.输出数据HTML编码

输出数据HTML编码是指在将任何数据返回给用户前应采用HTML编码,以防止跨站点的脚本攻击。因为攻击一旦破坏了数据库,便可向记录中输入脚本,次脚本随后返回给用户并在浏览器中执行。通过HTML编码,可将大数脚本命令自动转换为无害文本。

2.1.6.中间件技术

随着网络数据库朝分布式方向的深入发展,加上Internet上异构数据库的普遍存在,上述单独的数据库管理系统的安全管理能力越发显示出它的局限性。因此需要有在逻辑层次位于DBMS之上能覆盖具体差异、逻辑功能上能同意管理、同时可与用户进行交互的中间件部分。

最基本的中间件技术有通用网关接口(CGI)、Internet数据库连接器(IDC),Microsoft最近开发的ActiveXDataObject技术(ADO),它提供了高效率的ODBC数据库或OLE-DB数据库来源的链接功能。

基于数据库访问数据库的原理如图1所示。

2.2.研究方法

本课题采用以文献资料法和比较研究法相结合,以文章的全面性,系统性,专业性为目标,让读者清楚的知道Web数据库的含义,发展现状,以及如何更好的保证Web数据库的安全。

3.本课题需要重点研究的、关键的问题及解决的思路

本课题主要讨论Web数据库产生与发展和存在的安全性问题,重点研究Web数据库保护的具体方法。以纵向且全面的方式分析Web数据库的安全问题。

主要涉及内容:

1对身份认证的加密方法

2如何安全地设置Web和数据库权限

3如何更好地对CGI应用程序进行编程

Web浏览器

Web服务器

中间件

Web数据库

图2基于中间件技术访问数据库

论文研究内容确定

安全解决方案的研究

研究工作总结,形成论文

Web数据库安全性分析

文献检索

课题调研

4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法

4.1.具备一定的实验设备和实验条件:

有专业知识作为基础,有文献资源丰富的网站,拥有自己的电脑及为实验提供的机房,并有专业的老师进行辅导。

4.2.参考文献:

[1].

许龙飞.基于Web的数据库技术与应用.现代计算机,2000(2):14-15.

[2].

王国荣,朱琳杰,王伟.Active

Server

Pages&数据库.北京:人民邮电出版社,1999:139-269.

[3].

道焰,朱世挺等.CGI技术及其安全性研究

[J].计算机系统应用,1997

(12).

[4].

周世雄编.IIS4.0超级网站速成.青岛:青岛出版社,1999:33-299.

[5].

蔡丹媚利用ASP轻松实现Web的动态交互访问.计算机应用研究,1999

(2):62-63.

[6].

Arman

Danesh,Wes

Tatters著,陈卓,张知一等译.Java

Script

1.1开发指南.清华大学出版社,1998.

[7].

宵金秀,冯沃辉,卢国旺.中文Dreamweaver3网页设计大制作.北京:中国民航出版社,2000.5:117-130.

[8].Palo

Alto.Overview

of

Control

Network.CA

94304.

[9].张国祥.基于Apache的Web安全技术的应用研究[J].武汉理工大学学报,2004,(3).

[10].Java

2

Platform

[M].Enterprise

Edition

By

Anne

Thomas.

[11].刑春晓,潘泉,张洪才.通用Web数据库系统体系结构研究[J].计算机工程与应用,1999.9:35(9):90-93.

[12].

[美]

Curt

Jang,Jeff

Chow

著,周志英等译.Web网和INTRANET上的信息出版技术.电子工业出版社,1997.

[13].Gunnit

S.Khunrana等,Web数据库的建立与管理.机械工业出版社,1997.

[14].罗明宇,等.计算机网络安全技术[J].计算机科学,2000,(10):55-58.

[15].王英凯.证券交易系统中的数据库安全性[J].兰州大学学报,35:531-533.

[16].张少敏,王保义.基于Web的MIS中的数据库安全性策略[J].华北电力技术,2002,P45-90.

[17].罗昌隆,李玲娟.基于Web的数据库访问技术[J].南京邮电学院学报,2001.7,P30-32.

[18].吕峰,刘晓东等.基于Web的网络数据库安全系统研究[J].武汉工业学院学报,2003.6,P51-54.

[19].程万军

张霞

刘积仁.基于扩展客体层次结构的安全数据库策略模型[J].软件学报,2002.9,P40-42.

[20].李建中.日新月异的数据库研究领域——数据库技术的回顾与展望[J].黑龙江大学自然科学学报,2002,19(2):43-52.

5.设计(论文)完成进度计划

第1—3周:课题调研、资料收集,完成开题报告

第4—6周:结合课题开展毕业实习

第7—11周:实验研究

第12—13周:完成论文初稿

第14—16周:完成论文终稿并答辩

6.指导教师审阅意见

指导教师(签字):

7.教研室主任意见

教研室主任(签字):

系(签章)

大数据技术论文篇10

中图分类号:TP311.13

随着科学技术的飞速进步与发展,计算机技术已经发展到了一个新的阶段。各类信息极度丰富,数字化信息技术和网络技术高速发达,使得在计算机应用已经普及并不断发展的今天,掌握计算机基本技术和具备应用计算机技术的能力是当今人们必须具备的基本素质之一。而计算机数据库技术是计算机科学技术中发展最快、应用最广的技术之一,它已成为计算机信息系统与应用系统技术的核心和基础,本文就计算机数据库管理技术中存在的问题进行了分析与讨论。

1 计算机数据库管理技术存在的问题

计算机数据库系统是实现数据存储、组织和管理的有效形式,而计算机数据库管理可以实现数据库的建立和使用,是数据库系统安全使用的保障。但是,在使用数据库的过程中其安全性至关重要,在一个网络化和信息化的系统中,数据很容易被用户非法越权使用、盗取、更改甚至破坏险,无论发生哪一项,都将严重损害数据库的安全性并造成严重的后果。所以,保证数据库的安全使用是数据库管理技术中至关重要的问题。下面从三方面阐述计算机数据库系统的安全问题。

1.1 操作系统的问题

数据库操作系统的主要风险来源之一就是计算机操作系统,计算机病毒和木马程序、服务器操作系统后门以及操作系统和数据库系统的关联方面都是操作系统中存在风险的地方。

第一,病毒是最常见的风险,由于操作不当可能会导致木马程序的产生,这种病毒会对数据库的安全性构成极大的威胁。木马程序可能会修改计算机程序的密码,这样系统的新密码可以随时被入侵者盗走,进而篡改数据库信息,大大地破坏了数据库的信息内容。

第二,我们在设置操作系统时,不可避免地会在在服务器操作系统中留有一个后门,这是伴随着数据库系统的特征参数设置的,它使得数据库的信息通过这个途径可以被电脑黑客们盗取,极大程度地破坏了数据库的安全性。

第三,数据库系统和操作系统有着很大的关联性,因为硬件设备和操作系统所提供的环境在一定程度上决定了数据库系统的安全性,所以一旦问题出现在操作系统环节上,例如操作系统允许直接存取数据库文件,这样子无论数据库管理系统采用怎样的措施都无法保证数据库的安全。

1.2 管理方面的问题

一般网络用户只注意获得网络资源的时候网络是否方便、高效,这样的情况下当使用数据库管理系统的用户缺少网络信息安全意识时,也就是保密意识薄弱,且对实际存在的风险与后果不能够正确认识,从而忽视了网络安全问题。这样子一旦安全管理方面出现问题,又或者安全防范措施落实的不够充分,就会发生安全事件,都是管理工作失职的表现。

1.3 数据库系统自身的问题

随着时代的进步和发展,关系数据库的特征已经取得了一定的发展与应用,近十几年已广泛被人们所使用,各方面技术已趋于成熟。但是在如今的计算机时代,存在的网络信息安全问题与十几年已经不可同日而语,如今的网络操作环境和应用系统对于数据库安全提出了更高的要求。显然,关系数据库系统所具备的安全特征不够充分,系统的安全特征还不能得到有效发挥与实现,这也是数据库系统中不成熟的一部分。

2 计算机数据库管理技术分析

本文从以下三个方面对数据库管理技术进行了技术分析,来解决数据库管理系统存在的问题。

2.1 加密技术

现今数据库里存储着重要的机密数据,一些网络黑客却出于特殊目的,通过非常规手段非法窃取他人的用户名和密码,越权打开其偷取数据库文件和篡改信息,这样尤为重要的机密文件与信息就会外露,造成不必要的损失进而可能会导致严重的后果发生。针对上述情况,可以采用的数据库技术―加密技术,通过对重要数据的加密处理,就可以保护数据库里存储的数据。当一些重要的信息数据存储在数据库后,加密技术可以阻止数据在未授权下被访问,这样子就算数据库管理系统崩溃了,数据的安全性也不会受到影响与威胁。例如,一些重要文件如商业机密、金融数据或是网络游戏的虚拟财产等,在数据库系统中对它们进行加密,这样就能防止数据在未授权的情况下被访问,哪怕整个系统崩溃了,也不用担心其安全性,因为加密技术在保护着数据的安全致使不会被非法盗取。

2.2 存取管理技术

存取管理技术是数据库技术的重要组成部分,包括访问控制技术和用户认证技术两大部分。其中访问控制技术是指对已经进入系统的用户的控制,涵盖了数据的修改控制和浏览控制,在计算机系统处理功能方面对数据进行保护,在最前方保护数据的安全性。数据库管理系统一般采用两种方法进行访问控制:第一种是将数据库系统的使用权限交给用户,一般使用的是基于角色的访问控制,以达到加强访问控制和身份认证的效果;第二种是利用数据功能模块设置用户使用权限,并且针对不同的用户设置不同的使用权限。而用户认证技术相对访问控制技术而言是由系统提供的最外层安全保护方式,来达到是阻止用户的越权访问的目的,因此系统必须在用户每次请求进入数据库前对用户身份进行合法身份的识别和认证以确保安全性。目前,最常用的方法是设置口令法,近几年也发展出像指纹、虹膜、智能卡认证技术等高技术身份验证方法,达到了更高的安全标准。

2.3 备份与恢复技术

计算机系统发生故障是不可避免的,经常会损坏或丢失数据,这样以来提前做好数据库备份,即使系统突然发生故障或崩溃,数据库中的文件与信息也不会遭到破坏,数据库还是可以完整地恢复到原来的水平和状态。数据库常用的备份方法主要有三种:一是逻辑备份,即通过软件实现原始数据的镜像拷贝;二是静态备份,即在结束数据库系统时将其备份;三是动态备份,即在数据库系统使用过程中将其备份。

4.结论

数据库管理技术如今已经得到了广泛的发展与应用,几乎涉及社会各行各业,为人们的生活和工作带来了很大的方便,与此同时,数据库管理技术也有着它的不成熟性正待提高与改善,数据库系统安全问题一直是数据库管理技术最为重要的核心问题,是计算机数据库管理技术亟待重点解决与提高的地方。本文对数据库管理技术的安全问题和应对技术进行了分析与讨论,相信不久的将来,计算机数据库技术将会更加成熟与完善,为人们带来更多的便利与服务。

参考文献

大数据技术论文篇11

本课题所涉及的问题在国内(外)的研究现状综述

1.1.课题背景简介

随着WWW应用领域的不断拓展,人们已不满足于只用Web服务器浏览和发布静态的信息,人们需要通过它发表意见、查询数据甚至进行网上购物。原来的静态Web页面已经满足不了用户对信息服务的动态性、交互性的要求。这就迫切需要实现Web与数据库的交互。

Web与数据库这两者结合意味Web数据库将存储和管理大量重要数据,然儿一但它们被盗用或篡改,可能会带来巨大的政治和经济损失。基于广域网的Web数据库访问会带来很大的安全问题。首先是数据库的非法访问;另一方面数据通过网络传输,可能被截取、篡改。还有黑客的攻击可能使系统瘫痪。

在动态Web不断发展的今天,人们对其依赖性也越来越强,但由于其开放性,在设计时对与信息的保密和系统的安全考虑不完备,及人们对保护数据库的安全意识薄弱,造成现在数据库攻击与破坏事件层出不穷,给人们的日常生活和经济活动造成了很大麻烦。因此,研究网络环境下的Web数据库系统的安全保障已经成为了重要的课题。

1.2.课题发展现状

目前Web技术与数据库管理系统(DBMS)相互融合的研究已成为热点研究方向之一。但是由于Internet本身并没有提供任何安全机制,所以Web数据库系统对于外界攻击的防卫能力显得十分脆弱,以至Web数据库被攻击事件屡有发生。

1.2.1.Web数据库系统的产生与发展

随着互联网Internet的不断发展,以及网上信息呈几何级数的增加,同时由于传统的数据库管理系统中的数据库资源不能被Web直接访问,影响了数据库资源的共享。如何将分布在Internet上的大量信息有效的管理起来,如何使现有的数据库中的信息发布到Internet上,而且使发布的信息具有交互性、动态性和实时性,也就是将Web技术和数据库技术想结合,开发动态的Web数据库应用,成为当今Web技术研究的热点所在。数据库技术适于对大量的数据进行组织管理,Web技术拥有较好的信息发布途径,这两种技术天然的互补性决定其相互融合成为技术发展的必然趋势。

1.2.2.Web数据库应用系统安全威胁分析

为了让数据库能为处于网络上的用户服务而暴露在网络中,网络上的任何用户都可以访问这个数据库,这种情况下对数据库访问的控制只能通过用户控制既用户名/密码来进行。任何知道密码的拥护都可以访问,这增加了密码保护管理的难度,同时用户名/密码通过Internet传输很容易被人窃取。

其次,数据应用放读取的数据是通过Web传输,而这些数据缺乏有效的安全措施保护,从而可能被截取、篡改。

另外,Web数据库中存储着大量的数据信息,往往成为信息系统的关键,这就需要数据库及数据库所在的计算机能够安全运行。数据库放在Internet中很容易受到黑客的各种攻击。

随着网络信息系统的应用,数据库远程访问的安全问题日益突出。这个问题可采用网络传输加密,用户身份认证等安全措施解决。但由于日前的主

审计

访

用户

Web数据库服务器

备份

图1数据库安全模型

流数据的网络传输部分都由数据库厂家来完成,恰恰缺少这些安全措施,因此上述安全技术在普通的数据库系统中难以直接应用。另外利用操作系统和数据库管理系统提供的安全保护功能是常用的数据库安全解决方案。但是Internet本身并没有提供任何安全机制,只要Web站点和Internet连通,就可能被任何人访问。

Web数据库受到的威胁大致包括泄漏、窃取、窜改、冒充、延迟、重传、遗失、越权存取数据、否认已收送数据及侵犯隐私权等。

1.2.3.数据库安全结构模型

Web数据库安全威胁涉及许多方面,我们认为安全措施应综合考虑,具体可以采用下列技术措施:(1)安装防火墙;(2)身份认证和数据完整性认证服务;(3)对机密敏感的数据进行加密存储和传输;(4)访问控制机制;(5)安全审计和监视追踪技术;(6)数据库备份与故障恢复。Web数据库安全模型见图5。

1.3.文献综述

文献一:窦丽华,蒋庆华,等.基于Web的信息系统安全研究.北京理工大学学报.2002.6,22(3):361-363.

摘要:研究基于Web的信息系统的安全问题及如何充分并合理地利用操作系统、Web服务器和数据库管理系统所提供的安全设置,以有效地保证信息系统的安全性.利用应用程序所具有的灵活性,可以弥补操作系统、Web服务器和数据库管理系统的安全漏洞,结合某单位业务信息系统的案例,分别从操作系统、Web服务器、数据库管理系统、应用程序4个方面对安全问题进行分析,同时给出了建议.

文献二:曾爱林.基于Web的网络数据安全体系的建立与完善.湘潭师范学院学报.2004.6,26(2):69-72.

摘要:随着Web数据库的应用越来越广泛,Web数据库的安全问题日益突出.本文从介绍几种流行的Web数据库访问技术出发,针对Web数据库的安全问题,建立一个Web数据库安全体系的初步模型,并指出安全问题应以预防为主,应该在构建Web数据库服务器时,及时进行漏洞检测、风险评估,根据检测结果,有意识地加强数据库服务器某方面的防范措施.

文献三:王惠琴,李明,王燕.基于Web的数据库安全管理技术与实现.2001.4.27

(3):61-67.

摘要:随着

Internet/Intranet

技术的发展和普及,Web数据库已逐步取代基于传统的

Client/Server

模式的数据库系统,因此对于基于Web的数据库安全管理技术的研究具有实际意义.介绍了目前常用的几种Web数据库的连接技术,并结合ASP技术对如何利用防火墙、身份认证、授权控制、监视跟踪、存储过程、审计、备份与故障恢复等技术来实现数据库的安全管理进行了详细的阐述.

文献四:王燕,李明,王惠琴.Web数据库的连接技术及安全控制.计算机工程与应用.2001.2,P126-128.

摘要:随着

Internet/Intranet

技术的发展和普及,Web

数据库必将逐步取代基于传统的

Client/Server

模式的数据库系统.对于数据库与Web技术融合的研究具有实际意义.文章就目前常用的几种Web数据库的连接技术进行对比分析,并对利用ASP技术实现Web与数据库的连接和Web数据库系统的安全控制进行了详细阐述.

文献五:吴春明,郑志强.基于Web数据库加密研究.西南农业大学学报.2004.4,26(2):121-126.

摘要:计算机和网络技术的广泛应用,给信息安全提出了更高的要求,在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键.数据库是基于WEB信息系统的核心组成部分,面临来自外部和内部的双重威胁,对其进行加密处理,是进行数据保护的有效手段.文章提出了一种基于JCE的WEB数据库加密模型,并对模型进行了行为分析及安全性分析.

文献六:帅兵.Web数据库系统开发技术研究.安徽机电学院学报.2001.6,16(2):29-32.

摘要:利用Web服务器的信息服务能力和数据库服务器的数据管理能力来构造信息服务系统已成为人们关注的热点,其开发技术的关键是数据库网关的实现.介绍了目前采用的传统Web数据库解决方案中数据库网关实现几种技术:CGI、IDC、ASP、JDBC,并分析了其缺点,提出了一种的新的Web数据库解决方案.

文献七:徐锋,吕建.Web安全中的信任管理研究与进展.软件学报.2002.13.(11):2058-2064.

摘要:信任管理是当前

Web

安全研究的热点.介绍了信任管理思想的出现,给出了信任管理的概念和模型,并概述了几个典型的信任管理系统和信任度评估模型.讨论了当前研究存在的问题以及今后的研究方向.

文献八:韩效鹏,官法明,等.关于Web数据库安全性问题探讨.胜利油田师范专科学校学报.2004.12.18(4)83-85.

摘要:按照DBMS对数据库安全管理的思想,在基于Windows环境的Web数据库应用中,安全控制问题主要包括如何有效地对通过页面访问的数据库中的数据进行保护,实现数据库级别的分权限访问等.在实施过程中,可使用用户身份认证、授权控制、使用日志监视数据库、参数化存储过程等安全管理技术来构筑管理信息系统的安全体系.

文献九:杨成,王恒山,张乾宇.Web数据库在线维护方法研究.

上海理工大学学报.2003.6.27(4):40-43.

摘要:本文讨论了结合互联网数据中心(IDC)的服务器托管形式下对网站Web数据库在线维护的形式和内容.并以上海理工大学管理学院学院网站为例,介绍了如何利用JSP动态网页编程语言和JavaBeans来方便、快捷地实现对学院网站Web数据库在线维护功能.

文献十:贺红,徐宝文.Web信息系统的安全隐患与网络管理员对策.计算机工程与应用.2005.18,P151-153.

摘要:基于Web的信息系统安全性体系大致分为网络系统、操作系统、Web服务器及应用程序和Web数据库等多个层次,该文分别阐述了造成各层次安全隐患的主要原因,以及从网络管理员的角度出发,在各安全层次上消除和减少安全隐患的实用性安全对策.

2.设计(论文)要解决的问题和拟采用的研究方法(论文框架)

2.1.Web数据库应用系统要解决的问题

2.1.1.用户身份认证

基于Web的数据库应用系统中包含大量的敏感数据和机密数据,为保证系统数据在存储时和网络传输时不被未经授权的用户访问或解读,可以利用用户名来标明用户身份,经系统鉴别用户的合法性后,再利用口令进一步核实用户身份。为保证口令的安全性,在口令的提交过程中,可以利用安全套接字协议(SSL),通过使用公共密钥和对称性加密提供非公开通信、身份验证和消息集成。

2.1.2.授权控制

经身份认证的合法用户根据自己的权限来访问系统,因此用户的授权管理机制甚为重要,其严密性将直接影响整个系统的安全性。在该安全体系中,可以利用Windows

NT的NTFS和DBMS的用户角色在不同层次分别对用户权限进行限制。

2.1.3.监视跟踪

日志系统具有综合数据记录功能和自动分类检索能力。完整的日志不仅要包括用户的各项操作,而且还要包括网络中数据接受的正确性、有效性及合法性的检查结果,为日后网络安全分析提供可靠的依据。

2.1.4.存储过程

在基于Web的数据库应用系统中,可通过建立参数化的存储过程实现数据库的访问,这通常是增强Web安全的一个最佳方案。

2.1.5.输出数据HTML编码

输出数据HTML编码是指在将任何数据返回给用户前应采用HTML编码,以防止跨站点的脚本攻击。因为攻击一旦破坏了数据库,便可向记录中输入脚本,次脚本随后返回给用户并在浏览器中执行。通过HTML编码,可将大数脚本命令自动转换为无害文本。

2.1.6.中间件技术

随着网络数据库朝分布式方向的深入发展,加上Internet上异构数据库的普遍存在,上述单独的数据库管理系统的安全管理能力越发显示出它的局限性。因此需要有在逻辑层次位于DBMS之上能覆盖具体差异、逻辑功能上能同意管理、同时可与用户进行交互的中间件部分。

最基本的中间件技术有通用网关接口(CGI)、Internet数据库连接器(IDC),Microsoft最近开发的ActiveXDataObject技术(ADO),它提供了高效率的ODBC数据库或OLE-DB数据库来源的链接功能。

基于数据库访问数据库的原理如图1所示。

2.2.研究方法

本课题采用以文献资料法和比较研究法相结合,以文章的全面性,系统性,专业性为目标,让读者清楚的知道Web数据库的含义,发展现状,以及如何更好的保证Web数据库的安全。

3.本课题需要重点研究的、关键的问题及解决的思路

本课题主要讨论Web数据库产生与发展和存在的安全性问题,重点研究Web数据库保护的具体方法。以纵向且全面的方式分析Web数据库的安全问题。

主要涉及内容:

1对身份认证的加密方法

2如何安全地设置Web和数据库权限

3如何更好地对CGI应用程序进行编程

Web浏览器

Web服务器

中间件

Web数据库

图2基于中间件技术访问数据库

论文研究内容确定

安全解决方案的研究

研究工作总结,形成论文

Web数据库安全性分析

文献检索

课题调研

4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法

4.1.具备一定的实验设备和实验条件:

有专业知识作为基础,有文献资源丰富的网站,拥有自己的电脑及为实验提供的机房,并有专业的老师进行辅导。

4.2.参考文献:

[1].

许龙飞.基于Web的数据库技术与应用.现代计算机,2000(2):14-15.

[2].

王国荣,朱琳杰,王伟.Active

Server

Pages&数据库.北京:人民邮电出版社,1999:139-269.

[3].

道焰,朱世挺等.CGI技术及其安全性研究

[J].计算机系统应用,1997

(12).

[4].

周世雄编.IIS4.0超级网站速成.青岛:青岛出版社,1999:33-299.

[5].

蔡丹媚利用ASP轻松实现Web的动态交互访问.计算机应用研究,1999

(2):62-63.

[6].

Arman

Danesh,Wes

Tatters著,陈卓,张知一等译.Java

Script

1.1开发指南.清华大学出版社,1998.

[7].

宵金秀,冯沃辉,卢国旺.中文Dreamweaver3网页设计大制作.北京:中国民航出版社,2000.5:117-130.

[8].Palo

Alto.Overview

of

Control

Network.CA

94304.

[9].张国祥.基于Apache的Web安全技术的应用研究[J].武汉理工大学学报,2004,(3).

[10].Java

2

Platform

[M].Enterprise

Edition

By

Anne

Thomas.

[11].刑春晓,潘泉,张洪才.通用Web数据库系统体系结构研究[J].计算机工程与应用,1999.9:35(9):90-93.

[12].

[美]

Curt

Jang,Jeff

Chow

著,周志英等译.Web网和INTRANET上的信息出版技术.电子工业出版社,1997.

[13].Gunnit

S.Khunrana等,Web数据库的建立与管理.机械工业出版社,1997.

[14].罗明宇,等.计算机网络安全技术[J].计算机科学,2000,(10):55-58.

[15].王英凯.证券交易系统中的数据库安全性[J].兰州大学学报,35:531-533.

[16].张少敏,王保义.基于Web的MIS中的数据库安全性策略[J].华北电力技术,2002,P45-90.

[17].罗昌隆,李玲娟.基于Web的数据库访问技术[J].南京邮电学院学报,2001.7,P30-32.

[18].吕峰,刘晓东等.基于Web的网络数据库安全系统研究[J].武汉工业学院学报,2003.6,P51-54.

[19].程万军

张霞

刘积仁.基于扩展客体层次结构的安全数据库策略模型[J].软件学报,2002.9,P40-42.

[20].李建中.日新月异的数据库研究领域——数据库技术的回顾与展望[J].黑龙江大学自然科学学报,2002,19(2):43-52.

5.设计(论文)完成进度计划

第1—3周:课题调研、资料收集,完成开题报告

第4—6周:结合课题开展毕业实习

第7—11周:实验研究

第12—13周:完成论文初稿

第14—16周:完成论文终稿并答辩

6.指导教师审阅意见

指导教师(签字):

7.教研室主任意见

教研室主任(签字):

系(签章)

大数据技术论文篇12

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

友情链接