基于Hadoop平台的教育资源库建设
- 格式:docx
- 大小:511.65 KB
- 文档页数:4
188数据库技术Database Technology电子技术与软件工程Electronic Technology & Software Engineering1 引言5G 时代已经到来,加速了信息产业技术的迭代,国家对信息化尤其是教育信息化的要求越来越高,使得教学资源的特征出现了很大的变化。
高校在教学资源数量上也在迅猛发展,以爆炸式增长。
在资源数据结构上也出现了多种结构,机构化的数据与非结构化的数据并存。
如果继续采用传统的集中式管理教学资源平台,已经不能满足当今教学和实验资源的大数据化所带来的最新发展需求。
这样就给我们开发和优化教学资源平台提出了新的要求和目标。
因此,对教学实验资源平台数据存储的扩展性和可靠性的研究是必须的。
本文将针对当前高校教育资源最新的需求,利用Hadoop 框架的基础上设计实验教学资源平台来解决实可扩展、高并发的增删改查,处理分析强大的海量数据。
更好地提高管理者的使用效率,最终达到较好的辅助教学的效果。
2 关键技术介绍Hadoop 是一个分布式处理大规模数据的框架。
在Hadoop 技术集群中每台计算机都提供运算和存储,支持并行扩展,而不是完全依赖于某台高性能的服务器硬件支撑。
Hadoop 包含多项技术,HDFS 、MapReduce 、Flume 、Hive 等已经形成完整的生态系统。
Hadoop 平台的核心构建为HDFS 分布式文件系统和MapReduce 分布式计算框架。
2.1 HDFS技术HDFS 是一个分布式的文件系统,是Hadoop 平台的重要组件之一,多台机器构建集群共同协作,主要用来解决数据的分布式存储问题。
HDFS 采用主从架构,一个HDFS 集群有一个主节点和许多个从节点,主节点主要负责来自客户端的访问和管理文件系统。
从节点负责管理所运行的节点存储,整体架构如图1所示。
2.2 MapReduce技术MapReduce 是Hadoop 平台的灵魂,负责大规模数据的分布式处理和分析。
基于Hadoop的云教学资源平台设计与实现【摘要】本文介绍了基于Hadoop的云教学资源平台的设计与实现。
在相关工作部分,我们研究了已有的云教学平台,并分析了它们的优缺点。
在系统架构设计中,我们提出了基于Hadoop的分布式架构,以支持大规模数据处理和存储。
数据处理与管理部分介绍了如何利用Hadoop的MapReduce来实现数据的处理和管理。
用户接口设计部分讨论了用户友好的界面设计和交互体验。
性能优化部分探讨了如何通过优化算法和系统参数来提升平台的性能。
结论部分总结了本文工作的成果,并展望了未来云教学资源平台的发展方向。
通过本文的研究,我们可以更好地设计和实现基于Hadoop的云教学资源平台,为教育领域提供更好的技术支持。
【关键词】Hadoop, 云教学资源平台, 设计, 实现, 相关工作, 系统架构设计, 数据处理与管理, 用户接口设计, 性能优化, 结论与展望.1. 引言1.1 引言随着互联网技术的快速发展,云教学资源平台正逐渐成为教育领域的重要组成部分。
基于Hadoop平台的云教学资源平台具有高效、可扩展性强等优势,可以满足大规模教学资源的存储与管理需求。
本文将介绍基于Hadoop的云教学资源平台设计与实现,包括相关工作、系统架构设计、数据处理与管理、用户接口设计以及性能优化等方面的内容。
通过对现有相关工作的分析和总结,结合Hadoop框架的特点和优势,本文将提出一种创新的云教学资源平台设计方案,以解决传统教学资源平台存在的一些问题和挑战。
通过本文研究,相信基于Hadoop的云教学资源平台将能够为教育领域带来更高效、更便捷的教学资源管理和利用方式,为教师和学生提供更好的教育体验和教学效果。
2. 正文2.1 相关工作近年来,云计算和大数据技术的快速发展为教育行业带来了巨大的变革机遇,云教学资源平台因此应运而生。
在相关工作方面,国内外学者们已经开展了许多关于基于Hadoop的教学资源平台的研究和实践。
教育资源公共服务平台建设方案第1章项目背景与目标 (4)1.1 教育资源公共服务平台建设的背景 (4)1.2 教育资源公共服务平台建设的目标 (4)第2章需求分析与规划 (4)2.1 用户需求分析 (4)2.1.1 教师需求 (4)2.1.2 学生需求 (5)2.1.3 管理员需求 (5)2.2 功能需求规划 (5)2.2.1 资源管理模块 (5)2.2.2 搜索与推荐模块 (5)2.2.3 互动交流模块 (5)2.2.4 教学管理模块 (6)2.2.5 数据统计分析模块 (6)2.3 技术需求规划 (6)2.3.1 系统架构 (6)2.3.2 前端技术 (6)2.3.3 后端技术 (6)2.3.4 数据分析与处理 (6)2.3.5 安全保障 (6)第3章平台架构设计 (7)3.1 总体架构设计 (7)3.2 技术架构设计 (7)3.3 数据架构设计 (7)第4章教育资源整合与建设 (8)4.1 教育资源分类与标准 (8)4.1.1 教育资源分类 (8)4.1.2 教育资源标准 (8)4.2 教育资源采集与整合 (8)4.2.1 教育资源采集 (9)4.2.2 教育资源整合 (9)4.3 教育资源更新与维护 (9)4.3.1 教育资源更新 (9)4.3.2 教育资源维护 (9)第5章平台功能模块设计 (9)5.1 用户管理模块 (9)5.1.1 用户注册与登录 (9)5.1.2 用户信息管理 (9)5.1.3 权限管理 (10)5.2 资源管理模块 (10)5.2.1 资源与审核 (10)5.2.2 资源分类与检索 (10)5.2.3 资源评价与评论 (10)5.3 互动交流模块 (10)5.3.1 在线问答 (10)5.3.2 讨论区 (10)5.3.3 消息通知 (10)5.4 数据统计与分析模块 (10)5.4.1 用户行为数据统计 (10)5.4.2 资源使用情况分析 (10)5.4.3 平台运营数据报告 (11)5.4.4 数据可视化展示 (11)第6章技术选型与实现 (11)6.1 系统开发环境 (11)6.1.1 开发工具 (11)6.1.2 开发语言 (11)6.1.3 数据库 (11)6.1.4 服务器 (11)6.2 前端技术选型与实现 (11)6.2.1 技术选型 (11)6.2.2 实现方案 (12)6.3 后端技术选型与实现 (12)6.3.1 技术选型 (12)6.3.2 实现方案 (12)第7章系统安全与运维 (12)7.1 系统安全策略 (12)7.1.1 物理安全 (12)7.1.2 网络安全 (13)7.1.3 数据安全 (13)7.1.4 应用安全 (13)7.2 数据备份与恢复 (13)7.2.1 备份策略 (13)7.2.2 备份介质 (13)7.2.3 恢复策略 (13)7.3 系统运维与监控 (13)7.3.1 系统运维 (13)7.3.2 系统监控 (13)7.3.3 故障处理 (13)7.3.4 功能优化 (14)第8章用户培训与支持 (14)8.1 培训目标与内容 (14)8.1.1 提高用户对平台功能的认识与操作能力; (14)8.1.2 培养用户运用平台进行教育教学改革与创新的能力; (14)8.1.3 提升用户在平台环境下的教育教学质量和效率。
基于HDFS的高校教育资源云存储平台研究与实现陈伟【摘要】详细阐述了云存储技术概念和优势,重点介绍了HDFS体系结构及其工作原理,将HDFS与云存储体系相结合,构建了基于HDFS的高校教育资源云存储平台.实验结果表明,该云存储平台能够实现教育资源的海量存储和数据共享,进一步提高高校教育资源的利用率.%The concept and advantages of cloud storage technology are described in detail.The HDFS architecture and its working principle are introduced.Through the combination of HDFS and cloud storage system, the cloud storage platform of campus education resources based on HDFS is constructed.The experimental results show that the cloud storage platform can realize the massive storage and data sharing of education resources,and further im-prove the utilization ratio of education resources in universities.【期刊名称】《重庆科技学院学报(自然科学版)》【年(卷),期】2018(020)001【总页数】5页(P107-111)【关键词】HDFS;Hadoop;教育资源;云存储;云计算【作者】陈伟【作者单位】宿州职业技术学院计算机系,安徽宿州234101【正文语种】中文【中图分类】TP393随着教育信息化的不断推进,高校信息化建设得到了飞速发展,各个高校都积极投身于教育资源平台的建设中,教育资源也呈几何级增长。
分类号密级UDC 编号学位论文基于Hadoop平台的教育资源垂直搜索系统的设计与实现Implementation of Education Resource Vertical SearchingSystem Based on Hadoop分类号:密级:U D C :编号:学位论文基于Hadoop平台的教育资源垂直搜索系统的设计与实现I mplementation of Education Resource Vertical Searching SystemBased on Hadoop学科专业:计算机应用技术计算机科学与通信工程学院2 0 11 年04 月江苏大学工程硕士学位论文学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密,在年解密后适用本授权书。
本学位论文属于不保密。
学位论文作者签名:指导教师签名:年月日年月日毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
45基于Hadoop 的高校大数据平台的设计与实现彭 航本文在对Hadoop 平台的结构及功能分析基础上,结合信息化环境下高校系统建设的现状,对基于Hadoop 的高校大数据平台的设计与实现进行研究,以供参考。
在信息化发展影响下,高校信息系统建设与运用也取得了较为显著的发展,并且在长期的运营与管理中积累了相对较多的数据,对高校信息化建设与发展有着十分积极的作用和意义。
指导注意的是,结合当前高校信息系统建设与发展现状,由于其信息系统的分阶段建设,导致在对系统运营及数据管理中是由多个不同部门分别执行,各数据之间的相互联系与有效交互明显不足。
另一方面,在大数据环境下,通过大数据平台的开发设计以实现各信息系统之间的有效对接与信息交互,形成较为统一的数据运营与管理模式,成为各领域信息建设与运营管理研究和关注重点。
1 Hadoop 平台及其结构、功能分析Hadoop 作为一个分布式系统的基础架构,在实际设计与开发运用中,是通过Hadoop 集群中的一个主控节点对整个集群的运行进行控制与管理实现,以满足该集群中多个节点的数据与计算任务协调需求。
其中,分布式文件系统HDFS 以及MapReduce 并行化计算框架是Hadoop 集群系统的核心,HDFS 是Hadoop 平台中分布式计算下数据存储管理开展基础,具有较为突出的可靠性以及扩展性和高容错性特征;而MapReduce 并行计算框架能够将分析任务分成大量并行Map 和Reduce 任务以进行Hadoop 平台运行及功能支撑;此外,HBase 是以HDFS 为基础的分布式数据库,能够实现海量数据存储,而Hive 作为数据仓库处理工具,在Hadoop 平台运行中主要用于HDFS 或者是HBase 中存储的结构化或者是半结构化的数据管理。
随着对Hadoop 研究的不断发展,当前Hadoop 平台已经成为一个包含很多子系统大数据的处理生态系统。
如下图1所示,即为Hadoop 平台的结构组成示意图。
浅谈大数据背景下的教育资源库建设作者:卢鹏来源:《新教育时代·教师版》2016年第10期摘要:大数据已经渗透到社会的各个领域,教育正在进行着一场思维方式和教育理念的创新和探索。
随着我国教育信息化蓬勃发展,大数据背景下的教育资源库的建设成了一个亮点。
教学资源库建设应以教学需求为前提,以系统理论为指导,遵循国家颁布的技术规范,在较大范围内实现资源的开放与共享。
本文结合教育资源库建设新途径和新思路,主要从资源库概念界定、技术要求、设计步骤等方面探讨教学资源库的建设。
关键词:大数据教育资源库建设近年来,贵州大数据产业迅猛发展,给教育信息化建设也带来了机遇。
如今教育信息化的工作在各个层面上有序地进行着,正试图为进一步的教育教学应用提供各类数字化教育资源。
但有些学校的教学资源库建设商业味太浓,资源库里堆砌的仅仅是大量的素材,内容相对较少,无法覆盖教育教学的各个方面;缺乏富有感情色彩的教学信息资源,资源库的界面和交互相对较为呆板,难以发挥在教学与科研中应有的作用与效益,造成了设备的大量闲置与浪费;一些学校资源库建设还存在着教育教学资源无法信息化,资源库与教师使用脱节等问题。
在商品化的资源库无法提供学校个性的教育资源的情况下,大数据背景下建设资源库是一个行之有效的途径。
[1]一、大数据与教育资源库的概念1.大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据的具有4V的特点,即数量(Volume)、多样性(Velocity)、速度(Variety)、价值(Veracity)。
众所周知,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
大数据已经不仅仅是简单的数据大的这个意义了,而是对这些大数据的分析,从这些分析中获取很多有价值的信息,而且现实生活中也将运用到这些大数据,通过对大数据数量、速度、多样性的深入分析,从而得出数据的“增值”。
基于HDFS的教学资源云存储平台设计作者:曹卉来源:《软件导刊》2016年第04期摘要:基于HDFS技术,设计了教学资源云存储平台。
提出了平台的总体架构,对HDFS 提供的平台技术支撑进行了详细分析,给出了平台基础架构,分析了基础架构各层次的实现内容,用于解决分布、异构、海量、多模式的教学资源集成、整合及共享问题。
关键词关键词:HDFS;教学资源;云存储中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2016)004-0118-031云存储技术云计算是分布式处理(DistributedComputing)、并行处理(ParallelComputing)和网格计算(GridComputing)的发展,云存储是在云计算(ctoudoomputing)概念上延伸和发展的一个新概念。
云存储的兴起正在颠覆现有网络存储架构。
随着信息技术和互联网的发展,数据量越来越大,业务类型也越来越复杂,用户对存储业务的可靠性、安全性要求越来越高,现有的存储架构越来越难以承担此重任。
2HDFSHadoop最早在ApacheSoftwareFoundation公司一个命名为Nutch的搜索引擎项目中使用。
随着技术的成熟和应用的拓展,Hadoop技术迅速成为处理大数据的领先平台。
Hadoop分布式文件系统,英文全称为HadoopDistributedFileSystem,简称HDFS,是开源云计算软件平台Hadoop框架的核心组成部分,实现将大数据文件存储在由众多计算机构成的集群中。
HDFS支持高吞吐量数据访问,适用于需要海量数据存储的应用程序,而对硬件设施要求不高。
3平台设计3.1目标教学资源云存储平台需要解决分布的、异构的、海量的、多模式的教学资源集成、整合及共享,通过分布式文件系统,将分布在不同区域网络的教学资源通过应用软件集合起来,负载均衡协同工作,共同对教学资源云存储平台用户提供数据存储和业务访问功能。
222 / CHINA MANAGEMENT INFORMATIONIZATION大数据(Big Data)又称为海量数据(Massive Data),数据科学家维克托·迈尔·舍恩伯格和肯尼斯.库克耶在所著《大数据时代》中,指出大数据不采用随机分析法而应对所有数据进行分析处理。
研究机构Gartner 则提出大数据是一种具备多样化、高增长率的信息资产,在新型处理技术、处理模式下能够实现更强的流程优化效率、提供更科学的决策依据,且大数据具有大量、高速、多样、价值和真实性的特点。
高校校园中存在多类大数据,通过信息化手段的采集和数据挖掘,能够体现出巨大价值,这在传统的高校校园教学和管理中往往被忽视了。
设计构建高校校园大数据系统,有助于当今信息时代高校校园大数据的采集、存储、管理乃至应用,是相关教育和科研人员正在进行的研究之一。
1 高校大数据环境现状当下高校校园大数据环境已初步形成,各类校园数据来源广泛、类型复杂、数据量庞大。
以高校学生为例,高校学生的大数据可以分为两大类,一是学业大数据:其包括高校生的选课数据、每门功课的出勤数据、各门功课的平时测验和考试成绩等数据;二是生活大数据:其包括门禁卡通行数据、图书馆阅览数据、校内超市消费数据,甚至包括学生的微信、微博等数据。
大规模数据集和多等级数据质量对高校校园数据的存储、分析、研究、应用提出了挑战。
传统的管理理念和方法渐渐无法满足日益增长的数据处理需求,设计和构建基于Hadoop 的高校校园大数据系统,以用来采集、存储、处理高校校园中的多类数据,并通过数据挖掘和数据分析,为高校教学和管理提供数据支撑,特别是为高校学生的学业、生活提供风险识别和预警功能。
2 基于Hadoop 的高校校园大数据系统设计2.1 HadoopHadoop 由开源组织Apache 基金会开发,是一个分布式系统基础框架,它能够实现在多硬件集群上运行应用程序,组成具有高性能、高可靠性、高扩展性、低成本的并行分布式系统。
第4l卷第2期河南师范大学学报(自然科学版)%Z.4l No.2 2013年3月Journal oJ’Henan Normal University(Natural Science Edition)Mar.2013文章编号:1000—2367(2013)02—0161—04基于Hadoop平台的教育资源库建设闰娟8,耿凯峰6,刘丽6 (河南师范大学a.网络中心;b.物理与电子工程学院,河南新乡453007)摘要:首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程.关键词:云计算;云存储;教学资源库;Hadoop中图分类号:TP393.1 文献标志码:A随着多媒体技术和网络技术的飞速发展,网络教学的逐步深入,教育资源库已成为计算机辅助教学的一个重要组成部分.教育资源库的建设应以教育需求为前提,以系统理论为指导,遵循国家颁布的技术规范,能够在较大范围内实现资源的开放与共享.然而,现阶段教育资源库建设还存在很多问题,例如教学资源共享程度低、分布不均,教学资源更新速度缓慢、重复建设,教学资源的制作不标准、管理不规范等.云计算技术能够很好的解决教育资源库建设中遇到的问题,它可以降低教育资源库建设的成本,轻松实现教学资源的共享,为教育资源库提供高可靠性、高安全性的存储.云存储技术的使用使我们无须知道存储设备的型号、接口和传输协议以及存储系统中磁盘的数量和容量,经过授权的用户均可与云存储连接并进行数据访问[1].在云存储系统中教学资源是以数据块的形式分散存储在云中的各个节点中,同时云存储具有副本备份机制,可以根据需要制访问层定备份策略以及块大小等,每一块数据都有相应的备份分布在各个节点中.即使某个节点损坏,也不影响教学资源的正常使用,可服务层靠性高.I竺望竺!茎旦:坐望鏊竺:竺!!!型!垩篁I 云存储系统的结构模型如图1所示.近几年相关研究主要集中在通用模型管理层设计或者是其他一些高附加值的专业业务技术开发方面,cAPPOs提出了教育云计I磊面面瓦1磊磊雨画i丐悉五画西磊石习算平台Seattle,EUCALYPTUS也提出了存储层L——下============彳——一类似平台,然而,他们的关注多在框架性问I堡堡堡笪!竺!:竺:!!堕!篁!题,对教育资源的研究并未真正细致开展,图1云存储系统的结构模型教育教学领域不仅面临着海量特征的高效数据存储、检索困难,还具有广泛的领域应用簇聚特性.Hadoop是一个能够对大量数据进行分布式处理的软件框架,提供了简单易用的编程接口,程序员可以很容易地开发和运行处理海量数据的应用.本文基于 Hadoop平台展开对教育资源库存储服务的研究,设计实现了一个面向教学资源的云存储模型,并测试了其存储和应用性能.收稿日期:2012一07—10;修回日期:2012—12 20基金项目:河南省教育厅科学技术研究重点项目(12A520029);河南省基础与前沿技术研究计划项目(132300410389;112400430087)作者简介:闫娟(1982一),女,河南周口人,河南师范大学工程师,研究方向:网格与云计算、人工智能.162 河南师范大学学报(自然科学版)1 基于Hadoop平台的教育资源库设计方案教育资源库为网络教学提供丰富的、多元化的教学素材,它所涉及的内容十分广泛.由于我国人口众多、幅员辽阔、用户地址位置分布广泛,因此采用B/S(浏览器/服务器)结构,用户只需要浏览器的PC机,便可以轻松访问存储在“云”端的资源.1.1教育资源库模型的构建针对目前教育资源库建设所面临的难题,基于Hadoop技术的优势,本文提出了基于Hadoop平台的教育资源库设计方案.该模型自下而上可分为物理层、逻辑层、应用层、访问层4层,如图2所示.1)物理层.物理层用来支撑整个的网络环境,包括存储器、网络互连设备、数据库资源以及游离在网络中的各种教学资源等.该层对于计算机的硬件要求比较低,可以使用价格低廉的PC机,通过虚拟化等技术将不同类型的存储设备和服务器互连起来,实现了海量数据的统一管理、状态监控以及容量的动态扩展[5].2)逻辑层.逻辑层为上层提供不同服务问公共管理的统一视图.通过设计任务管理和安全管理等功能,将底层存储及上层应用无缝衔接起来,实现多存储设备之间的协同工作口].3)应用层.在web服务器中存放有各种应用模块,系统管理者可根据教学需要灵活组织和编排各种教学资源,让教师在授课时充分展现各自的教学特点,系统用户也可根据需要选择各式各样的资源,在线学习,测试实验等.4)访问层.访问层是用户获得服务的入口,用户通过浏览器接入服务器可以直接操作教育资源库.根据用户权限的差异可以将用户分为3种不同的角色:系统管理员、资源管理员、普通用户.系统管理员拥有最高的权限,可以执行系统设置、信息统计、用户管理、角色分配等操作,资源管理员则可以对资源进行审核、维护、检索、推荐等,普通用户权限最低,具有发布、检索、下载资源等权限.图2基于Hadoop平台的教学资源库模型1.2核心模块的设计1.2.1 教学资源制作原则教学资源是教育资源库的核心和基础.教学资源的设计和制作是否符合教育资源库建设标准及实际教学活动要求决定着教育资源库建设的成败,因此教学资源的组织方式十分重要.教学资第2期闫娟等:基于Hadoop 平台的教育资源库建设163《教育部资源建设技术规范》分类,共分为9大类:媒体素材、试题库、试卷、网络课件、案例、文献资料、网络课 程、常见问题解答、资源目录索引. 为了区分不同的资源,资源命名以明确、独立而且能体现资源特性为原则,为此设计如下命名准则:专业 代码(2位)+媒体类型代码(3位)+学校代码(3位)+随机号(6位),可以在以上命名规则的基础上自行定 义,以不发生矛盾冲突为准.系统对资源的检索并不依靠文件名本身,而是根据入库之后的资源索引,这里的 命名规则只是为了区分不同的资源. 1.2.2 Lucene 检索模块 “我们淹没在网络数据资料的海洋中,却又在忍受着知识的饥渴”,同理资源库结 构庞杂、资源繁多,如何在第一时间内检索到有效的资源显得至关重要.本模型设计了一个基于Lucene 的全 文检索模块能够帮助用户快速检索到所需资源.Lucene 是一个开放源代码的全文检索引擎工具包,提供了 完整的查询引擎、索引引擎、部分文本分析引擎.Lucene 在检索过程中要做两件事情:建立索引和进行搜索, Lucene 工作流程如图3所示. 全文检索有按字检索和按词检索两种方 法.英文中字与词实际上是合一的,而中文中字 l 输入搜索条件 用 与词有很大区别,故选择适当的分词方法能够 J 户 搜 大大的提高检索效率.早期版本的Lucene 不能l 加工、分析l 索 过很好的支持中文分词,目前最新版本为2.4.1, 程 能够支持中文分词,例如:“中华人民共和 国”,使用Lueene 自带的中文分词器的分词效 果如下“中华人民共和国”,把每一个汉字 当作是一个词,这样会使建立的索引非常庞大,索引建立过程 会影响查询效率.本模型采用的I 。
ucene 整合 “庖丁解牛”分词器可以有效的解决上述问题, 图3 Lucene I :作流程图具体整合过程不再赘述.1.2.3应用层体系架构 良好的框架可以提高代码的可重用性,减少数据描述和应用操作的耦合度、提高 代码的可读性,使程序员能够集中精力解决业务逻辑问题.本模型应用层采用SSH(Struts2+Spring+Hi — bernate)框架,该层分为表示层、业务逻辑层、数据持久层化和模型层4层.其中Struts2负责MVC 的分离, 利用Hibernate 框架对持久层提供支持,业务层用Spring 支持.工作原理如图4所示. 1.2.4云存储体系的构建View Laver | }Business Layer /1 八 Persistencl 云存储的主要功能是将网 Struts2一MVC /Service| Spring /DAO| Hibern 络中大量不同类型的存储 }Locaor / f Class / Transactions DataSot设备集合起来协同工作,共 \ 旷 \ / ConnectjStruts Action Struts .xml Session Management同对外提供服务.因此Jsp Business Service Query Langu Other HibemImplement HDFS 的搭建是构建一个 卅 IX . Model Bus nessObjects 云存储应用的关键步骤之 <Domain >一.一个基本的HDFS 由一图4 SSH4层架构 个NameNode 和7"/个Data Node 组成,钾个基本的HDFS 通过一定的方式连接组成了本系统的HDFS .本模型构建的基于HDFS 的云 存储服务系统命名为DFS ,DFS 定义了该系统的业务逻辑.Client 客户端封装了与HDFS 通信的协议及其 它相关要素,DFS 通过Client 客户端来访问HDFSl“,云服务存储系统示意图如图5所示.1.3性能测试和分析 在实验中,配置Hadoop 集群采用11台PC 机作为云存储服务器,所有节点的配置均为双核CPU 、2 GB 内存、500 G 硬盘、一块100 M 全双工网卡,并与一台交换机相连.机器名及IP 地址为gengl(192.168.1. 20)和gen92(192.168.1.21) gengll(192.168.1.30),其中第1台作为Hadoop 系统的Namenode ,余下 10台作为DateNode ,Hadoop 版本为1.20,JDK 版本为1.6,操作系统为Red Hat Linux .164河南师范大学学报(自然科学版)在该环境下,采用1~12个客户 HDFS机分别从服务器读取500 M 教学资 T 二==|_.===二:=二?:=二:.-_彳 一1源,对传统存储服务器与基于云存储 的服务器在读取数据方面进行了对 比,如图6所示.如图6所示,基于Hadoop 平台 的云存储的服务器的数据读取速率 和增长速率都要高于传统模式下的 数据读取速率.传统的存储服务器,其读取速度会随着客户端的增多而图5云服务存储系统示意图 上升,在达到一个峰值后慢慢下降. 而基于Hadoop 平台的云存储服务器,其读取速度并没有因为负载过大而降低,只是当客户端达到一定数 +基于Hadoop 的云存储+传统存储量时,其增长速度会有所减缓.导致读取性能有所下 ?80∽◆——二二一 一降的原因是随着读取者的增多,多个读取者同时从一 童60∥吒,r个数据节点读取数据的可能性增加. <40 赵一/。