Web页面的保存及相关问题探讨
- 格式:doc
- 大小:197.50 KB
- 文档页数:8
服务器解决方案是现代互联网世界中必不可少的技术之一。
无论是大型企业,还是小型网站,都需要稳定的服务器来保证数据的传输与存储。
在这篇文章中,将探讨的有关内容,包括服务器的类型、服务器架构、以及常见的服务器问题等。
服务器类型首先,服务器按用途可以分为两大类:web服务器和应用服务器。
web服务器是用来接收、处理和响应HTTP请求的服务器,它把web页面浏览器请求的文件转换成网页,并发送给客户端。
而应用服务器则是用来处理业务逻辑的服务器,它主要为客户端提供服务等业务支持。
另外,服务器还有多种分类方法。
例如按照独立程度可以分为独立服务器和虚拟专用服务器;按照硬件构造可分为标准服务器和刀片服务器等。
尤其是虚拟化技术和云计算技术的兴起,更加丰富了服务器的类型和分类方法。
服务器架构服务器架构一般采用分层架构,主要包括前端、应用层和数据库层。
前端一般由web服务器和负载均衡器构成,用来承担HTML文件的访问请求和分担负载。
应用层则包括应用服务器和业务处理的相关组件,处理用户交互和业务逻辑。
数据库层则主要负责数据存储和管理。
要想保证服务器架构的稳定性,需要通过各种手段进行性能优化和安全保护。
例如使用缓存技术、加强网络安全等措施,以提升系统的性能和可靠性,防止系统受到黑客攻击或被恶意软件攻击。
常见服务器问题在日常使用中,服务器可能会遇到多种问题。
例如,硬件故障、网络通信不良、系统崩溃等,这些都可能导致数据丢失、网站宕机、客户服务中断等严重后果。
为了避免出现这些问题,我们需要保持服务器的健康状态。
具体措施包括:1.定期检查和维护硬件,确保服务器的稳定和安全。
2.备份重要数据,以免数据丢失导致无法恢复。
3.加强服务器的安全性,设置强密码,加强杀毒软件等安全保护措施。
4.对故障和降速进行快速响应,确保甚至超出客户的期望。
结语是任何公司和组织的重要组成部分,一旦出现问题,将对运营带来巨大影响。
通过建立健康可靠的服务器架构以及采取合适的措施,可以帮助我们避免服务器故障和相关问题,并让业务保持良好运行状态。
mht格式解析MHT(MIME HTML)是一种Web页面保存格式,它将HTML文件及其相关的所有媒体资源打包为一个单一的文件。
MHT格式通常用于保存Web页面快照、归档、备份等用途。
在本文中,我们将探讨MHT格式的解析,并提供一些参考内容,以帮助读者更好地理解MHT格式。
MHT文件以多部分MIME邮件的形式进行存储,每个部分都包含一个数据块。
MHT文件的主体部分使用BASE64编码进行存储,以确保二进制数据的安全传输。
MHT文件遵循MIME类型规则,其中使用Content-Type和Content-Transfer-Encoding信息来描述每个部分的内容和编码方式。
在解析MHT文件时,可以按照以下步骤进行:1. 读取MHT文件头部信息:MHT文件使用"--"分隔不同的部分,因此可以通过读取每个部分的边界来识别不同部分的内容。
2. 解析MHT文件头部:MHT文件的头部包含了一些重要的信息,例如文件描述、创建时间、字符编码等。
这些信息可以通过正则表达式或字符串处理方法来提取出来。
3. 解析MHT文件的每个部分:每个部分都有自己的Content-Type和Content-Transfer-Encoding信息,可以根据这些信息来解析每个部分的内容。
如果是HTML部分,可以将其保存为一个HTML文件;如果是图像或CSS文件,可以提取出对应的二进制数据,并根据Content-Type将其保存为对应的文件。
4. 解析相关媒体资源:MHT文件通常包含了HTML文件所引用的相关媒体资源,例如图像、CSS文件、JavaScript文件等。
可以通过解析HTML文件,提取出这些媒体资源的URL,并下载保存到本地。
在进行MHT格式解析时,可以参考以下相关内容:1. MHT文件格式规范:根据MHT文件的格式规范,了解MHT文件的组织结构以及各个部分的描述信息。
2. MIME类型和多部分MIME邮件:了解MIME类型和多部分MIME邮件的基本概念,以便更好地理解MHT文件的组成结构和解析方式。
WEB安全研究金丽君摘要:本文主要针对WEB安全问题越来越引起人们的重视这一现状,初步地介绍了国内外对WEB安全问题的研究现状,全面地介绍和分析了WEB服务和应用中存在的各种威胁,并探讨了WEB安全问题的防护对策,来提高计算机网络的安全性。
关键词:WEB安全、安全威胁、安全防护Abstract:This article will focus WEB security has drawn increasing attention to this situation, the initial introduction to security issues at home and abroad on the WEB Research, a comprehensive description and analysis of the WEB services and applications that exist in a variety of threats, and to explore the WEB security protection measures.一、引言1.1研究背景及目的随着网络时代的来临,人们在享受着网络带来的无尽的快乐的同时,也面临着越来越严重和复杂的网络安全威胁和难以规避的风险,网上信息的安全和保密是一个至关重要的问题。
网络的安全措施应是能全方位地针对各种不同的威胁和脆弱性,这样才能确保网络信息的保密性、完整性和可用性,计算机网络的安全以及防范措施已迫在眉睫。
网络安全评估技术是评价计算机网络安全的重要手段,现今在众多的安全技术中已经占据越来越重要的位置。
通过风险评估,对系统进行细致而系统的分析,在系统分析的基础上对系统进行综合评价,最后通过评价结果来了解系统中潜在的危险和薄弱环节,并最终确定系统的安全状况,为以后的安全管理提供重要依据。
随着Internet的普及,人们对其依赖也越来越强,但是由于Internet的开放性,及在设计时对于信息的保密和系统的安全考虑不完备,造成现在网络的攻击与破坏事件层出不穷,给人们的日常生活和经济活动造成了很大麻烦。
Web页面实时刷新技术探讨一、总述随着网络技术的飞速发展,使用B/S结构来实现项目应用已经越来越多,而实时监控一直都是多数行业软件所必备的功能,由此使用Web页面来实现实时监控成了一种必然的需求。
二、实时刷新技术1、传统的页面刷新方式传统的页面刷新方式很多,常见的有页面间隔一定的时间自动刷新、ActiveX 控件、Applet等。
采用页面间隔一定的时间自动刷新的方式,是在网页的头部加入一下代码:<meta http-equiv="refresh" content="20;url=newPage">这里是经过20秒跳转到一个新页面,可以将“newPage”设置为本页面即为刷新本页面,刷新间隔时间可以修改“20”为任意时间。
通过这种方式如果并发和访问量较大,服务器就有可能承受不了这种压力,从而造成服务器死机。
使用ActiveX控件的方式需要每个客户端下载安装ActiveX控件,并且客户端浏览器只能使用Windows的IE浏览器。
同样使用Applet需要客户端安装Java运行时。
这些传统的页面刷新方式都或多或少的存在着一些确定,在Web项目应用中的使用也越来越少。
2、Ajax轮询Ajax轮询方式是使用客户端脚本,通过XMLHttpRequest来定时发送请求,从而查询页面数据的更新情况。
通过这种方式,程序实现方便简捷,但客户端频繁的发送请求会给服务器带来很大的压力和客户端处理器负载,如果服务器端没有更新时,这种轮询访问服务器便是无意义的,并且耗费了网络资源与CPU处理资源。
实例说明:服务器端通过手动控制按钮产生一张图片,客户端显示最新图片及图片的信息内容。
服务器端通过一个按钮btnGet产生图片,按钮事件代码如下所示。
代码清单1:protected void btnGet_Click(object sender, EventArgs e){//通过改写一张父图片上的文字来产生新图片System.Drawing.Image image =System.Drawing.Image.FromFile(HttpContext.Current.Server.MapPath("parent.jpg"));string currTime = System.DateTime.Now.ToString("yyMMddHHmmssffffff");Graphics g = Graphics.FromImage(image);g.DrawImage(image, 0, 0, image.Width, image.Height);g.DrawString(currTime, new Font("Arial", 28), new SolidBrush(Color.Red), 10, 10);g.Dispose();string savePath = "Pic/" + currTime + ".jpg";image.Save(HttpContext.Current.Server.MapPath(savePath));//将最新图片文件名写入到XML文件中XmlDocument xmlDoc = new XmlDocument();xmlDoc.Load(HttpContext.Current.Server.MapPath("newPic.xml"));XmlNodeList nodeList = xmlDoc.SelectSingleNode("Items").ChildNodes;XmlElement element = (XmlElement)nodeList[0];element.SetAttribute("code", currTime);xmlDoc.Save(HttpContext.Current.Server.MapPath("newPic.xml"));}显示图片页面通过两个页面分别显示图片信息与图片内容,显示图片页面内容如下所示。
如何在web页面之间传递参数在web开发中,经常会遇到在不同页面之间传递参数的需求。
这些参数可以是用户输入的数据、页面之间的状态信息,甚至是身份验证所需的凭证。
而在确保用户体验的有效地传递参数也是web开发中常见的问题之一。
本文将就web页面之间传递参数的几种方法进行全面评估,并据此撰写一篇有价值的文章。
1. URL参数传递URL参数传递是最常见的一种传递参数的方式。
通过在URL中携带参数的形式,可以方便地在不同页面之间传递数据。
我们可以通过在URL中添加“?key1=value1&key2=value2”这样的参数来传递信息。
这种方式简单直接,但由于参数会直接显示在URL中,可能会带来安全隐患和信息泄露的问题。
2. 表单提交另一种常见的传递参数的方式是通过表单提交。
用户在一个页面填写完表单后,提交表单到服务器,服务器再将参数传递到下一个页面。
这种方式适用于需要用户输入数据并传递到下一个页面的场景,但对于一些简单的参数传递来说,可能会显得过于繁琐。
3. Cookie和SessionCookie和Session是web开发中常用的状态保持机制,也可以用来传递参数。
通过在客户端存储数据,下一个页面可以再次读取这些数据,实现参数的传递。
但需要注意的是,由于涉及到用户隐私信息的存储和传递,需要特别注意安全性和合规性。
4. AJAX请求在现代web应用中,通过AJAX进行页面间数据交互也是一种常见的方式。
通过异步的方式请求数据,并在页面中使用JavaScript来处理返回的数据,可以实现页面之间参数的传递。
这种方式在提高用户体验的也需要注意数据的完整性和安全性。
总结回顾在web开发中,传递参数是一个常见的需求,而选择合适的传递方式也是至关重要的。
无论是通过URL参数、表单提交、Cookie和Session,还是AJAX请求,都需要根据实际场景选择合适的方式。
在使用这些方法的过程中,还需要注意数据的安全性和合规性,以确保用户信息的安全传递。
web课程设计论文模板一、教学目标本课程的教学目标是使学生掌握Web设计的基本原理和技能,能够独立完成简单的Web页面设计。
具体分为以下三个部分:1.知识目标:学生需要了解Web设计的基本概念、HTML、CSS和JavaScript的基本语法和用法,掌握Web页面布局和设计的原理和方法。
2.技能目标:学生能够熟练使用HTML、CSS和JavaScript编写和设计Web页面,掌握常用的Web设计工具和框架,如Dreamweaver、Bootstrap等。
3.情感态度价值观目标:培养学生对Web设计的兴趣和热情,提高他们的创新能力和团队协作能力,使他们能够积极地参与到Web设计中来。
二、教学内容本课程的教学内容主要包括HTML、CSS和JavaScript三个部分。
具体安排如下:1.HTML:介绍HTML的基本标签和属性,如头部、正文、图片、链接等,使学生能够编写基本的网页结构。
2.CSS:介绍CSS的基本语法和用法,如选择器、属性和值、盒模型等,使学生能够进行网页样式的设计和布局。
3.JavaScript:介绍JavaScript的基本语法和用法,如变量、函数、事件处理等,使学生能够实现网页的交互功能。
三、教学方法为了激发学生的学习兴趣和主动性,本课程将采用多种教学方法,如讲授法、讨论法、案例分析法和实验法等。
1.讲授法:通过教师的讲解,使学生掌握Web设计的基本概念和原理。
2.讨论法:通过小组讨论,使学生深入理解和探讨Web设计的问题和解决方案。
3.案例分析法:通过分析典型的Web设计案例,使学生了解Web设计的实际应用和技巧。
4.实验法:通过实际操作,使学生掌握Web设计的技能和工具的使用。
四、教学资源为了支持教学内容和教学方法的实施,本课程将准备以下教学资源:1.教材:选择一本适合的Web设计教材,作为学生学习的主要参考资料。
2.参考书:提供一些Web设计的经典书籍,供学生深入学习和参考。
JavaScript中的Web安全与防御策略在当今互联网时代,Web安全与防御成为了互联网开发者和用户都需关注的重要问题。
JavaScript作为一门广泛应用于Web开发的编程语言,也扮演着重要的角色。
本文将介绍JavaScript中的Web安全问题,并探讨几种防御策略。
一、Web安全问题JavaScript的强大功能使得Web应用开发更加灵活,但同时也带来了一些安全风险。
以下是JavaScript中常见的Web安全问题:1. XSS(跨站脚本攻击):攻击者通过在Web页面中注入恶意脚本,达到窃取用户信息、篡改页面内容等目的。
2. CSRF(跨站请求伪造):攻击者通过伪造用户的身份,在用户不知情的情况下发送恶意请求,从而执行非法操作。
3. 点击劫持:攻击者通过透明的覆盖层诱导用户点击看似无害的按钮或链接,实际上触发了恶意操作。
4. 数据泄露:未经适当处理的敏感信息或错误配置的数据库连接等导致用户数据泄露。
二、防御策略为了保护Web应用及用户的安全,开发者需要采取一些防御策略来应对上述安全问题。
以下是几种常见的防御策略:1. 输入验证与过滤:对于用户输入的数据,进行严格的验证与过滤,防止恶意脚本的注入。
例如,对于表单输入,可以采用输入长度限制、正则表达式匹配等方式进行验证。
2. 输出转义:在将用户输入的数据展示在页面上之前,需要通过转义等方式将特殊字符进行转义,防止XSS攻击的发生。
3. 使用安全的传输协议:在传输敏感信息时,使用HTTPS等安全的传输协议,确保数据在传输过程中的安全性。
4. 权限验证与访问控制:对于需要进行敏感操作的功能,需要进行合适的权限验证与访问控制,防止CSRF攻击的发生。
5. HTTP头设置:通过设置适当的HTTP头,如Content-Security-Policy、X-XSS-Protection、X-Content-Type-Options等,可以增强Web应用的安全性。
web前端开发实训遇到的问题及解决方法web前端开发实训是提升自己技能的重要一环,通过实际项目的实践,我们能够更深入地了解前端开发的实际应用,提高自己的实践能力。
然而,在实训过程中,我们常常会面临各种问题和挑战。
本文将就web前端开发实训中常见的问题进行探讨,并给出解决方法。
1. 浏览器兼容性问题在前端开发过程中,我们经常会遇到浏览器兼容性问题。
不同的浏览器对HTML、CSS和JavaScript的解析和渲染方式有所不同,可能会导致页面在不同浏览器上出现显示不一致的情况。
为了解决这个问题,可以采取以下几种方法:- 使用CSS Reset文件来重置浏览器默认样式,以保证在不同的浏览器上显示一致。
- 使用CSS Hack或JavaScript库来针对不同的浏览器进行特定的样式或脚本处理。
- 使用浏览器兼容性检测工具,如Can I Use等,来查验某个CSS或JavaScript特性在不同浏览器上的兼容性。
2. 布局问题在实训过程中,设计和实现网页布局是一个重要的环节。
然而,由于不同设备和屏幕尺寸的存在,我们常常遇到页面布局和响应式设计上的问题。
以下是一些解决方法:- 使用CSS的弹性盒子布局(Flexbox)或网格布局(Grid)来实现自适应布局。
- 使用响应式设计技术,如媒体查询、适配性图片等,根据不同设备的屏幕尺寸提供不同的布局和样式。
- 使用流式布局,将页面元素根据设备屏幕尺寸的变化进行自动调整。
3. 性能优化问题在实训项目中,性能优化是一个重要的考虑因素。
网页的性能直接影响用户的体验和页面加载速度。
以下是一些性能优化的方法:- 压缩和合并CSS和JavaScript文件,减少文件大小和请求次数。
- 使用CDN来加速文件加载,将常用的静态资源分发到全球各地的服务器,提高访问速度。
- 图片优化,使用合适的图片格式、压缩和懒加载等方法来减少图片的尺寸和加载时间。
在实训过程中,我们也需要注意实践问题。
浏览器内输⼊⽹址到显⽰⽹页全过程及相关问题在浏览器输⼊URL到把⽹页显⽰出来是⼀个很复杂的过程,其⼤致流程如下图所⽰:1、DNS解析什么是DNS解析?当⽤户输⼊⼀个⽹址并按下回车键的时候,浏览器得到了⼀个域名。
⽽在实际通信过程中,我们需要的是⼀个IP地址。
因此我们需要先把域名转换成相应的IP地址,这个过程称作DNS解析。
1. 请求⼀旦发起,浏览器⾸先要做的就是解析这个域名,⼀般浏览器会⾸先搜索⾃⾝缓存的DNS记录,⽐如chrome缓存1000条DNS解析结果;2. 当浏览器缓存中没有找到需要的记录或者记录已经过期,则会查看本地硬盘的hosts⽂件,看看其中有没有和这个域名对应的规则,如果有的话就直接使⽤ hosts ⽂件⾥⾯的 ip 地址。
(windows中可以通过 ipconfig / displaydns 命令查看本机当前的缓存);通过hosts ⽂件,可以⼿动指定⼀个域名和其对应的IP解析结果,并且该结果⼀旦被使⽤,同样可以缓存到hosts中,linux系统的hosts⽂件在/etc/hosts下⾯;3. 如果本地的hosts⽂件中没有找到对应的ip地址或者记录已经过期,则需要发送⼀个域名解析请求到本地域名解析服务器,本地DNS服务器会⾸先查询它的缓存记录,如果缓存中有此条记录,就可以直接返回结果;如果没有,本地DNS服务器还要向DNS根域服务器进⾏查询。
(⼀般来说就是电脑上配置的DNS服务器⼀项)。
⼀般⼀台域名解析服务器会被地理位置临近的⼤量⽤户使⽤(特别是ISP的DNS,如中国联通、中国移动),⼀般常见的⽹站域名解析都能在这⾥命中;4. 假设要解析的域名是,本地DNS服务器中是没有查到的,便向根域服务器发送请求(注:根域服务器全球只有13台,所以不可能把所有的IP地址都记录下来,记录的是com域服务器的IP、cn域服务器IP的IP等等,如下图所⽰)。
很显然根域服务器上没有的IP,但是却有com域服务器的IP,所以根域服务器就把com域服务器的IP告诉本地DNS服务器,本地DNS服务器便到.com域服务器中去查找的IP;同样.com域服务器中也没有的IP,但是却有域服务器的IP,接着我们的域名解析服务器会向域服务器发出请求。
Web资源的保存及相关问题探讨陈华明(中国数字图书馆有限责任公司北京100081)摘要:Web信息资源的飞速增长,为数字图书馆内容的收集、保存和利用提出了新的挑战,这种挑战使我们面临新的课题。
本文通过分析Web资源保存的必要性,介绍了国际上几个主要项目的概况,同时对保存和利用过程中的5大问题进行了一定的分析。
关键词:Web资源长期保存数字图书馆分类号:G250.7Preservation of Web Resources and Its Related Issues(China Digital Library Corp., Ltd. Beijing 100081, China)Abstract: The exponential growth of Web resources has posed several challenges in collecting, preserving and providing access to the content of digital library. This paper discusses the necessity of Web preservation, a few major projects in this area and makes some further discussion of five key issues.Keywords: Web resources Long-term preservation Digital library一、Web的出现互联网最早是在美国国防部一个研究小组Defense Advanced Research Projects Administration(DARPA)于1969年建立起来的军用计算机网络群,目的是在运行的计算机网络发生故障或遭到敌方攻击后瘫痪时,作后备计算机通讯之用。
后来,这个网络被允许与大学、政府相连接,进而超出了防御的目的,定名为阿帕网(美国远景规划网)此后,大大小小的计算机网连在了一起,包括地方网和局域网进而形成了因特网。
1989年,瑞士高能物理研究所的Tim Berners-Lee首先提出了万维网(World Wide Web,简称WWW或Web)的发展计划,之后万维网逐渐发展起来。
1993年万维网进入因特网,将互联网扩展到每一台计算机上面,使互联网真正进入商业与个人使用时期。
万维网的出现是因特网发展过程中的里程碑。
万维网是一种采用了图形界面,结合了因特网上多种既存的信息传输协议的新兴网络技术。
万维网用户使用浏览器访问因特网上的各类网站和网页。
浏览器能够支持文字、声音、图像、视频等各种信息的检索和屏幕显示,因此用户可以通过个人计算机看到图文并茂、绚丽多彩的多媒体网页。
万维网上的超文本链接技术让用户不仅可以远程访问储存在服务器中的信息,而且可以借助超文本链接跳跃访问储存在其他服务器中的信息。
万维网上的所有信息都存储在不同的服务器中,每一个服务器都有一个自己的IP地址(互联网地址)。
因此存储在每个服务器上的信息也就有了一个地址,用户的浏览器正是根据信息的地址(URL),在浩如烟海的因特网服务器中搜索和查询,然后向信息所在的服务器发出请求,该服务器便将所要求的信息提供给用户。
存储在服务器上的信息构成了“网页”(Web pages)。
网页可以是一则信息、几篇文章,甚至是整本书;网页的内容可以是文字、图形、声音、动画、视频或它们的组合。
如果一个网页的信息容量过大,过于庞杂,就不便于用户访问和网页所有者对网页的管理和更新,因此网页所有者可以制作多个网页,分门别类,使每个网页主题鲜明,内容翔实,再用超文本链接将各个网页连结起来,使之成为一个整体。
二、为什么要保存Web资源?Web可以说是目前最为庞大的信息资源集散地,拥有2000多种在线杂志,超过400亿个公共页面,还有5,500亿个链接文档,指向更深层次的页面(Lyman and Varian 2000)。
Web上的语言有多达220种(其中78%为英语),分别来自世界上各个国家的不同作者。
95%的页面是向公众公开的,其涵盖的内容比美国国会图书馆收藏的文字还要多出50倍,成为亿万读者经常利用的信息源。
不过,Web的存在仅有12年的时间,它给社会、经济和知识创新产生的影响才刚刚开始。
Web的成长极为迅速,每天新增700多万个网页,同时,也在不断地消失。
Web页面的平均寿命只有44天,在1998年发现的网站中,有44%在1999年再也找不到了。
由于网页作者每天都在对页面进行删改,有的服务器也停止了服务,因此网页每天都在不断消失,但是当用户输入URL地址,看到“发生HTTP 404错误,页面未找到”的提示信息时,才发现这一点。
Web看起来无所不在,但它的生命却极其短暂,今天能看到的很多Web信息或许明天就找不到了。
毋庸置疑,假如我们不采取行动保存今天的Web资源,明天也许它们就将永永远远地消失殆尽,不留下任何痕迹。
过去,我们失去了很多很重要的文化遗产,就是因为没有把它们妥善保存起来。
过去的人们没有意识到、也不能意识到这些文化遗产具有的历史价值。
这是历史文化保存面临的一个重大问题。
此外,过去的几代人无法解决存储介质所面临的技术问题,比如硝酸钾胶片、录像带、乙烯唱片,今天,我们甚至无法找到相应的设备来播放这些存储介质保存的内容。
目前国内对Web资源的保存和利用还没有引起足够的重视,虽然某些机构也曾经开展过这方面的工作,但进展不是太理想。
国内也没有一个专门机构来负责开展这方面的工作,同时,由于Web资源的收集和整理不仅需要资金的支持,还要解决Web页面的知识产权问题,因此,这项工作的开展也面临很大的障碍。
三、国际上的相关Web资源保存计划Web资源的动态迅速增长,促使世界上很多国家都在采取相应的措施,对这些生命周期极其短暂的资源进行收集、整理和保存,并在法律允许的框架范围内提供相应的服务。
(一)美国国家数字信息基础设施与保存计划2000年12月,美国国会法律通过在国会图书馆(LC)开展国家数字信息基础设施保存计划(NDIIPP)(PL 106-554)。
本法号召国会图书馆对全国数字内容的长期存储进行领导,同时与来自其它联邦机构、研究界、图书馆界及商界的代表密切协作。
依据本法批准的1亿美元将分期划拨,500万美元当即拨付,国会批准NDIIPP计划之后再拨付2000万美元,剩下的7500万美元将视相关配套资金的集资情况而定。
该计划决定对6个方面的内容进行保存,分别是:Web信息、数字视频、数字音频、数字期刊、电子图书和数字电视。
其中,Web信息资源的整理和保存被视为该项计划的重要组成部分。
1.美国国会图书馆与Internet档案馆签订了一项协议,Internet档案馆受委托定期捕捉国会图书馆选取的一些网站的内容。
此外,国会馆还对2000年美国总统选举相关的网站内容进行收集,每天捕捉150-200个网站,一直持续到2001年就职演说完毕之时。
国会馆正准备对2002年11月举行的国会选举进行归档。
去年9.11事件发生后,国会图书馆与Internet档案馆合作,在不到一天的时间内就收集了世界各地数千家网站的内容,目前还在持续不断地进行下去。
同时,国会馆还开展了MINERVA(Mapping the Internet Electronic Resources Virtual Archive)项目(网址是:/minerva),该项目建立了一个原型系统,主要工作内容包括:选择少量网站、下载指定网站的网页快照、运用CORC创建目录记录并装载到国会馆的图书馆集成系统、开发了一个用户访问的试用型Web站点、与美国版权办公室讨论有关法律问题。
图1:美国2000年总统选举Web档案(荣获 2001年度奖)图2:“9.11”事件Web档案图3:MINERVA项目主页(二)澳大利亚国家图书馆的Pandora项目澳大利亚国家图书馆的Pandora项目做得非常出色,本项目从1996年开始酝酿,目前为止,已经建立起一个澳大利亚在线出版物档案藏品,其内容包括Web页面,同时也为这些资料的长期存储制定了国家战略。
本项目把所收集的内容分为15个大类,包括:艺术与人文、健康、新闻与媒体、商业与经济、历史与地理、政治与政府、计算机与Internet、本地人、科学与技术、教育、青少年、社会与文化、环境、法律与犯罪、体育与娱乐,这些内容在.au/index.html上都可以看到。
目前,本项目形成了比较完整有效的商业模型和逻辑数据模型,制定了资源选择的指导原则,原则分为总体原则和具体资源类型的特定原则。
总体原则包括:有关澳大利亚的内容、多个版本、权威性及研究价值、热点话题、资源边界的界定;具体原则依据不同的资源类型而有所不同,其涵盖的资源类型多样,丰富多彩,包括:年度报告、联邦政府出版物、数字化资料、教育资料、展览、种族团体、已索引出版物和文章、青少年出版物、文学作品、报纸、机构及个人站点、宗教站点、地图等。
图4:Pandora项目主页(三)位于旧金山的Internet档案馆Internet档案馆是一个非赢利性组织,位于旧金山,自从1996年10月以来,每隔数月即会对全球万维网上很大一部分内容进行收集,并将其保存起来,以备将来研究之用。
截止到2001年3月,其收集的内容达到60TB,每月增加10TB。
另外一个商业公司Alexa Internet,负责执行数据的收集。
数据在失去一定的商业价值6个月之后,被Alexa捐赠给Internet档案馆负责保存。
成立Internet档案馆的目的是使研究人员、历史学家和学者能够永久地访问到以数字形式保存的具有历史价值的资料。
在其主页上面,我们可以明显看到一个叫做“WayBack Machine”搜索器,顾名思义,它能够帮助你浏览保存在Internet档案馆中的具有历史价值的Web资源,让你真正感到仿佛回到了从前。
收集整理的内容相当出色。
图5:Internet档案馆的主页(四)瑞典国家图书馆的Kulruarw3项目Kulruarw3项目也开始于1996年,它的目的是对瑞典在线文献的收集、保存和提供方式进行测试。
到2000年8月,其收集的内容大约有6,500万条,其中半数为文本文档。
(五)德国海德堡大学的汉学研究数字档案馆(DACHS)它是汉学研究数字信息资源欧洲中心()的一部分,现由Alfried Krupp von Bohlen和Halbach基金提供赞助,位于德国海德堡大学汉学研究所内。
除了提高本地所有的印刷资源的质量及改善获取渠道,成立的宗旨是进一步推动欧洲各地获取和利用汉学相关数字信息资源。
为此,该中心收集各种形式的全文数据库,并使尽可能多的人可以存取;编制虚拟图书查询检索系统(OPAC)和联合目录,帮助找出欧洲各图书馆所收藏的与中国有关的印刷资源;创办重要的有关中国的网络资源指南;创建符合上述宗旨的IT基础设施。