【原文出处】图书馆建设
【原刊期号】2005年5月
【作者简介】张银犬(南京大学信息管理系江苏 南京 226007)
【中文摘要】以数字图书馆信息资源服务为例,从减少信息服务成本、节约社会资源角度出发,结合国内外发展趋势,探讨并展望基于P2P 技术的信息资源共享模式。
【关 键 词】P2P 信息资源共享 数字图书馆
【英文摘要】Abstract: In order to reduce the cost of information service and save social resources, the article illustrates the information service of a digital library and discusses the model of sharing for information resources based on peer to peer technology which follows the recent development all over the world. At last, the author brings a good prospect forward.
Key words:P2P; Sharing for information resources; Digital library
【 正 文 】
信息技术的不断发展促进了网络信息资源向有序化方向发展,其发展速度却跟不上信息爆炸及用户日益增长的信息需求,因而,有序信息资源是有限的,客观上要求得到充分共享。鉴于此,本文引入P2P 技术,结合数字图书馆资源建设,探讨基于P2P 技术的低成本、高效率的信息资源共享模式。
1 P2P 技术及其与数字图书馆的结合
1.1 P2P 技术简介
随着网格技术的到来,P2P(Peer to peer) 作为网格计算(GrdComputing) 的重要技术之一而受到越来越多的关注。P2P 可简单地定义为通过直接交换、共享计算机资源和服务,每一个对等点(计算机等)可以同时充当客户端和服务器两种角色,可充分利用终端设备的处理能力实现更广泛意义上的资源共享与信息交互。作为一种基于互联网环境的新的应用型技术,P2P 可广泛适用于分布式搜索、分布式存储与计算及企业协同等领域[1] 。
1.2 基于P2P 的信息资源共享优点
基于TCP/IP 的信息资源共享是传统的模式,与之相比较,基于P2P 技术的共享成本更小。P2P 能充分发挥高性能PC 机的潜力,节约存储成本,减轻服务器的压力,充分发挥包括人力资源在内的一切社会资源。
高效搜索引擎也是P2P 信息资源共享的强大优势。互联网上有各种类型的搜索引擎,如书目型、全文型、混合型、元数据型等等,但这些传统的搜索引擎依赖于服务器存在。服务器的信息组织速度远落后于网络信息资源的增长速度,服务器所收集整理的信息由于存在时滞,检索结果中往往会产生网页缺失、错误或过时信息。
基于P2P 的搜索引擎为网络信息搜索提供了全新的解决方法,其最大优点在于应用先进的对等搜索理念,对互联网络进行全方位的搜索,不受服务器、数字资源文档格式及宿主设备的限制,其搜索深度和广度是传统搜索引擎所难以比拟的,其搜索范围可在短时间内以几何级数迅速增长,理论上包括网络上的所有开放的信息资源,采集到的信息将有更强的实时性和有效性。例如:一个基于P2P 的搜索引擎SD(search demon),它可将Agent 技术应用在SD 之中,并结合P2P 对等网络,为网络信息资源的共享提供理想框架[2] 。
1.3 P2P 技术与数字图书馆的结合
P2P 技术的应用,国外主要有Napster 和Gnutellas 公司或网站(计算机、网络方面的杂志已有详细描述,在此略)。国内有5Q 网(www.5qzone.net) 站,其中的BT下载,就采用的是P2P技术。5Qzone 在教育网内首先推出BT下载服务,建立了许多镜像站,使得5Q 地带很快成为了众多高校学生注目的焦点。BT 已进入每一个有网络的地方,5QBT 在高校更是享有盛名,成为全国各大高校BBS 的Movie 、TV 、Resource 版讨论推荐的热点网站[3] 。
从上文可知,P2P 技术与数字图书馆结合不是一个设想。国外、国内网站已经成功地做到信息资源的高效共享,而数字图书馆只能算作是网络信息资源的一隅,而且资源分布、存储具有分布式特点,P2P 技术理所当然是适合的。P2P 技术与数字图书馆结合可以节约图书馆信息服务成本、减缓网络及服务器压力、缩小各类型数字图书馆之间的数字鸿沟、有效发挥有限信息资源的作用。此外,架构在P2P 对等网上的信息服务平台所具有的统计、分析等功能,能帮助数字图书馆深入分析用户需求,为信息资源的采集提供科学参考依据,提高用户信息需求服务的效率与效益,是图书馆同仁乃至全体信息服务者的共同心愿。
2 数字图书馆信息资源的服务成本与效益分析
网络信息资源管理包括数字信息资源的采集、组织加工、存储、利用等环节。图书馆是信息资源利用与管理的主要机构之一,从数字图书馆发展实践来看,数字信息资源的采集、存储是影响信息服务成本与效益的主要因素。
2.1 信息资源采集
传统图书馆正向数字图书馆过渡,数字图书馆信息资源采集模式仍然受传统思想的制约。体现在信息资源的采集上,一则追求“大而全、小而全”,浏览各类型图书馆主页,可以发现其资源列表均有同种中文期刊、中文图书、外文期刊等,且品种愈全愈好;另一则为马太效应,数字鸿沟日益严重。形成这种局面的主要原因是未形成一个统一协调的组织,从信息资源的生产、采集开始,均各自为政,重复建设,浪费严重,与国民经济极不相适应,信息资源共享还存在种种障碍(既有技术的,也有经济、法制法规、政策等方面,但主要的不再是信息技术的障碍)。
2.2 信息资源存储
由于数据存储与压缩技术还不发达,数字信息资源存储是目前各图书馆普遍碰到的难题。将采集的信息资源存储在自家中,再提供给用户使用,仍然是各数字图书馆的主要服务模式。然而,信息资源存储的投资决非一劳永逸之事,耗资大、老化快、损耗大等是信息存储的主要缺点。下面简要从存储的资源类型、资源访问方式、数据格式与单页文件大小比较进行分析。
2.2.1 存储资源类型 由于外文数字资源主要通过远程访问(WEB 或联机),一般不占本地镜像存贮空间,在此属于不论之列。中文期刊全文数据库(CNKI 、维普、万方、人大复印资料全文)、中文期刊索引数据库(全国报刊索引、CSSCI 、CSSCD 等)、中文图书数据库(超星、方正Apabi 、书生之家等)等是主要的中文数据库数字资源,总的存储空间超过10TB ,并且以惊人速度增长。
2.2.2 资源访问方式 主要有本地镜像访问、远程访问、镜像与远程访问相结合等3种模式,除远程访问外,其它均须提供存储及相配套的服务器、电源、数据交换等设备。
表1:几大中文数据库数据格式及文件大小比较
比较内容
数据库名称 |
数据格式 |
平均每页所占存储空间 |
单页文件大小排序 |
中国期刊网专题全文数据库 |
S2Pack kdh等文件格式 |
10KB |
③ |
万方数字化期刊全文 |
Pdf文件格式 |
26.7KB |
⑤ |
维普科技期刊数据库 |
Vip文件格式 |
23.3KB |
④ |
人大复印资料全文数据库 |
纯文本格式 |
2KB |
① |
超星数字图书馆 |
Pdg格式 |
4KB |
⑥ |
方正电子图书 |
CEB格式 |
2.375KB |
② |
2.2.3 数据格式与单页文件大小 数据格式直接关系到文件大小及数据库所占的存储容量。下文对几大中文数据库数据格式及文件大小进行比较,采用数据库总容量与数据记录总数之比及每条记录所占容量与该记录全文页数之比。由于方法比较粗陋,所得数据仅作参考,不具有任何褒贬之义。
从表1[4] 数据可以发现,中文数据库数据格式各异,单页文件大小从2kb 到44kb 不等。这与各数据库开发商所采用的信息资源管理平台与数据压缩技术密切有关,数据格式的统一与优化是事关存储危机的关键所在。
2.3 信息资源服务成本及效益分析
信息资源服务成本包括以下投入:数字资源内容、硬件、软件、安全维护、人力资源成本等。
表2 信息资源服务成本投入
序号 |
成本项目名称 |
耗资 |
耗资大小与否 |
1 |
中文数据库资源(数字资源内容) |
50万年/年 |
√(表示大,下同) |
2 |
数字资源发布平台(软件投入) |
|
|
3 |
存储设备年自然损耗(硬件投入) |
10万年/年 |
√ |
4 |
配套服务器及UPS电源(硬件投入) |
|
|
5 |
设备维护、升级、扩容(硬件投入) |
15万年/年 |
√ |
6 |
系统安全维护 |
|
|
7 |
人力资源成本 |
|
|
8 |
其他 |
|
|
表2共列举了8种服务成本项目,其中耗资最大的是1、3、5 项,用“√”标出。
信息资源服务效益一般指投入与产出的比值。数字图书馆是为高校、社会等服务的公益性部门,一般不以追求经济效益为目的,其服务效益可以用投入与数据库使用效率的比值的倒数来表达。由于信息资源服务成本中耗资最大的是1、3、5,其它项在此可以忽略不计。
在此以1 年为周期进行计算,表达式为:
1/ 信息资源服务效益=[1+3+5] / 数据库访问人次=[ 中文数据库资源年购置费+(存储设备的一次性总投入/ 有效使用年数)+ 每年设备维护、升级、扩容费用]/ 数据库年访问总人次,中文数据库资源年购置费可以从采购单统计出,存储设备损耗可按设备损耗率来计算,每年设备维护、升级、扩容费用可根据年设备购置费计算出,数据库访问人次可以从数据库记录的日志文件中统计出。
以某高校图书馆为例,采购数字资源经费年均为50 万元,设备自然损耗年均为10 万元,设备维护、升级、扩容费年均为15 万元,累计为75 万元。数据库访问人次平均为42 万人次(按以上6 个数据库,1 年365 天开放,平均日访问量200 人次计算)。计算出的服务效益为55.6% ,数值越大服务效益越高。
当然,信息资源服务的成本的计算方法还应有更科学的算法,本文只做粗略分析,突出强调信息资源服务中的
1、3、5 这3 个子项。
如果通过P2P 实现地区数字图书馆资源共享,假设信息服务成本不变,而数据库利用次数增加1倍,则服务效益由55.6% 上升为120% ,充分体现了P2P 优秀的应用价值。3 基于P2P 技术的数字图书馆资源共享模型及运行机理
由于P2P 技术比较抽象,在构建数字图书馆资源共享模型时,尽量以最浅显的方式进行描述。
3.1 构成元素 在此指模型中的构成要件,主要有信息资源、数字资源服务器、交换设备、PC 机、P2P 网络协议、基于Agent 等技术的搜索引擎、P2P 资源下载工具等。
3.2 前提条件 网络(局域网或因特网),信息资源的生产者(包括作者、数据库开发商、程序开发者等)、信息资源提供商(有些不是生产者和开发商)及数字图书馆等信息服务机构的协调,与信息资源管理有关的法律、法规及相关信息政策。
3.3 共享模型及运行机理
P2P 技术在数字图书馆中应用,一般具有纯分散式P2P 网络及混合式P2P 网络两种模型[5],不同的模型具有不同的运行机理及管理方法。
3.3.1 纯分散式P2P 网络
该模型网络中没有服务器,链状的节点之间构成一个分散式网络。通过基于对等网协议的客户端软件(如BT 精灵等)搜索网络中存在的对等节点,节点之间不必通过服务器,可直接建立连接,实现资源共享。它的优点在于允许用户设定自己的规则和建立自己的网络环境,缺点是没有中心管理者,网络节点难以发现,不易管理且安全性较差。
在这种共享模式中,数字图书馆资源分散在各种资源服务器、存储阵列、PC 机中。在空间上,有局域网内的数字图书馆资源、局域网内用户PC 机上可共享资源、广域网上的各数字图书馆资源、广域网上各PC 机上可共享资源、广域网上各数字资源生产商、提供商;在信息资源内容上,包括因特网上各种格式的数字资源(如文本、数据库、音频、视频、程序等)。
例如:要搜索“P2P 在信息资源共享中的应用”方面的论文,通常情况下,可以到上述的任何一个期刊数据库中去检索,但有了P2P 以后,用户便可以下载到与检索条件相匹配的、分散在P2P 对等网络中任一节点之中的信息,不一定要到期刊数据库服务器中去下载,因为可能有别人已经下载好了且存储在PC 机中。这样,减少了数字图书馆镜像服务器的数量及存储压力,每一个数字图书馆就不需要采集全以上各种数据库,最终降低了信息服务成本。
3.3.2 混合式P2P 网络
这种模型中各节点之间可以直接建立连接,但网络的构建需要服务器(Server ),通过Sever 集中认证,建立索引机制。服务器仅用于辅助对等节点之间建立连接,而不担当数字资源服务器作用,一旦连接成功,服务器不再起作用,对等节点之间直接进行通信。
在这种共享模式中,信息用户获取信息的途径与前一种模式基本相同,不同的是需要服务器的连接与约束,易于发现网络节点、易于管理且安全性较好。目前P2P 技术的应用大多为这种模式,较为典型的如Napster 等[4] 。通过这种共享模式,数字图书馆资源可以得到更安全(网络安全、信息安全)、更合理的利用(合理分配网络资源)。
4 前景与展望
通过外文数据库检索、分析发现,国外目前研究P2P 的论文主要涉及:Authentication and Access Control 、security service 、key management (PKey) 、a Secure Infrastructure 、Data-sharing 、Grid 、Application 。国内学者也已经深入到了资源共享、网络安全、网格计算、知识产权等领域。
显然,P2P 技术已经是一门很成熟的网络技术,且应用领域广,既有企业,也有高校。虽然存在目前普遍关心的问题,如知识产权得不到保护、安全性差、管理困难、缺乏统一的技术标准等,但它开创了信息资源共享的新局面,节约了有限社会资源,能有效缩小数字鸿沟,提高了信息资源的使用效益。随着第二代因特网的发展及网格技术的成熟,在技术上实现更优越的信息服务是一定的,关键在于建立真正有效的信息资源共享机制,在信息法律法规及政策的允许范围内协调不同部门的经济利益,达到适当的利益平衡点。目前,即使做不到全国范围内信息资源共享,但在局域网内(如实现地区数字图书馆资源共享)还是可行的。
参考文献:
1,2 毛薇, 姚青, 李涛. 基于P2P的高效搜索引擎的研究. 武汉理工大学学报,2002(8):43-45
3 5Q 地带.http://www.5qzone.net,2004.12.9
4 张银犬. 从用户服务角度谈网络中文数据库建设. 图书馆建设, 2003(4):23-24
5 张联峰等. 综述:对等网(P2P )技术. 计算机工程与应用, 2003 (12):143
6 Guangming Hu etc.. Building a Secure Infrastructure for P2P ApplicationsinMobileAdHocNetworks.LectureNotesinComputer Science,2004,Volume3252
7 Shijie Zhou, Zhiguang Qin & Jinde Liu . Distributing the Keys into P2P Network.Lecture Notesin Computer Science,2004,Volume3252
8 Neil Daswani Hector Garcia-Molina, Beverly Yang .Open Problems in Data-Sharing Peer-to-Peer Systems.Lecture Notesin Computer Science.2003,Volume2572
9 YuqingZhangandDehuaZhang.AuthenticationandAccessControl in P2P Network.Lecture Notesin Computer Science,2004,Volume 3032