【原文出处】现代图书情报技术 【原刊期号】2005年第9期 【作者简介】苏新宁 章成志 (南京大学信息管理系 南京210093) 卫 平 (北京新星快威数码技术有限公司 北京100086) 【中文摘要】信息资源整合的目标是将分散的资源集中起来,把无序的资源变为有序,使之方便用户查找信息、方便信息服务于用户。如何提高信息资源的整合效率,满足用户对信息日益增长的需求,提升资源整合实施者的素质,使他们了解信息资源整合的概念、整合的理论基础、整合的方法和途径、整合涉及的技术、资源整合后引发的信息服务变革等知识是当前信息资源整合急待解决的关键问题。 【关 键 词】信息资源整合 信息组织 信息检索 信息服务 【 正 文 】 A Survey of Information Resources Integration Su Xinning Zhang Chengzhi (Department of Information Management, Nanjing University, Nanjing 210093, China) Wei Ping (Beijing InfoQuick Digital Co. , Ltd. Beijing 100086, China) Abstract:The goal of Information Resources Integration ( IR I) is gathering and ordering the dispersive or disordered information resources to facilitate users’entrance into information systems. The key p roblem of IR I include: thetheoretical foundation of IR I, the method and corresponding technology of IR I, the innovation of information service because of IRI, etc. A detailed survey of IR I is p rovided in this paper. Key word: Information resources integration Information organization Information retrieval Information service 1 引 言 整合是当今社会的一个炙手可热的词语,各行各业都在大谈整合,它几乎成了改革、整顿、发展的代名词。当然,对图书馆等信息服务部门也不例外,信息资源的整合已成为其热门话题。随着网络的日益普及,网络信息资源的急剧增长,信息资源整合逐渐成为其领域的一个重要的研究课题和亟待解决的问题。 什么叫信息资源整合? 它是指将某一范围内的,原本离散的、多元的、异构的、分布的信息资源通过逻辑的或物理的方式组织为一个整体,使之有利于管理、利用和服务。我们也可以这样来理解信息资源整合,就是把分散的资源集中起来,把无序的资源变为有序,使之方便用户查找信息、方便信息服务于用户。这也是广义的信息资源整合概念,它包含了信息采集、组织、加工以及服务等过程。 为什么要进行信息资源的整合? 整合究竟要解决什么问题? 这主要源于网络信息资源的激增,资源的种类越来越丰富,数据库和信息资源检索系统越来越多,检索方式、检索手段各式各样。造成了数据冗余、相互关联程度低,大量的信息孤岛出现,同时用户的检索负担也日益加重。因此,需要有一种手段把这些信息集中、整序、关联起来,把检索系统集成起来,使用户知道到哪里可以找到所需要的信息,怎样去查找这些信息,如何筛选检索结果,这就是信息资源整合的最终目的。 信息资源的整合方法、途径和手段多种多样,但一般来说包括三个层面:其一是数据层(又称资源层) ,即把有关信息资源集中为一体;第二是操作层(又称服务层或中间层) ,即通过软件或平台对有关信息资源进行统一利用;第三是系统层(又称应用层) ,即包含数据内容、软件系统以及基础设置的全面整合。信息服务部门需要根据自己的信息资源、应用系统状况以及硬件基础设施来确定整合层次和实施方案。 然而,如何提高信息资源的整合效率,满足用户对信息日益增长的需求,提升资源整合实施者的素质,使他们了解信息资源整合的概念、整合的理论基础、整合的方法和途径、整合涉及的技术、资源整合后引发的信息服务变革等知识是非常必要的。鉴于这样一种需要,本文对信息资源整合进行了较为全面的论述,以帮助读者对信息资源整合全面了解。 2 信息资源整合的研究现状 2. 1 信息资源整合的起源与发展 长期以来,各类信息服务机构建立的数据库均有着自己独立的结构,即使是同一个部门所建立的不同数据库,在字段结构或者字段语义上往往也是相异的。特别是各大型数据库生产商(如重庆维普、清华同方等) ,其数据库结构都是完全不同的。这就给信息服务部门,尤其是像图书馆这样的公共信息提供的机构而言,在维护、管理和服务方面带来了许多不利,用户也必须在不同的检索系统中不断重复自己的查询过程,还要花费大量的时间从中过滤冗余结果,给用户增添了麻烦和负担。因此,人们迫切希望有这样一种技术能够把这些资源组织为一体,方便信息的维护、管理和检索。在这样一种情况下,信息资源整合的概念也应运而生了。 信息资源整合的研究来自于数据集成的发展,数据集成主要目标是解决异构数据库的互操作、数据关联和数据结构的统一问题等。随着整合概念的推出,人们逐渐把这一概念用于信息资源的整合之中。 20世纪80年代,数字信息资源整合主要是针对异构数据库的集成来进行探索的。主要方法为:采用紧密耦合的方法对异构数据库进行集成< 1 >。由于这种方法采用集中控制分布数据库,每次局部系统的改变都会引起对全局系统的修改和重新构造,使得系统不但开发成本太高,而且后期维护困难。以后开始逐渐采用松散耦合方法,出现了联邦式数据库集成框架和多数据库语言方法集成架构,每个数据库提供一个输出模式供其他数据库进行共享。 90年代初,随着网络技术的发展,伴随着各种数据库访问标准和数据库互连产品的出现,又相继涌现了很多数据库联合模型,可为多数据库提供统一查询接口,但多数据库语言集成会增加用户端负担。随着面向对象技术的发展和分布式网络技术的兴起,采用面向对象技术集合Wrapper - mediator结构已经成为异构数据库集成研究的通用方法< 2 >。 90年代中后期,人工智能研究者也介入到信息资源整合这一研究领域。他们主要针对数据库存在语义异构问题,提出基于语义层面整合的信息资源整合方 法< 3 - 4 >。信息资源整合的范围也从数据库扩大到互联网资源< 5 >。 20世纪90年代后期,随着知识工作研究领域对本体工程研究的不断深入,基于本体的信息资源整合方法和技术成为研究热点< 6 >。 我国图书馆于20世纪90年代末开始了信息资源的整合实践,主要着手对购进的大型数据库提供一站式检索服务,即实现跨库检索,也就是以门户为中心的、以检索软件为基础的资源整合实践。由于简单跨库检索增加了用户筛选检索结果的负担,近几年,一些软件公司推出了基于数据整合和跨库检索的信息资源整合平台,如成都国图数字信息有限公司开发的DIPS< 7 > ,北京拓尔思( TRS)信息技术有限公司开发的TRSIIP< 8 >等。这些软件平台为图书馆等信息服务机构整合购进的信息资源和自己研制的特色数据库提供了有力的开发工具。 2. 2 国内外信息资源整合研究现状 近年来,国外对信息资源整合的理论基础、信息资源整合方法和技术进行了深入的研究。例如, J. Pearce等人认为,整合检索是复合图书馆未来的发展趋势,并给出三个层次的整合方法,即:信息地图、代理结构、系统整合等由低向高的三个层次< 9 >。H. Peter指出了图书馆信息资源整合的意义,即:挖掘“深网”(Deep Web) ;网上文献被很好的标引;门户为用户提供一些组织好的电子资源的简单入口; 用户获取信息无需来回切换环境< 10 >。G.Grahne等以不完备信息的代数理论为基础,给出了信息整合的理论基础< 11 >。M. Rousset等研究了信息整合中的知识表示问题< 12 >。 我国开展信息资源整合方面的研究最早始于本世纪初,从发表论文和出版著作来看,主要来自于从事信息管理的学者,他们通过吸收国外的研究成果,特别是在信息资源整合的技术、实施等方面进行了相应的探索。 我们查询了国内主要的文献源和有关引文索引,得到的结果是: 2001 - 2002年是我国信息资源整合研究的初始阶段,其间研究型论文较少, 2003 - 2004年,其研究和讨论有明显增加,发表了较多的论文。可见图书馆信息资源整合研究已经越来越受到信息管理界的重视。从研究内容看,这些文献的研究也越来越深入。从介绍性文字到研究论文; 从理论研究到系统、技术实现的实践等< 13 >。具体有以下3大类。 (1)相关资源整合工具、产品的介绍与比较。范爱红等介绍了美国ISI公司新近推出的“Web of Knowledge学术信息资源体系”的结构和数据库构成,并对整个学术资源体系做出评价<14>。李富玲等介绍了上下文敏感参考文献链接解决方案SFX系统的概况及在信息资源整合中的优势,然后介绍了其工作原理、使用方法<15>。王平等介绍了开发数字信息资源整合管理系统的背景和原理,分别从开发背景、结构框架、系统特色、运行环境和遵循标准等方面深入分析和比较了国内外主要的数字信息资源整合管理系统< 16 >。 (2)信息资源整合理论研究。马文峰提出了信息资源的概念、信息资源的构成、信息资源整合的定义,信息资源整合的理论基础,信息资源整合基本原则< 17 >。他指出信息资源整合是数字图书馆建设的关键,应将知识组织理论与方法运用于信息资源整合实践中, 实现信息资源的有效获取和利用< 18 >。程丽等认为信息资源整合是一种知识组织方法,并将知识组织作为信息资源整合的理论基础,提出了组织的原则< 19 >。刘新周给出了信息资源整合比较完整的定义,并将整合分为:门户整合、数据库整合、系统整合、协议标准整合、检索方式的整合等及格类 别< 20 >。黄晓斌等在概述图书馆信息资源整合含义的基础上,论述图书馆信息资源整合的必要性,给出了图书馆信息资源整合应遵循的原则,对整合方式进行了详细划分< 21 >。他还指出今后信息资源整合研究方向:整合的理论研究、方法研究、技术与系统研究、实施研究等< 22 >。赵海霞等对电子文献资源整合的社会动因,从四个方面,即:历史动因、技术动因、内在动因、社会需求动因,进行了理论分析< 23 >。 (3)信息资源整合实践的探索。胡忠红提出综合运用文献自动标引、多语种自动识别、信息智能导航等技术对局域网与Internet信息资源的整合< 24 >。金更达探讨了网络资源界面整合的策略和实现方法及智能型Agent界面的设计思想和实现方法< 25 > 。崔宇红等提出了基于图书馆OPAC系统进行信息资源整合的两种情况:从OPAC系统到信息资源的链接,从信息资源系统到OPAC系统的链接,并给出了实现方法< 26 >。张文德等对信息资源整合系统与技术模式的数据整合和集中化整合所遇到的环境进行深入的分析,对数据整合部分进行了详细的论述,并给出提出数据整合的模型,即:人机交互层、信息处理层、信息收集层< 27 >。 3 信息资源整合的理论基础 理论来自于实践的积累、经验的总结和思想的升华。同时,理论又反过来指导着人们的实践,并在实践中进一步丰富理论。在信息资源整合过程中,同样离不开相关理论的支持和指导。除了图书馆学、情报学、信息学本身的许多理论支持着数据整合实践,其他有关的科学理论和原理(如系统论、信息论、运筹学、认知心理学等)对提升信息资源整合效率均有很大帮助。 3. 1 系统论 系统论是由美籍奥地利人路德维格•贝塔朗菲创造的,它是研究系统的模式、性能、行为和规律的一门科学,为人们认识各种系统的组成、结构、性能、行为和发展规律提供了一般方法论的指导。系统论认为,整体性、关联性,等级结构性、自组织性、动态平衡性、时序性等是所有系统的共同的基本特征。 用系统论的观点,我们可以把相关信息资源看作是一个由多个相互作用、相互联系的数据库整合成的有机整体,全面考察欲整合信息资源对象之间的关联性、等级关系、动态性和时序性。将系统论运用于信息资源整合中可以从整体角度对信息资源全面优化组合,提高信息资源整合效率,可以从系统的角度剔除冗余、增加关联、简化用户使用操作,保证“1 + 1 > 2”。所以,理想的信息资源整合应当引入系统论思想,以系统论理论来指导信息资源整合实践。 3. 2 信息论 信息论可视为与系统论、控制论等理论并列的现代科学方法论之一,它是由美国数学家申农创立的。信息论主要是以数学的方法研究信息的产生、获取、变换、传输、存贮、处理识别及利用的一般规律问题。信息论有狭义和广义之分:狭义信息论主要以编码理论为中心,研究信息的传输和转换问题;广义信息论主要研究以计算机处理为中心的信息处理基本理论,包括信息的采集、处理、检索、融合、图像识别、学习理论及其各种应用。 可以看出,信息论是以对信息的信源、信宿、信道、编码等研究为主要内容,与信息资源有密切的关系。因此,在信息论的理论指导下,将会全面提升信息资源整合能力与效率,以更高的理念来进行资源整合。例如,信息资源对整合前资源的选择;整合中资源的处理;存储中的数据组织、编码、压缩与转换; 检索中的检索机制、检索协议、检索算法以及结果的表达;资源整合后的信息利用与服务变革;等等。这些方面都会得到信息论理论的强有力的支持。 3. 3 运筹学 运筹学是运用数学方法,对所处理的问题进行统筹规划,并作出决策的一门应用科学。运筹学研究的内容 主要包括:规划论(包括线性规划、非线性规划、整数规划和动态规划) 、图论、决策论、对策论、排队论、存储论、可靠性理论等。因此,运筹学理论可以帮助我们获得最佳的整合效果,确保整合过程有条不紊。 在信息资源整合的实施过程中,运筹学的理论和方法有助于我们合理的规划信息资源(规划论) ;科学的布局整合资源(图论) ;正确的选择最优方案(决策论) ;遇到问题能够有效的应对(对策论) ;排队论(随机服务系统理论)将对改善处理流程有很大指导意义;可靠性理论为整合系统正常运转提供理论支持。总之,运筹学理论是对所研究的问题求出最优解,获取最佳的行动方案,提供解决问题的优化方法。在信息资源的整合运用中,它的作用也不例外。 3. 4 认知心理学 认知心理学也被许多学者认为是信息加工心理学,近20年来,认知心理学派特别是信息加工理论对认知结构作了更加全面的阐述和开放式的研究,他们用信息流的观点把认知结构的形成和使用看作是知识的接受、编码,译码、贮存、交换、操作、检索、提取和使用的过程,并对过程的各个环节作了深入细致的机制层面的分析,使其理论有了很强的操作性,可以引导整合过程中的信息加工更加符合人们的思维习惯。 从认知心理学研究内容,我们可以看出:信息加工理论对信息流透彻的认识可以使数据整合的流程更加合理;对过程环节的深层分析方法可以使数据整合的各个运作环节更加完善;借助认知心理学对知识的认知和对用户心理的分析,可以使数据得到更加完备的整合,使用户得到更加个性化的服务。 除了上述理论之外,还有其他一些理论对信息资源整合具有指导作用,如控制论、逻辑学、传播学等。因此,在信息资源整合过程中,应当注重这些理论的引入,并把这些理论应用到整合的实践中,全面优化整合过程、提高整合质量。 4 信息资源整合原则 信息资源整合是一个系统工程,如何在理论的指导和经验的驱使下,使信息资源的整合工程做到最优。还需要我们在数据整合工程的实施过程中遵循如下原则。 4. 1 整体性原则 整体性又称完整性,就是在信息资源整合工程中要保持信息资源对象完整与全面。完整性主要体现在这样几个方面。 (1)根据服务的主要对象或服务目标,保证整合资源内容的和学科的完整性; (2)确保信息资源是一个整体,并不一定要求在物理上是一个整体,但需要将分布资源有机关联,揭示数据对象间的内在关系,在逻辑上形成一个整体; (3)用户界面的统一,即实现一站式检索; (4)系统功能的全面性,即要求整合后的资源系统能够涵盖原子系统的所有功能。 4. 2 科学性原则 科学性原则主要是指对整合工程进行全面规划,科学论证,切忌匆忙上马,不宜随意凑合,要保证整合的合理性、科学性和规范化。具体在实施过程中要注意。 (1)资源选择的科学性,根据自己的服务对象和财力合理的规划、购买和自建资源,不能盲目求多,浪费人力财力; (2)整合资源组织的科学性,建立各类资源间的多重关联,科学地组织它们,将有限的资源产生出最大的知识和信息量; (3)整合后的系统在交互接口上的科学性,这个交互包括数据处理过程的后台交互,也包括用户和检索系统的交互,交互的科学性主要体现在处理接口的无缝连接,处理过程简洁快速,检索界面的方便有效。 4. 3 层次性原则 层次性原则是指在建立信息资源整合系统和为用户服务的过程中,以满足用户服务为最终目标,在以下几个方面考察其层次性:一是整合数据的层次性,因为我们的用户可能具有不同的知识背景,不同层次的信息需求,所以我们要注意整合不同知识层次的信息;二是指信息资源整合的结构性,由于用户的查询需求可能是多方面的,目的可能很复杂,因此,为满足不同的用户需求,简单的一维、二维整合可能难以达到目的,需要能够实现数据的多维整合;三是检索操作的层次性,即提供简单检索、复合检索和专家检索这样多层次的检索界面来满足不同层 次用户的检索要求。 4. 4 最优化原则 最优化原则的目标是使整合后的信息资源达到最佳的使用效果。也就是说如何将组合在一起的信息资源达到最优,即将原本并不是紧密关联的数据有机的联系在一起,并能够发现隐藏在其中的信息和知识;如何使检索系统达到最佳的运行效果,即是否拥有多种检索手段(例如简单检索、布尔逻辑检索、二次检索、同义词检索、排除词检索以及扩检和缩检手段) ,使其能够获得理想的查全率和查准率。 4. 5 动态性原则 动态性原则是指整个整合系统能够适应数据动态变化和用户需求随机改变的状况。满足动态性的系统应该是个开放性的系统,应能够把各种类型的数据、不同格式的数据整合到系统中,能够及时增加动态变化的数据。在检索方面,应能够适应用户不断变化的检索要求,具有一定的学习功能,能够实现动态性的推荐服务。总之,整合系统满足动态性就是指其能够随着数据和外部各种环境的变化而不断变化。 4. 6 针对性原则 针对性原则是指根据整合的目标,有针对性地选择信息资源、挑选恰当的整合工具和整合方法,切不可盲目实施。除此之外,针对性原则还表现在根据用户的特定需求来整合与组织信息资源,使整合后的资源既符合总目标,又满足用户的个性化服务需求。当然,这种个性化服务的实现还要求系统功能的扩充,如提供个性化的信息推送服务。另外,在针对性原则指导下的常见信息资源整合方式,还包括建设专题数据库或者特色数据库,如CAL IS项目、JAL IS项目等。 4. 7 适度性原则 所谓适度性就是不要盲目的追求广、大、多,要根据现有的技术力量、资金能力对信息资源进行适度的整合。因此,要求我们在进行整合的过程中,资源选择时要根据自己的服务对象,依据自身对信息资源的整合能力选择待整合资源。例如,艺术类的院校应集中在与艺术有关资源的整合,文科类院校对理工类的信息资源就应当谨慎收录。当然,这样整合可能会使得用户获得的资源受到限制,因此,就要求多个资源整合机构能够建立联盟,就像图书馆间的馆际互借。 4. 8 经济性原则 经济性原则主要从两个方面反映出来:一是通过遵循针对性和适度性原则,在自己经济力量有限的情况下,通过最优化理论与方法,进行较少的经济投入而实现功能倍增;二是指经过整合后的信息资源系统,要扩大服务范围,提升服务能力,以多样化的服务手段,产生最大的经济效益,做到服务、生存、发展。 以上就是信息资源整合时需考虑到的八项原则,在进行信息资源整合项目的实施时,分别通过一定的评估指标对这些参考原则进行测度,以保证提高信息资源整合的质量和效率。 5 信息资源整合研究内容 信息资源整合不仅仅是简单地把信息资源组织在一起,它是一个研究范围很广的领域。它涉及到与信息资源整合有关的理论、方法和技术的研究,整合系统的检索与评价研究,以及整合所涉及的前沿研究。 5. 1 信息资源整合理论与方法的研究 表面上看来,信息资源整合是一种工作性和操作性工程,但它实际上包含有许多深刻的理论和方法。因此,做好整合工作还需对信息资源整合的基本理论和方法进行研究。基本理论的研究主要应注重信息资源整合的内涵、特点、动因、目标、原则、功能等方面的研究,为进行整合规划、实施提供理论指导。 在整合方法的研究方面主要研究有哪些整合方式:如门户式的整合还是数据式的整合,是平台的集成还是软件的集成;还要进行各种整合方法的比较研究,分析各种方法的特点和适用对象,为资源整合部门选择整合方法提供参考;另外还要进行整合的操作流程的研究,为整合部门提供最佳的整合实施方案。 5. 2 信息资源整合技术研究 信息资源整合涉及的领域很广,所应用的技术也很多。例如,数据的组织技术,研究不同类型、不同结构的数据如何组织在一起;数据转换技术的研究,解决不同格式、不同平台下的数据转换问题;索引技术的研究,主要解决整合后的索引如何构造的问题,这些索引要满足不同检索算法和检索需求,如,全文检索、同义词检索、排除检索、扩检和缩检等;数据描述技术的研究,如,信息源的语义内容描述、语义的识别能力及信息重复率,覆盖度等研究,也包括如何用元数据来表达整合后的数字信息;信息自动化处理技术,如自动标引、分类等;多媒体技术研究,包括多媒体信息的整合与检索,信息的可视化展示等;个性化服务技术的研究,如个性化推荐服务、定题信息提供( SDI)等。信息资源整合还涉及其他许多相关技术,有关整合技术的详细讨论见下节。 5. 3 整合资源的检索研究 整合的目的是方便用户获取和使用各类资源,资源的获取是通过检索手段来实现的。因此,只有对系统检索充分研究,才能使其发挥最大的作用。例如:检索算法的研究,其中涉及全文检索、组合检索、概念或语义检索、基于本体的检索等; 优化检索的研究,如自动扩检和缩检、排除检索、同义词检索等; 跨越式检索(或称集成检索)技术的研究,如一站式检索、跨库检索、跨语言检索、跨平台检索等;多媒体检索技术的研究,如模式识别、可视化检索等; 其他检索方面研究内容, 如检索协议( Z39. 50等) 、检索结果的相关性研究等等。 5. 4 信息资源整合系统评价研究 评价信息资源整合系统的目的是为了改善整合系统,提升其运行效率。如何进行信息资源的评价? 针对哪些方面进行评价? 如何确立评价标准? 这些都是需要研究的内容。一般说来,评价信息资源整合系统可从以下几个方面着手。 (1)资源的评价。是否完整,即在你收录的学科范围内是否全面完整;是否“精”或有特色,在你收录的学科范围内是否将重要资源或精华资源都收录了,是否具有与他人不同的特色资源;资源的价值如何;等等。 (2)资源的组织评价。资源间的关联是否实现了无缝连接;资源的组织结构是否便于实现多种途径的检索;是否便于增删改;等等。 (3)检索平台的评价。是否实现了一站式检索;是否能够跨库、跨语言检索;是否对冗余结果进行了处理;是否进行了相关性输出;等等。 (4)检索效率的评价。如: 检索的反馈速度、检索的功能、查全率和查准率等评价。 (5)系统的服务功能以及它产生的经济和社会效益评价。 此外,评价的研究还应包括资源利用率的评价、评价体系与评价指标的研究等。 5. 5 信息资源整合前沿研究 下一代互联网发展趋势主要表现为: GGG ( GreatGlobal Grid)中的网格计算、语义网( Semantic Web)中的基于语义的信息表示等新的服务模式的出现。在GGG或语义网环境下的信息资源整合研究是当前比较热门的一个前沿研究。 针对日益增长的多媒体数据检索需求,研究TB级以上容量的海量多媒体的信息检索的有效机制,从多种类型的多媒体中建立起跨媒体的语义网络,实现跨媒体的数据整合、识别与综合检索,研究复杂媒体数据以及检索机制,建立智能高效的海量数据检索,对复杂媒体数据(如视频、3D模型、动画等)的智能处理技术及检索机制的研究,跨媒体信息整合、识别与检索技术,跨媒体知识的表达与推理的研究,跨媒体海量信息的综合检索系统实现。 信息资源整合前沿研究还包括知识整合(集成)研究,如何将隐性知识显性化、如何对各种知识进行有效集成,如何更有效为决策服务,这些都有待今后深入研究。 以上给出了信息资源整合研究的几个主要方面,实际上其研究还涉及其许多方面。如,对信息资源整合实施中涉及到的知识产权问题;整合的规范与标准问题;信息资源整合环境下的人才培养等,都是信息资源整合研究的内容。 6 信息资源整合关键技术 信息资源整合不仅仅是把信息资源聚集在一起,而是涉及到对信息描述、组织、处理、整序、检索、服务等方方面面,这些方面都需要有一定的技术来支撑。具体技术主要包括如下几个方面。 6. 1 数据的组织、转换相关技术 数据的组织技术主要解决不同类型、不同结构的数据如何组织在一起;如信息资源涉及到的分类控制方法:行业分类表、地区分类表、中图法范畴分类体系、用户自定义分类体系等资源多分类组织技术。数据转换技术主要解决将不同格式、不同平台下的数据转换问题,MARC、DOC、PDF、TXT等不同格式的文件的格式分析,数据交换或转换技术,数据的查重去重技术等。此外还包括数据封装技术,如XML技术。 6. 2 索引技术 索引技术的研究,主要解决整合后的索引如何构造的问题,这些索引要满足不同检索算法和检索需求,如,全文检索、同义词检索、排除检索、扩检和缩检、集成(整合、跨库、一站式)检索技术(涉及到关键词、主题词、分类导航、元搜索、TOP - K集成检索等整合检索) 、跨语言的信息检索技术、概念检索技术(利用同义词词典、概念词典)等进行基于概念(或基于语义、基于本体)的检索。 6. 3 数据描述技术 信息源的语义内容描述、语义的识别能力及信息重复率,覆盖度等研究,也包括如何用元数据来表达整合后的数字信息,信息标引中所使用的元数据标准(如DC) ,元数据之间(如DC与MARC)的兼容互换、不同分类体系之间(如DDC号与中图分类号)的自动映射技术等。 6. 4 信息自动化处理技术 信息的自动标引(包括智能分词、信息抽取、信息过滤、话题跟踪、关键词标引、主题标引、概念标引及其它元数据的自动标引) 、自动分类(分类也是一种整合) 、自动文摘、自动篇章分析、机器翻译(多语种的资源进行整合时)等。智能信息处理中所应用的方法,如数据挖掘、机器学习、自然语言处理技术、本体工程等。 6. 5 多媒体技术 包括多媒体内容分析技术,视频、图像压缩技术、其它图像处理技术(如图像的灰度化、二值化、纠偏、去污处理等) 、对图像文件进行图像、文字的自动识别技术,多媒体信息的整合与检索,信息的可视化展示,如:数据多维层次显示技术、数据集成显示技术、图文关联技术、基于模块的数据显示方式选择。 6. 6 个性化服务技术 个性化可以划分为界面风格的个性化(包括面向各个用户的个性化风格、提供资源服务的风格界面与其它Web应用系统的界面的一致性风格等) 、提供个性化的资源(就图书馆整体来说,提供特色资源,就用户个体来说,提供个人化的资源) 。后者涉及到的核心技术有用户检索行为的获取、分析与利用、用户反馈检索、用户检索历史的应用、个性化推荐服务、信息协同过滤等、定题信息提供( SD I)等。 6. 7 其他关键技术 信息资源整合涉及到的其他的关键技术主要包括:信息资源整合的相关标准、协议,如元数据标准,数据转换标准及检索协议,如Z39. 50 等;在新一代网络环境下的资源整合技术,如GGG或语义网环境下的信息资源整合技术;此外,还包括动态信息发布技术,分布式软件体系,网络安全控制技术等。 信息资源整合涉及到关键技术主要为计算机软件技术,这些技术的应用背景为:资源管理者在信息资源整合理论的指导下,依据信息资源整合原则,对信息资源进行有效规划整合。在实施信息资源整合项目时,需要图情专业人员、领域专家及计算机专业人员通力合作,协同配合,这样才能达到资源整合的最终目标。 7 信息资源整合引发的网络服务变革 资源整合后,信息服务部门的信息资源将成为一个整体,过去在不同资源中来回切换的访问变成了一站式服务,过去的等待服务转变成了主动服务,服务的深度加强了,服务的范围扩大了,人们已经意识到信息资源整合将为网络服务带来新的变革。 7. 1 从信息服务到内容服务的转变 资源整合以后,信息资源管理单位拥有统一的用户交互接口,提高了资源的获取效率并方便了用户使用。更重要的是,整合后的资源其间关联更加紧密,许多隐藏在信息中的知识逐渐显现或能够被挖掘出来,人们对知识服务的需求已经可以得到满足。因此,从信息服务到内容服务、知识服务的转变,已成为一种必然。 由于信息爆炸引发的信息泛滥,人们在大量的信息中往往感觉到无所适从,现代社会的快节奏也使人们对信息的获取要求更直接更有针对性,希望能够得到解决问题的知识或具体的内容和数据。Web基于内容单元的超文本链接方式,以及信息资源整合后的相关内容的连接,使内容服务成为可能。整合后的资源其全文检索、主题词检索、关键词检索都是直接针对信息内容的,检索结果的多文档摘要是提供内容服务的又一新的途径,数据挖掘可以为用户提供更深入的内容和解决问题的知识。总之,整合后的信息资源服务主要是基于内容和知识,将彻底实现从信息服务到内容服务的转变。 7. 2 从等待服务到主动服务的转变 长期以来,信息服务部门大多以等待服务或被动服务为主的服务形式,这种服务最大的缺陷就是,由于用户对资源缺乏了解和对系统使用技能的掌握,使之不能得到及时和有效的服务。但是,在传统的信息服务系统下,要做到或者说要做好主动的信息提供是非常困难的。网络环境下的资源整合系统则可以使主动的信息提供很方便的做到和做好。 主动服务有两种方式:一种类似于过去的SD I服务,由用户在网上填写信息需求申请单,以后就根据用户的需求申请定期或一旦有了新信息,就把符合用户需求的信息自动发往用户的电子邮箱中;另一种是主动推送服务,即根据用户的使用情况,进行使用挖掘,发现用户一段时间关心的内容,系统主动把相关的信息提供给用户。主动服务实际上是一种个性化的推荐服务,这种服务使用户能够更为及时方便地得到自己所需要的信息。 7. 3 基于知识共享的服务网络 传统的信息服务机构是以拥有大量丰富的信息资源,将信息资源集中在信息服务机构的物理空间为前提的。信息资源整合后,用户利用信息资源依赖信息服务机构物理实体的程度大大降低,信息服务机构原来的以“拥有资源”为中心的指导思想正在转变,工作的重点正在重新确立,并正转向以“整合”信息资源为中心提供信息服务。通过信息资源整合,知识达到充分共享的程度,知识价值得到充分体现。今后的信息服务机构的资源将会向整合化方向发展,提供的服务由最初提供单一的物理实体服务,向多层次、多元化、数字化的知识共享服务方向发展。 8 结 语 从理论上来说,信息资源整合涉及图书馆学、情报学、系统论、信息论、运筹学、认知心理学等多个学科的理论知识。从信息自身的生命周期来说,信息资源整合贯穿了整合信息采集、加工、服务、评估过程,涉及到多项技术。在此过程中,信息资源整合将信息组织,信息构建,信息表示,知识组织,知识表示,信息检索等多种知识主题有机地联系起来,在当今信息化时代,各行各业数字化逐渐深入的背景下,信息资源整合的相关理论和实践为图书馆学、情报学的发展提供了新的机遇和挑战,为图书馆学、情报学研究提供了新的视角。集成或整合本身就是一种创新,信息资源整合理论、方法与技术正是结合多个学科的研究成果,使得其成为当前最热门的研究项目之一。随着今后新的应用平台的出现、新的信息资源的产生、新的服务模式的推出,图书情报界对信息资源整合的研究和实践将永不停息。 参考文献: 1 J. M. Smith, P. A. Bernstein, U. Dayal, N. Goodman, T. Landers, K. Lin, and E. Wong, "Multibaseintegrating heterogene ous distributed database systems, " in Proceedings of the National Computer Conference. AFIPS Press, Montvale, NJ, 1981: 487 - 499 2 Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer, 1992, 25 (3) : 38 - 493 R. Hull, Managing semantic heterogeneity in databases: A theoreticalperspective, in: ACM Symposium on Princip les ofDatabase Systems,Tucson, Arizona, 1997: 51 - 61 4 Marti A. Hearst. Information Integration. IEEE Intelligent Systems, 1998, 13 (5) : 12 - 24 5 May, Wolfgang; Lausen, Georg. A uniform framework for integrationof information from the web. Information Systems. 2004, 29 ( 1) : 59- 91 6 Martin Doerr, Jane Hunter, Carl Lagoze. Towards a Core Ontology forInformation Integration. Journal of Digital Information, 2003, 4 (1) 7 http: / /www. gotodigit. com /home. htm (Accessed Feb. 8, 2005) 8 http: / /www. trs. com. cn /p roducts/dls/ trsiip ( Accessed Feb. 8,2005) 9 Pearce, Judith, Warwick Cathro and Tony Boston. 2000 " The Challenge of Integrated Access: the Hybrid Library System of the Future".Books and Bytes: Technologies for the Hybrid Library. Melbourne,Victorian Association of Library Automation Inc. , 2000 10 Peter Haddad. Integrating Digital Resources into the Library Informa2 tion Infrastructure. 14 th National Cataloguing Conference, Geelong Waterfront Campus, Deakin University, 2001, 11, 7 - 9 11 Grahne, G.A.Asta; Kiricenko, Victoria. Towards an algebraic theory ofinformation integration. Information and Computation. 2004, 194 (2) :79 - 100 12 Rousset, Marie - Christine; Reynaud, Chantal. Knowledge rep resen2 tation for information integration. Information Systems. 2004, 29 (1) : 3- 22 13 黄晓斌,夏明春. 信息资源整合研究的现状及发展方向. 图书情报工作, 2005, 28 (1) : 75 - 77 14 范爱红,姜爱蓉. 基于知识管理的学术信息资源整合体系——对ISIWeb of Knowledge的评介. 现代图书情报技术, 2001, (6) : 43 46 15 李富玲,卢振波. SFX——信息资源整合新工具. 现代图书情报技术, 2002, (06) : 69 - 71 16 王平,姜爱蓉. 国内外数字信息资源整合管理系统的对比研究与思考. 上海交通大学学报, 2003, 37 ( S) : 164 - 170 17 马文峰. 信息资源整合研究. 中国图书馆学报, 2002, 28 ( 04) : 64- 67 18 马文峰. 基于知识组织理论之上的信息资源整合. 情报资料工作, 2003, (1) : 26 - 28 19 程丽,粟慧. 浅论高校图书馆信息资源整合. 图书馆建设, 2004(2) 20 刘新周. 图书馆信息资源整合浅谈. 科技情报开发与经济, 2004(8) 21 黄晓斌,夏明春. 论图书馆信息资源的整合. 图书情报工作, 2005(1) : 50 - 53 22 黄晓斌,夏明春. 信息资源整合研究的现状及发展方向. 图书情报工作, 2005 (1) : 75 - 77 23 赵海霞,姜雷. 电子文献资源整合的社会动因分析. 情报资料工作, 2005 (1) 24 胡忠红,王以群,龙颖. 局域网与Internet信息资源整合. 情报科学, 2002, 20 (5) : 506 - 508 25 金更达. 网络资源界面整合和Agnet界面实现探讨. 大学图书馆学报, 2002, 20 (1) : 30 - 34 26 崔宇红,刘涛. 图书馆信息资源与OPAC系统的整合. 图书馆杂志, 2003 (1) : 55 - 56 27 张文德,戴晓翔. 信息资源整合系统与技术研究. 现代图书情报技术, 2003 (6) : 72 - 73 |