当前位置:文档之家› 基于网络引文的网上学术资源利用规律研究——以图书馆学与情报学为例

基于网络引文的网上学术资源利用规律研究——以图书馆学与情报学为例

情报学报 

ISSN1000-0135

第29卷第3期497-505,2010年6月

JOURNALOFTHECHINASOCIETYFORSCIENTIFICANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.3,497-505June 2010

收稿日期:2009年2月23日

作者简介:邱均平,男,1947年生,武汉大学教授,博士生导师,中国科学评价研究中心主任,枟评价与管理枠杂志主编,研究方向:信息计量与科学评价、知识管理与竞争情报等。E-mail:jpqiu@whu.edu.cn。杨思洛,男,1979年生,湘潭大学公共管理学院讲师,博士生,研究方向:网络信息资源管理。

1) 基金项目:本文系国家自然科学基金资助项目(70673071)课题研究成果之一。

doi:10.3772桙j.issn.1000-0135.2010.03.017

基于网络引文的网上学术资源利用规律研究

1)

———以图书馆学与情报学为例

邱均平 杨思洛

(武汉大学信息资源研究中心,武汉430072)

摘要 互联网已成为科学研究获取、

交流信息的重要渠道与载体。本文以CSSCI中图书馆学与情报学两学科2005~2007年的论文为样本,从网络引文的角度分析网上学术资源利用分布情况。统计并对比分析两学科网络学术资源利用的数量与类型,从网络引文网址的网页级、服务器级、网站级进行频次分析,并用SPSS进行回归拟合。发现网络学术信息已得到普遍使用,对其利用具有一定的选择性与规律性;得出了网络信息资源利用呈现的聚散分布结构,及两学科利用的系列高频次网址;表明网络引文频次分布与幂、平方、三次方函数模型都有较好的拟合度,其中与三次方模型十分吻合。

关键词 Web引文 网络信息资源 学术信息

TheStudyoftheUtilizationLawofWebAcademicRecourseBasedonWebCitation

QiuJunpingandYangSiluo

(ResearchCenterforChineseScienceEvaluation,WuhanUniversity,Wuhan430072)

Abstract Internethasbecometheimportantchannelandcarrierofscientificresearch.Inthispaper,thearticlesinlibrary

andinformationscienceinCSSCI(2005~2007)beselectedassample.ThedistributionofwebacademicresourceshasbeenanalysisfromtheviewofWebcitation.westatisticandanalysistheutilizationquantityandtypesoftheWebcitationintwo

disciplines,andanalysistheURLfrequencyfromwebpage-level,serverlevel,sitelevel,andfitSPSSregression.WefoundthattheWebacademicinformationhasbeenwidelyused,itsusehasacertainselectivityandregularity;wedrawthedistributionstructureofWebresourceutilizationandaseriesofhigh-frequencywebsitesinthetwodisciplines.Wealsofindthefrequencydistributionofwebcitationfitfinelywithpower,square,andcubicfunctionmodels.

Keywords Webcitation,Webinformationresource,academicinformation 随着计算机网络技术的发展和互联网的深入普

及应用,网络成为科学研究获取、交流信息的重要渠道与载体。对网上学术信息资源的利用与分布规律的研究无疑具有重要意义。网络引文又称网络(电子)参考文献,Web引文,是指学术论文后面所附的、其来源出处是因特网资源的参考文献,实际上是用作引文的网络信息资源,其突出特征是参考文献著

录内容中含有网址(URL)。它是网络资源应用于学

术研究的最直接表现,是学科专家对网上学术资源的一种变相的同行评议,说明了对网络资源学术价值的认可,反映学者们利用网络信息的情况,与访谈和问卷调查等方式相比,它具有客观、实用与针

对性[1,2]

目前网络引文研究内容主要分为网络引文的使

794—

用(是否可以使用、怎样进行使用)和网络引文分析(引文分布分析、可获得性分析、影响与应用分析)两方面[3]。Dellavalle分析了枟Science枠等三种杂志在2000~2003年所载的1000篇论文,发现30%的论文拥有一条以上的网络引文,网络引文占所有引文的2畅6%[4]。2000年YinZhang分析了10种图书情报学杂志,发现1991~1998年期刊论文引用网络信息的比例从0畅2%增到5畅2%,含网络引文的文章数的比例从1畅8%上升到33畅9%。SusanDavisHerring通过引文分析了在学术电子期刊中利用网络资源的状况,包括引文数量与类型[5]。Ducut则对生物医学论文网络引文的URL字符长度、域名类型等进行统计[6]。国内张翠英等进行了系列相关研究[7,8],分析了我国图书情报学科7种核心期刊的网络引文,包括网络引文量、网络引文率、引文频次、来源分析[9]。胡德华等则统计了情报学期刊中含网络引文的论文占总论文的比例,网络引文占总引文的比例,网址域名的分布及其可获取性[10]。从已有研究来看,对于网络引文的分布与利用研究处于初步探讨阶段。我们试图在已有研究的基础上,从学科的角度,通过较大规模的数据样本,基于网络引文对网上信息利用的相关情况进行系统的分析。

1 数据来源

CSSCI(中文社会科学引文索引)是我国人文社会科学重要的信息查询与研究评价工具。按定量与定性相结合的原则从国内3500种中文人文社科期刊中精选出学术性强、质量高、编辑规范的学术期刊作为来源期刊,提供多种信息检索途径。因为图书情报界专业人员具有较强的信息意识、较高的利用网络信息资源能力,在使用网络引文时也较为规范,且图书情报的网上资源相对丰富。因此本文选用CSSCI中图书馆学和情报学两学科的所有论文的网络引文作为数据源。具体选择“来源文献数据库”,限定检索项选择“二级学科”下的“图书馆学”和“情报学”,分别按年(2005~2007年)进行数据汇总。下载的文献类型有论文、综述、评论、传记资料及报告。

由于网络引文的特点,网址小到一个标点符号或大小写差异都可使得引文出错。错误来源于作者,期刊编辑,索引录入等多方面。所以对下载的记录输入EXCEL后花费大量时间进行人工处理,主要是根据网址的规范格式、URL的语法规则、查询原文及浏览网络引文的页面等信息逐条验证,纠正了部分结果。然后分步分析网络引文的数量、域名类型、频次特征等利用状况。

2 网络资源的利用数量

在CSSCI中,2005~2007年这三年内,图书馆学和情报学两学科收录的论文数量无大的变化,但每年有少的波动。图书馆学共有论文3754篇,而情报学有论文2550篇。无引文的论文包括没有文后参考文献的所有论文,主要是一些没有参考文献的会议综述与纪要、专题评论或报告。相对情报学,图书馆学无引文的论文要多些,三年中达到293篇。引文数量为所有论文参考文献总数,尽管各年论文量有波动,但引文量呈逐年增加趋势。网络引文也有同样的变化趋势,三年中图书馆学和情报学论文分别有网络引文5471条和3684条,两学科共9155条。篇均网络引文量为:网络引文量桙(各时段论文量-无引文论文)。从表可看出,网络信息资源得到广泛使用,两学科平均每篇论文有1畅3~1畅8条网络引文。网络引文百分比为各时段网络引文量占所有引文量的百分比。三年中,图书馆学和情报学论文引文中,网络引文分别占16畅24%和14畅73%。从表中数据也可看出,总体上图书馆学比情报学论文更多地引用了网络信息资源。

表1 网络引文利用的数量

学 科图书馆学情报学

年份2005年2006年2007年合计2005年2006年2007年合计论文数量(a)11401211140337548217669632550无引文的论文

数量(b)

911039929334242684

引文数量(c)9779112111270433694720173861043025017网络引文量(d)14451780224654711062122413983684篇均网络引文

(d桙(a-b))

1畅381畅611畅721畅581畅351畅651畅491畅49网络引文

百分比(d桙c)

14畅7915畅8817畅6816畅2414畅7516畅5913畅414畅73

3 网络资源的利用类型

网络引文中包括所引网络资源的网址信息(URL),据此可归纳出利用网络资源的类型。URL一般格式为(带方括号为可选项):protocol:桙桙

894

情报学报 第29卷 第3期 2010年6月

hostname[:port]桙path桙[;parameters][?query]#fragment。protocol(协议):指定使用的传输协议,最常用的是HTTP协议。hostname(主机名):是指存放资源的服务器域名,域名可分为不同级别。port(端口号):整数,可选,省略时使用默认端口。path(路径):由零或多个“桙”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。parameters(参数):这是用于指定特殊参数的可选项。Query(查询):可选,用于给动态网页传递参数[11]。通过URL这种特殊的层次结构可进行频次分析。以http:桙桙news.xinhuanet.com桙zhengfu桙2003-03桙06桙content-761881畅htm为例,①整个网址为具体网页的地址。

②news.xinhuanet.com是服务器域名地址,域名是对应于IP地址的用于在互联网上标识机器的有意义的字符串。③xinhuanet.com为特定网站地址的共同部分,一般为特定机构所拥有,有独立域名和组织结构。网站由一个或多个服务器组成,每个服务器承担某类功能或构成子网站。④.com为网址类型。

⑤http:是信息传输协议。

3畅1 网址类型

通过网址的类型,可以了解网络引文的来源状况、分布的集中程度,可以得出某学科学者们利用网络资源比较集中的网址类型信息。根据顶级域名,可将网址分为九类:7种最常用域名包括.com(公司),.net(网络机构),.org(组织机构),.edu(教育),.gov(政府部门),.ac(学术),.int(国际组织),另外还有直接用IP的网站和直接用国别域名及新出现的域名(如.biz(商业),.coop(合作公司),.info(信息行业),.aero(航空业),.pro(专业人士),.museum(博物馆行业),.name(个人)等)的网站。不同网站的信息由于其侧重点不同,因此对用户产生的影响也有主次大小之分。对学术界用户来说,有关科研、教育等学术性信息最重要。从表2可看出,2005~2007年这三年的两学科论文网络引文情况,各类型分布较为稳定。研究者最常用的是.com、.org、.edu这三类网站的信息。图书馆学和情报学中,三个类型网站共分别占到71畅41%和69畅25%的比例,是大多数学者利用的重点,是网络核心引文源。但在情报学中使用最多的类型为.com,而图书馆学中使用最多的却是.org,占到总数的28畅86%。

与一般论文引文一样,论文引用网络资源也有一定时间滞后,故我们以2005年的实际情况作对比分析。2005年全国网站数约为69畅4万个,所有网站中以.com类型的网站最多,占总数的61畅27%,其后依次是.net(9畅96%)、.org(3畅56%)[12]。2005年全球域名的分布情况:.com占全球域名总量约43畅9%;.

edu、.org、.gov占全球域名总量极小比例,分别为2畅16%、0畅95%、0畅34%;.net站点占全球高达35畅97%[13]。

网络上的信息分布广泛且质量参差不齐,但是图情界学者在利用时呈现出一定选择性。除.com占全球域名总量的比例较高外,.edu和.org占全球域名总量比例很少,但两种类型引文比例却很高。占全球高达35畅97%的.net站点,在网络引文中所占比例仅为4畅92%和6畅51%。

表2 2005~2007年网络引文的网站类型

学 科图书馆学情报学

年 份2005年2006年2007年合计百分比2005年2006年2007年合计百分比.com264472599133524畅40339374394110730畅05.net79891012694畅926283942396畅51.org448461670157928畅8623828031683422畅64.edu28433737299318畅1517619124361016畅56.gov851111273235畅9053112922576畅98.ac901101153155畅765755541664畅51.int34290畅1632270畅19IP4233491242畅2731615521畅38其他1501632115249畅5810312118841211畅18合计144517802246547110010621224139836841003畅2 网页类型 

网络引文往往具体对应特定网络信息资源。根据不同标准,网络资源可分为多种类型。最常见的有HTML、PDF、Word(doc)、PPT等。因为人们在使用过程中没有严格规范,如有些仅仅是标注网站。特别是许多超文本类型的网页并没有以.html或.htm为后缀,所以只能在大体上反映网页类型。

在所有引用的网页中,HTML类型引文最多,其次是PDF格式,图书馆学和情报学分别达到12畅25%和15畅56%,随着PDF越来越成为网络学术信息的标准格式,相信其比例还会有所提高。另外PPT和Word格式的引文也占有一定比例。而动态网页(ASP、PHP、JSP)在两个学科中都是逐年增加,分别占有11畅35%和9畅74%。两学科的“其他”类都占有总数的1桙3以上,主要是一些直接以网站或主机形式著录的引文。

994

基于网络引文的网上学术资源利用规律研究

表3 2005~2007年网络引文的网页类型

学 科图书馆学情报学

年 份2005年2006年2007年合计百分比2005年2006年2007年合计百分比HTML639727849221540畅49485366468131935畅80PDF15318932867012畅2511521424457315畅56DOC141729601畅10152627681畅86PPT161935701畅2841516350畅95ASP,

PHP,

JSP

10521030662111畅3588921793599畅74其他518618699183533畅54355511464133036畅10合计1445178022465471100畅001062122413983684100畅004 网络引文的频次分析

美国的引文分析专家———加菲尔德教授曾根据期刊引证报告(JCR)提供的数据制成引文累积量按被引期刊数量的分布曲线,表明期刊集中趋势比布拉德福定律描述的论文分布更加明显[14]。枟科学引文索引枠数据库中所有参考文献的75%来自不到1000种被引期刊;500种期刊发表的被引文献占SCI收录参考文献的70%。他根据多年的统计数据,深入的研究分析,提出著名的加菲尔德引文集中定律(Garfield’sLawofConcentration)。在国内,中国科学引文索引(CSCI)收录引文的期刊也有类似的分布[15]。那么是不是网络引文的分布也有这种集中的趋势呢?

根据URL的结构,我们对引文的频次分布通过三个层次进行分析:①网页级,就是根据引文中的网站地址URL直接计算频次。②服务器级是根据URL中的hostname(主机名)来分析,它是指存放资源的服务器域名(显著特点是在URL中有“桙”符号与其它部分分隔开)。按服务器(子网站)层次研究引文频次,是把主机名相同的网址进行聚集分析。

③网站是指有独立域名的站点,网站级是根据独立域名进行网络引文频次分析,把独立域名相同的网址聚集。目前互联网上的域名体系中[16],共有三类顶级域名:一是地理顶级域名;另一类是类别顶级域名,共有7个;随着互联网的不断发展,根据实际需要还扩充了新的顶级域名。在这些顶级域名下,可再根据需要定义次一级的域名,在国别(如cn)下设立com、net等域名,以及各个行政区划的字母(如BJ代表北京,SH代表上海)等域名。独立域名是指单独拥有以上几类域名地址。对于直接以IP地址出现的网址,很难分辨出顶级域名,故直接以服务器

IP计算频次,因为这部分数量很少,可认为不会对结果造成显著影响。

基于网页级的网络引文网址分布呈现一定的集中分散趋势,但与一般引文不同,其分散程度相当大,而集中程度不太明显。这与网络资源本身的分散、内容雷同、信息多等特点有关。而基于服务器级的网址分布中,两学科引文聚散现象比较明显,在图书馆学科中1桙3的网络引文(1823条)集中在4%的网址(107个)中,19%的引文集中在1%的网址(27个)中,52%的引文由14%的网址提供;但同时,36%的引文量(1962条)却分散在占总数近3桙4的网址中(1962个)。在情报学中,1%的网址(21个)包含有12畅46%的网络引文(459条);30%的引文集中在5畅73%的网址中;58%的引文也只由占总量1桙4的网址提供。

根据表4和表5,在2005~2007年这三年中,基于网站级别的引文网址频次分布中,图书馆学比情报学有更多的高频次网站,聚集得也更集中,一方面是因为统计的图书馆学引文比情报学的要多,另一方面则说明图书馆学专业性更强,人们使用网络资源时有更加集中的表现。在图书馆学科中,占总数1%的网站(20个)拥有近20%的引文网址(1080条),超过50%的引文(2786条)集中在8%的网站(54个)中,而近3桙4的引文由30%的网站提供;同时,占总量1桙4(1412条)网络引文分布在70%的网址(1412个)中。在情报学,占总数1畅16%的网站贡献了15畅26%的网络引文,近一半的引文由12%的网站提供,而近70%的引文网址来自不到1桙3的网站,同时占总量30%(1118条)网络引文分布在70%的网址中。

图1为图书馆学和情报学两学科,在三年内基于网站级的网址频次分布曲线。可以看出网络引文网址呈现的分布曲线。部分引文集中于少数网址中,另一部分分散于大量网址中。图1与加菲尔德的引文分布曲线较为相似。与基于网页级和基于服务器级分布曲线相比,网址聚集程度更加集中。网络学术信息利用的频次差异,一方面是各网站规模大小所造成,这有待于在绝对频次基础上计算相对的聚集效应;另一方面更重要的是学者们对学术信息本身的质量及可获得性等相关因素综合考虑的结果,使得出现了利用上的不同。

005

情报学报 第29卷 第3期 2010年6月

表4 基于网站级的各年网址分布

图书馆学情报学

2005年2006年2007年2005年2006年2007年

被引频次网站数量被引频次网站数量被引频次网站数量被引频次网站数量被引频次网站数量被引频次网站数量150316251756143214761612210129921312842882973333373513323383454194194334174204225115155225155145206561261367611687478787279728587810838382969398929195104104102103113102112113113111171111121121122131181133132134131141211141142142154161241161151151163411331171161162172301172171191

201183202

321191211

361211221

371221262

401261272

301321

411331

421421

表5 基于网站级的2005~2007年网址频次

图书馆学情报学

被引频次(X)网站数

量(Y)

引文数

量(XY)

累积网站

量(∑Y)

累计引文

数量(∑XY)

累积网站

百分比

累计引文

百分比

被引频

次(X)

网站数

量(Y)

引文数

量(XY)

累积网站

量(∑Y)

累计引文

数量(∑XY)

累积网站

百分比

累计引文

百分比

106110611060畅051畅94104110411040畅062畅82105110522110畅103畅864414421480畅124畅029019033010畅155畅503513531830畅184畅977517543760畅206畅873013042130畅245畅787217254480畅258畅192912952420畅316畅576716765150畅299畅412812862700畅377畅33

105

基于网络引文的网上学术资源利用规律研究

续表5

图书馆学情报学

被引频次(X)网站数

量(Y)

引文数

量(XY)

累积网站

量(∑Y)

累计引文

数量(∑XY)

累积网站

百分比

累计引文

百分比

被引频

次(X)

网站数

量(Y)

引文数

量(XY)

累积网站

量(∑Y)

累计引文

数量(∑XY)

累积网站

百分比

累计引文

百分比

5415475690畅3410畅402725483240畅498畅795115186200畅3911畅332512593490畅559畅474914996690畅4412畅2324248113970畅6710畅7844144107130畅4913畅0322244134410畅7911畅9741141117540畅5413畅7821121144620畅8612畅5440140127940畅5914畅51205100195621畅1615畅2639278148720畅6915畅9419119205811畅2215畅7738138159100畅7416畅6318118215991畅2816畅2636136169460畅7817畅2917351246501畅4717畅643431021910480畅9319畅1616116256661畅5318畅08321322010800畅9819畅7415230276961畅6518畅89311312111111畅0320畅3114456317521畅8920畅41303902412011畅1821畅9513339347912畅0821畅47281282512291畅2322畅4612560398512畅3823畅10272542712831畅3223畅4511555449062畅6924畅59263783013611畅4724畅8810141405810463畅5428畅39241243113851畅5225畅32910906811364畅1530畅84232463314311畅6226畅168171368512725畅1934畅53223663614971畅7627畅36711779613495畅8636畅62212423815391畅8628畅1362313811914877畅2740畅36201203915591畅9128畅5053417015316579畅3544畅98192384115972畅0129畅19444176197183312畅0349畅76183544416512畅1630畅18389267286210017畅4757畅001761025017532畅4532畅042233466519256631畅7069畅65164645418172畅6533畅2111118111816373684100100154605818772畅8434畅31

145706319473畅0935畅59

1381047120513畅4837畅49

127847821353畅8239畅02

116668422014畅1240畅23

106609022614畅4141畅33

91311710323785畅0543畅47

8129611524745畅6445畅22

71812613326006畅5247畅52

63118616427868畅0450畅92

542210206299610畅1054畅76

455220261321612畅7958畅78

3109327370354318畅1464畅76

2258516628405930畅7874畅19

11412141220405471100100

205

情报学报 第29卷 第3期 2010年6月

O。O30。O30。O寸O。020。OQO。O30。O80。OaO。OIOO。O

图书妲丧豳辑凿蚶菩

O。0200。01000。01200。03000。0S200。0

;\

i\

i\\

、、、

、\、

—\、.

O。O

30。O

30。O

寸O。0

20。O

QO。O

30。O

80。O

aO。O

IOO。O

,埠辖丧豳辑凿蚶菩

0300寸OOQ0080010001300I寸OOIQ001800

I..~

;\

;\

。\

‘\

‘\。

-、、I一

\-

—’—~\。.

坐“磔故删一%

坐“磔故删一%图1 基于网站级的2005~2007年引文网址分布图

 

表6 基于网站级的2005~2007年引文分布模型拟合

拟合总况参数估计

RSquareFdf1df2Sig.Constantb1b2b3

图书馆学情报学两学科合计二次方0畅955455畅2082430畅000143畅397-14畅3080畅313

三次方0畅99914254畅3873420畅000-36畅6817畅032-0畅2700畅004幂0畅944740畅2461440畅0000畅0991畅850

二次方0畅985945畅9472280畅00072畅210-8畅2280畅232

三次方1畅00092846畅2963270畅000-12畅8423畅109-0畅0880畅002幂0畅9851857畅0991290畅0000畅1211畅894

二次方0畅939419畅8142550畅000221畅214-22畅1650畅476

三次方0畅9988551畅1143540畅000-72畅03312畅986-0畅4960畅007幂0畅9611373畅2581560畅0000畅1021畅938

下面分三个层次对两学科的引文数据进行拟合分析。把累积网址量作因变量,累积引文百分比作为自变量,分别对两学科的数据用SPSS13畅0作回归拟合分析。无论是两学科各自分开计算还是两学科引文合并统计,发现引文数据在幂、平方、三次方函数分布中,都具有较好的拟合度,其中与三次方函数十分吻合。如表5,在基于网站级层次中,把累积网址量作因变量(y),累积引文百分比作为自变量(x),情报学的引文三次方和幂次方分布式分别为:y=0畅002x3-0畅088x2+3畅109x-12畅842(0≤X≤100);y=0畅121x1畅894(0≤X≤100)。

基于网页级高频次网址分布中,绝大部分网址都只引用过一次,图书馆学的各年引文频次分布较均匀,而情报学个别网站聚焦更加集中。两学科的高频次网站并不相同,这也说明两学科学者在使用网络资源的区别。图书馆学高频次的网址许多是属于图书馆学专业机构;而情报学引文中包括有许多计算机信息领域的网址。对基于服务器级的分析,两学科相同的高频次网址有www.ala.org(美国图联),www.arl.org(美国研究图书馆协会),www.dlib.org(数字图书馆杂志),www.oclc.org(联机计算机图书馆中心),www.w3畅org(万维网联盟)。

表6列出了基于网站级的2005~2007年,两学科的网络引文所在网站中,大约前1%的高频次网址(分别占有两学科约20%和15%的网络引文),两学科利用的最高频次网址同是w3畅org(万维网联盟),且频次也相近。但是情报学除了第一个网址频次较高外,后面的网址聚集程度并不高。虽然与基于服务器级网址分布有一定差异。但都是图书馆学或情报学研究的核心网络资源,大都是图书学或情报学领域的相关组织、具有一定学术研究基础的权威机构,或者是在相关技术领域具有相当影响力的组织网站。这也说明这些网络信息资源具有较高的学术性、稳定性、可靠性、真实性、权威性。

事物的聚散分布是普遍的客观现象,情报学的三大定律及社会科学中的“二八律”都是这种分布的成功归纳,网络信息也不例外。①科学发展客观规律的制约。信息集中与离散规律是信息交流过程内在规律的反映,尤其受科学发展客观规律的制约。网站学术信息的产生本身就是由学科发展的客观需

305

基于网络引文的网上学术资源利用规律研究

表7 基于网站级的2005~2007年高频次的网址列表图书馆学情报学

频次引文网址频次引文网址

106w3畅org104w3畅org

105ifla.org44stanford.edu

90ala.org35sourceforge.net

75dlib.org30pku.edu.cn

72oclc.org29psu.edu

67loc.gov28cnnic.net.cn

54arl.org

51blogchina.com27mit

.edu

nist.gov

49sina.com.cn25sipo.gov.cn

44bokee.com41microsoft.com24cnki

.net

isinet.com

40calis.edu.cn

39ibm.com

ukoln.ac.uk22berkeley

.edu

blogchina.com21nih.gov

38dublincore.org36chinalibs.net

34cornell.edujisc.ac.uknstl.gov.cn

32csdl.ac.cn31dspace.org20

ala.org

dlib.org

google.com

oclc.org

openarchives.org

要所决定的。每一网站都有特定的内容或专业性质,其编辑方针、报道内容、质量控制等都是为相应的用户或专业服务的。因此,这些网站势必会集中报道特定领域的信息;再加上各个网站自身的能力和特性的差异,使得学术信息高度集中于少数网站之中。另一方面,网站愈分愈细、愈分愈多,与此同时,各网站之间通过超链接等方式,其联系也愈来愈紧密、愈来愈复杂。网站的这种相互联系,互相渗透的情况,导致了网络信息资源异常分散的特点。②“马太效应”的影响。对荣誉的增强使用是马太效应的核心,其结果是带来“成功产生成功”。这种作用表现在网络引文上,就是综合质量高的网络资源能很快被大量用户使用,网站越办越好。由于马太效应的影响,形成网络资源的“堆加效应”,出现信息集中现象。③“最省力法则”的影响。在网络资源利用中,许多现象要受到人为选择因素的影响。而人的选择要受到“最省力法则”(求近律)的支配。人们往往愿意使用比较规范、比较容易获取的网上学术信息。例如,人们在第一次访问速度比较快、质量比较好的网站后,容易记住站点,在以后的访问中也倾向于经常使用该站资源。这种成功的累积势必容易导致新的成功,于是此网站集中越来越多的用户。同时当用户过多时,访问速度等方面限制使得用户转向别的站点,另外网络信息也有数量多、复本多且访问起来较为方便等特点,容易出现分散效应,形成利用中的“长尾现象”。这些因素的影响最终导致了网络信息利用的聚散现象。

5 结 论

网络信息资源在图书情报学界得到广泛的认可和普遍的使用,并有逐年增加的趋势。在2005~2007年这三年中平均每篇论文有1畅3~1畅8条网络引文。网络引文分别占两学科总引文的16畅24%和14畅73%。图书馆学和情报学中,研究者利用网络信息资源具有一定的选择性与规律性。最常用的是.

edu、.org、.gov网域的信息。在两学科中这三个类型分别占到71畅41%和69畅25%的比例。在所有利用的网络资源的网页中,HTML类型引文最多,其次是PDF格式和动态网页,另外还有PPT和Word类型的资源。

两学科利用的网络信息资源呈现一定的聚集和离散分布,两学科也出现了系列高频次网址,图书馆学比情报学的集中分布更加明显。通过URL的层次结构进行频次分析表明,频次分布按网页级、服务器级、网站级依次更加集中,频次分布与幂、平方、三次方函数模型有较好的拟合度,其中与三次方模型十分吻合。网络引文的这种聚散分布符合社会的普遍客观现象,与传统文献计量方面的统计规律也较为相似。

基于引文的期刊论文利用与分布规律成为目前科学评价的主流;而PageRank等从被链接的角度,对网页进行评价与排序的方法与理论是搜索引擎的核心。同理,基于网络引文角度探求网络学术信息利用的一般规律。对于更好地评价和筛选网络学术资源、分析用户的信息使用规律、发现核心学术网站、指导图书情报单位进行网络信息资源建设等具有重要意义。但目前,除引文分析固有的缺陷外,网络引文分析还有一些不足。如学者在著录网址时规范性不够,许多网址有误或者并不著录具体网址;而

405

情报学报 第29卷 第3期 2010年6月

一个网站可能有多个域名,还有的仅有IP地址;有的网站在对子域名命名时也存在混乱,这些都对网络引文分析造成一定影响。我们下阶段的研究一方面寻求克服缺陷的方法,探求网络引文利用的机理;另一方面试图基于网络引文对网络学术信息利用规律进行更为长期、大范围实证研究,特别是跨学科与多学科的分析。

参考文献

[1] 王建芳.基于计量方法的学科信息门户资源采选机制[J].大学图书馆学报,2006,24(3):33-37.

[2] 袁毅,王大勇.引文用于评价学术网站的可靠性及可行性研究[J].图书情报工作,2005,49(3):72-75.[3] 杨思洛,仇壮丽.网络引文研究的现状及展望[J].图书情报工作,2009,53(1):42-46.

[4] DellavalleRP.Going,going,gone:lostInternetreferences[J].Science,2003(10):787-788.

[5] SusanDavisHerrning.UseofElectronicResourcesinScholarlyElectronicJournals:ACitationAnalysis[J].

College&ResearchLibraries,2002(4):334-348.

[6] DucutE.AnupdateonUniformResourceLocator(URL)decayinMEDLINEabstracts.[J].BMCMedInformDecis

Mak,2008(6):214-221.[7] 张翠英,王建芳,安美荣.学术研究中的网络资源利用特征探析[J].情报科学,2004,22(9):1070-1072.[8] 张翠英.学术研究中的网络资源利用状况探微[J].情报杂志,2004,23(4):113-114.

[9] 张翠英,安美荣,王建芳,等.Web引文数量探析[J].情报学报,2004,23(5):566-570.

[10] 胡德华,方平,吴忠祖.情报学期刊网络参考文献的调查研究[J].图书情报知识,2005(6):84-86,89.

[11] 冯博琴.计算机网络[M].北京:高等教育出版社,2000:201-246.

[12] 中国互联网络信息中心.2005年中国互联网信息资源数量调查报告[OL].[2009-02-21].http:桙桙i2畅sinaimg.

cn桙IT桙images桙2006-05-15桙

U73P2T78D6545F3306DT20060516104120畅doc.

[13] InternetDomainSurvey[OL].[2009-02-21].http:桙桙ftp.isc.org桙www桙survey桙reports桙2005桙07桙dist-bynum.html.[14] GarfieldE.Citationanalysisasatoolinjournalevaluation[J].Science,1972(178),471-479.

[15] 邱均平.信息计量学[M].湖北:武汉大学出版社,2007:191-198.

[16] 中国互联网信息中心.域名常识[OL].[2009-02-20].http:桙桙www.cnnic.net.cn桙html桙Dir桙2003桙10桙20桙0909畅htm.

(责任编辑 王建平)

505

基于网络引文的网上学术资源利用规律研究

基于网络引文的网上学术资源利用规律研究——以图书馆学与情

报学为例

作者:邱均平, 杨思洛

作者单位:武汉大学信息资源研究中心,武汉,430072

刊名:

情报学报

英文刊名:JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC ANDTECHNICAL INFORMATION

年,卷(期):2010,29(3)

被引用次数:0次

参考文献(16条)

1.王建芳基于计量方法的学科信息门户资源采选机制 2006(3)

2.袁毅.王大勇引文用于评价学术网站的可靠性及可行性研究 2005(3)

3.杨思洛.仇壮丽网络引文研究的现状及展望 2009(1)

4.Dellavalle R P Going,going,gone:lost Internet references 2003(10)

5.Susan Davis Herrning Use of Electronic Resources in Scholarly Electronic Journals:A Citation Analysis

2002(4)

6.Ducut E An update on Uniform Resource Locator (URL) decay in MEDLINE abstracts 2008(6)

7.张翠英.王建芳.安美荣学术研究中的网络资源利用特征探析 2004(9)

8.张翠英学术研究中的网络资源利用状况探微 2004(4)

9.张翠英.安美荣.王建芳Web引文数量探析 2004(5)

10.胡德华.方平.吴忠祖情报学期刊网络参考文献的调查研究 2005(6)

11.冯博琴计算机网络 2000

12.中国互联网络信息中心2005年中国互联网信息资源数量调查报告 2009

13.Internet Domain Survey 2009

14.Garfield E Citation analysis as a tool in journal evaluation 1972(178)

15.邱均平信息计量学 2007

16.中国互联网络信息中心域名常识 2009

相似文献(2条)

1.期刊论文李孟臣.支茵.金坤.Li Mengchen.Zhi Yin.JIN Kun Web引文可引证性的分析-现代图书情报技术2005,""(9)

通过对2000到2003年期刊论文中的Web引文记录的统计分析,提出了引文有效率、年衰减指数和有效性半衰期等指标.基于这些指标,我们对Web资源是否适合学术引用进行了探讨,并得出结论是:在目前这种互联网环境下,鉴于网络的动态性和不稳定性,Web资源的可查证性是有问题的.同时我们还看到,由于网站发布成本下降

,Web信息趋于更加不稳定,其可查证性也随之降低.

2.期刊论文张翠英.安美荣.王建芳.姜仁珍Web引文数量探析-情报学报2004,23(5)

通过对我国图书情报学科的7种核心期刊近5年来发表论文的参考文献中的网络引文的数量分析,本文揭示了网络信息资源对学术交流活动的影响和学者们利用网络信息资源的状况.并与国外的网络引文研究进行了比较.

本文链接:https://www.doczj.com/doc/4615055799.html,/Periodical_qbxb201003017.aspx

授权使用:重庆大学(cqdx),授权号:870c7d70-ece2-4fe5-a3a7-9def0102bfe4

下载时间:2010年9月12日

相关主题
文本预览
相关文档 最新文档