文献计量学综述演示教学
- 格式:docx
- 大小:1.03 MB
- 文档页数:8
文献(wénxiàn)计量学(Bibliometrics)文献计量学是以文献体系和文献计量特征为研究(yánjiū)对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量(dìngliàng)管理,并进而探讨科学技术的某些结构、特征和规律的一门学科[5-12]。
这一术语(shùyǔ)最早是1969年由英国人A.普里查德(Alan Britchard)提出的。
文献(wénxiàn)计量学中常用的定律有如下几种。
布拉德福定律:布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。
文字表述为:如果将科技期刊按其刊载某专业论文的数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个区域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2……的关系。
洛特卡定律:洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。
它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写3篇论文的作者数量约为写1篇论文作者数量的1/9;写n篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。
该定律被认为是第一次揭示了作者与数量之间的关系。
齐普夫定律:齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。
它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。
若用f表示频次,r表示等级序号,则有fr=C(C为常数)。
人们称该式为齐普夫定律。
中国计量学院现代科技学院毕业设计(论文)文献综述学生姓名:吴鹏晖学号:0930333222专业:电子信息工程班级:电信092设计(论文)题目:基于LVQ神经网络的人脸朝向识别算法研究指导教师:李向军系:信息工程系2013年1月3日基于LVQ神经网络的人脸朝向识别算法研究文献综述一、人脸识别概述人脸识别作为一个复杂的模式识别问题,近年来受到广泛的关注,识别领域的各种方法在这个问题上各显所长,而且发展出了许多新方法,大大丰富和拓展了模式识别方向。
人脸识别、检测、跟踪、特征定位等技术近年来一直是研究的热点、人脸识别是人脸应用研究中重要的第一步,目的是从图像中分割出不包括背景的人脸区域。
由于人脸形状的不规则性以及光线和背景条件多样性,现有的人脸研究算法都是在试图解决某些特定实验环境下的一些具体问题,对人脸识别位置和形状都有一定的要求。
而在实际应用中,大量图像和视频源中人脸的位置,朝向和旋转角度都不是固定的,这就大大增加了人脸识别的难度。
在人脸识别领域的众多研究方向中,人脸朝向分析一直是一个少有人涉及的领域。
在以往的研究中,一些研究者谈及了人脸朝向问题,但其实绝大多数都是希望在人脸识别过程中除去人脸水平旋转对识别过程的不良影响。
但是,实际问题要复杂的多,人脸朝向是一个无法回避的问题。
因此,对于人脸朝向的判断和识别,将会是一件非常有意义的工作。
人脸检测与识别技术是生物特征鉴别技术中研究最多和最热门的技术之一,它已经在身份认证、安全检查、罪犯查询、人机交互等广泛领域得到了初步应用。
在人脸检测研究中,构建快速而精确的检测方法一直是该领域的研究热点;在人脸识别研究中,如何克服获取图像光线、表情、视角等变化的影响,提高识别率则是迫切需要研究的问题。
针对这两个问题,本文以彩色和灰色正面人脸静态图像为研究对象,将模式识别理论和图像处理技术相结合,重点研究基于LVQ人工神经网络(ANN)的肤色像素检测和基于模板匹配的人脸精确检测方法,以及基于小波包分解(WPD)和(2D)2PCA的不同变化条件人脸图像的识别方法,为建立快速精确的人脸识别系统提供技术依据。
文献计量学综述一、起源及发展早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。
直到1969年,英国着名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。
三阶段:萌芽、发展和分化萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。
这些研究都为文献计量学的诞生与后期的发展奠定了基础发展(1934- 1960)年注重理论研究与规律发现,着名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。
迁移衍生:专利计量学文献计量学网络计量学政策计量学二、概念界定文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。
可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。
目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。
学科交叉使得文献计量研究内容体系日益丰富。
数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。
三、三大定律布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。
齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。
洛特卡定律该定律描述着者人数与所着论文之间的关系。
探讨了科学论文着者分布平衡的规律,在宏观的科学着作活动中,少数作者写出了大量文章,大多数人的着作还是很少的。
第9 章文献计量学方法9.1 文献计量学方法概述9.1.1文献计量学的产生与发展文献计量学是采用数学、统计学方法定量研究文献信息的分布和变化规律的一门学科。
文献计量研究是以文献为基础的定量分析研究,始于20世纪初。
9.1.2文献计量学的研究对象与特点1.文献计量学的研究对象1)文献体系2)文献计量特征2.文献计量学的特点1)有独到的研究方法和特定的统计规律2)围绕几个核心定律展开文献计量研究3)研究结果的定量输出4)理论与方法形成的周期很长9.1.3文献计量学的发展趋势1)定量化深度和广度发展2)知识体系化方向发展3)应用领域拓宽,重视在科技管理和决策中的应用4)向信息计量发展5)文献计量学、科学计量学和信息计量学合流6)研究手段及工具向现代化发展7)网络信息计量学成为其新的分支和发展方向9.2 文献计量学三大定律文字表述为:某一时间段内,撰写x 篇论文的作者数占作者总数的百分比y(x),与其所撰写的论文数x的平方成反比,故洛特卡定律也称为平方反比定律。
实际使用中,只是在一些学科中近似的符合平方反比规律,而在有些学科中,洛特卡定律就不适用。
从信息分析与预测的角度看,洛特卡定律以及由其推出的普赖斯定律,可以帮助我们鉴别学科研究发展的学者分布情况,并从中获得有价值的启示。
如果将一定时期内刊载某学科论文的期这是早期的经典布拉德福曲线,后来,随着研究的深入,格鲁斯(O.V.Groos)在1967年发现布拉德福曲线在进入直线部分(图9-1中PB)以后,并不总是呈现直线延伸状态,而是要发生弯曲,会出现“格鲁斯下垂”。
9.2.3词频统计定律——齐普夫定律1.齐普夫定律的产生2.齐普夫定律的描述N≥5000),统计其9.3 网络计量学方法1、概念●T. C. Almind认为:网络信息计量学包括了所有实用信息计量和其他计量方法对网络通信有关问题的研究。
●网络信息计量学是综合采用文献计量、信息计量、统计学方法、计算机技术和网络技术等对网络信息规律进行计量分析的一门科学。
学习计量新方法——读文献综述自己在求学时期尤其是读博士期间,从文献综述中受益良多。
我的博士学位论文选题方向是贫困地区农户借贷行为实证研究,读到一篇文献:Martin Petrick, Empirical Measurement of Credit Rationing in Agriculture: A Methodological Survey, Agricultural Economics, Vol.33, Issue 2, 2005。
说到这里,懂行的人一定能理解我当时看到这篇文献的兴奋和喜悦。
现在,不管是博士生还是研究生写点实证论文,都要整点数据,做一些计量分析。
很显然,掌握必要的计量方法是必要的。
这里,向大家推荐一种学计量的方法——读文献综述。
在我看来,读文献综述,学计量方法,有这么几个好处。
好处一:能够更为全面了解和认识所想要学习的计量方法。
针对某个具体方法的文献综述,会涉及多个研究领域,考虑到了内容和实施的方方面面。
通过这样的文献综述,可以了解到具体研究过程中的某个具体问题的多种形式、不同原因和多种解决思路。
举个例子,王宇和李海洋在《管理学研究中的内生性问题及修正方法》中将内生性问题的来源归为5类:遗漏变量偏差、选择偏差、双向因果、动态面板偏差、测量误差。
这种读文献综述的学习方法,避免了只看和自己研究有关的文献,开阔了视野,也为自己寻找更多思路和方法提供了“弹药”。
好处二:能够跟踪某个计量方法的最新前沿发展。
与教科书和手册不同,文献综述一般都会将最新的文章纳入进来。
读近期的文献综述,有助于把握方法技术发展的新动向。
这同时也表明,要与时俱进地学习新的方法技术,就得紧跟近期的文献综述。
好处三:能够从理论逻辑和具体运用两个方面来认识和理解所想要学习的计量方法。
一般的文献综述都会运用一些论文实例来讲解计量方法。
相对于教科书里讲的计量方法,文献综述里讲的计量方法更加“鲜活”,也更加具体。
我个人更加偏爱于一些有过计量分析实战经验的研究者所撰写的文献综述。
文献计量学综述一、起源及发展早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。
直到1969年,英国着名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。
三阶段:萌芽、发展和分化萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。
这些研究都为文献计量学的诞生与后期的发展奠定了基础发展(1934- 1960)年注重理论研究与规律发现,着名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。
迁移衍生:专利计量学文献计量学网络计量学政策计量学二、概念界定文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。
可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。
目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。
学科交叉使得文献计量研究内容体系日益丰富。
数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。
三、三大定律布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。
齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。
洛特卡定律该定律描述着者人数与所着论文之间的关系。
探讨了科学论文着者分布平衡的规律,在宏观的科学着作活动中,少数作者写出了大量文章,大多数人的着作还是很少的。
文献计量学综述文献计量学综述一、起源及发展早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。
直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。
三阶段:萌芽、发展和分化萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。
这些研究都为文献计量学的诞生与后期的发展奠定了基础发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。
迁移衍生:专利计量学文献计量学网络计量学政策计量学二、概念界定文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。
可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。
目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。
学科交叉使得文献计量研究内容体系日益丰富。
数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。
三、三大定律布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。
齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。
洛特卡定律该定律描述著者人数与所著论文之间的关系。
探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。
依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。
从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。
该体系被称为布-齐-洛体系。
如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。
四、主要研究方法:引文分析+数据挖掘+数据可视化传统文献计量学方法可以分为 3类: ①基于引文的计量方法,如引用频次统计、文献同被引分析、文献耦合分析等; ②基于作者的计量方法,如作者同被引分析、合著分析等; ③基于词汇的计量方法,如词频统计、关键词共现分析等; (引文分析)近年来趋势是①基于两种对象的交叉共现计量方法。
如使用双向聚类方法应用此方法文献计量学领域有广阔的运用前景。
例如,高被引论文和引用文献的双向聚类可以反映出被引文献和引用文献的对应关系,甚至是同时实现同被引聚类分析和基于高被引论文的引文耦合分析; 作者( 或单位) 和主题词的双向聚类可以反映作者( 单位) 研究内容之间的相似性及其研究特色; 作者合著( 或单位合作) 和相应文献的双向聚类分析可以反映出作者( 单位) 合作的具体论文和成果等。
②引文分析结和数据挖掘和数据可视化操作,更直观且准确的反应出研究现状、研究热点和趋势1、引文分析:作者在撰写或编辑论著时,常以尾注、脚注、文中注和参考文献的形式标明所引用的概念、理论、方法、文献资料等等的来源出处,为自己的论述提供佐证和依据,形成被引文献记录即引文(Citation)。
追寻这种引证联系,可以找到一系列内容相关的文献,从中可以找出某些学术观点的演化发展脉络,某一领域的研究动态、走向和规律,某一学科的核心作者群,学术研究中的启承转合关系,以及某一名词、概念、方法出现的时间、频次和衰减情况。
引文数据库可以提供以引证关系为特征的特殊的文献检索方法,客观准确地揭示文献之间跨时空、跨学科、多领域的网状联系。
在科研评价中,引文数据库可以从文献的“数量”(科研产出率)和“质量”(成果影响力)方面提供有关学科分布、作者、机构、期刊和地区的多项统计数据和指标。
引文分析包括耦合分析、同引分析和引文数量分析。
多篇论文引用同一篇文献,这些多篇论文之间的关系称为耦合,耦合关系的强弱由共同引用的参考文献的篇数测定,揭示学科的内部结构,通过耦合分析可以在学科内部划分出耦合度较高的论文簇。
同引分析是指两篇文章同时被后来的文献引用,可用以跟踪学术前沿,映射研究领域。
引文数量分析,用于对期刊和论文学术价值的评价,目前,引文分析技术日趋完善,应用不断扩大,已发展成为文献计量学的重要方法之一。
引文分析方法的应用主要有以下几个方面:(1)测定学科或主题的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。
(2)研究学科或主题的结构:通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。
(3)研究学科或主题信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。
(4)确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。
这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。
加菲尔德通过引文分析,研究了文献的聚类规律。
他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其它学科的核心文献。
这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。
利用期刊引文的这种集中性规律可以确定学科的核心期刊。
(5)研究文献老化规律:目前,有关文献老化的研究一般是从文献被利用角度出发的。
D.普赖斯曾利用引文分析探讨文献的老化规律。
通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。
科学文献之间引文关系的一种基本形式是引文的时间序列。
对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。
同时,一个学科的引文年代分布曲线与其老化曲线极为相似。
这有力地说明文献引文分布反映了文献老化的规律性。
因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。
(6)研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。
根据科学文献的引文可以研究用户的信息需求特点。
一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。
因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。
通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。
(7)评价人才:在人才评价方面,常采用引文分析方法。
这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。
因此,引文数据为人才评价提供了定量依据。
从对历年诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(ndan)为1888次;最低的也有79次(J· H· D· Jensen);只有六名低于 200次。
可见,这些科学界的精英的论文的引用次数是很高的。
近年来,引文评价方法的研究重点不再局限于定量指标的直接测算与简单排名,而是转移到引文影响力指标的总结与优化、引文数据源的覆盖率与可用性、引文现象的复杂性对引文频次的影响这些方面的研究。
除了期刊论文的结构属性之外,引文分析研究逐步拓展到论文的正文。
在文本分析过程中,需要借助计算机科学领域中的自然语言处理、自动分词等方法。
这些研究将促使引文分析作为学术影响力评价方法不断地去面对新的议题,逐渐完善定量评价方法的指标、数据与理念。
2、数据可视化:指的是运用计算机图形和图像处理技术,将数据转化为图形或图象在屏幕上显示出来,并进行交互处理的理论、方法和技术。
数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
操作步骤:分类-估计-预测-相关性分析-聚类-描述和可视化(复杂数据类型挖掘)聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
3、可视化操作:采用高级检索,检索条件选择“主题”,具体检索词为“创新生态系统”,检索途径选择“精确”,时间跨度为 2003 /10 /01—2015 /10 /01(绩效考核or绩效评价or绩效评估or绩效考评and政府财政预算)从CNKI导出数据(Refworks)或者利用litespace软件将来自SCI或SSCI 等数据库的软件进行格式转化,将数据导入Citespace或TDA、书目信息共现挖掘系统进行统计和可视化操作——将小类别按照主题自行分为大类别,不同聚类代表不同类别,如主题,研究方法,指标体系,指标体系构建方法等——(依据各类引文指标了解学科或某一主题的研究现状,趋势、热点判断,改进建议)。
使用软件CNKI\SCI\WOS(数据库)+ Tableau \Citespace \TDA(可视化操作软件)图例某领域发文数量,期刊名称,数据源(来自何种数据库),区域分布文献计量学领域代表人物与代表作品时间序列文献计量学领域研究热点知识图谱文献计量学领域研究前沿和趋势五、代表性应用1、科研创新目前国内对于科研创新评价,基本上是沿用文献计量学指标,关于科研创新评价指标体系的研究,目前还只停留在理论探讨或是构想中。