共词分析及相应工具软件的设计与开发
- 格式:doc
- 大小:17.50 KB
- 文档页数:4
共词分析方法理论进展一、本文概述共词分析方法,作为一种文本挖掘和信息分析的重要工具,近年来在多个学科领域中都得到了广泛的应用。
该方法通过统计和分析在特定领域或主题中共同出现的词汇对(即共词),揭示出这些词汇之间的关联性和内在结构,从而帮助研究者深入理解该领域或主题的知识结构和发展趋势。
本文旨在全面梳理和评述共词分析方法的理论进展,包括其基本概念、发展历程、主要方法和技术,以及在不同领域中的应用实践。
通过对现有文献的综述和分析,本文旨在为研究者提供一套系统的共词分析理论框架和实践指南,以促进该方法在更多领域中的有效应用和发展。
二、共词分析的基本原理共词分析是一种基于文献计量学的文本分析方法,其核心原理在于通过统计和分析一组词汇在同一文本或文献集中共同出现的频次,来揭示这些词汇之间的关联性和内在结构。
这种方法主要基于两个基本假设:一是共同出现的词汇之间存在某种潜在的关联或相似性;二是这种关联性或相似性可以通过统计数据进行量化和描述。
数据收集与预处理:需要收集包含目标词汇的文本或文献集,并进行必要的预处理,如去除停用词、词干提取、文本清洗等,以消除噪音数据,提高分析的准确性。
共词矩阵构建:接下来,通过统计目标词汇在文本或文献集中共同出现的频次,构建一个共词矩阵。
这个矩阵的每一个元素代表两个词汇共同出现的频次,反映了它们之间的关联强度。
关联强度分析:通过对共词矩阵的分析,可以揭示词汇之间的关联强度和关联模式。
常用的分析方法包括词频分析、中心性分析、聚类分析等,这些方法可以帮助我们深入了解词汇之间的关系和结构。
可视化展示:为了更好地理解和展示共词分析的结果,通常需要借助可视化工具进行展示。
例如,可以通过绘制共词网络图、词云图等方式,直观地展示词汇之间的关联性和结构关系。
结果解释与应用:根据共词分析的结果,可以对词汇之间的关联性进行解释和解读,进而挖掘出隐藏在文本或文献集中的潜在信息和知识。
同时,这些结果也可以应用于各种实际场景中,如主题识别、趋势预测、知识图谱构建等。
共词分析法的基本原理及实现共词分析法是一种通过分析一组关键词之间共同出现的频率来揭示它们之间关联强度的方法。
这种分析方法在各个领域都有广泛的应用,如文献计量学、信息科学、社会科学等。
本文将详细介绍共词分析法的基本原理和实现过程,并举例说明其在文章撰写中的应用。
共词分析法的基本原理共词分析法的基本原理是建立在词汇共现理论基础上的。
词汇共现是指一组词汇在文本中出现位置相邻或相近的情况。
通过统计一组关键词在文本中共同出现的频次,可以衡量它们之间的关联程度。
共词分析法利用这一点,将文本中出现的词汇视为一个有向图中的节点,而词汇之间的共现关系则视为有向图中的边,从而构建出一个词汇共现网络。
在具体实现过程中,共词分析法需要解决三个关键问题:词典编写、扫描策略和挖掘算法。
词典编写词典编写是共词分析法的第一步。
它通过选择一组具有一定代表性的关键词作为初始节点,然后在文本中搜索这些关键词的同义词、近义词以及相关词汇,将其添加到词典中。
在这个过程中,需要考虑词汇的规范化和停用词的去除等问题。
扫描策略扫描策略是共词分析法的核心环节之一。
它通过扫描文本中的每个句子,统计每个句子中出现的词汇,并记录它们之间共同出现的次数。
一般来说,扫描策略可以分为两种:全局扫描和局部扫描。
全局扫描统计整个文本中词汇的共现次数,而局部扫描则只统计特定领域或主题范围内的词汇共现次数。
挖掘算法挖掘算法是共词分析法的另一个核心环节。
它通过一定的统计方法和算法,从词汇共现网络中挖掘出有用的关联规则和知识结构。
常用的挖掘算法包括聚类算法、关联规则算法、复杂网络分析算法等。
共词分析法的实现共词分析法的具体实现步骤包括数据准备、特征提取和模型构建三个阶段。
数据准备数据准备是共词分析法的第一步。
它包括数据收集、清洗和预处理等环节。
在数据收集环节,需要从多个来源收集相关领域的文本数据。
在清洗环节,需要去除数据中的噪声和无用信息,如停用词、标点符号、数字等。
264研究与探索Research and Exploration ·理论研究与实践中国设备工程 2024.01 (上)等领域不可或缺的工具。
狭义的知识图谱特指一类知识表示,本质上是一种大规模的语义网络;广义的知识图谱是大数据时代知识工程一系列技术的总称。
从狭义角度考察,此种大规模的语义网络包括实体、概念及其之间的各种关系,其中,语义网络是知识图谱的本质。
与传统的语义网络相比,知识图谱代表的语义网络规模巨大、语义丰富、质量精良、结构友好。
语义网络是一种以图形化的形式,通过点与边描述知识关系的方法。
图形中的点可以描述实体、概念和属性。
实体称为对象或实例,它是一切属性的物质基础,是有明确指代意义的。
概念又称类别、类,其是指一类人,这类人有相同的特征。
概念所对应的动词称为概念化和范畴化,概念化一般指识别文本中的相关概念的过程,例如,拉格朗日的中值思想;范畴化一般指实体形成类别的过程,如具有若干哲学思想的人们组成某个特定的哲学派别,则这一学派的形成就是典型范畴化的过程。
每个实体都有一定的属性值,包括数值、日期、文本等,知识图谱的推理即是建立在实体、属性与关系之上。
科学知识图谱在图书馆学情报学应用领域,包括识别学科领域热点、展示学科研究前沿、分析引用关系等。
2 CiteSpace 的主要学科基础理论从哲学、社会学、数据科学,数学等学科入手,可全面理解软件包含的学科基础知识。
2.1 科学革命的结构CiteSpace 设计灵感之一,是来源于托马斯•库恩的《科学革命的结构》。
库恩重塑了科学的真理形象,其“范式论”“不可通约论”为科学史研究提供了新的视角。
库恩思考的根本问题可以概括为“科学进步的机制是什么”。
这是需要借助科学史研究才能回答的问题,但传统的研究方法存在缺陷,而作者尝试从科学史的编著工作中找到突破口。
科学知识的历史不是简单增长过程,其中某个阶段必定会发生根本性的转变,新的科学观应以研究此类根本性转变为宗旨。
CiteSpace中文手册CiteSpace是一款专业的学术数据分析软件,广泛应用于学术界的科研工作中。
本文将为您详细介绍CiteSpace的功能和使用方法,以帮助您更好地利用这一强大的工具进行学术研究。
一、CiteSpace概述CiteSpace是一款基于JAVA开发的学术数据分析软件,旨在帮助研究人员进行科学知识的可视化分析。
通过对各类学术文献的数据提取和处理,CiteSpace能够生成图表和网络图,揭示学术知识的发展动态和趋势。
二、CiteSpace的功能特点1. 数据导入与清洗:CiteSpace支持导入多种数据源,包括Web of Science和Scopus等主流学术数据库。
经过数据清洗,可以去除冗余信息,确保分析结果准确可靠。
2. 进行共词分析:CiteSpace能够识别学术文献中的共词关系,分析关键词之间的联系和频次分布。
这有助于发现研究领域的热点和前沿方向。
3. 构建共引网络:CiteSpace可以根据文献引用关系构建共引网络,揭示学术交流的密度和相关性。
通过对网络结构的分析,可以识别学术合作关系和学科交叉。
4. 提供科研指标:CiteSpace可以计算学术文献的引用频次、被引频次以及H指数等重要科研指标。
这些指标有助于评估学术成果的影响力和学者的学术影响力。
5. 可视化分析:CiteSpace支持多种图表和网络图的生成,可以直观地展示学术数据的分布和趋势,帮助研究人员进行深入分析和理解。
三、CiteSpace的使用方法1. 数据准备:首先,需要选择合适的数据源,如Web of Science或Scopus,并导出文献的元数据信息。
然后,通过CiteSpace的数据导入功能将数据加载到软件中进行处理。
2. 数据清洗:在导入数据后,需要进行数据清洗操作,去除重复记录和不完整的数据。
这可以确保后续分析的准确性和可靠性。
3. 分析设置:在进行CiteSpace分析之前,可以根据研究需求对分析参数进行设置,如时间跨度、分析深度等。
共词分析法共词分析法属于内容分析法的一种,其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化的方法。
共词分析法演进:(1)基于包容指数和邻近指数的共词分析法包容指数和邻近指数主要用于测量款目之间关系的强度。
包容指数主要用来计算主题领域的层次,计算公式如下:Lij=Cij/min(Ci,Cj)其中,Cij代表关键词对Mi和Mj在文献集合中的数量;Ci代表关键词Mi在文献集合中的出现频次;Cj代表关键词Mj在文献集合中的出现频次;min(Ci,Cj)代表Ci和Cj两个频次的最小值。
这个公式可以用来计算那些出现频次相对高的关键词。
当存在着一些中间关键词,而且这些关键词的相对出现频次比较低,但是仍然在这些非重要的关键词之间存在着一定的关系,于是用邻近指数来计算潜在的领域,计算公式如下:Pij=(Cij/CiCj)*N其中Cij、Ci和Cj意思同上,N代表集合中文献的数量。
Callon等提出等价系数(Equivalence Coefficient,简化为E),用来计算关键词之间的关联值。
Eij=(Cij/Ci)*(Cij/Cj)=(Cij)2/(Ci*Cj)其中Eij值在0~1之间。
由于Eij可以同时计算关键词i和j出现在对方集合的频次,因此Turner和他的同事称这个参数为相互包含的系数。
以上面3个指数为基础,把主题词或关键词聚类成组,并以网络地图的方式表现出来。
通过比较不同时期的网络地图,就可以表现出科学的结构和动态变化。
(2)基于战略坐标的共词分析法战略坐标是在建立主题词的共词矩阵和聚类的基础上,用可视化的形式来表示产生的结果。
用“战略坐标”来描述某一研究领域内部联系情况和领域间相互影响情况。
在战略坐标中,x轴为向心度,表示领域间相互影响的强度;y轴为密度,表示某一领域内部联系强度。
其中,向心度用来测量一个学科领域和其他学科领域的相互影响程度。
基于GEPHI的共词可视化分析:以文献计量学作者合作关系为例作者:李国栋来源:《硅谷》2014年第07期摘要通过使用共词分析法对文献计量学研究领域作者的合作关系进行分析,可以揭示该学科领域合作团队的内部和相互之间的联系。
文章在对文献计量学进行一般文献计量分析的基础上,通过使用复杂网络分析软件GEPHI对文献计量学对作者合作关系网络进行定量分析和绘制可视化图谱,为研究该学科领域的作者合作群体状况以及跟踪学科研究进展提供直观的分析参考。
关键词可视化分析;共词;GEPHI;文献计量学中图分类号:G202 文献标识码:A 文章编号:1671-7597(2014)07-0104-02共词分析法已经被深入应用于对各个学科领域的文献分析研究中,通过共词分析方法对文献信息中共同出现的内容进行聚类分析,应用可视化分析软件绘制关键词共现关系网络图谱,能够揭示出学科的研究现状和发展趋势。
近年来随着统计学和社会网络可视化分析方法的进展,各种方便直观的社会网络分析(Social Network Analysis,SNA)软件不断出现,应用于科学文献的分析中,使文献定量分析的结果以图形的形式呈现出来,把定量分析向定性结果转化,成为学科领域现状和前沿热点预测的有力分析工具。
[1]1 GEPHI软件简介GEPHI是一款基于JVM(JAVA虚拟机)免费开源的复杂网络可视化分析软件,可用于探索性数据分析,链接分析,社交网络分析,生物网络分析等[2]。
本文通过对文献计量学研究领域期刊文献的题录数据处理,得到作者共现矩阵,用EXCEL的数据透视表功能进行数据转换后导入GEPHI软件进行运算,绘制出该研究领域的作者合作关系图谱,对文献计量学研究领域的合作关系进行研究。
2 文献计量学发展状况的数据统计2.1 数据来源及预处理本文使用的数据来源于中国知网提供的中国学术期刊网络出版总库,包含从1980年开始到2013年8月的有关文献计量学的学术期刊文献信息,题录下载时间为2013年8月19日,去除了无效文献和重复文献以后,得到文献计量学研究领域的国内期刊文献共6254篇。
基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。
作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。
共词分析法研究(三))))共词聚类分析法的原理与特点The Research of Co -word Analysis (3))))The Principle and C haracteristics of the C o -Word Cluster Analysis钟伟金 李 佳 杨兴菊(广东医学院图书馆 湛江 524023)摘 要 共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。
通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。
并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。
关键词 共词聚类分析法 研究进展 共词聚类原理中图分类号 G251.5随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。
传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。
由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。
为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。
新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。
关键词共词分析、聚类分析和多维尺度分析功能:1、寻找近几年研究热点(热点图),为论文的选题做准备2、直接为论文服务方法举例:关键词:自闭症研究工具:Bicomb共词分析软件、SPSS17.0、excel、中国知网(CNKI)研究进程:A:中国知网(官网)-左上“资源总库”-左上“中国学术期刊网络出版总库"主题:自闭症,年限范围:2000-2014,来源类别:全选—检索每页显示:50-一页页全选后再删除一定不要研究的文献—尽量多选择文献(最好全部)导出/参考文献—全选—导出-自定义(支持需输出更多文献信息)-全选—导出-保存-txt打开txt-编辑—全部替换(前面英文删除)-另存为txt—编码:ANSI【多操作几遍,不然提取不出来或会出现00000,而不是00000,00001,00002等】B:书目共现分析系统—增加(右上角)—项目编号:1—格式类型:cnki中文txt—提取-选择文档—关键字段:关键词-提取(红色)—统计-关键字:关键词—∑统计-矩阵—关键字:关键词—≥5≤280-词篇矩阵—生成—导出至txt-保存C:打开SPSS-文件-打开文本数据-下一步-删除第一行-度量标准:“名义”变为“度量”—分析—分类—系统聚类-V1标准个案-V2到Vn变量—统计量:选择“合并进程表"“相似性矩阵”-绘制:树状图-方法(二分类—Ochiai)-结果:近似矩阵(最大的表格)导出到excel—多维尺度分析【树状图如果是虚线,可能是spss版本问题或其他问题】D:SPSS—excel导入-打开数据—excel—删除第一行—删除1:、2:、3:、4:、5:、、、—复制粘贴到变量视图—度量标准:“名义”变为“度量"-字符串变为数值【第一个分类不要改字符串】—分析—度量—多维尺度最后一个ALSCAL-变量移动—从数据创建距离-度量(E)—标准化:Z得分—选项:组图。
共词分析法研究共词分析的过程与方式一、本文概述共词分析法是一种广泛应用于信息科学、图书馆学、社会学、管理学等领域的文献计量学方法。
它通过统计和分析一组词汇在特定领域文献中共同出现的频次,揭示这些词汇之间的关联性和聚类性,从而反映该领域的热点主题、研究趋势和知识结构。
本文旨在深入探讨共词分析的过程与方式,包括数据准备、共词矩阵构建、聚类分析、结果解读等关键环节,以期为相关领域的研究者提供一套系统、实用的方法论参考。
在本文中,我们首先将对共词分析法的基本原理进行简要介绍,阐述其相较于其他文献计量学方法的独特优势。
随后,我们将详细介绍共词分析的具体步骤,包括如何从海量文献中筛选和提取关键词,如何构建共词矩阵并计算关键词之间的关联强度,以及如何运用聚类分析等统计方法对共词矩阵进行解读和可视化展示。
我们将通过实例分析,展示共词分析法在实际研究中的应用效果,并探讨其可能存在的局限性和改进方向。
通过本文的阐述,我们期望能够帮助读者更加深入地理解共词分析法的核心思想和操作步骤,掌握其在实际研究中的应用技巧,从而推动该方法在相关领域的研究中得到更广泛的应用和发展。
二、共词分析法的理论基础共词分析法是一种基于文献计量学的方法,它的理论基础主要源自信息科学、文献学和情报学等领域。
该方法通过统计和分析一组关键词或主题词在同一篇文献中共同出现的频次,来揭示这些关键词或主题词之间的关联程度,从而反映某一学科或领域的热点、结构和发展趋势。
共词分析法的理论基础主要包括词频分析理论、共现分析理论和聚类分析理论。
词频分析理论认为,关键词的出现频次能够反映其在某一学科或领域的重要性,频次越高,说明该关键词越受关注,其研究价值也越大。
共现分析理论则强调关键词之间的关联性,认为如果两个关键词在同一篇文献中频繁共现,那么它们之间就存在一定的关联或相似性。
聚类分析理论则是将共现频次较高的关键词进行聚类,形成不同的主题或研究领域,从而揭示学科或领域的结构和发展趋势。
共词分析报告1. 引言共词分析(Co-occurrence Analysis)是一种文本分析方法,用于揭示词语之间的关联性和共现概率。
通过分析大量文本数据,可以找到词语之间常一起出现的模式和关系,进而帮助理解文本中的主题和语义。
本文将介绍共词分析的原理和方法,并通过一个实例进行分析和解读。
2. 共词分析原理共词分析基于词语在文本中的共现情况,通过计算词语之间的共现频率和相关性,来推断它们之间的关联性和共现概率。
常用的共词分析方法包括共现矩阵、点互信息(Pointwise Mutual Information)和相关性分析等。
2.1 共现矩阵共现矩阵是最常用的共词分析方法之一,它使用一个矩阵来记录词语在文本中的共现情况。
矩阵的行和列分别表示不同的词语,矩阵的元素表示两个词语在同一文本中同时出现的次数。
共现矩阵的构建过程包括分词、文本预处理和矩阵计算等步骤。
2.2 点互信息点互信息是一种用于衡量两个词语之间关联性的指标,它可以通过词语的共现概率来计算。
点互信息越大,表示两个词语之间的关联性越强。
点互信息公式如下:PMI(x, y) = log(P(x, y) / (P(x) * P(y)))其中,P(x, y)表示两个词语同时出现的概率,P(x)和P(y)分别表示词语x和y的出现概率。
2.3 相关性分析相关性分析是一种用于衡量词语之间相关关系的方法,它基于统计学中的相关系数来计算词语之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数等。
相关系数越接近于1,表示两个词语之间的相关性越强。
3. 共词分析方法共词分析的具体方法取决于所使用的工具和数据集。
下面介绍一种常见的基于Python的共词分析方法:3.1 分词和预处理首先,将原始文本进行分词处理,将文本拆分成一个个单独的词语。
常用的分词工具有jieba和NLTK等。
然后,对分词结果进行预处理,包括去除停用词、词干化和词形还原等。
预处理可以提高共词分析的质量和准确性。
共词分析法研究共词聚类分析法的原理与特点一、本文概述本文旨在深入探讨共词分析法及其重要应用——共词聚类分析法的原理与特点。
作为一种在文献计量学、内容分析和信息科学等领域广泛应用的文本分析方法,共词分析法通过对文献中共同出现的词汇进行分析,揭示出词汇之间的内在关联和知识结构。
而共词聚类分析法则是在此基础上,利用聚类算法对共词矩阵进行聚类,进一步挖掘出主题结构、研究热点和发展趋势。
本文将首先介绍共词分析法的基本原理和方法步骤,然后重点阐述共词聚类分析法的实现过程、优势和局限性,以期为读者提供全面而深入的理解,并为其在相关领域的实际应用提供指导和参考。
二、共词分析法的理论基础共词分析法是一种基于文献计量学的分析方法,其理论基础主要包括词频分析、共现分析和聚类分析三个部分。
词频分析是共词分析法的基础。
通过统计特定领域文献中词汇的出现频率,可以揭示出该领域的研究热点和趋势。
高频词汇往往代表了该领域的研究重点和方向,而低频词汇则可能反映了新的研究动向或未受足够关注的领域。
共现分析是共词分析法的核心。
它通过分析同一篇文献中不同词汇的共同出现情况,来揭示这些词汇之间的关联性和相关性。
共现频率高的词汇对往往具有紧密的内在联系,可能代表着同一研究主题或方向的词汇群体。
聚类分析是共词分析法的重要手段。
通过运用聚类算法,可以将共现频率高的词汇对进行聚类,形成不同的聚类群体。
这些聚类群体反映了文献中不同研究主题或方向的分布情况,有助于研究者快速识别出该领域的主要研究方向和热点。
共词分析法的理论基础包括词频分析、共现分析和聚类分析三个部分。
通过这些分析手段,共词分析法能够有效地揭示出文献中词汇的关联性、相关性以及研究主题和方向的分布情况,为研究者提供有力的研究工具和方法。
三、共词聚类分析法的原理共词聚类分析法是一种基于共词分析的信息挖掘方法,它通过对特定领域文献中词汇共现情况的统计和分析,揭示出该领域的研究热点、研究前沿和发展趋势。
共词分析及相应工具软件的设计与开发
作者:谢松
来源:《科技创新与应用》2014年第36期
摘要:基于关键词的共词分析自提出以来,在学科前沿热点、学科发展、学科研究范式等研究中得到了越来越广泛的应用,文章研究了目前的常用共词分析的过程与步骤,比较了已使用的共词矩阵算法,设计开发了一个简洁高效、自动化程度比较高的共词分析工具软件,并以实例作为说明。
关键词:共词分析;共词矩阵;算法
1 概述
共词分析是法国文献计量学家于20世纪70年代提出来的一种文献内容分析方法,1986年法国国家科学研究中心的Callon M和Law J等人出版了第一部关于共词分析法的学术专著,经过几十年的发展,已经被广泛应用到许多领域,产生了大量的研究成果。
其思想来源于文献计量学的引文耦合与共被引概念,当两篇文献同时被其他文献引用时,表明它们所研究的主题在理论或方法上是相关的。
两篇文献共被引的次数越多,它们的关系就越密切。
同理,当有两个专业术语在某学科领域的同一篇文献中同时出现,表明这两个词之间存在一定的关系,同时出现的次数越多,表明它们的关系越密切[1]。
共词分析法主要是对一组主题词或关键词两两统计其在每一篇文献中出现的次数,以此为基础构造共词矩阵,通过对共词矩阵变换为相似矩阵与相异矩阵,然后进行多元统计分析,把众多分析对象之间错综复杂的关系以数值、图形直观地表示出来,揭示出这些词之间的亲疏关系,进而分析它们所代表的学科和主题的变化与趋势。
2 共词分析的过程与步骤
运用共词分析法进行研究大致可分为几个步骤进行,在具体的操作中可根据实际研究主题选择合适的分析方法。
2.1 确定研究主题与文献选取
利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程与趋势,以及领域学科之间的关系等等。
确定好研究主题之后即可在数据库中检索相应的文献,去除重复文献、非相关文献后筛选合适的文献作为处理对象。
2.2 高频词的选取
在分析文献的相关性时,统计分析的过程中如果使用两个完全不相关的词汇进行处理,对统计分析的结果将产生很大干扰,因此,被分析的词汇最好是受控词、被统一标引的主题词,只有这样,利用文献中词语对的共现频次来反映研究主题内在联系的方法才能成立[2],因此在研究中通常使用检索的主题词或文献的关键词作为分析对象。
将所有主题词或关键词按出现频率的高低顺序排列,选取其中出现频率较高的词汇作为分析对象。
确定高频词的方法有两种:一种是结合研究者的经验在选词个数和词频高度上予以平衡;另一种是结合齐普夫第二定律关于低频词分布规律理论来判定高频词的界限[3]。
2.3 构造共词矩阵
为反映高频词之间的关系,需要将其两两组对,统计每对高频词在同一篇文献中出现的次数,如果两个主题词(关键词)在众多的文献中出现频率高,则说明它们之间的关系密切。
如果选取了N个高频词,则它们之间的关系,可以通过构造一个N*N的矩阵计算共现频次来反应。
共词矩阵的计算是共词分析中的重要一步,由于统计词对出现的频次值是绝对值,难以反映词与词之间真正的相互关系,因此需要对词频进行包容化处理以反映出两者间的紧密联系的程度。
目前各种共词分析文献中应用得比较多的一种方法是采用Ochiia系数将相关矩阵转化为相似矩阵和相异矩阵:
2.4 采用多元统计方法分析
在计算共词矩阵的基础上,采用不同的统计学分析方法,揭示共词中的信息,常用的分析方法有:因子分析、聚类分析法、关联规则分析、多维尺度分析等方法。
目前已有学者将新近出现的突发词监测法引入共词分析中开展文献学评价研究。
2.5 阐述共词分析的结果
共词分析过程是使用统计学以及数据挖掘等方法反映研究主题间的关系,要深入揭示隐含在文献中的知识,必须结合相关学科的知识对统计的结果进行科学分析与合理阐述。
3 共词分析工具软件的设计开发
构造共词矩阵并计算共词频次是共词分析的重要环节,在处理的文献数量很大时,通过手工统计众多主题词或关键词,计算共词矩阵是不现实的。
通常可以采用spss、ucinet等软件进行构建作者和关键词矩阵以分析文献数据,但这些软件比较难以理解和掌握。
也有学者通过Microsoft公司的办公软件Excel来进行共词分析,但前期的题录导入、关键词切分与统计等工作还需手工完成,工作量巨大。
相比较而言,自主地设计开发一款自动完成文献题录导入、关键词切分与统计、构建共词矩阵、计算共词频次等功能的软件,在实际的科研工作中,可以起到事半功倍的效果。
3.1 系统功能模块
文本预处理:将下载的文献规范化处理,去除文本中不必要的空行、特殊字符等,为导入题录做好数据准备。
文献题录导入:从文献库中检索下载题录信息之后再导入数据库,由于CNKI、维普、万方、中国生物医学数据库等不同的文献库的题录格式不同,处理时需根据实际需要再做变更。
关键词切分:文献篇名、作者、关键词等题录信息导入之后,可以分别处理。
在做共词分析时,主要是对关键词做统计分析,而关键词在文献中大都用中英文的逗号或分号间隔开来,统计之前需做切分处理。
共词矩阵构建与计算:选定高频关键词之后,需要进行共词矩阵的构建与频次计算。
其实现方法的讨论在下节中再详细讨论。
多元统计方法分析:可以根据需要添加因子分析、聚类分析、关联规则分析等功能,此功能模块属于扩展功能。
3.2 共词矩阵计算方法比较
共词频次的计算方法很多,在实践中用到了两种算法,试比较如下:
3.2.1 依据定义机械对比
根据定义,共词的频次是两两组合的高频主题词或关键词在每一篇文献中出现的频次,依次设计的算法比较简单,假设文献总数是max_source_id,高频关键词总数是max_gaopin,定义两个高频关键词数组key_row(max_gaopin)、key_col(max_gaopin)一个存储共词词频的二维数组Gongci(max_gaopin, max_gaopin),然后判断两两组合的关键词是否同时出现在同一篇文献中,最后累计得到共词词频,并此基础上再用Ochiia系数计算出相似矩阵和相异矩阵。
部分代码如下:
这种算法思路简单,但实现起来用到了三重循环来计算共词频次,算法时间复杂度和空间复杂度大,运行时效率比较低。
3.2.2 利用SQL聚合函数计算
SQL语言的count()函数返回的是数据表中匹配指定条件的行数,将题录中的关键词切分存储到数据库的表中,然后以两两组合的关键词作为匹配条件,根据文献编号分组,使用SQL语句进行count()计算,如果返回值等于2即表示这两个词在同一篇文献中出现,查询数据集的记录总数即为共现的文献篇数,亦即共词频次,部分代码如下:
4 应用举例
文章以“图书馆联盟”为主题词在CNKI全库进行检索,共有检索文献964篇,去掉非相关的通讯报道等文献,得到826篇论文。
对关键词进行切分处理后得到3091个关键词,统计之后的高频关键词如表1所示。
在高频关键词表的基础上,按步骤依次计算共词矩阵、相似矩阵与相异矩阵,然后进行统计分析。
共词矩阵如表2所示(限于篇幅,只显示部分):
5 结束语
共词分析作为文献计量分析的新的工具,由于具有众多的优越性,使用得越来越广泛。
迄今为止,基于关键词的共词分析在学科前沿热点、学科发展、学科研究范式等问题上的研究上已经形成了较为固定的研究方法和套路。
但已有的共词分析软件大都操作不便,比较难以理解和掌握,为此,文章设计开发了一个简单高效的共词分析工具,操作时只需从文献数据库中下载相关主题的文献,导入题录之后就可以自动实现关键词的统计、共词矩阵计算分析功能,不足之处在于能提供分析的方法有限,有待于进一步完善。
参考文献
[1]张勤,徐绪松.定性定量结合的分析方法-共词分析法[J].技术经济,2010,29(6):20-24.
[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,3
2(162):88-92.
[3]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-
1404+1434.。