我国情报学硕士学位论文的共词聚类分析_李长玲
- 格式:pdf
- 大小:814.12 KB
- 文档页数:4
Statistical Analysis of Application of Research Methods of Information Science in Our Country in
Recent Five Years
作者: 孙鸿飞 侯伟 周兰萍 王艳艳
作者机构: 东北电力大学经济管理学院,吉林吉林132012
出版物刊名: 情报科学
页码: 77-84页
年卷期: 2014年 第4期
主题词: 情报学 研究方法 文献计量学 聚类分析 共词分析 词频分析
摘要:为了探索近五年来我国情报学研究方法应用的趋势与问题,文章选取了《北大中文期刊核心目录(2012年版)》中图书情报类19种期刊从2008至2012年所有论文信息作为统计分析的基础数据。
利用文献计量学方法对样本论文进行了诸如期刊、作者、研究单位、关键词、研究方法应用情况等的词频分析、共词分析和聚类分析。
从中总结了近五年我国情报学研究方法应用中的四个特征,发现了我国情报学研究方法应用中的一些问题和不足,并提出了相应的对策和建议。
共词聚类分析法中的主要问题与对策李佳【摘要】共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对学科结构的分析研究.聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合理以及容易造成没有意义类团的出现.问题的对策是:改进聚类算法、改变聚类策略、类团的弹性划分以及对结果的创新分析能有效弥补聚类算法的不足.【期刊名称】《情报学报》【年(卷),期】2010(029)004【总页数】4页(P614-617)【关键词】共词分析;类团分析;核心词;问题与对策【作者】李佳【作者单位】广东医学院图书馆,湛江,524023【正文语种】中文【中图分类】教科文艺情报学报ISSN 1000-0135第 29 卷第 4 期 614-617 , 2010 年 8 月JOURNAL OFTHECHINASOCIETYFORSCIENTIFICAND TECHNICAL INFORMATION ISSN1000-0135V01.29 No.4,614-617August 2010 doi :10.3772/j.issn.1000-0135.2010.04.005共词聚类分析法中的主要问题与对策李佳(广东医学院图书馆,湛江 524023 )摘要共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对学科结构的分析研究。
聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合理以及容易造成没有意义类团的出现。
第9期2016年9月现代教育科学Modern Education ScienceNo.9Sept.2016[收稿日期]2016-05-06[作者简介]王中宽(1987-),男,河南信阳人,大连大学教育学院硕士研究生;研究方向:高等教育基本原理。
我国高等教育学硕士学位论文的共词聚类分析王中宽(大连大学教育学院,辽宁大连116622)[摘 要]文章以CNKI 《中国优秀硕士学位论文全文数据库》中收录的2588篇高等教育学硕士学位论文为数据源,利用BICOMB 、Excel 2010和SPSS 20.0软件进行数据提取和共词聚类分析,研究了各高频关键词之间的关系,探索了我国高等教育学硕士学位论文的研究热点,并在此基础上进行了一系列深度思考和趋势预测。
[关键词]高等教育学 硕士学位论文 共词分析 聚类分析 [中图分类号]G64 [文献标识码]A [文章编号]1005-5843(2016)09-0125-006[阅韵陨]10.13980/ki.xdjykx.2016.09.023 我国高等教育的研究对象先后经历了从“现象”对象到“系统”对象的嬗变[1]。
高等教育学研究对象的变革,使高等教育学的研究领域不断扩大、研究内容不断更新、研究方法不断创新,而一个时期内研究者研究焦点的聚集必然会形成某一学科的研究热点。
高等教育学的研究热点,是指在一定时期内高等教育学界的研究者所共同关注的高等教育理论与实践问题。
这些研究热点反映了高等教育学研究的前沿问题。
硕士论文因其学术水平要求较高,反映出某一专业的知识深度与广度,表明申请人员具备从事科研工作或独立的科研能力,其发表状况通常被认为是衡量学科发展水平和科研产出的一项重要指标。
因此,本文选择从高等教育学硕士学位论文的角度来考察我国高等教育学的研究热点。
一、数据来源、研究工具和研究方法(一)数据来源本研究选择的是CNKI 《中国优秀硕士学位论文全文数据库》,内容检索条件采用学科专业名称:“高等教育学”;匹配条件:精确;时间来源:2010年—2014年;优秀论文级别:不限;学科来源类别:全部。
社会网络分析方法在科技评价中的应用研究李长玲;纪雪梅;支岭;刘非凡【摘要】深入了解科学体系的内部结构,分析科学系统的运行规律及发展趋势是科技评价研究的重要课题.科技文献体系中的知识网络类型多种多样,他们之间既相互联系,又相互区别,不同要素组合构成多种类型的网络结构,如引文网络、共词网络和合作网络.探讨利用社会网络分析方法,例如权力指数、点出度与特征向量中心性、共词网络分析、合著网络分析、E-I指数等,对科技文献、科技期刊、学科研究热点、作者与机构合作情况以及学科交叉程度等进行科学合理、客观有效地评价、分析与测量.【期刊名称】《科学与管理》【年(卷),期】2012(032)004【总页数】6页(P78-82,92)【关键词】知识网络;科技评价;社会网络分析;学科交叉;研究热点【作者】李长玲;纪雪梅;支岭;刘非凡【作者单位】山东理工大学科技信息研究所淄博255049;山东理工大学科技信息研究所淄博255049;山东理工大学科技信息研究所淄博255049;山东理工大学科技信息研究所淄博255049【正文语种】中文科技评价是以科学计量的理论和方法为基础,综合运用各种科学的程序和方法,对知识体系、成果及知识活动等进行测度、评判的过程。
通过开展科技评价研究,可以深入了解科学体系的内部结构,分析科学系统的运行规律,揭示科技活动的发展趋势。
社会网络分析(Social Network Analysis, SNA)是将所研究的个体和组织及其间的社会关系看成是一种可视化的网络,通过图论、数学模型及软件分析等方法对网络的关系数据进行分析,进而揭示网络结构特性的一种分析方法。
社会网络分析的研究对象是包含节点和连线的网络。
社会网络分析方法不仅可以将研究对象可视化,同时也提供了多种网络分析指标,来揭示节点和关系的特性。
科技文献体系中的知识网络类型多种多样,作者之间、地区之间、文献之间、关键词之间、期刊之间等并不是孤立的,而是相互联系的。
基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。
作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。
共词分析法研究(三))))共词聚类分析法的原理与特点The Research of Co -word Analysis (3))))The Principle and C haracteristics of the C o -Word Cluster Analysis钟伟金 李 佳 杨兴菊(广东医学院图书馆 湛江 524023)摘 要 共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。
通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。
并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。
关键词 共词聚类分析法 研究进展 共词聚类原理中图分类号 G251.5随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。
传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。
由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。
为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。
新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。
近十年我国图书情报学科研究热点的共词分析王红2012-10-27 21:52:09 来源:《情报学报》(京)2011年7期【英文标题】Co-word Analysis on the Hotspots in Chinese Library and Information Science for the Last Decade【作者简介】王红,女,1984年生,湖北汽车工业学院图书馆员,研究方向:信息计量学。
E-mail:wanghongrose@,十堰442002【内容提要】本文以五年为一个时间段,采用共词分析方法对1998-2007年我国图书情报学科8种核心期刊文献中的高频关键词分别进行聚类分析与类团关系分析,列出了两个阶段聚类结果的类团关系表,绘制了两个阶段的类团关系图,并对这两个阶段我国图书情报学科的热点研究领域和主要研究领域进行了较为详细的对比分析,以期从微观层面上对我国图书情报学科不同时期的研究热点和主要研究领域进行揭示与把握。
从分析结果上看,我国图书情报学科的研究热点具有一定的传承性、连续性、稳定性、发展性、阶段性和变化性的特点。
Five years as a period, this paper uses the co-word analysis method to perform cluster analysis and cluster relationship analysis to the high-frequency keywords of eight core journals of Chinese Library and Information Science(abbreviation LIS) from 1998 to 2007. At the same time, the paper draws the relation table of clustering results and drafts the relationship figure of cluster, and systematically analyzes the research hotspots of Chinese LIS in different period, in order to revealmicroscopically the research hotspots of Chinese LIS in different period. To sum up, the research hotspots of Chinese LIS has a certain characteristics of inheritance, continuity, stability, expansibility and variability.【关键词】共词分析/图书情报学科/聚类分析/类团关系分析Co-word analysis/Library and information science/Cluster analysis/Cluster relationship analysisl 引言随着全球化、信息化时代的到来,我国图书情报学科经历了巨大变化。
聚类分析在内部审计中的应用研究作者:杜洁李芹潘媛李玲璠孙银博何加攀来源:《中国管理信息化》2019年第01期[摘要] 聚类分析的目的是将收集到的数据按照某一特征进行分类,形成相似元素的集合。
在内部审计中的应用是通过收集各个业务领域的数据,运用聚类分析,发现同类数据间的差距,根据差异分析出疑点数据,从而提出审计意见,解决了传统审计管理效率低、实施难等问题。
实验结果表明,通过该算法能够快速高效地发现各业务领域的疑点数据,为审计工作提供了依据和新的方式,提高了工作效率和收益。
[关键词] 聚类分析;k-means算法;疑点数据;内部审计doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 01. 001[中图分类号] F239.45 [文献标识码] A [文章编号] 1673 - 0194(2019)01- 0004- 030 引言聚类分析应用于医学、市场分析、信息安全、金融等多个领域。
目前,在内部审计中的应用主要是在企业和同业间的差距分析,很少针对业务数据存在的问题进行分析,传统的内部审计限于单一的看账、查账,难以发现数据底层的潜在问题,为了让内部审计有一个质的提升,采用聚类对业务数据进行分析与挖掘去发现深层次的问题,所以面对不同的业务数据采用不同的分析手段成为当前研究的热点与难题,但很少在内部审计方面应用。
本文针对内部审计的业务数据采用k-means聚类方法对业务数据进行分析,并取得了不错的结果,填补了对内部审计业务数据分析的空白。
1 聚类分析的原理及分类1.1 聚类分析的原理聚类分析的基本原理是,根据对象自身属性,运用统计方法根据某种差异性和相似性,得到对象间的相似性关系,按照相似性关系对对象进行分组聚类,可能提供多个分析结果解,需要根据实际情况提供主观判断和后续的分析。
1.2 聚类分析的分类目前聚类方式有三类:一是系统聚类,用于对小样本的对象间聚类以及对变量聚类。
我国情报学硕士学位论文的共词聚类分析李长玲,翟雪梅(山东理工大学科技信息研究所,山东淄博255049)摘 要:利用 C NKI 中国优秀硕士学位论文全文数据库 中收录的624篇情报学硕士学位论文,对高频关键词进行共词聚类分析,研究各高频关键词之间的内在关系,探索情报学硕士学位论文的研究热点。
关键词:情报学;学位论文;共词分析;聚类分析中图分类号:G350 文献标识码:A 文章编号:1007-7634(2008)01-0073-04Co -word Clu stered Analysis of Doctor Information Science Dissertations in ChinaLI Chang -ling ,ZHAI Xue -mei(Science and Technology In formation Research Institute ,Shandong University o f Technolo gy ,Zibo 255049,China )Abstract :This paper gives a statistical analysis of 624dissertations of Information Science from C NKI China Excellent Doctor Thesis Full-te xt Database.A c o-word clustered analysis was made for highly key-words and c o-word and the inner relations among the m to investigate the hot points of Information Science disserta -tion.Key words :information science;dissertations;co-word analysis;clustered analysis 收稿日期:2007-05-08作者简介:李长玲(1969-),女,硕士,副研究馆员,从事知识管理与科学评价研究;翟雪梅(1982-),女,硕士研究生,从事知识管理研究.我国情报学的研究对象先后经历了从文献到信息再到知识的变革。
情报学研究对象的转变,使情报学研究内容不断更新。
研究内容的广泛、研究领域的扩展、研究方法的丰富,给情报学发展带来了新的希望,网络时代的到来,更为情报学提供了广阔的发展空间。
因此,关于情报学热点的研究具有重要的理论和现实意义。
硕士学位论文一般都具有专深的理论和卓越的见解,具有内容新颖、信息量大、专业性强、学术价值高等特点,其发表状况被认为是衡量学科发展水平和科技产出的一项重要指标 1。
本文应用共词聚类的方法,对近几年的情报学硕士学位论文进行定量分析,找出当前我国情报学硕士研究生的研究热点。
1 数据来源CNKI 中国优秀硕士学位论文全文数据库 是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库,收录了1999年至今全国652家硕士培养单位的优秀硕士学位论文。
本文选择中国知网的 C NKI 中国优秀硕士学位论文全文数据库 的免费题录数据库 2,于2007第26卷第1期2008年1月情 报 科 学Vol.26,No.1January,2008年4月9日,以 学科专业名称 作为检索途径,输入 情报学 作为检索词,时间选择2002年到2006年,共检索到624篇学位论文。
对检索结果用Excel进行数据统计,共得到1633个关键词。
选择词频数不小于10的关键词作为高频关键词进行分析,同时去除了对反映主题没有积极意义的 对策 (词频为12)和 研究 (词频为10)两个关键词,得到的20个高频关键词,如表1所示。
表1 情报学硕士学位论文高频关键词表序号关键词词频序号关键词词频1电子商务4411客户关系管理122知识管理3012图书馆 123网 络2413信息系统 124企 业1814电子政务 115数据挖掘1715信息技术 116信息化 1716数字图书馆 107信息服务1517信息检索 108竞争情报1418信息资源 109人力资源1419信息组织 1010信 息1320本 体 102 数据分析2 1 构造共词矩阵对20个关键词两两配对,统计它们在624条文献中共同出现的频次,形成20 20的矩阵,如表2所示。
2 2 构造相异矩阵为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转换成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式是:Ochiia系数=A、B两词同时出现频次(A词总出现频次*B词总出现频次)对角线上的数据表示某词自身的相关程度,经上式计算均为1。
为方便进一步处理,用 1 与全部矩阵相减,得到表示两词间相异程度的相异矩阵 3 ,如表3所示。
表2 情报学硕士学位论文高频关键词的共词矩阵序号1234567891011121314151617181920 1441821400013221310300 2130081301201512200100 38024100161003101204850 4281018012111301170100200 5110017001103010002000 64311201700020022300100 7006100150000630012311 80011111001400002010000 9020310001421230120100 10318252302131553133150 11313130001012112000100 12251100602011200101511 13210712323510120000103 14121002000020011000300 15322103011101001110100 16100000102000001100301 17004020200001000010322 18318201301115131331050 19005000100101000025101 20000000100001300120110表3 情报学硕士学位论文高频关键词的相异矩阵(部分)序号1234567800 9724760 7538170 9289330 96343601853746120 972476010 6557350 9557190 86715810 951205 30 753817100 51887510 9504930 6837720 945446 40 9289330 6557350 518875010 3140060 9391420 307065 50 9634360 955719110110 93518 60 8537460 8671580 9504930 3140061011 7110 6837720 9391421101810 9512050 9454460 3070650 9351811074情 报 科 学 26卷2 3 利用SPSS进行聚类分析将表3所示相异矩阵导入SPSS进行层次聚类分析,选择 组间平均链锁(Between-group link-age)距离 ,即个体与小类中每个个体距离的平均值。
此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响 4 。
得到的凝聚状态表如表4所示。
表4 层次聚类分析的凝聚状态表StageClus ter CombinedClus ter1Cl uster2CoefficientsStage Cl uster Fi rs t AppearsCluster1Cluster2Next Stage1712 9000010 2318 964004 3481 112009 43191 158206 55111 3660011 63171 5254010 79131 5640014 81151 5660013 9461 6203019 10371 7796116 115141 8335015 1216201 8830014 13121 9288015 149161 99371217 15152 005131117 163102 12210018 17192 181151418 18132 36717161919142 699189图1 层次聚类分析的树状图表4中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个样本或小类聚成一类;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。
例如,第一步中,7号关键词(信息服务)与12号关键词(图书馆)聚成一类,它们的个体距离是0 900,这个小类将在第10步中用到。
同理可得其它聚类。
这个聚类过程也可以从图1所示树状图中展现出来。
树状图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。
SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似地表现在图上。
7号关键词(信息服务)与12号关键词(图书馆)距离最近,首先合并成一类,其次是3号关键词(网络)和18号关键词(信息资源),以此类推。
可见,该聚类过程与表4所示的凝聚状态图是一致的。
3 结 论结合高频关键词的共词矩阵和上述聚类过程,751期 我国情报学硕士学位论文的共词聚类分析我国情报学硕士学位论文的研究热点可以概括为以下几类:(1)图书馆的信息服务,包括关键词7、12、10。
网络环境下图书馆的信息服务更加体现出其个性化特点。
主要围绕信息服务实现的技术、系统、对策及信息服务能力的评价展开。
同时也有涉及专业图书馆的信息服务研究,像医学图书馆和军事图书馆等。
(2)网络信息的组织和检索,包括关键词3、18、19、17、10。
以信息构建、Web、本体、XML、统计语言学模型等各种理论为基础的信息组织和检索是研究的热点。
还涉及一些企业、医学等专业方面的信息组织和检索,以及检索系统的设计。
(3)数据挖掘在客户关系管理及电子政务中的应用,包括关键词5、11、14。
数据挖掘技术是实施客户关系管理的关键技术之一。
企业在收集大量的客户基本资料和详细交易数据的基础上,利用数据挖掘发现客户特征、购买模式等有价值的知识,从而有效指导客户关系管理的实践。
将这种思维运用到电子政务中,同样具有重要的意义,因此得到了硕士研究生的关注。
(4)企业竞争情报和企业信息化,包括关键词4、8、6。
关于企业竞争情报的研究主要集中在竞争情报系统的构建及应用、企业竞争情报需求分析、人才培养及反竞争情报等方面。