论坛主题挖掘研究综述
- 格式:pdf
- 大小:1.66 MB
- 文档页数:9
运用结构化的数据分析方法做严谨的质性研究中国企业管理案例与质性研究论坛综述一、本文概述本文旨在探讨如何运用结构化的数据分析方法来进行严谨的质性研究,并以中国企业管理案例为具体研究对象,对质性研究论坛的相关内容进行了综述。
文章对结构化数据分析方法在质性研究中的应用进行了概述,强调了其在提高研究严谨性和可靠性方面的重要作用。
接着,文章通过对中国企业管理案例的深入剖析,展示了结构化数据分析方法在实际研究中的具体应用。
文章对质性研究论坛的主要观点和研究成果进行了综述,为相关领域的研究者提供了有益的参考和启示。
在本文中,我们将重点关注结构化数据分析方法的理论基础和实践应用,以及其在中国企业管理案例研究中的具体运用。
我们还将对质性研究论坛的重要议题和讨论进行深入分析,以期为推动质性研究方法的创新和发展做出贡献。
通过本文的阐述,我们期望能够帮助读者更好地理解和掌握结构化数据分析方法在质性研究中的应用,为相关领域的研究提供有益的借鉴和指导。
二、质性研究与结构化数据分析方法质性研究是一种深入探索现象本质的研究方法,它强调对研究对象进行深入、细致的描述和理解。
与量化研究不同,质性研究更加注重对研究对象的内在逻辑和深层含义的揭示。
在中国企业管理案例中,质性研究被广泛用于探讨企业文化、领导风格、组织变革等复杂且多维度的议题。
然而,传统的质性研究方法往往依赖于研究者的主观经验和直觉,这在一定程度上影响了研究的严谨性和可重复性。
为了解决这一问题,结构化数据分析方法被引入到质性研究中,以提高研究的客观性和科学性。
结构化数据分析方法强调对研究数据进行系统性的编码和分类,以便从中提取出有意义的信息和模式。
这种方法的核心在于建立一套严谨的数据分析框架,将原本零散的、非结构化的数据转化为可量化、可比较的形式。
通过这种方法,研究者可以更加客观地识别出数据中的主题、模式和关系,从而得出更加准确和可靠的结论。
在中国企业管理案例中,结构化数据分析方法的运用不仅可以提高质性研究的严谨性,还可以帮助研究者更加深入地理解企业管理的内在规律和机制。
2020年第1期高教探索HigherEducationExploration深化合作 应对挑战 融合发展———第十四届海峡两岸(粤台)高等教育论坛综述刘第红 张嘉炜收稿日期:2019-08-30作者简介:刘第红,广东省高等教育学会副秘书长;张嘉炜,广东轻工职业技术学院生态环境技术学院讲师。
(广州/510035)摘 要:2005年创办的海峡两岸(粤台)高等教育论坛,在广东和台湾两地轮流举办,至今已成功举办十四届。
本届论坛的主题为“当代高等教育发展战略:未来·机遇·挑战”。
与会专家学者表达了一个共同心愿:两岸高教界应进一步加强交流、深化合作、融合发展,携手应对人工智能带来的高等教育形态变革的挑战,促进粤台建设区域性高等教育中心,共同培养担当民族复兴大任的时代新人。
关键词:两岸高校;深化合作;融合发展;人工智能 2019年5月24日,第十四届海峡两岸(粤台)高等教育论坛在广州的暨南大学举行。
本届论坛在广东省教育厅、广东省人民政府台湾事务办公室指导下,由广东省教育厅组织协调,广东省高等教育学会、东莞台商育苗教育基金会主办,台湾高等教育学会、中华工业教育学会、私立科技大学校院协进会协办,暨南大学承办。
论坛及其系列活动取得圆满成功和预期成效。
一、论坛概述根据两岸经贸文化发展政策,粤台双方确立了持续推进教育交流合作的思路。
2005年创办的海峡两岸(粤台)高等教育论坛,在广东和台湾两地轮流举办,至今已成功举办十四届。
论坛宗旨是建立海峡两岸高等学校之间交流合作机制,提高海峡两岸高等教育理论研究、政策研究、实践研究水平,推动海峡两岸高等教育科学发展、校校合作、校企合作,实现优势互补、融合发展。
粤台双方以论坛为平台,不仅在学术上交流,增进互相了解;而且在学生交换培养、师资交流培训和人文发展等方面加强合作,取得了许多成绩。
近年来,中央和广东省政府发布对台系列政策,进一步指明了深化两岸交流合作的方向,增强了粤台双方深化教育交流合作的信心和决心。
文献综述报告的撰写技巧引言:文献综述报告是科研领域中常见的文献整理和总结的形式。
它不仅要求对已有文献中的观点和研究结果进行全面概括,还需要对其进行批判性分析和评价。
本文将就撰写文献综述报告的技巧展开详细论述,分为六个部分进行讨论。
1. 确定研究主题确定研究主题是撰写文献综述报告的第一步,也是最关键的一步。
研究者需要选择一个研究领域或问题,明晰研究目标和研究问题,进而确定文献综述报告的范围和深度。
在确定自己的研究主题时,可以参考已有的文献和研究,理解该领域的研究热点和前沿问题。
2. 收集文献资料收集文献资料是文献综述报告的基础。
研究者可以利用图书馆、学术数据库、在线论坛等渠道获取最新的研究文献。
在收集文献时,应注重筛选和区分文献的质量和可信度,选择那些与研究主题紧密相关、具有权威性和创新性的文献。
3. 文献阅读与笔记阅读文献是撰写文献综述报告的关键环节。
研究者需要系统地阅读和理解所收集到的文献,并对每篇文献进行详细的笔记。
在阅读时,可以使用颜色标记、批注和摘录等方法,将重点和关键信息进行记录和整理。
这样可以帮助研究者在撰写报告时快速回顾和引用相关文献。
4. 结构化撰写报告撰写报告需要有合理的结构安排。
一般而言,文献综述报告的结构包括引言、方法、结果和讨论四个部分。
在撰写引言时,需要明确研究目的、提出研究问题,并简要介绍已有文献的研究现状。
在方法部分,需要阐述撰写文献综述报告的方法和过程。
在结果和讨论部分,应对已有文献的观点和研究结果进行总结、对比和评价。
5. 批判性思考和分析文献综述报告的价值在于批判性思考和分析。
在撰写报告时,研究者应对已有文献的优点和不足进行客观评价,并提出自己的观点和见解。
此外,还可以对不同文献之间的研究结论进行对比分析,挖掘出共性、异同和新的研究方向。
6. 编写文献综述报告最后一步是将收集到的文献资料和分析结果进行整理和编写。
在编写文献综述报告时,需要注重逻辑和论证的连贯性。
中国经济50人论坛年会关于金融改革观点综述2月15日,中国经济50人论坛年会在北京召开,会议主题围绕“深化供给侧结构性改革---产权、动力、质量”主题开展,与会专家学者就提升经济质量效益,完善金融改革提出专业建议。
一、金融改革及风险应对建议(一)明确货币政策锚,合理引导市场预期。
原外汇管理局国际收支司司长管涛建议,一是在当前货币政策框架转型过程中,应参照美联储,尽早明确货币政策锚,在人民币汇率、经济增长、就业或者通胀中选择一个锚,这样才能更好地引导市场预期。
二是中国货币投放渠道很多通过定向工具如MLF、SLF等投放货币,很多没有抵押品,不利于央行强化货币纪律,长此以往,还会对央行的市场信用产生很大影响,所以,不论从短期还是中长期来考虑,中国货币政策转型仍然迫切。
(二)抑制外汇储备过快下降趋势。
清华大学与中国经济研究中心主任李稻葵认为,考虑到中国经济金融结构特殊性,有大量金融资—1—产以存款形式出现,所以外汇储备跌破3亿美元不应掉以轻心,要抑制外汇储备过快下降趋势,资产流动性很强,一旦汇率进一步贬值与资金外流形成互动且双向的互相影响状态,很快就会带来外汇储备下降态势,应认真对待。
(三)应制定政策应对全球需求刺激政策引发资产泡沫。
发改委宏观经济研究院首席专家陈东琪认为,从国际上国际金融危机以来经济政策的运用来看,各国采取了超历史的需求刺激措施,资金向虚,不仅是中国的问题,资产泡沫在放大,新的失衡在形成,全球供需结构出现了新变化,也对政策提出了新要求。
(四)国企改革应包括对国有金融机构改革。
国务院研究中心金融研究所所长张承惠认为,国企改革应包括两个层面,一是国有金融机构改革,二是金融机构客户的国有企业改革。
当前国有金融机构相当部分不是市场化,行政控制力量非常强,商业性银行承担了大量的政策性业务,而政策性金融机构在做商业性金融。
当前机构退出机制及人员退出机制都不健全,亟需改革。
(五)货币政策和财政政策应理性回归—2—中国改革研究基金会国民经济研究所副所长王小鲁认为,货币政策应实实在在回归中性,避免靠刺激性政策来扩大投资,在财政政策方面,建议政府关注重点从投资转向民生,转回到公共服务,回到社会保障,去做市场做不到的事情,而不是和市场抢着做。
BBS论坛系统文献综述1、引言随着网络技术的发展与普及, 各种论坛系统( BBS) 应运而生, BBS ( Bulletin Board System) 是一种电子息服务系统, 它向用户提供了一块公共网络区域, 其中每个用户都可以在上面发布相关信息或提出自己的看法, 早期的BBS 由教育机构或研究机构管理, 现在大多数网站都已经建立了自己的BBS 系统,供人们通过该系统来结交更多的朋友, 表达更多的想法。
目前国内的BBS 已经十分普遍, 大致可以分为以下几类: 校园BBS、商业BBS、专业BBS、情感BBS以及个人BBS。
而此次基于 技术建立的BBS 系统的开发平台与工具选择、数据库设计以及系统所需的关键技术, 对于其它BBS 的建立有很好的参考价值。
随着Internet的高速发展,人类对于信息交流的要求日益提高,并希望实现更广泛的信息共享和资源共享。
电子公告板系统(BBS)这一在Internet上拥有众多用户的服务,也随着网络技术的发展而出现了新的飞跃,基于NNTP(NetworkNews Transfer Protocol)的转信系统的诞生给BBS注入了新的生命。
目前BBS主要分为基于Telnet的和基于Web的两大体系,其中基于Telnet的BBS的转信系统已相对成熟,而基于Web的BBS却一直处于“各自为政”的状态。
因此,要实现这两类技术上存在很大差异的BBS之间的资源共享,使各种类型的BBS之间能够协同工作,实现基于Web 的BBS的转信系统就成了关键环节。
2、BBS背景BBS系统最初是为了给计算机爱好者提供一个互相交流的地方。
70年代后期,计算机用户数目很少且用户之间相距很远。
因此,BBS系统(当时全世界一共不到一百个站点)提供了一个简单方便的交流方式,用户通过 BBS可以交换软件和信息。
到了今天,BBS的用户已经扩展到各行各业,除原先的计算机爱好者们外,商用BBS 操作者、环境组织、宗教组织及其它利益团体也加入了这个行列。
1引言随着信息技术的飞速发展,供人们交流沟通的虚拟空间应运而生,论坛作为一种依托于互联网的典型虚拟互动社区,已经成为日常生活中不可或缺的一部分。
论坛允许用户自主开贴、自由回复,所产生的讨论内容信息量巨大,既包含了用户的广泛观点,也反映了用户的关注焦点,但论坛用户发言的随意性会导致大量噪声数据的产生,如错误表达或无意义内容,另外,论坛帖子依据时间先后顺序排列,内容接近的文本可能在网页位置上相距甚远,因此,论坛的主要论点无法直接获得,且随着论坛数据量的激增,论点数量随之增长,由此论坛主题挖掘技术应运而生。
论坛主题挖掘技术从论坛数据中识别出具有主题相关性的内容,并从中提取主题,该技术能获取论坛网站中的主题分布情况或沿时间线的主题演化情况。
事实证明,论坛主题挖掘具有重要意义。
如对热点话题的识别或对突发话题的检测可有效应用于网络舆情检测[1-2],而高质量话题的抽取或指定话题的抽取可有效应用于论坛信息检索[3]、用户行为分析[4-5]等领域。
2论坛数据挖掘研究框架信息时代来临,现代网民越来越热衷于在网络论坛中交流互动,同时,论坛主题挖掘也成为了一个受到广泛关注的研究方向。
2.1问题描述一般认为论坛主帖是发起话题的第一个帖子,在主帖下回复的帖子称为跟帖,通常将主帖及其所有跟帖的组合称为线程,而网络论坛则是由一系列线程构成的。
论坛主题挖掘研究综述陈迪,代艳君,王志锋CHEN Di,DAI Yanjun,WANG Zhifeng华中师范大学教育信息技术学院,武汉430000School of Educational Information Technology,Central China Normal University,Wuhan430000,ChinaCHEN Di,DAI Yanjun,WANG Zhifeng.Survey of research on forum topic puter Engineering and Applications,2017,53(16):36-44.Abstract:With the advent of the big data age,network forum data which is social,randomness and decentralized is explod-ing and difficult to be used directly.Forum topic mining can refine the main forum argument yet.It can identify the con-tent of the user’s discussion from the complex forum data and extract the theme.This paper describes the problem and the framework of the forum topic mining,and classifies of existing technologies,basic types as forum text preprocessing, topic mining algorithm and topic modeling.Then,the basic characteristics and typical methods of the above three kinds of topic mining technology are described,compared and summarized in detail.At the end of the paper,discusses and analyzes the current problems and development trend of the forum topic mining.Key words:forum mining;topic mining;text preprocessing;topic model摘要:伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特点,难以被直接使用。
而论坛主题挖掘技术能从复杂的论坛数据中识别出用户集中讨论的文本内容,并从中提取主题,以达到提炼论坛主要论点的目的。
对论坛主题挖掘进行了问题描述和任务框架梳理,并依照任务框架对现有技术进行了分类,基本类型为论坛文本预处理、主题挖掘算法和主题建模,详细阐述了以上三类论坛主题挖掘技术的基本特征和典型方法,进行了比较与总结,对论坛主题挖掘当前存在的问题及其发展趋势进行了分析与讨论。
关键词:论坛挖掘;主题挖掘;文本预处理;主题模型文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.1705-0183基金项目:国家自然科学基金(No.61501199);国家科技支撑计划(No.2015BAK33B02)。
作者简介:王志锋(1985—),男,博士,讲师,研究领域为信号处理、机器学习与数据挖掘,E-mail:zfwang@。
收稿日期:2017-05-15修回日期:2017-06-27文章编号:1002-8331(2017)16-0036-09由于论坛发言的随意性,跟帖常偏移于主帖内容而任意展开,主帖内容有时并非线程的主题。
主题挖掘任务的本质是将输入的文本流划分到不同的主题类中,并且在必要时候建立新的主题类。
由于论坛特殊的交流模式,其文本数据具有以下特点:(1)口语化,帖子发布者来自不同的地方,也有着不同的经历与背景,在表达同一观点时措辞会有很大不同;(2)篇幅差距较大,有些帖子的论述较多,而有些帖子只是一些短语或词语;(3)存在许多不规范甚至错误的表达方式;(4)论坛中有大量未在字典中列出的新词,且这类词的数量正在日益增长。
这些特性为论坛主题挖掘工作带来一定的挑战。
2.2任务框架论坛主题挖掘任务除基本的论坛话题识别外,还包括热点话题检测、突发话题检测、高质量话题抽取、指定话题抽取等等。
其基本任务框架如图1所示,论坛主题挖掘的数据处理对象为帖子文本,首先需通过网站爬虫技术或在开源论坛数据库中获取论坛文本流,然后对论坛文本进行预处理,过滤其中的无效数据,接下来通过主题挖掘算法提取用户集中讨论的内容,再通过主题建模完成对以上内容的主题描述,最终生成主题。
3论坛主题挖掘技术论坛主题挖掘技术的目标是从论坛文本流中检测出用户集中讨论的内容,且用较短文本描述它们,从而生成讨论主题。
根据论坛主题挖掘任务框架,可将论坛主题挖掘技术分为论坛文本预处理、主题挖掘算法和主题建模三种类型。
3.1论坛文本预处理作为论坛主题挖掘的第一步,论坛文本预处理的目的是过滤原始论坛数据中的无效数据,同时将文本转换为便于计算机处理计算的数据对象。
论坛文本预处理过程通常遵循以下步骤,如图2所示:①对文本进行分词;②去除其中的停用词[6],停用词是指没有实际含义的字词,每种语言都有对应的停用词表,且较为固定;③进行词频统计,即每个词出现的频率;④进行文本向量化,将文本数据转换为易于数学处理的向量形式。
上述步骤中,常用的分词工具包括ICTCLAS[7]、Ansj、SCWS、FudanNLP[8]、Stanford[9]、mmseg4j、CRF++[10]等,基本信息及原理如表1所示。
上述分词工具适用于所有类型文本,但对论坛数据而言,由于其用户具有年轻化趋向,不规范的表达或新词层出不穷,且不排除这些新词正是讨论热点的可能性,因此对于论坛主题挖掘,分词工具存在一定的缺陷。
所以在某些论坛主题挖掘研究工作中,为避免新词遗漏,会明确规定需手动添加新词,但其完整性仍无法保证。
Li等[11]为解决这一问题,提出了一套基于最长公共分段连续子序列LCSCS (Longest Common Segmented Consecutive Subsequence)算法。
该算法依据热门主题所具有的三个特性:①被大量讨论;②可从帖子标题提取;③可从帖子标题中提取字符序列。
通过提取有效的标题内容,并检测出分段连续子序列,完成文本分词。
虽然该方案仅针对论坛标题进行处理,对于热门主题检测而言有失严谨,但在论坛新词的识别上有所突破。
第④步文本向量化是将文本进行空间向量化,用数学上的多维特征向量来表示文本,以便用于后续的数网页爬虫技术开源论坛数据库论坛文本流论坛文本预处理主题挖掘算法主题建模主题生成图1论坛主题挖掘任务框架去除停用词分词词频统计文本向量化图2论坛文本预处理的一般步骤分词工具ICTCLASAnsj SCWS FudanNLP Stanford mmseg4j CRF++作者中国科学院计算技术研究所Hightman复旦大学斯坦福大学自然语言处理组chenlb上海交通大学语言C/C++JavaC语言JavaJavaJavaJava基本原理层叠隐马尔可夫模型、原子切分、N-最短路径粗切分ICTCLAS的java实现词频词典的机械中文分词引擎统计与规则条件随机场模型、字符身份特征正向最大匹配条件随机场模型准确率98.45%96%以上90%~95%70.3%~98.40%94.3%~96.4%98.41%96.1%~98.2%表1常用的分词工具据挖掘算法或主题模型。
通常使用基于向量空间模型VSM(Vector Space Model)[12]的方式,将文本空间看作是由一组正交词条矢量所组成的矢量空问,每段文本d 用一个范化矢量V(d)=(t1,w1(d),t2,w2(d),…,t n,w n(d))表示,其中t i为词条项,w i(d)表示词条t i在文本d中的权值,用于显示向量t i在文本d中的重要程度。
可以将文本d中出现的所有词条作为t i,也可以要求t i是d 中出现的所有短语,从而提高内容特征表示的准确性。
w i(d)一般被定义为词条t i在文本d中的出现频率tf i(d)的函数,w i=f(tf i(d)),这也是第③步要进行词频统计的原因,常用的f函数有布尔函数、平方根函数、对数函数、TF-IDF函数等。
目前使用最广泛的是TF-IDF函数,其中文本内频率TF(Term Frequency)是指一个特征项在文档中出现的次数,反映了该特征项对文档的重要性,而逆文本频数IDF(Inverse Document Frequency)是指一个特征项在其他文档中的重要程度,假设某个词出现的频数越小,它区分不同类别的能力就越大,因此IDF与该词所在文档的总数成反比或近似反比。
由于论坛文本不同于文档文本,相邻文本段之间不具有明显的逻辑关系,因此预处理结果通常存在特征稀疏的问题,因此必要时可在上述论坛文本预处理步骤中加入关键词共现技术[13]或依存句法分析来应对特征稀疏的问题。