当前位置：文档之家› 产品评论挖掘研究综述

产品评论挖掘研究综述

2008, 44(36 1引言

随着 Web 的广泛使用,用户购买和使用产品之后会在

Web 上发表对产品的评论, 这些评论中包含用户对产品的性能或功能等方面持有肯定还是否定的态度。生产厂商和用户对产品评论的分析可以获得大量的有用信息:生产厂商不仅可以了解用户对产品目前已提供的性能的评价和产品的不足, 还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能, 从而改进产品[1]。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能, 还可以对同类型的产品按照性能进行对比, 从而合理地购买产品 [2]。

目前用户一般通过在 Web 上填写问卷调查表的方式或直接使用自然语言发表一段评论的方式来表达对产品的态度。问卷调查表属于结构化数据, 可以使用成熟的数据库技术进行分析并显示统计结果, 自然语言描述的产品评论属于无结构化数据, 生产厂商和用户要想从产品评论中获取信息, 只有通过人工阅读方式来获取信息, 而这是一个消耗时间且容易产生错误的过程。因此产生了对用户评论挖掘的研究, 目的是通过采用

自然语言处理技术, 对自然语言描述的无结构的用户产品评论

中进行数据的自动挖掘, 找到有用的信息, 并以直观的方式对挖掘结果进行表示。

2产品评论挖掘框架

产品评论挖掘是文本挖掘研究领域中最近几年兴起的研究热点, 以 Web 上发表的用户产品评论作为挖掘对象, 采用自然语言处理技术,从大量文本数据中发现用于对该产品各方面性能的评价。目前产品评论挖掘分为产品特征提取、主观句定位、用户态度提取、态度极性判定和挖掘结果显示 5个子任务 (如图 1 。

(1 产品评论语料库。产品评论挖掘是针对某类产品 (比如手机、数码相机进行挖掘, 因此必须首先建立产品评论的语料库。目前研究主要采用从指定的网站 (比如英文的 www.Ama https://www.doczj.com/doc/e910789643.html, 、中文的 https://www.doczj.com/doc/e910789643.html, 获取某类产品的产品评论来构建产品评论语料库。

(2 产品特征提取。从产品评论中发现用户对产品的哪些产品特征 (产品的部件、部件的性能或功能进行了评价。

基金项目:重庆市自然科学基金 (the Natural Science Foundation of Chongqing City of China under Grant No.2007BB2134 。

作者简介:伍星 (1978- , 男, 博士研究生, 讲师, 主要研究方向为自然语言理解、Web 挖掘; 何中市 (1968- , 博士, 教授, 博导, 主要研究方向为机器

-收稿日期:2008-09-15

修回日期:2008-10-16

产品评论挖掘研究综述

伍星, 何中市, 黄永文 WU Xing , HE Zhong-shi , HUANG Yong-wen

重庆大学计算机学院, 重庆 400044

Computer College of Chongqing University , Chongqing 400044, China E-

mail :wuxing@https://www.doczj.com/doc/e910789643.html,

WU Xing , HE Zhong-shi , HUANG Yong-wen.Product review mining :A https://www.doczj.com/doc/e910789643.html,puter Engineering and Applications , 2008, 44(36 :37-41. Abstract :Product review mining is the process of finding information from product reviews on the Web through natural language process technology.It is a rising field that is the sub field of unstructured data mining from plain text.The information mined from

product reviews can help manufacturers to improve their product ,

and help user to buy product with more rationality.A survey of product review mining is discussed.Firstly , the framework of product review mining is analyzed.Then , the tasks of product review

mining that include subjective sentence identify , product feature extracting , user attitude extracting , polarity classifying and mining result show are also described in detail , and finally the future reseach directions about product review mining are pointed out. Key words :textual pattern ; subjective feature ; word polarity

摘要:

产品评论挖掘是以 Web 上用户发表的产品评论为挖掘对象, 采用自然语言处理技术, 从大量的文本数据中发现关于产品的功能和性能的评价信息的过程。产品评论挖掘是一个新兴的研究领域, 是对自然语言描述的无结构数据进行数据挖掘的典型代表。产品评论中挖掘得到的信息不仅可以帮助生产厂商改进产品, 还可以帮助用户合理的购买产品。对产品评论挖掘进行了全面深入地讨论, 介绍了产品评论挖掘系统的通用框架, 然后对产品特征提取、主观句定位、用户态度提取、态度极性判定、挖掘结果显示这 5个子任务进行了详细地阐述, 最后介绍了产品评论挖掘的最新方向。

关键词:

用户评论; 主观特征; 词语极性 DOI :10.3778/j.issn.1002-8331.2008.36.010

文章编号:1002-8331(2008 36-0037-05

文献标识码:A

中图分类号:TP18

Computer Engineering and Applications 计算机工程与应用 37

Computer Engineering and Applications 计算机工程与应用

2008, 44(36

产品评论语料库

产品特征提取主观句定位产品特征集合

主观句集合

用户态度提取态度极性判定挖掘结果显示

图 1产品评论挖掘系统框架

1. 最大的缺点是电池容量小使用时间短。

2. 外表华丽, 适合白天使用夜景不用三角架不行, 防抖极差, 防红眼基本不起作用。

3. SONY T9可以放在裤兜里。

图 2产品特征

(3 主观句定位。发现产品评论中的哪些句子用户表达了对产品的主观态度。

(4 用户态度提取。从主观句中寻找表示用户态度的单词、短语或结构。

(5 态度极性判定。确定用户态度的极性:正性 (肯定、支持 /负性 (否定、反对。

(6 挖掘结果显示。对挖掘结果进行直观地显示。文章的后续部分将对产品评论的 5个子任务进行详细地介绍。

2.1产品特征提取

生产厂商一般会提供一个关于产品各个方面性能的说明

文件, 但是产品评论挖掘一般不从这样的说明性文件中提取产品特征, 主要原因是:首先生产厂商和用户对产品特征关注的角度不一样, 生产厂商提供的产品特征更多的专注于一些技术细节, 对于这样的细节用户一般不感兴趣; 其次产品评论中对特征的描述是一个开放性的问题, 用户可能在产品评论中发表生产厂商根本没有考虑到的一些产品特征, 因此需要从产品评论语料库中提取产品特征。

产品特征分为显示特征和隐示特征, 显示特征是直接出现

在产品评论中描述产品的性能或功能的名词或名词短语。隐示特征没有在语句中直接进行描述, 需要句子进行语义理解才能

得到。图 2中的第 1、 2句中的电池容量、外表、三脚架和防红眼是显示特征, 而第 3句中语句的字面语义是相机容易放在口袋

里, 其实指出了 SONY T9的大小这个隐示特征。提取隐示特征需要自然语言的完全理解技术, 而该技术不成熟, 因此目前的

产品评论挖掘中产品特征提取均都只考虑显示产品特征。

显示产品特征的提取分为人工定义和自动提取两类方法。人工定义就是针对特定领域的产品建立该领域的产品特征词

汇表。 Li Zhuang 人工定义针对电影的产品特征, 将电影的产品特征分为两类:电影的元素 (比如:screenplay 、 vision effect 和

与电影相关的人员 (比如:director 、 screenwriter 、 actor [3]。姚天昉利用本体建立了汽车的产品特征 [4]; Kobayashi 、 Inui 和 Mat -sumoto 以半自动的方式建立了针对汽车和游戏的产品特征, 首 (论文档中抽取候选的特征, 再以人工的方式进行标注 [5]。

采用人工定义产品特征的方法, 每一个领域的产品都需要该领域的专家参与才能定义该领域的产品特征, 因此移植性较

差, 并且人工定义的产品特征是静态的, 当产品的功能发生改变后 (比如手机加入了新的功能 , 只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。

自动提取产品特征主要使用词性标注、句法分析、文本模式等自然语言技术对产品评论中的语句进行分析, 从中自动发现产品特征。 Kim 和 Hovy 首先寻找句子中包含表达主观性的词汇, 然后定义一个大小固定的窗口, 以主观性词汇为中心, 将窗口中的名词或名词短语作为特征 [6]。 Jeonhee Y 、 Nasukawa 、 Bunescu 和 Niblack 指定了具有 BNP (Base Noun Phrase 结构的名词短语才可能是产品特征, 并使用信息检索算法度量该特征是否与指定产品类相关 [7]。 Hu Minqing 和 Liu Bing 首先对评论中的语句进行词性标注,只保留句子中的名词或名词短语, 将产品评论语料库中的每一个句子生成一条记录插入 Trans -action File , 然后采用 Apriori 算法从 Transaction File 中寻找频繁项 (频繁 1, 2, 3项集 , 将得到的频繁项作为候选产品特征, 再根据两条启发式规则对候选产品特征进行过滤得到产品特征集合。该方法结构简单便于实现, 具有良好的移植性, 获得了

较高的召回率 (80% , 但准确率有待提高 (71% [8]

。 Popescu 、

Yates 和 Etzioni 采用 KnowItAll 中人工定义的抽取指定关系 (part of 关系、 is a 关系的文本模式抽取产品特征。该方法在 Hu Mingqing 的 5类产品的产品评论语料库取得了召回率 77%(降低 3% 、准确率 89%(提高 18% 的良好效果。该方法需要使用人工定义的通用文本模式,因此具有和 KnowItAll 系统同样的缺点:部署困难和移植性较差 [9]。

2.2主观句定位

用户产品评论中包含两类信息:客观信息和主观信息。客

观信息是用户表述的一些事实信息, 主观信息是用户表述自己对产品的主观态度, 因此需要确定产品评论中哪些语句是表示了用户态度的主观句。

判定主观句的方法主要是查看语句中是否出现了主观性特征,主观性特征包括可以表示主观性的动词、形容词、名词、短语、文本模式或人工定义的词汇表, 主观性特征的获取分为人工定义和自动获取两种方式。

人工定义主观性词汇表通过人对用户产品评论的语料库进行总结, 得到表示主观性的词汇表。 Kim 和 Hovy 采用了人工定义的方法建立了主观性判定特征词表[10]; Bethard 和 Hong Yu 使用 FrameNet 和 PropBank 的语义角色标注,提取动词作为主观性的线索 [11]。

自动获取主观性特征的方法分为监督学习和弱监督学习两类方法。监督学习需要对主观性进行了标注的语料库, Wiebe 开发了人工标注的主观性语料库 [12], 通过人的知识来决定句子是否为主观句, 标注了引起句子成为主观句的元素, 并按照该元素引起的主观性的强弱进行了等级的划分 [13]。该语料库的标注过程中发现形容词是引起主观性的一个重要特征,因此 Wiebe 从标注的语料库中学习了作为主观性的形容词 [14]。

建立主观性标注语料库的另一个方法是直接采用报纸的文章类型作为篇章层次的主观性标注。 Yu Hong 和 Hatzivas -siloglou 直接使用 WSJ 作为语料库, 将文章分解为一元单词、二元词对、三元词对, 以文章的类型 (Editorial , Letter to Editer , and 习的方法获取那些单词、二元词对、三元词对可以作为主观性

2008, 44(36

特征 [15]。 Riloff 和 Wiebe 直接使用文本模式作为捕获表示主观性特征的复杂结构。该方法首先利用已有的主观性和客观性词汇表分别建立具有高准确率的一个主观性分类器和一个客观性分类器,利用这两个高精度的分类器对语料库中句子进行主 /客观性分类, 然后将 AutoSlog-TS 中的文本模板采用语料库中的句子进行实例化, 生成文本模式, 最后根据句子的主 /客观性标注, 对文本模式的主 /客观性进行评分, 以得到主观性的文本模式 [16]。

主观性标注语料库的建立需要大量的人力和时间, 而采用弱监督的方法抽主观性特征不需要提供主观性标注语料库, 只需提供少量的主观性特征作为种子集合, 就可以从语料库中自动获取更多的主观性特征。 Riloff 采用 BootStrapping 方法自动提取可作为主观性特征的名词, 该方法只需要提供由少量可作为主观性特征的名词构成的种子集合和无标记的语料库。首先从语料库中发现出现了种子集合中主观性特征的句子, 根据这些句子自动抽取侯选文本模式,对侯选文本模式进行评估, 选择最优秀的文本模式加入文本模式集合, 再使用文本模式抽取新的主观性特征, 将新的主观性特征加入种子集合, 该过程不断的进行迭代以获得更多的可作为主观性特征的名词 [17]。 2.3用户态度提取

Kobayashi 、 Inui 和 Matsumoto 建立了形容词的用户态度词汇表 (比

如:comfortable , tight , supportive [18]。 Li Zhuang 从人工标注的数据中寻找了 1093个词汇作为正性词汇, 780个词汇作为负性词汇,无论评论语句中出现了正性还是负性词汇, 那么都将该词汇作为表示了用户态度的词汇 [3]。 Bing Liu 和 Mingqing Hu 提取句法分析树中修饰作为产品特征的名词和名词短语的形容词或副词作为用户态度 [19]。 Kim 和 Hovy 不进行句法分析而是直接定义一个窗口, 根据句子中的产品特征定义窗口出现的位置, 将在窗口中出现的形容词作为用户态度 [20]。Popescu 和 Etzioni 使用文本模式提取用户态度, 将出现在文本模式中的形容词作为用户态度 [21]。

2.4态度极性判定

态度的极性判断和用户态度提取既有联系又有区别, 联系在于二者都是使用特定的词语或者结构, 不同在于用户态度提取只判断什么样的语言单元表达了用户在特征上的态度 (观点、情感 , 态度的极性判断需要进一步确定用户所表达态度的倾向:正性 (褒、肯定、赞扬 /负性 (贬、否定, 批评。文本的态度分析分为词语、短语、句子、篇章等多个层次, 篇章层次的态度极性的判断多用于基于情感的多文本摘要等领域, BoPang 直接使用 NGram 语法,对文章进行分解,得到的 N 元组作为特征, 训练篇章层次的态度极性分类器 [22]。 Turney 首先判断句子中词汇的极性, 再判断句子的极性, 最后确定整个文章的态度极性 [23]。

产品评论挖掘中需要抽取的是用户在某一具体的产品特征 (比如手机屏幕的大小所表示态度的极性, 因此更多地倾向于对词语、短语的态度进行分析。词语或短语的极性判定需要极性词汇表, 极性词汇表的建立分为人工定义和自动获取两种方法。人工定义方法通过人对语言的分析来建立极性词汇表, 直接查询极性词汇表即可获取词汇或短语的极性。 Ku Lun-wei , Liang Yu-ting 和 Chen Hsin-his 建立的极性词汇表包含两

性词汇表和人工从 Web 上收集构成的中文网络极性词典, 二者一共包含 2764个正性词汇和 7778个负性词汇 [24]。娄德成和姚天昉分别对 HowNet 中的 6564个词条和从 2454篇汽车评论中人工选择得到的极性词汇以人工标注的方式建立极性词汇表 [25]。 Hatzivassiloglou 和 Wiebe 分析了语义方向和程度词汇 (副词和名词对语义方向的影响, 手工建立了一个 73个单词构成的词汇表 [26]。

Wang Chao 、 Lu Jie 和 Zhang Guangquan 发现产品评论语料库中的评论包含两个部分的内容:标题和具体内容, 而标题通常表示了整个评论的态度, 因此可以将标题中的用户态度作为具体内容的的极性标注, 建立朴素贝叶斯分类器, 计算具体内容中词汇的极性 [27]。 Yang Changhua 、 Lin Kevin Hsin yih 和 Chen Hsin hsi 将博客上的回复信息的表情图标 (通常用户会使用从网站提供的表情图标中选择一个来表示自己的态度:肯定 /否定作为回复语句的极性标注, 通过计算语句中的词汇与表情图像之间的互信息来建立极性词汇表 [28]。

Hatzuvassiloglou 利用形容词之间的连词存在语言学上的限制 (连词连接的两个词表示相同或相反的态度 , 将语料库中的形容词聚类为正性词汇和负性词汇。实验结果表明对形容词的极性判定具有较好的效果, 该文只对形容词进行了语义方向的判定, 可以采用同样的方法来确定动词和副词的极性 [29]。上述方法建立的极性词汇表由固定的词汇构成, 而用户产品评论中所使用表示用户态度的极性词汇可能在极性词典中并未包含, 需要对产品评论中未出现在极性词汇表中的词汇进行处理。 Ku Lun-wei , Liang Yu-ting 和 Chen Hsin-his 充分利用了中文词语由字构成的特点, 指出词语的态度极性由构成该词语的字的态度极性组合而成, 而字的态度极性通过字出现在人工建立的极性词汇表中的正性 /负性词汇中的频率来表示。该

方法不仅可以判定极性词汇表中未包含词汇的极性, 还可以计算极性的强弱 [24]。娄德成和姚天昉 [25]使用 Turney [30]的 PMI-IR 方法来处理极性词汇表中未包含的极性词。 Kim 和 Hovy 使用了一个假设:同义词的极性相同, 因此使用 WordNet 寻找同义词, 对人工定义的极性词汇表进行扩展。

Turney [30]采用互信息和信息检索结合 (PMI-IR 的方法判定词汇极性, 该方法假设同一篇文章中出现的词语具有相同的情感极性方向。首先建立 7个单词构成的正性词汇集 PWords 和 7个单词构成的负性词汇集 NWords (如图 3 , 对需要进行极性判断的词汇 UWord , 分别计算 UWord 与 PWord 和 NWords 中的每个极性词汇的互信息 (PMI :Point Mutual Information , 下面的公式采用 IR 方法计算两个词的互信息:

PMI (Word

, Word

=log2

p (Word

&Word

其中 p (word

&word

表示将 word

和 word

构成的二元词对

使用搜索引擎从 Web 检索出现二元对的网页的数目, p (word 1

表示使用搜索引擎从 Web 检索出现 word

的网页的数目,

p (word

表示使用搜索引擎从 Web 检索出现 word

的网页的数目。最后分别将计算得到的 UWord 与 PWord 每个极性词汇的互信息相加和 UWord 与 NWords 每个极性词汇的互信息相加, 用前者减去后者, 结果

为正表示 UWord 更靠近正性词汇, 为负表示 UWord 更靠近正性词汇。 Turney 的

方法只需少量的了广泛地应用。

伍星, 何中市, 黄永文:产品评论挖掘研究综述 39

Computer Engineering and Applications 计算机工程与应用

2008, 44(36 PWords={good, nice , excellent , positive , fortunate , correct , superior} NWords={bad, nasty , poor , negative , unfortunate , wrong , inferior}

图 3Turney 的正 /负性词汇表

Ana-Maria Popescu , Bao Nguyen , Oren Etzioni

OPINE

Review Summary

Quality Room Staff friendliness Staff :beautiful Fullness :full

图 4Popescu 的挖掘结果

Battery

Zoom

Size

Weight

positive Digital Camera 2

图 5Hu Mingqing 的挖掘结果

2.5挖掘结果显示

产品评论挖掘的目的是为生产厂商和用户的决策提供信息的支持,因此必须将挖掘结果进行直观的展示。 Popescu 和 Etzioni 采用列表方式对产品评论的挖掘结果按照产品的特征进行显示 (如图 4 , 针对每一个产品特征列出肯定或否定的评论, 用户可以进一步查看肯定否定的源语句 [21]。 Liu Bing 采用了图形化方式来显示挖掘结果, 不仅提供了按照产品特征的方式查看用户评论 (如图 5 , 还提供了比较两个产品相同的产品特征上得到的用户肯定 /否定评价的图形化比较 [31]。

3产品评论挖掘的研究方向

(1 自动获取产品特征的层次关系。自动获取产品特征的

方法获得特征地位是等同的, 忽略了产品评论中特征之间的层次关系。比如:手机的包含屏幕, 而屏幕又包含大小、颜色象素、材质等更细小的产品特征, 因此应提取产品特征的层次关系以方便挖掘结果的显示。

(2 获取高质量的产品评论。 Web 上的用户产品评论存在大量的噪音, 有的评论根本和产品无关, 还有很多的广告信息, 这会严重影响产品评论挖掘的质量 [32], 因此应过滤产品评论, 以提高挖掘结果的准确率。

(3 拓展产品评论的来源。产品评论目前的挖掘数据还主要针对是一些商业网站上的用户评论, 而用户的产品评论不仅仅发表在一些专门的评论网站, 博客同样是产品评论的重要来源 [33]。

4总结

本文首先从概念上对产品评论挖掘进行了界定, 并对其与

。挖掘的系统框架,指出了产品评论挖掘包括产品特征提取、主

观句定位、用户态度提取、态度极性判定、挖掘结果 5个子任务, 对每个子任务的现有解决方法进行了详细介绍, 并对该研究领域的原型系统进行了对比, 经过深入地思考发现了该研究领域新的研究方向。产品评论挖掘的深入研究将在战略决策、情报分析、企业规划等领域发挥积极的作用。

产品评论挖掘技术是一个新兴的、富有挑战性的前沿性研究领域, 受数据挖掘、信息检索、信息抽取、搜索引擎、文本分类等多个学科领域的影响, 作为文本挖掘的典型代表必将对其产生巨大的推动作用。有关这方面的研究在国外还刚刚起步, 而国内这方面的研究还非常少, 有许多新的理论、方法和应用还需要去探索和发现。

参考文献:

[1]Morinaga S , Yamanishi K , Tateishi K , et al.Mining product reputations

on the Web[C]//Proceedingsof the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining , Edmonton , Alberta , Canada , 2002.

[2]Hu Nan , Liu Ling , Zhang J.Analyst forecast revision and market sales

discovery of online word of mouth [C]//Proceedingsof the 40th Hawaii International Conference on System Sciences , Waikoloa , Big Island ,

HI , USA , 2007. [3]Li Zhuang , Feng Jing , Zhu Xiao-yan.Movie review mining and summa -

rization[C]//Proceedingsof the 2006ACM CIKM International Con -ference on Information and Knowledge Management , Arlington , Vir -

ginia , USA , 2006.

[4]Kobayashi N , Inui K , Matsumoto Y.Collecting evaluative expressions

for opinion extraction[C]//IJCNLP, Hainan , China , 2004.

[5]姚天昉 , 聂青阳, 李建超 . 一个用于汉语汽车评论的意见挖掘系统 [C]//

中国中文信息学会成立二十五周年学术年会, 北京, 中国, 2006. [6]Kim S M , Hovy E.Determining the sentiment of opinions[C]//The

20th International Conference on Computational Linguistics , Geneva , Switzerland , 2004.

[7]Yi J , Nasukawa T , Bunescu R C , et al.Sentiment analyzer :Extracting

sentiments about a given topic using natural language processing techniques

[C]//The3rd IEEE International Conference on Data Mining ,

2003. [8]Hu Mingqing , Liu Bing.Mining and summarizing customer reviews[C]//

Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining ,

Seattle , WA , 2004. [9]Popescu A M , Etzioni O.Extracting product features and opinions

from reviews[C]//HumanLanguage Technology Conference and Con-ference on Empirical Methods in Natural Language Processing , Vancouver , Canada , 2005.

[10]Kim S M , Hovy E.Identifying and analyzing judgment opinions[C]//

Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics , Proceed -ings , New York , USA , 2006.

[11]Bethard S , Yu Hong , Thornton A , et al.Extracting opinion proposi -

tions and opinion holders using syntactic and lexical cues [J].Computing Attitude and Affect in Text :Theory and Applications , 2006, 20:125-141.

[12]Wiebe J , Bruce R F , O ’ Hara T P.Development and use of a gold

data for Annual Meeting of the Association for Computational Linguistics , Mary -

2008, 44(36 [12]Ephraim Y , Malah D.Speech enhancement using a minimum mean

square error short time spectral amplitude estimator[J].IEEETrans on Acoustics ,

Speech , Signal Processing , 1984, 32(6 :1109-1121. [13]Chang J H , Kim N

S.Voice activity detection based on complex

Laplacian model[J].ElectronicsLetters ,

2003, 39(7 :632-634[14]Almpanidis G , Kotropoulos C.Voice activity detection based on

generalized gamma distribution[C]//Proceedingsof ICME , 2006:961-964.

[15]Chang J H , Kim N S , Mitra S K.Voice activity detection based on

multiple statistical models[J].IEEETrans on Signal Processing , 2006, 54(6 :1965-1976.

[16]Sohn J , Kim N S , Sung W.A statistical model-based voice activity

detection[J].IEEESignal Processing Letters , 1999, 16(1 :1-3. [17]Cho Y D , Al-Naimi K , Kondoz A.Improved voice activity detection

based on a smoothed statistical likelihood ratio[C]//Proceedingsof

ICASSP , 2001:737-740.

[18]Ramirez J , Segura J C , Benitez C.Statistical voice activity detection

using a multiple observation likelihood ratio test[J].IEEESignal Processing Letters , 2005, 12(10 :689-692.

[19]Ramirez J ,

Segura J C , Gorriz J M , et al.Improved voice activity detection using contextual multiple hypothesis testing for robust speech recognition[J].IEEETrans on Audio , Speech and Language Processing , 2007, 15(8 :2177-2189.

[20]Jong Won Shin , Hyuk Jin Kwon , Suk Ho Jin , et al.Voice activity

detection based on conditional MAP criterion[J].IEEESignal Pro -cessing Letters , 2008, 15:257-260.

[21]Varga A , Steeneken H J M.Assessment for automatic speech recog -

nition :II.NOISEX-92:A database and an experiment to study the effect of additive noise on speech recognition systems [J].SpeechCommunication , 1993, 12(3 :247-251.

(上接 36页

land , USA , 1999.

[13]Wilson T , Wiebe J.Annotating opinions in the world press[C]//4th

SIGdial Workshop on Discourse and Dialogue , Sapporo , Japan , 2003.

[14]Wiebe J.Learning subjective adjectives from corpora[C]//Proceedings

of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence ,

Texas , USA , 2000. [15]Yu Hong , Hatzivassiloglou V.Towards answering opinion questions :

Separating facts from opinions and identifying the polarity of opi-nion sentences[C]//Proceedingsof the 2003Conference on Emprical Methods in Natural Language Processing ,

Sapporo , Japan , 2003. [16]Riloff E , Wiebe J.Learning extraction patterns for subjective ex -

pressions[C]//Proceedingsof the 2003Conference on Empirical Methods in Natural Language Processing , Sapporo , Japan , 2003. [17]Riloff E , Wiebe J , Wilson

T.Learning subjective nouns using ex -

traction pattern bootstrapping[C]//Proceedingsof the Seventh Con -ference on Natural Language Learning , Edmonton , Canada , 2003. [18]Kobayashi N , Iida R , Inui K , et al.Opinion mining as extraction of

attribute -value relations [C ]//THe 19th Annual Conference of JSAI , Japan , 2005.

[19]Hu Mingqing , Liu Bing.Mining opinion features in customer re -

views[C]//Proceedingsof Nineteeth National Conference on Arti -ficial Intellgience , San Jose , USA , 2004.

[20]Kim S M ,

Hovy E.Automatic detection of opinion bearing words and

sentences[C]//CompanionVolume to the Proceedings of the Second International Joint Conference on Natural Language Pro -cessing (IJCNLP-05 , Jeju Island , Republic of Korea , 2005. [21]Popescu A M , Nguyen B , Etzioni O.OPINE :Extracting product

features and opinions from reviews[C]//HumanLanguage Technol -ogy Conference and Conference on Empirical Methods in Natu -ral Language Processing , British Columbia , Canada , 2005. [22]Pang Bo , Lee Lillian , Vaithyanathan S.Thumbs

up?sentiment classi-fication using machine learning techniques CoRR cs.CL/0205070, 2002.

[23]Turney P D.Thumbs up or thumbs down?Semantic orientation

applied to unsupervised classification of reviews [C]//Proceedingsof the 40th Annual Meeting of the Association for Computational Linguistics , Philadelphia , PA , USA , 2002.

[24]Ku Lun-wei ,

Liang Yu-ting , Chen Hsin-hsi.Opinion extraction , sum -marization and tracking in news and blog Corpora[C]//Proceedingsof AAAI -2006Spring Symposium on Computational Approaches to Analyzing Weblogs ,

Stanford University , California , USA , 2006. [25]娄德成, 姚天昉 . 汉语句子语义极性分析和观点抽取方法的研究 [J].

计算机应用, 2006(11 .

[26]Hatzivassiloglou V , Wiebe J.Effects of adjective orientation and

gradability on sentence subjectivity [C]//The18th International Conference on Computational Linguistics , Proceedings of the Con -ference , Saarbr ücken , Germany , 2000.

[27]Wang Chao , Lu Jie , Zhang Guangquan.A semantic classification

approach for online product reviews[C]//Proceedingsof the

2005IEEE/WIC/ACMInternational Conference on Web Intelligence , French , 2005.

[28]Yang Changhua , Lin K H Y , Chen H H.Building emotion lexicon

from weblog corpora[C]//2007IEEE/WIC/ACMInternational Con -ference on Web Intelligence , Silicon Valley , CA , USA , 2007. [29]Hatzivassiloglou V , McKeown K.Predicting the semantic orientation

of adjectives[C]//35thannual meeting of the Association for Com -putational Linguistics and 8th Conference of the European Chap -ter of the Association for Computational Linguistics , Proceedings of the Conference , Madrid , Spain , 1997.

[30]Turney P D , Littman M L.Unsupervised learning of semantic ori -

entation from a hundred-billion-word corpus CoRR cs.LG/0212012.[31]Liu Bing , Hu Minqing , Cheng Junsheng.Opinion observer :Analyzing

and comparing opinions on the Web[C]//Proceedingsof the 14th International World Wide Web conference , China , Japan , 2005. [32]Chklovski T.Deriving quantitative overviews of free text assessments

on the web[C]//IntelligentUser Interfaces 2006, 2006:155-162. [33]Osman D J , Yearwood J L.Opinion search in Web Logs[C]//Eigh-

teen Australasian Database Conference , Victoria , Australia , 2007.

伍星, 何中市, 黄永文:产品评论挖掘研究综述

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科，涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘（Data Mining）指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息，提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说，数据挖掘是在对数据全面了解认识的基础之上进行的一次升华，是对数据的抽象和概括。如果把数据比作矿产资源，那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比，原始的数据信息可以是结构化的，数据库中的数据，也可以是半结构化的，如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法：使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

(叶强和李一军对文本分析这一块应该研究的较多)互联网商品评论情感分析研究综述_张紫琼

第13卷第6期2010年6月管理科学学报 J OURNA L O F M ANAGE M ENT SCIENCES I N CH I NA V o.l13N o.6 Jun.2010互联网商品评论情感分析研究综述1 张紫琼,叶强,李一军 (哈尔滨工业大学管理学院,哈尔滨150001) 摘要:互联网评论情感分析是W eb信息挖掘的一个新兴领域,近年来受到计算机科学、经济学、管理学等相关学科的广泛关注.目前,情感分析领域的研究主要集中在主观性内容识别、褒贬情感分类以及在线评论的经济价值挖掘等几个方面,大部分研究借鉴文本挖掘、信息检索、机器学习、自然语言处理、统计学等方面的技术和方法,也提出了一些针对评论情感分析的特定方法.对在线评论情感分析领域的研究现状与进展动态进行归纳和分析,重点论述现有研究采用的主要方法和关键技术,以及研究中存在的问题,最后提出了未来的研究方向. 关键词:情感分析;在线评论;主观性识别;褒贬分类;在线口碑效应中图分类号:TP18;C931文献标识码:A文章编号:1007-9807(2010)06-0084-13 0引言情感分析(senti m ent analysis),又称评论挖掘或意见挖掘(op i n i o n m i n i n g),是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见[1-2].利用对互联网上商品评论信息的挖掘与分析结果,消费者可以了解人们对某种商品的态度倾向分布,优化购买决策;生产商和销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,赢得竞争优势. 随着信息技术及其应用在过去十几年中的快速发展,互联网不仅对企业的业务流程带来了巨大的变革,也对消费者的行为模式产生了深刻的影响.DoubleC lick I nc.[3]进行了一项针对美国服装业、计算机硬件设备业、运动与健身产品行业及旅游业网络客户的研究,发现这些行业中都有近一半以上的消费者在做出购买决定前会在互联网上搜索相关商品的介绍及其他消费者对商品的评论信息,互联网商品评论对于消费者的购买决策有着重要的影响.据统计,截至2009年9月,全球上网人数已达17.34亿人[4],充分挖掘消费者的喜好偏爱对商家具有重要的意义. 作为W eb信息挖掘的一个新兴领域,在线评论情感分析涉及的研究内容十分广泛,如自动识别互联网中传播的商品评论信息、识别被评论的商品属性、判断客户意见的褒贬态度以及挖掘在线评论与商品销售情况的关系等.姚天昉等[5]对情感分析的研究现状进行了总结,主要内容包括:1介绍情感分析的定义和研究的目的;o从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统;?讨论中文情感分析的研究现状.而本文分别从篇章、语句和词语等不同粒度上,围绕情感分析技术的基础性工作,主观性内容识别和褒贬情感分类两方面展开评述,并对在线评论将如何影响消费者的购买行为以及如何影响商品销售情况的工作进行整理和分析. 针对在线评论挖掘开展的研究越来越多,然而相关研究仍然处在探索阶段,在方案设计和技术运用方面都比较分散,缺乏统一的实验平台和 1收稿日期:2009-02-16;修订日期:2010-03-18. 基金项目:国家自然科学基金资助项目(70971033;70890082);新世纪优秀人才支持计划资助项目(NCET-08-0172). 作者简介:张紫琼(1982)),女,黑龙江大庆人,博士生.Em ai:l ziqiong@h https://www.doczj.com/doc/e910789643.html,

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。关键词:GIS 研究现状发展趋势 0 引言随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

国内微博研究现状综述_王莹莉

国内微博研究现状综述＊王莹莉　张　敏【摘　要】本文采用文献计量和社会网络分析方法，从时间分布、期刊分布、作者分布以及研究主题等方面，对微博研究现状进行统计分析。目前，微博研究在传播特征及运作机制上已有一定基础，但对于微博发展至关重要的用户交互行为，基于用户关系的信息组织和聚合共享，以及如何引导和规范集体智慧方面，还尚未形成系统的研究框架。【关键词】微博　研究现状　文献计量　统计分析Ａｂｓｔｒａｃｔ：Ｕｓｉｎｇ　ｔｈｅ　ｍｅｔｈｏｄｓ　ｏｆ　ｂｉｂｌｉｏｍｅｔｒｉｃｓ　ａｎｄ　ｓｏｃｉａｌ　ｎｅｔｗｏｒｋ　ａｎａｌｙｓｉｓ，ｔｈｅ　ａｒｔｉｃｌｅ　ｍａｋｅｓ　ａ　ｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓ　ｏｎ　ｔｈｅ　ｒｅｓｅａｒｃｈ　ｓｔａｔｕｓ　ｏｆ　ｍｉｃｒｏｂｌｏｇｓ　ｆｒｏｍ　ｔｈｅ　ａｓｐｅｃｔｓ　ｏｆ　ｔｉｍｅ　ｄｉｓｔｒｉｂｕｔｉｏｎ，ｊｏｕｒｎａｌ　ｄｉｓｔｒｉｂｕｔｉｏｎ，ａｕｔｈｏｒｄｉｓｔｒｉｂｕｔｉｏｎ　ａｎｄ　ｒｅｓｅａｒｃｈ　ｔｏｐｉｃｓ．Ａｔ　ｐｒｅｓｅｎｔ，ｔｈｅ　ｒｅｓｅａｒｃｈ　ｏｎ　ｍｉｃｒｏｂｌｏｇｓ　ｍａｉｎｌｙ　ｆｏｃｕｓｅｓ　ｏｎ　ｔｈｅ　ｃｏｍｍｕｎｉｃａｔｉｏｎｆｅａｔｕｒｅｓ　ａｎｄ　ｏｐｅｒａｔｉｏｎ　ｍｅｃｈａｎｉｓｍ，ｒａｔｈｅｒ　ｔｈａｎ　ｏｎ　ｕｓｅｒｓｉｎｔｅｒａｃｔｉｏｎｓ，ｉｎｆｏｒｍａｔｉｏｎ　ｏｒｇａｎｉｚａｔｉｏｎｓ　ａｎｄａｇｇｒｅｇａｔｉｏｎ　ｓｈａｒｉｎｇ，ａｎｄ　ｇｕｉｄａｎｃｅ　ａｎｄ　ｒｅｇｕｌａｔｉｏｎｓ　ｏｆ　ｔｈｅ　ｃｏｌｌｅｃｔｉｖｅ　ｗｉｓｄｏｍｓ．Ｋｅｙ　ｗｏｒｄｓ：ｍｉｃｒｏｂｌｏｇ　ｒｅｓｅａｒｃｈ　ｓｔａｔｕｓ　ｂｉｂｌｉｏｍｅｔｒｉｃｓ　ｓｔａｔｉｓｔｉｃａｌ　ａｎａｌｙｓｉｓ１　前言作为Ｗｅｂ２．０时代新兴起的一类开放式互联网应用，微博是一种非正式的迷你型博客。在维基百科中，它被描述为“一种允许用户及时更新简短文本（通常少于１４０字）并可以公开发布的博客形式。它允许任何人阅读或者只能由用户选择的群组阅读”。［１］自２００７年以来，微博以便捷的发布方式，即时、畅通的交流模式以及低门槛的平台设计等优势在全球得到了迅速的普及和发展，中国互联网络信息中心（ＣＮＮＩＣ）发布的《第２８次中国互联网络发展状况统计报告》指出，截至２０１１年６月底，微博用户数呈现“爆发”式增长，半年增幅高达２０８．９％，从２０１０年底的６　３１１万增至１．９５亿，成为用户增长最快的互联网应用模式［２］。随着微博用户的迅猛增长，微博研究日益受到学者关注。本文基于２００７～２０１１年有关微博研究论文的统计分析，从文献增长、期刊分布、作者分布以及主题分布等方面进行全面剖析，揭示当前微博研究状况及存在问题。２　数据选取与处理方法本文数据来源于ＣＮＫＩ《中国期刊全文数据库》，以“微博”为检索词，限定关键词字段，检索出关于微博研究的论文共５３２篇（截至２０１１年８月２５日），剔除不相关及重复文献后，最后用于统计分析的有效文献为４８７篇。笔者利用Ｅｘｃｅｌ对检索结果进行分类汇总，转化为规范化的易处理格式，并建立相应的数据库，然后结合文献计量学和社会网络统计分析方法，对所检索论文的年代、期刊、作者和主题等方面进行分析，最后利用Ｕｃｉｎｅｔ软件进行可视化展示，得出相关结论。３　统计结果分析３．１　论文的年代分布对某一学科或领域的论文年度发文量进行统计分析，可以了解该学科或领域研究的发展历程和研究热度，揭示研究的纵向规律［３］。近年来我国微博研究的年度发文量如表１所示。＊本文为国家社会科学基金项目“网络学术社区的信息聚合与共享模式研究”（项目编号：１１ＣＴＱ０３８），西南大学中央高校基本科研业务费专项资金项目“面向一体化虚拟学习环境的信息资源整合与协同服务机制研究”（项目编号：ＳＷＵ０９０９５０７）的研究成果。

产品评论挖掘研究综述.

2008, 44(36 1引言随着 Web 的广泛使用,用户购买和使用产品之后会在 Web 上发表对产品的评论, 这些评论中包含用户对产品的性能或功能等方面持有肯定还是否定的态度。生产厂商和用户对产品评论的分析可以获得大量的有用信息:生产厂商不仅可以了解用户对产品目前已提供的性能的评价和产品的不足, 还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能, 从而改进产品[1]。用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能, 还可以对同类型的产品按照性能进行对比, 从而合理地购买产品 [2]。目前用户一般通过在 Web 上填写问卷调查表的方式或直接使用自然语言发表一段评论的方式来表达对产品的态度。问卷调查表属于结构化数据, 可以使用成熟的数据库技术进行分析并显示统计结果, 自然语言描述的产品评论属于无结构化数据, 生产厂商和用户要想从产品评论中获取信息, 只有通过人工阅读方式来获取信息, 而这是一个消耗时间且容易产生错误的过程。因此产生了对用户评论挖掘的研究, 目的是通过采用自然语言处理技术, 对自然语言描述的无结构的用户产品评论中进行数据的自动挖掘, 找到有用的信息, 并以直观的方式对挖掘结果进行表示。 2产品评论挖掘框架产品评论挖掘是文本挖掘研究领域中最近几年兴起的研究热点, 以 Web 上发表的用户产品评论作为挖掘对象, 采用自然语言处理技术,从大量文本数据中发现用于对该产品各方面性能的评价。目前产品评论挖掘分为产品特征提取、主观句定位、用户态度提取、态度极性判定和挖掘结果显示 5个子任务 (如图 1 。

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用＊戴晓燕1　过仲阳1　李勤奋2　吴健平1 (1华东师范大学教育部地球信息科学实验室　上海　200062) (2上海市地质调查研究院　上海　200072) 摘　要　作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。关键词　空间聚类　K-均值法　散度 1　前言随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2　划分法设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— ＊基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学地理系硕士研究生,主要从事空间数据挖掘的研究。 · 41 · 2003年第4期上海地质 Shanghai Geology

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势郑继刚,王边疆 (保山学院数学系,云南保山678000) 影响其空间分布的因素之间的关系;预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等. 目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法. 4.2多媒体数据挖掘多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂.随着信息技术的进步,人们所接触的数据形式越来越丰富, 多媒体数据的大量涌现,形成了很多海量的多媒体数据库[8].这些数据大多是非结构化数据、异构数据, 特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术. 有研究者提出了多媒体数据挖掘的系统原型ＭＤＭＰ,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域. 4.3时序数据挖掘时序数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性.时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.

文献综述_数据挖掘

数据挖掘简介数据挖掘的任务数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值，或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。多维数据分析方法是一种数据仓库技术，也称作联机分析处理(OLAP，onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作，这类操作的计算量特别大。因此一种很自然的想法是，把汇集操作结果预先计算并存储起来，以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用，如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet，以及IBM公司的决策分析工具都使用了多维数据分析技术。采用多维数据分析方法进行数据总结，它针对的是数据仓库，数据仓库存储的是脱机的历史数据。为了处理联机数据，研究人员提出了一种面向属性的归纳方法。它的思路是，直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化，而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系，它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后，就可以对它进行各种深入的操作而生成满足用户需要的知识，如在泛化关系基础上生成特性规则、判别规则、分类规则，以及关联规则等。数据挖掘的分类数据挖掘所能发现的知识有如下几种: .广义型知识，反映同类事物共同性质的知识; .特征型知识，反映事物各方面的特征知识; .差异型知识，反映不同事物之间属性差别的知识; .关联型知识，反映事物之间依赖或关联的知识; .预测型知识，根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。例如，从一家超市的数据仓库中，可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”，也可能是“买食品的顾客几乎都用信用卡”，这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。数据挖掘的方法数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用，然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受，即不管你选择哪种方法，总存在着某种协定。因此对实际情况，应该具体分析，根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐，也没

微博现状讲解

北京航空航天大学微博分析 1 综述随着网络的快速发展和普及。微博作为一个信息分享、获取以及传播的平台，以其快速传播、实时搜索等特点，已成为当代人们抒发情感，分享信息，获取资源必不可少的工具。本文主要对近两年国内微博信息搜索发展和应用情况进行分析。 2 微博使用现状 2.1 微博使用情况根据中国物联网信息中（CNNIC）公布的《第35次中国互联网发展状况统计报告》，截止2014年12月，我国网民规模6.7亿，使用微博用户2.49亿，网民使用率38.4%，相较2013年底下降7.1%（如图 2-1所示）。而CNNIC《第35次中国互联网发展状况统计报告》中“2013年-2014年中国网民各类互联网使用过的使用率统计表”（如表1所示）显示同为交流沟通类应用中即时通信应用使用率增长率10.4%，微博应用使用率下降11.4%，电子邮件应用下降 2.9%，由以上数据不难看出微博、电子邮件等交流沟通类应用使用率出现下降的主要原则在于其在即时通信上的劣势导致。图2-1 2013年-2014年微博客/手机微博客用户国模及使用率（数据来源：CNNIC）

北京航天航空大学表 1 2013年-2014年中国网民各类互联网使用过的使用率统计 2.2 微博信息检索 2.2.1 微博信息检索概况尽管2013年-2014年网民对微博的使用率存在下降的趋势，但微博自身快速传播、实时搜索等特点依然使微博在信息检索中存在一定优势。根据中国物联网信息中（CNNIC）发布的《2014年中国网民搜索行为研究报告》，截止2014年6月，95.4%的搜索用户通过综合搜索网站搜索信息，除此之外搜索用户在购物网站、视频网站、资讯类网站、微博上进行搜索的比例分别达到78.5%、75.2%、57.2%和57.1%（如图 2-2所示）。而随着手机的快速发展，网民从PC 端向手机端持续转移，更多的人使用手机进行搜索，而用户实际微博搜索的比率则为58.1%高于PC端48.8（如图2-3所示）。

在线评论特征的维度综述_李恒

在线评论特征的维度综述李恒（云南民族大学管理学院，云南昆明650500）摘要：在线评论是网络口碑一种主要形式，是网络消费者购买前主要参考之一。文章重点综述近十年国内主要文献在进行在线评论研究时所用到其本身特征维度，旨在为后续研究在线评论提供全面分析的基础。关键词：网络口碑；在线评论；特征维度中图分类号：F713.36 文献标识码：A 文章编号：1006-8937（2015）03-0119-02 1在线消费者评论的概况十多年来，电子商务的快速发展使消费者购物逐渐从实体购物转到网络购物，占比份额逐步扩大。消费者发布在销售网站上的在线评论则成为网络消费者最重要的参考渠道。它是网络口碑（包括微博、社区等形式）一种重要形式，是实际的或以前的顾客根据产品或服务购买和使用经历，在在线销售网站等网络平台对其以文本形式为主发表的评价意见。据ＣｈａｎｎｅｌＡｄｖｉｓｏｒ调查，９１％的用户在购买前，会参考互联网用户所写的产品评论信息。因此，关于在线评论的研究成为众多学者研究的重点。从２００６年开始，在线消费者评论的研究逐渐成为研究热点。不过，浏览近十年相关文献可以发现，众多学者对在线评论本身特征维度研究的不多，大多是选取其中重要的三四个维度进行相关研究，虽具一定代表性，但相较众多在线评论特征维度而言，这样的研究不全面。因此，本文重点在前人研究基础上，归纳总结众学者关于在线评论研究中所用到的其本身特征维度，以期为后续研究在线评论提供全面分析基础。 2在线消费者评论特征的维度本文对现有在线消费者评论的文献整理发现，在线评论特征主要有评论星级和文本评论两种形式，共１２种特征维度。主要有评论星级、评论标题、评论质量、评论数量、评论长度、评论差异性、评论效价、评论类型、评论可读性、评论强度、评论及时性、评论时效性共计１２种。 2.1评论星级评论星级是实际购买者在购买产品或服务后以其体验感受在销售网站下进行的星级评价，是总体评价。一星代表极端负面评价，五星代表极端正面评价，三星反映中立态度。现阶段对于评论星级的研究有三种观点： ①星级高的评论比星级低的评论更有用。②星级低的评论更有用。 ③中立评价更有用，而且可信度更高。 2.2文本评论２．２．１评论标题由于评论标题直接影响着消费者对于评论正文的阅读，所以对于评论标题的研究也是一个重点。以往对于评论标题的研究，主要是从评论标题长度和评论标题正负情感倾向两个方面来研究。得出评论标题正负情感倾正向影响评论有用性。但是评论标题观点评价倾向对评论有用性不存在正向影响，评论标题平均主观表达倾向对评论有用性不存在负向影响。另外，对于体验型产品，标题长度对评论的感知有用性没有显著影响。２．２．２评论内容的一般特性 ①质量。评论质量是在线消费者评论本身特征的重要维度之一。质量高的评论由于能够真实、具体、清晰的反映事物本质属性，深刻影响消费者购买决策，因此评论质量一直是研究热点。郭国庆（２０１０）发现评论质量越高，潜在消费者感知可信度越高；李宏（２０１１）得出负面在线评论质量的高低对消费者的满意度及购买决策具有显著影响；王远怀（２０１３）得出在线评论质量对于网络购买决策有明显影响。总之，高质量评论比低质量评论更有说服力，更能对消费者购买决策产生影响。 ②数量。评论数量是指网络消费者在购买某一个具体产品或服务后所发表的评论总数。它在一定程度上代表该产品受追捧程度，可为消费者提供更多的参考，因此也是在线评论本身特征重要维度之一。大多数对评论数量的研究发现评论数量与销量、消费者购买意愿及决策有正向影响。例如周晶晶（２０１０）得出评论数量正向影响消费者品牌评价和品牌知晓，进而影响消费者购买决策；王远怀（２０１３）得出评论数量与消费者购物意愿呈正相关。但当评论数量过多，会使消费者出现信息超载现象，使得评论数量作用不明显（Ｐａｒｋ＆Ｌｅｅ，２００８）。 ③长度。评论长度是指评论中包含的字数。一般长度越长，包含的产品或服务信息越多，因此可以为消费者提供更全面参考。对于评论长度研究，郝媛媛（２０１０）等都证明了评论字数越多，评论有用性越高，若评论中夹杂一些个人体验感受或具体产品和服务属性，评论的可信度也越高（龚思兰，２０１３）。但由于人的工作记忆容量有限，当评论长度超过消费者处理信息的工作记忆上限时，会造成消费者认知超载而难以决策，此时评论长度与评论有用性是负相关（殷国鹏，２０１２）。 ④差异性。评论差异，即评论离散度。它表示消费者对产品或服务态度和观点上的分歧，通常采用评分的方差或标准差来度量。目前对于评论差异研究不多，主要是研究评论差异对销量的影响。Ｇｏｄｅｓ和Ｍａｙｚｌｉｎ（２００４）在研究网络口碑对消费者电视剧评价产生作用时，用了熵这个变量来测量网络口碑离散度，值越高，表示对电视剧的评论在不同的新闻组之间的离散程度越高。龚诗阳（２０１３）得出评论差异对销量有显著的负向影响。作者简介：李恒，大学本科，研究方向：企业管理。企业技术开发 TECHNOLOGICAL DEVELOPMENT OF ENTERPRISE 第３４卷第３期Ｖｏｌ．３４Ｎｏ．３２０１５年１月Ｊａｎ．２０１５

数据挖掘现状与前景

数据挖掘，这是个听起来既神秘，又具有诱惑性的词。就好像要去一片热带沙漠搜寻宝藏，宝藏的诱惑性很强，但是黄沙远处却看不透彻，不知此行是对是错，看到的光亮又是否只是虚幻的海市蜃楼。所以很多学习数据挖掘的，或是想选择数据挖掘方向的人会在是否踏出第一脚时犹豫不决。以下，我们就来分析看看数据挖掘的现状及前景。首先看看百科中数据挖掘的定义：数据挖掘（Data Mining，DM）是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。基于数据挖掘可能产生的巨大价值，我国的各大重点院校都针对数据挖掘开了专业课程以及研究课题，不仅如此，政府以及大型企业也开始重视这一领域，投资人力物力支持数据挖掘项目。或许这样说还不够直观，那就就数字佐证。据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现，这些企业的3年平均投资回报率为401%，其中25%的企业的投资回报率超过600%。调查结果还显示，一个企业要想在复杂的环境中获得成功，高层管理者必须能够控制极其复杂的商业结构，若没有详实的事实和数据支持，是很难办到的。因此，随着数据挖掘技术的不断改进和日益成熟，它必将被更多的用户采用，使更多的管理者得到更多的商务智能。国外如此，那中国呢？随着我国信息化的发展，数据的积累及计算机的广泛应用，加上来自外资企业商业智能数据挖掘应用带来的竞争压力，商业智能及数据挖掘也逐渐在中国也形成了一个产业。随着成功案例的增多，不仅仅是金融保险电信等行业或是政府机构，中小企业也逐渐将商业智能应用于业务之中。信息化时代数据的潜力不容小觑，IT部门一直是企业的核心，而数据挖掘技术更是得到了前所未有的重视和期待。目前我国数据挖掘、商业智能技术的人才培养体系还未健全，而企业对这方面的需求却一直在增长。数据知识发展为核心竞争力是现在及未来必然的形势。因此数据挖掘、商业智能行业的前景还是非常可观的。所以，请坚定勇敢地踏出迈向数据挖掘的那一步吧，然后扎实地学好所需的知识理论及实践技巧，最后所收获到的，或许比你所期待的还多。

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究导读：本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础，对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展，并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。关键字：数据挖掘 0 引言近年来，随着计算机对数据的生成、收集、存贮和处理能力的大大提高，数据量与日俱增，传统的数据分析工具对海量数据的处理力不从心，数据挖掘技术应运而生。中国科研工作者近几年来积极开展了对数据挖掘的研究，并在理论研究和实际应用上取得了一定的成绩，但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计，对数据挖掘在中国发展的现状及发展趋势进行分析和研究，通过分析有关论文的发表，对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科，近年来引起了中国学术界和产业界的广泛关注。数据挖掘出现于20世纪80年代后期，90年代有了突飞猛进的发展。2001年，Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术，其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域，其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统，能够帮助天文学家发现遥远的类星体，是人工智能技术在天文学和空间科学上的第一批成功应用之一；生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式，对客户进行了分析；对银行或商业上经常发生的诈骗行为进行预测IBM公司

b在线评论有用性研究综述

/ CHINA MANAGEMENT INFORMATIONIZATION 在线评论有用性研究综述苗蕊（东北财经大学管理科学与工程学院，辽宁大连116025）［摘要］在线评论是网络口碑的一种重要形式，是消费者制定购买决策的重要依据。特别是在当今信息过载的环境下，如何帮助消费者找到对他们决策有帮助的在线评论已经成为一个重要的研究问题。本文对现有的有关在线评论有用性的研究进行了综述，分析了存在的问题，并给出了未来的研究方向。［关键词］网络口碑；在线评论；有用性；文献综述 doi:10.3969/j.issn.1673-0194.2014.18.077［中图分类号］G203［文献标识码］A ［文章编号］1673-0194（2014）18-0126-03 ［收稿日期］2014－04－11 ［基金项目］国家自然科学基金资助项目（71301021）；东北财经大学青年科研人才培育项目（DUFE2014Q43）。［作者简介］苗蕊（1982－），女，吉林通化人，东北财经大学管理科学与工程学院讲师，博士，主要研究方向：管理信息系统，电子商务等。 1 引言近些年，由于电子商务与Web2．0的快速发展，互联网用户创作的网络口碑（online word－of－mouth ，包括社区、博客、微博和社交网站等形式）已经成为消费者在选择、购买商品或服务时的重要信息源（Duan ，et al．，2008）。在线评论（online review ）是网络口碑的一种重要形式，一般指潜在或实际消费者在电子商务或第三方评论等网站上发表商品或服务的正面或负面观点（Chen ＆Xie ，2008）。在线评论是消费者网络购买决策的重要依据，根据国际著名市场研究公司Jupiter Research 的调查，超过75％的消费者在线购买商品之前，会参考在线评论信息。特别是在当今信息过载的环境下，有价值的在线评论可以帮助消费者减少购买的不确定性，做出更好的购买决策，提高消费者对在线评论网站的感知有用性和粘性，因此，对在线评论有用性的研究有非常重要的理论与实践意义。 Mudambi 将在线评论有用性定义为在线评论在消费者决策过程的感知价值（Mudambi ＆Schuff ，2010），即消费者对其他互联网用户提交的评论对自己购买决策是否有帮助的一种主观感知。目前已有许多文献对什么样的评论是有用评论做了研究，并给出了一些影响在线评论有用性的特征，本文将对这些研究进行梳理，分析其中存在的问题并给出未来的研究方向。 2在线评论有用性研究现状分析本文对现有研究中所选择的影响评论有用性的特征进行了分析，发现这些特征可以分为3类：评论特征、评论者特征和评论阅读者即消费者特征。 2.1评论特征评论特征包括评论长度、评论星级、评论的语义特征、评论可读性、评论的写作风格和评论及时性等，其中，评论长度和评论星级是使用的最多的两个特征。评论长度通常以评论包含的字数来度量，评论越长，评论中包含的有关商品或服务的信息越多，则阅读该评论时，越能降低消费者对于商品或服务的不确定性，因此评论越有用，而大多数的研究也证明了这一点（Mudambi ＆Schuff ，2010；郝媛媛等，2010；Ghose ＆Ipeirotis ，2011；Pan ＆Zhang ，2011；彭岚等，2011； Korfiatis ，et al．，2012；殷国鹏等，2012；王平＆代宝，2012；严建援等，2012；Siering ＆Muntermann ，2013；廖成林等，2013），且对搜索型商品而言，评论长度的作用更明显（Mudambi ＆Schuff ， 2010；Pan ＆Zhang ，2011；王平＆代宝，2012；Siering ＆ Muntermann ，2013）。但Baek 等（2013）的研究表明虽然评论字数越多，评论有用性越高，但这一效应的边际值在下降。而Racherla 和Friske （2012）的研究则不支持评论长度与评论有用性间的正相关关系，他将这一结果解释为当消费者面对大量在线评论带来的信息过载问题时，他们不愿意去阅读那些长评论，而更喜欢那些短小切题的评论。殷国鹏（2012）和Gan 等（2012）从认知负荷理论出发，提出当消费者阅读在线评论时，由于工作记忆的容量有限，尽管在一定范围内，丰富的评论信息会有助于消费者的决策，但是，一旦评论信息的处理需求达到工作记忆的上限，那么就会造成消费者的认知超载从而使得人们难以较好地进行决策，因而，当在线评论长度超过一定范围时，与消费者对其有用性评价之间是负相关关系。Schindler 和Bickart （2012）的实验研究也得出了相同的结论。评论星级是评论者在提交评论时，以星级形式给予商品或服务的一个总体评价，它是评论极性的一种表现。一星（极低等级）反映对商品或服务极端负面的评价，五星（极高等级）反映极端正面的评价，三星则反映了中立的态度。目前的研究对于评论星级对评论有用性的影响方向的观点不一，但总体有3种观点。①确认倾向会使得消费者去寻找证据来确认其对商品或服务的初始态度，即买或者不买，所以极端评论比中性评论更有用（Forman ， et al．，2008；Cao ，et al．，2011；Ghose ＆Ipeirotis ，2011）。因为很多消费者是想要购买商品才去阅读评论的，对商品抱有一种正向的倾向，所以星级高的评论比星级低的评论更有用，特别是对体验商品而言（Pan ＆Zhang ，2011；Korfiatis ，et al．，2012）。②消费者存在一种负向倾向，特别是在面对大量的正面信息的情况下。而在线评论中正向评论的数量要大于中性和负向评论的数量，所以在这种情况下，星级低的评论更有用（Racherla ＆Friske ，2012；廖成林等，2013）。③中立评价和双边信息会提高信息来源的可信性。对于体验商品，由于个人经验和品味在评价中起到了很大的作用，极端评价的可信性会受到质疑，所以中性评论相对于极端评论更有用（Mudambi ＆Schuff ，2010；殷国鹏等，2012；Siering ＆Muntermann ，2013）。殷国鹏（2012）和Baek 等（2013）研究了单条评论的星级和产品平均星级间的差异与评论有用性间的关系，由于消费者从众心理的存在，所以这一差异越大，评论有用性越低。评论的语义特征包括评论中正／负向的情感，主／客观表述以及商品信息等，这些特征的提取需要借助人工标注、内容分析法和文本挖掘等方法。郝媛媛等（2010）利用文本分类的方法标注评论中国管理信息化 C hina Management Informationization 2014年9月第17卷第18期 Sep.，2014Vol ．17，No ．18 126

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

微博营销研究文献综述 2

学年论文题目微博营销研究文献综述_ 二级学院管理学院专业市场营销班级 11级市场2班学生姓名陈小东学号11108990802 指导教师李巍成绩时间 2015年1月

微博营销研究文献综述摘要：自从2006年twitter的诞生，再到如今的FACEBOOK、新浪微博、腾讯微博，微博的发展脚步从未停止，人们对微博的利用开发也从未停止。微博草根性很强，且广泛分布在桌面、浏览器、移动终端等多个平台上，有多种商业模式并存，或形成多个垂直细分领域的可能。营销嗅觉灵敏的企业当然不会放过这个微博这个全世界最便捷的传播工具的营销机会。随着科技的进步，手机移动应用的普及，微博用户将持续的增长，在不久的未来微博营销将以更低的成本为企业带来更大的收益。本文从微博营销的含义、特点基本概述讲解入手，再分析微博营销的优势，然后指出微博营销的发展趋势，最后做出总结。通关这几个方面对微博营销模式进行研究。关键词：微博；营销；网络；发展趋势；企业一、引言微型博客，是基于用户关系的信息分享、传播、获取的平台，是个人化的社会媒体。用户写微博的方式，通过web，wap以及手机客户端，即时通讯等，发布的字数是140字左右的文字更新信息，可即时的推送到粉丝那里。在国外，微博的鼻祖——Twitter早就成为了营销推广的一种重要手段，据一组调查数据显示，世界100强大企业中就有73家在Twitter上安了家。作为较早进驻Twitter进行品牌营销的企业，戴尔可以称得上是这个领域的高手。据悉，从2007年3月开始使用Twitter企业平台进行营销以来，戴尔已获得了超过700万美元的销售收入。目前戴尔已在Twitter 建立了35个帐号，并依功能分成了六大类，每个账号皆由专人负责管理，像一个一对多的在线客服窗口，让客户能得到丰富而实时的讯息。另外一些知名企业，如全球最大的电子消费品零售商百思买、福特汽车、可口可乐、星巴克和肯德基等，也纷纷在Twitter上开辟营销试验田，并且有所斩获。09年8月“新浪微博”的推出，使中国也陷入微博热中，与国外相比，目前中国企业的微博营销仍处于始发阶段，还不够成熟，需要更系统的方法论的引导，也需要在实践中探寻更多的经验。