基于评论产品属性情感倾向评估的虚假评论识别研究_陈燕方
- 格式:pdf
- 大小:1.44 MB
- 文档页数:10
电子商务平台的虚假评论检测研究随着电子商务的迅猛发展,平台上的虚假评论越来越多。
虚假评论不仅会误导消费者做出错误的购买决策,还会影响商家的声誉和销售额。
因此,如何检测和防止虚假评论的出现成为一个重要的问题。
本文将探讨电子商务平台的虚假评论检测研究。
一、虚假评论的类型虚假评论可以分为两类。
一类是由商家自发攒评,以此来提高自家产品的信誉度;另一类是消费者接受商家的诱导,发布好评或差评,以获得商家的优惠或奖励。
无论哪种类型的虚假评论,都有可能误导消费者,影响购买决策,因此需要进行有效的检测和防范。
二、检测虚假评论的方法目前,常见的虚假评论检测方法包括文本分析、用户信誉评估和机器学习等。
1. 文本分析方法文本分析方法主要是利用文本挖掘技术对评论文本进行分析,寻找虚假评论的特征,例如:重复的文字、大量使用感叹号和超级赞等。
这些特征表明评论很可能是虚假的,因此可以进行筛选。
2. 用户信誉评估方法用户信誉评估方法主要是对用户进行信誉评估,根据用户历史购买记录、评论行为和社交网络行为等信息,判断用户是否存在发布虚假评论的可能性。
3. 机器学习方法机器学习方法主要是利用大量虚假评论和真实评论的样本数据来进行模型训练,从而识别虚假评论。
这种方法需要使用大量的有标注的数据进行训练,具有很高的准确率和可靠性。
三、应对虚假评论的措施为了有效地应对虚假评论,电商平台可以采取以下措施:1. 建立监管机制电商平台应建立有效的监管机制,密切关注评论的发布情况,并及时发现和处理虚假评论,维护消费者的权益。
2. 提高用户信任度电商平台应加强用户的信任度,通过信誉评估等方式,减少虚假评论的出现,提高用户对平台的信任感。
3. 提高信息真实性电商平台应提高信息的真实性,对商家发布的信息进行审核,防止商家发布虚假信息;同时平台也应该加强与商品生产企业的沟通,对商品进行真实性检测,从源头上减少虚假信息的出现。
结语虚假评论是电子商务平台上的一个重要问题,对消费者的购买决策和商家的信誉度都有很大的影响。
计算机研究与发展DOI:10.7544/issn1000-1239.2015.20131473Journal of Computer Research and Development 52(3):639-648,2015基于PU学习算法的虚假评论识别研究任亚峰 姬东鸿 张红斌 尹 兰(武汉大学计算机学院 武汉 430072)(renyafeng@whu.edu.cn)Deceptive Reviews Detection Based on Positive and Unlabeled LearningRen Yafeng,Ji Donghong,Zhang Hongbin,and Yin Lan(School of Computer,Wuhan University,Wuhan 430072)Abstract Identifying deceptive reviews has important theoretical meaning and practical value.Whileprevious works focus on some heuristic rules or traditional supervised methods.Recent research hasshown that humans cannot directly identify deceptive reviews by their prior knowledge.Human-annotated dataset must contain some mislabeled examples.Due to the difficulty of human labelingneeded for supervised learning,the problem remains to be highly challenging.There are someambiguous reviews(we call them spy examples),which are easily mislabeled.The key of identifyingdeceptive review is how to deal with these spy reviews.Based on some truthful reviews and a largeamount of unlabeled reviews,a novel approach,called mixing population and individual nature PUlearning,is proposed.Firstly,some reliable negative examples are identified from the unlabeleddataset.Secondly,some representative positive examples and negative examples are generated byintegrating latent dirichlet allocation and K-means.Thirdly,all spy examples are clustered into manygroups based on dirichlet process mixture model,and two schemes(population nature and individualnature)are mixed to determine the category label of spy examples.Finally,multiple kernel learning ispresented to build the final classifier.Experimental results demonstrate that our proposed methodscan effectively identify deceptive reviews,and outperform the current baselines.Key words deceptive reviews;supervised learning;positive and unlabeled(PU)learning;Dirichletprocess mixture model(DPMM);multiple kernel learning(MKL)摘 要 识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准.关键词 虚假评论;全监督学习;PU学习;狄利克雷过程混合模型;多核学习中图法分类号 TP391 收稿日期:2013-11-14;修回日期:2014-08-12 基金项目:国家自然科学基金项目(61133012,61173062,61373108));国家哲学社会科学重大计划招标项目(11&ZD189) 电子商务的发展促进了在线用户评论数量的急剧增长,这些评论信息既可以帮助消费者作为参考来选择产品,又可以帮助商业群体及时获取消费者对其产品和服务的评价信息,以调整其产品和市场策略.因此,基于产品评论的情感分析和观点挖掘成为人工智能研究的热门话题[1-2].情感分析和观点挖掘的研究工作主要包括情感分类、观点提取和特征抽取[3-4].这些研究有着共同前提:所采用的数据集(评论文本的集合)是真实可信的.由于观点信息可以引导消费者的购买行为,好评论会给商业组织或个体带来好名声和巨大经济收益,这促使了虚假评论的产生.通过前人的观察和总结[5-6],虚假评论可被分为以下2类:1)欺骗性评论.故意写下好评论促进产品销售,或故意写下差评论破坏产品名声,由此而产生的评论.2)破坏性评论.此类评论主要包括3个方面:①广告;②单独评价商标的评论,其内容不涉及所买的具体产品;③随机文本,不包含观点信息.人们可以轻松识别出破坏性评论.而欺骗性评论具有隐藏性和多样性等特点,识别非常困难,因此欺骗性评论识别研究是一项艰巨而刻不容缓的任务.本文集中于欺骗性评论的识别.通常情况下,虚假评论识别被认为是一个二分类问题[5-8],通过手工标注的数据集训练一个分类器,然后一个新的评论被预测为虚假或真实评论.但是由于虚假评论的隐藏性和多样性,同时现有的研究[6]表明,人类手工标注的评论数据集中必定存在着一定数量的误例,这些误例会影响分类器的生成能力.因此,简单使用传统的全监督分类算法来识别虚假评论并不合理.本文的研究动机如下:人类无法通过先验知识获取虚假评论集,但是却可以通过启发式的规则获取少量真实评论和大量的未标注评论,基于真实评论集和未标注评论集,能否建立一个准确的分类器用于识别虚假评论.PU(positive and unlabeled)学习算法[9]可用于解决上述问题.不同于传统的全监督学习算法,PU学习算法最主要特征是训练集中不含负例的情况下,分类器仍然可以获得准确性能.尽管已有的PU学习算法已被用于很多任务中[10-14],但是却尚未被用于识别虚假评论.另外,在应用PU学习算法时,数据集中的未标注评论集中肯定存在着一部分间谍样例(容易被误标注),设计有效策略来确定这些样例的类别标签是PU学习算法的关键.本文提出基于PU学习算法来识别虚假评论.对于未标注评论集中的间谍样例,首先使用DPMM对其进行聚类[15],挖掘间谍样例的内部相关性.然后混合种群性和个体性2种策略确定间谍样例的类别标签,最后使用多核学习算法来训练最终的分类器.本文的主要贡献总结如下:1)PU学习算法首次被设计用于识别虚假评论.人类无法获取有效的虚假评论集,而PU学习算法只需少量的真实评论和大量的未标注评论就可建立合适的分类器.所以PU学习框架非常适用于这个任务.2)设计创新的策略来确定间谍样例的类别标签.在确定其标签时,使用DPMM算法对所有间谍样例聚类,然后同时考虑间谍样例的种群性和个体性来确定其标签.3)将多核学习算法应用于PU学习框架下.先前的PU学习算法使用单核SVM来训练最终的分类器.考虑到本文使用的数据集中样本较少,以及评论分布的多样性,使用多核学习将数据映射到更高维的特征空间来表达,提高最终的分类准确率.1 相关研究工作1.1 虚假评论识别近10年来,研究者们在垃圾邮件[16-17]和垃圾网页[18]的识别研究上呈现大量工作,获得较好效果.最近,研究者们逐渐转向虚假评论识别研究.Jindal等人[5]发现虚假评论是广泛存在并且本质上不同于垃圾邮件和垃圾网页,他们利用产品评论数据,基于评论文本、评论者和产品的特征进行建模来区分复制观点(被认为是虚假评论)和非复制观点(被认为是真实评论).Wu等人[19]提出使用基于产品的流行度排序是否被打乱来识别欺骗性评论.Ott等人[6]利用众包平台构造了虚假评论的黄金数据集.基于计算语言学和心理语言学的知识,他们采用传统的文本分类技术来识别虚假评论.本文将使用该数据集进行虚假评论识别研究.Li等人[7]从互联网的交易网站抓取一些产品评论数据,手工标注一个数据集,使用半监督的协同训练算法来识别虚假评论.但是,该方法使用的数据集为人工标注,Ott等人在其研究中已经证实,人类无法通过先验知识有效识别虚假评论,手工标注的语料库中必将存在大量的误例.因此,采用人工标注数据集来进行虚假评论识别并不是最合理的方法.046计算机研究与发展 2015,52(3)Feng等人[8]假设产品评论观点存在着先天的自然分布,并设计一系列实验来验证这个假设,发现评论文本上下文无关文法(context free grammar,CFG)的特征建模有助于提高检测性能.不同于上述方法,考虑到虚假评论数据集构造的困难性,本文提出使用PU学习算法来识别虚假评论,下面简单介绍PU学习的相关算法.1.2 PU学习算法根据PU算法对未标注数据集使用情况,将其分为以下2类.1)仅仅通过正例和未标注数据集中的部分样例来建立最终分类器[9,12].这类算法核心思想是:首先从未标注数据集中识别出可信度较高的负例,然后基于所有正例和可信负例,迭代使用期望最大化算法(expectation maximization,EM)算法或者支持向量机(support vector machine,SVM)建立最终分类器.由于这些算法仅仅使用未标注数据集中的部分样例,而未考虑未标注数据集中剩余的大部分样例,因此训练出的分类器性能受到一定限制.2)使用正例和未标注数据集中的所有样例来建立最终分类器.这类算法的关键是如何确定未标注数据集中样例的类别标签.Li等人[11]成功将PU学习应用于传统算法不易处理的数据流环境下,提出基于相似度聚类的PU学习算法(PU learning byextracting likely positive and negative micro-cluster,LELC)用于数据流环境下的文档分类.Xiao等人[13]提出基于相似度的PU学习算法(similaritybased PU learning,SPUL),首先从未标注数据集中抽取一部分负例,计算剩余样例分属正例和负例的概率权重,然后重写包含上述概率权重的SVM优化函数和约束条件,最后训练出合适的SVM分类器.不同于上述算法,本文在对未标注数据集中的剩余样例(间谍样例)进行处理时,首先使用无参贝叶斯模型DPMM聚类,捕捉间谍样例的内部联系.然后混合种群性和个体性2种策略确定其类别标签,最后使用多核学习训练最终分类器.2 PU学习算法识别虚假评论本节将详细介绍文中提出的PU学习算法.首先,将虚假评论识别问题定义到PU学习框架中.2.1 问题定义及符号标记当前的互联网环境下,人们可以通过先验知识和启发式规则收集少量的真实评论,本文把真实评论构成的集合记为正例集合P(称虚假评论为负例).同时不难收集大量的未标注评论,记为U.基于数据集P和U,本文提出一种混合种群性和个体性的PU学习(mixing population and individual naturePU learning,MPINPUL)算法,MPINPUL算法分为以下4步:Step1.抽取可信负例;Step2.计算代表性样例;Step3.确定U中间谍样例的类别标签;Step4.建立最终分类器.下面将对每一步进行详细的介绍.2.2 抽取可信负例由于数据集中只包含正例和未标注数据,因此,MPINPUL算法的首要任务是抽取一些可信的负例.先前工作主要有2种算法实施这一步,Spy-EM[9]和Roc-SVM[12],本文整合这2种技术来抽取负例.即分别用上述2种技术来抽取可信负例,最后取其交集作为本文的可信负例集合.得到的可信负例存放在集合RN中.未标注数据集U剩下的样例,即间谍样例,存放在集合US中.2.3 计算代表性样例第1阶段获得可信负例集合RN,加上训练集中的正例集合P,即可训练一个分类器.但是,该分类器的性能不高,主要原因是忽略未标注数据集U中大量的剩余样例,即间谍样例集合US,这些样例对提高分类器的性能有着重要作用.为了确定间谍样例的标签,首先需要计算出能代表正例和负例的样例.考虑到虚假评论和真实评论在语言结构和主题分布上的多样性,分别使用一个样例来代表虚假评论和真实评论并不合理,因此,这里提出使用LDA(latent Dirichlet allocation)算法对RN进行聚类[20],然后计算出2个类别的多个代表性样例.LDA模型[20]认为每个文档可以表示为若干主题之间的分布,每个文档通过共同的主题相关联,是一个参数贝叶斯聚类模型,它可以很好捕捉文档内部间的关系.在算法的第2阶段,首先利用LDA获得可信负例集合中每个样例在不同主题上的分布,接着使用K-means算法对可信负例进行聚类,使得可信负例中主题分布较一致的样例聚成一类.最后通过使用Rocchio分类器分别为正例和负例计算出10个代表性样例,如算法1所示.算法1.计算代表性样例算法.输入:P和RN;输出:pk和nk,k=1,…,10.146任亚峰等:基于PU学习算法的虚假评论识别研究①基于LDA算法,将RN聚类成10个子类RN1,RN2,…,RN10;②将P和RN中的每个样例向量化为tf×idf;③FORk=1,…,10DO④ 通过式(1)计算pk;⑤ 通过式(2)计算nk;⑥END FORpk=α1|P|∑e∈Pe‖e‖-β1|RNk|∑e∈RNke‖e‖;(1)nk=α1|RNk|∑e∈RNke‖e‖-β1|P|∑e∈Pe‖e‖.(2) 算法1中:步骤①使用LDA将RN聚成10个子类.步骤②中每个样例被向量化为v=(q1,q2,…,qn),向量v的元素qi通过一个单词wi在文本中出现的频次tfi(term frequency)同该单词的逆文档频率idfi(inverse document frequency)的乘积来计算,即qi=tfi×idfi.idfi的计算如下:idfi=ln|D|df(wi).(3)这里,|D|代表出现过单词wi的评论的总数目.从步骤③~⑥中,pk和nk分别代表正例和负例的代表性样例,根据文献[11,13],α和β分别被设置为16和4.2.4 确定间谍样例的类别标签本文所提PU算法框架中的关键一步是确定间谍样例的类别标签,即令US=LP∪LN,其中LP存放US中标记为正例的间谍样例,LN存放标记为负例的间谍样例.算法1分别为正例和负例建立10个代表性样例,这里要利用这些代表性样例来确定每个间谍样例的类别标签.由于算法1中采用的Rocchio技术是一个线性分类器,而虚假评论和真实评论的真实决策边界不一定是线性的,因此简单计算每个间谍样例同代表性样例的相似度来确定其类别标签将导致一定的错误.本文提出首先使用DPMM对间谍样例聚类,然后混合间谍样例的种群性和个体性,一定程度上减少间谍样例的类别标注误差.2.4.1 DPMM基于DP(Dirichlet process)的混合模型是近年来统计学习理论的研究热点[15,21-22],并且有着成功的应用[23-25],例如,Sun[23]提出对单个高斯过程进行扩展,实现了IMGP(infinite mixtures of Gaussianprocesses)的变分估计,并将其成功用于交通流量预测.Hu等人[24]把HDP(hierarchical Dirichlet process)同HMM(hidden Markov model)结合起来,成功用于视觉文档分析.DPMM是一种基于狄利克雷过程混合模型的非参数贝叶斯聚类方法,它根据观测数据自动优化模型的结构,使模型的分布参数随着观测数据进行调整,具有天然的聚类特性.本文使用DPMM对间谍样例进行聚类,无需事先设定类别个数,算法根据间谍样例集合,自动建立间谍样例间的关联性,从而聚成一类.然后混合样例的种群性和个体性来确定其类别标签.本文中,DPMM将间谍样例集合US聚成不同的子类US1,US2,…,USm.2.4.2 样例的种群性种群性的基本思想是相同子类中的样例应有很高可能性属于同样的类别.本文设计2个算法:一个是子类种群性的计算;另一个是单个样例种群性的计算.算法2展示子类的种群性,对于间谍样例的每个子类,首先计算出子类中每个样例的最相似代表性样例,确定每个样例的暂时类别标签.然后使用大多数投票法则决定整个子类的类别标签.最终的子类类别标签作为子类中每个样例的类别标签.算法2.子类种群性的计算算法.输入:USi,i=1,2,…,m;输出:LPi和LNi.①LPi= ,LNi= ,p_vote=0,n_vote=0;②FOR每个样例e∈USiDO③ IF max10i=1sim(e,pi)>max10i=1sim(e,ni)④ THENp_vote++;⑤ ELSE n_vote++;⑥ END IF⑦END FOR⑧IF p_vote>n_vote⑨ THENLPi=LPi∪USi;⑩ ELSE LNi=LNi∪USi; 瑏瑡END IF算法2中,sim(x,y)=x·y‖x‖·‖y‖.(4) max10i=1sim(e,pi)代表sim(e,pi)在10种情况下的最大值,算法2可计算出子类USi的类别标签.对于单个样例的种群性,首先确定单个样例所处子类,然后用子类类别标签作为该样例的类别标签,如算法3所示.算法3.单个样例种群性的计算算法.输入:样例e;246计算机研究与发展 2015,52(3)输出:LPi和LNi.①LPi= ,LNi= ,p_vote=0,n_vote=0;②确定样例e所在的子类USi;③FOR每个样例e∈USiDO④ IF max10i=1sim(e,pi)>max10i=1sim(e,ni)⑤ THENp_vote++;⑥ ELSE n_vote++;⑦ END IF⑧END FOR⑨IF p_vote>n_vote⑩ THENLPi=LPi∪{e}; 瑏瑡 ELSE LNi=LNi∪{e}; 瑏瑢END IF算法2确定子类的类别标签,该算法不仅考虑每个样例同正例和负例代表性样例的关系,同时也考虑子类中样例间的内在关系.但该算法有个缺点,即当子类中实际的正例和负例数目比较接近时,算法效果较差.图1呈现DPMM对间谍样例集合US的部分聚类结果Micro-C1,Micro-C2,Micro-C3,Micro-C4,假设黑实线代表虚假评论和真实评论的边界.根据算法2,Micro-C1和Micro-C2可以很好确定子类的类别标签,以此来决定每个样例的类别标签.Micro-C3中大部分是正例,很小一部分是负例,这种情况下,子类中的每个样例可根据子类的类别标签,即正例来确定.这里存在少量的类别标注错误是可容忍的.但对于Micro-C4,正例和负例数目比较接近,如果采用子类的类别标签来决定每个样例的类别标签将会产生一定量错误.因此,在这种情况下,本文提出用混合样例的个体性来弥补群体性的不足.Fig.1 Illustration of population nature.图1 子类的种群性2.4.3 样例的个体性个体性的基本思想是:应充分考虑单个样例同所有正例和负例的代表性样例间的相似关系,忽略样例所处子类的群体间关系.具体地,首先计算单个样例同所有代表性样例的相似度,然后使用式(5)和式(6)计算出样例属于正例和负例的类别概率:proba_positive(e)=∑10i=1sim(e,pi)∑10i=1(sim(e,pi)+sim(e,ni));(5)proba_negative(e)=∑10i=1sim(e,ni)∑10i=1(sim(e,pi)+sim(e,ni)).(6) 以Micro-C3为例,该子类中的样本标签如果按照子类的标签来确定,将产生一定的误差,在这种情况下,可考虑使用样例的个体性计算每个样例的类别标签,样例的个体性如算法4所示.算法4.样例个体性的计算算法.输入:USi,i=1,2,…,m;输出:LPi和LNi.①LPi= ,LNi= ;②FOR每个样例e∈USiDO③ IF proba_positive(e)>proba_negative(e)④ THENLPi=LPi∪{e};⑤ ELSE LNi=LNi∪{e};⑥ END IF⑦END FOR算法4可较准确地计算出子类Micro-C3中的样例的类别标签,从而避免大量的类别标注错误.2.4.4 算法的MPINPUL-1根据2.4.1节至2.4.3节的讨论,为了更准确确定间谍样例的类别标签,可以混合群体性和个体性来设计算法确定间谍样例的类别标签.第1种思路算法MPINPUL-1是先考虑子类的群体性,当群体性不满足一定阈值时,为了减少类别标注误差,采用个体性来分别确定子类中每个样例的类别标签.即先群体性,后个体性.具体MPINPUL-1算法如下:算法5.MPINPUL-1.输入:US,pk和nk,k=1,2,…,10;输出:LP和LN.①LP= ,LN= ;②基于DPMM,将US聚成n个子类US1,US2,…,USn;③FOR每个子类USiDO④ p_number=0,n_number=0;⑤ FOR每个样例e∈USiDO346任亚峰等:基于PU学习算法的虚假评论识别研究⑥ IF max10i=1sim(e,pi)>max10i=1sim(e,ni)⑦ THENp_number++;⑧ ELSE n_number++;⑨ END IF⑩ END FOR 瑏瑡 IF((|p_number-n_number|)/|USi|)<s1 瑏瑢 THEN执行算法4;/*个体性*/ 瑏瑣 ELSE执行算法2;/*群体性*/ 瑏瑤 END IF 瑏瑥 LP=LP∪LPi;瑏瑦 LN=LN∪LNi;瑏瑧END FOR算法5中,参数s1的选择是至关重要的,具体实验时,根据先验知识设置几个阈值,选择算法效果最好的参数.2.4.5 算法MPINPUL-2部分虚假评论是由拥有真实购物经历和有过真实评论经历的人所写,这部分评论在语言结构和情感极性上同真实评论比较接近,不是很好识别.基于此,本文设计算法MPINPUL-2来确定间谍样例的类别标签.算法的基本思路是:计算单个样例属于正例、负例的类别概率,当2个概率比较接近时,使用该样例所处子类的类别标签来确定该样例的类别标签.即先个体性、后群体性.这是混合群体性和个体性PU学习算法MPINPUL的第2种思路,具体算法如下:算法6.MPINPUL-2.输入:US,pk和nk,k=1,2,…,10;输出:LP和LN.①LP= ,LN= ;②基于DPMM,将US聚成n个子类US1,US2,…,USn;③FOR每个子类USiDO④ FOR每个样例e∈USiDO⑤ IF(|proba_positive(e)-proba_negative(e)|)<s2⑥ THEN执行算法3;/*群体性*/⑦ ELSE执行算法4;/*个体性*/⑧ END IF⑨ END FOR⑩ LP=LP∪LPi;瑏瑡 LN=LN∪LNi; 瑏瑢END FOR跟算法MPINPUL-1中的s1一样,算法MPINPUL-2的参数s2的选择也至关重要,我们将在本文的4.2节对其进行讨论.2.5 建立最终分类器基于正例集合P和可信负例集合RN,以及本文所提算法第3阶段计算出的正例集合LP,负例集合LN,即可训练最终的SVM分类器.由于本文使用的数据集所包含的样例较少,为了提高分类器的性能,使用多核学习[26-27]来训练最终的分类器.传统的SVM采用一个核函数,不足以解决数据集分布不平坦、数据来源异构下的复杂问题.多核学习算法使用多个核函数将输入空间变换到高维的特征空间,转化为求解凸优化问题,并求解全局最优解.文献[28-32]论述的理论和应用已经证明多核代替单核能增强决策函数的可解释性,并能获得比单核模型和单核及其组合模型更好的性能.在本文所提的PU框架下,分别使用2种主流多核学习算法SILP[29]和SimpleMKL[30]来进行实验,其中,SILP通过Matlab的LPSOLVE toolbox求解,SimpleMKL由文献[30]给出的SVM-KM toolbox求解.建立最终分类器的算法如下:算法7.建立最终分类器.输入:P,RN,LP和LN;输出:分类器FMK.①P=P∪LP;②N=RN∪LN;③基于正例集合P和负例集合N,使用多核学习算法SILP或SimpleMKL训练出最优的多核分类器FMK.3 数值实验本文目标是判断PU学习算法能否有效用于虚假评论识别.实验之前介绍本文使用的数据集.首先介绍数据集的收集方式,接着介绍如何将数据集划分成本文使用的正例集合P和未标注数据集U.然后讨论算法的评价准则.最后简单呈现了人类在该数据集上的识别性能.3.1 数据集Ott等人[6]利用众包平台获取黄金数据集,这是唯一公开可用的数据集.本文采用该数据集进行虚假评论识别.数据集中的评论是针对芝加哥地区的酒店.下面介绍数据集中的虚假评论和真实评论.446计算机研究与发展 2015,52(3)3.1.1 虚假评论众包服务可以实现大规模数据收集和数据标注等服务.由于虚假评论的隐蔽性和多样性,人类无法从现有的评论中标注出虚假评论,却可以人工来构造一部分虚假评论.Ott等人利用众包平台,定义了400个任务,每个任务的设定是:假如你是酒店市场部门的工作人员,让你写一条有利于酒店发现的正面评论.每个任务的报酬是一美元.基于此,他们收集400条虚假评论.3.1.2 真实评论真实评论的收集来自于TripAdvisor①,针对芝加哥同样酒店的6 977条评论.对这些评论进行以下处理:1)删除3130条非5星级评论;2)删除41条非英语评论;3)删除少于75个字符的评论;4)删除作者是第1次发表的评论.为了平衡虚假评论的数目,以及同虚假评论长度的分布保持一致.他们在剩余的2 124条评论中,选择出400条评论作为真实评论.最终,总共800条评论构成了黄金数据集.3.2 实验设置和评价本文采用十折交叉验证:数据集被划分成10等份,9份用来作为训练集,第10份被用来作为测试集.算法运行10次,每次选择不同的测试集,最后取10次平均值作为最后结果.算法每次运行过程中,测试集每次包含80个评论,40个真实评论和40个虚假评论.对于训练集来说,里面包含360个真实评论和360个虚假评论.由于本文旨在使用PU学习算法,特进行以下设定:取训练集中真实评论的20%,作为正例集合P,剩余的所有真实评论和虚假评论作为未标注数据集U.因此,算法的一次运行过程中,训练集包含720个评论,其中正例集合P包含72个评论,未标注数据集U包含648个评论,而测试集包含80个评论.由于本文使用的数据集实际上具有类别标签,所以采用准确率评价最终分类器的性能.3.3 人工性能评估人工性能基于以下2方面原因:1)如果人工性能很低的话,说明标注语料的困难性,从而说明使用PU学习算法来解决这个任务的必要性;2)人工性能作为一个基准,可以跟本文提出的算法相比较.为了评估人工性能,求助于3个计算机专业的本科生.他们被要求在测试集上(包含40个真实评论和40个虚假评论)作判断.这里使用2种元判断方式:MAJORITY和SKEPTIC,MAJORITY表示3人中至少有2人判定是虚假评论才确定该评论属于虚假评论,而SKEPTIC表示3人中只要有1人认为是虚假评论就判定该评论属于虚假评论.从表1的统计结果中显示,人工性能是非常低的.接着对标注一致性进行统计分析,3人中两两标注一致的Fleiss卡帕值为0.09,Landis和Koch在文献[33]中证实这个值暗示标注者之间轻微的一致.而JUDGE 1和JUDGE 3的Cohen卡帕值为0.11,该值低于可接受的一致标注水平.基于上述分析,可以认为标注虚假评论数据集是非常困难的.因此本文提出将虚假评论识别问题定义在PU学习框架下是非常合适的.Table 1 Human Performance表1 人工性能%Methods Accurancy Recall FJUDGE1 56.8 54.9 55.8JUDGE2 53.2 52.2 52.7JUDGE3 59.2 59.1 59.1MAJORITY 58.1 49.6 57.6SKEPTIC 60.2 59.8 60.14 实验结果和分析为了验证本文所提算法的有效性,本文额外进行以下工作.首先,实现2种主流PU学习算法LELC[11]和SPUL[13].其次,将2种主流的虚假评论识别算法放在提出的PU框架的第4个阶段进行实验.4.1 实验结果首先讨论本文所提PU框架同先前PU算法的比较.固定s1=0.1,s2=0.1,表2给出不同PU算法在数据集上的识别性能.由表2可知,本文设计PU框架的最好结果是MPINPUL-2和SimpleMKL的组合,其可获得83.21%的准确率,同时实验先前已有的PU框架,LELC和SPUL,其分别获得81.12%和81.89%的准确率,这说明本文所提的PU框架要好于先前的算法.同时,本文所提的MPINPUL-1和MPINPUL-2同多核学习SILP组合也获得不错的效果.例如,MPINPUL-2和SILP的组合,获得高达82.96%的准确率,也超过LELC和SPUL,这充546任亚峰等:基于PU学习算法的虚假评论识别研究 ①http://www.tripadvisor.co分说明了本文所设计的PU学习框架的有效性.Table 2 Overall Accuracy on Different PU Learning表2 已有PU算法的比较%Methods AccuracyLELC 81.12SPUL 81.89MPINPUL-1+SILP 82.84MPINPUL-2+SILP 82.96MPINPUL-1+SimpleMKL 82.85MPINPUL-2+SimpleMKL 83.21为了验证本文所提算法的有效性,在本文所提的PU框架下,在建立最终分类器的阶段采用了2种主流的虚假评论识别算法来进行实验,这2种算法分别由Ott等人和Feng等人提出.如表3所示,2种主流的虚假评论识别算法分别获得80.13%和80.72%的准确率,而使用多核学习算法训练最终的分类器平均可得到83.1%左右的分类准确率,比先前的虚假评论算法提高了3%左右.主要原因是本文使用了使用多核学习算法,能将数据映射到更高维的空间进行区分,因此获取更优的效果.Table 3 Performance on Different Algorithms表3 与虚假评论识别算法的比较%Methods AccuracyMPINPUL-1+Ott et al.80.13MPINPUL-2+Ott et al.80.72MPINPUL-1+Fen et al.80.43MPINPUL-2+Feng et al.80.95MPINPUL-2+SILP 82.96MPINPUL-2+SimpleMKL 83.21 本文所提PU学习算法获得较好的性能,主要原因归结于以下3个方面:1)无参数贝叶斯模型DPMM的使用,捕获了样例的内部深层次的联系,获取了更好的聚类结果;2)混合群体性和个体性的策略,使得间谍样例标签的确定更加准确;3)多核学习算法的使用,将特征映射到高维的空间进行区分.4.2 参数敏感性在上述实验中,固定s1=0.1,s2=0.1,这里将选择不同的参数s1和s2进行实验,考察2个参数对算法性能的影响.基于算法MPINPUL-1,结合Simple-MKL,选择区间[0.1,0.5]内不同s1来进行实验,结果如图2所示,可知,当s1位于区间[0.1,0.2]时,算法MPINPUL-1可获得较好的效果,当s1>0.2时,随着s1的增大,算法的性能近似呈线性下降.Fig.2 Performance on different s1.图2 算法MPINPUL-1随s1值的变化情况类似于MPINPUL-1,本文也实验了不同s2对算法MPINPUL-2的性能变化情况(结合SimpleMKL).实验结果如图3所示.当s2位于区间[0.1,0.2]时,算法MPINPUL-2可获得最好性能,当s2>0.2,随着s2的增大,算法MPINPUL-2的性能大致呈线性下降.Fig.3 Performance on different s2.图3 算法MPINPUL-2随s2值的变化情况5 总 结本文提出使用PU学习算法来识别虚假评论.在确定间谍样例的类别标签时,首先采用无参数贝叶斯模型DPMM对其进行聚类,然后混合种群性和个体性2种策略,来确定间谍样例的类别标签,最后使用多核学习算法训练最终分类器.数值实验证实了所提PU学习算法可以有效用于虚假评论识别.未来的工作考虑将本文提出的PU算法应用于大规模的数据集中.646计算机研究与发展 2015,52(3)。
面向评论的方面级情感分析综述随着互联网的快速发展,人们对于商品、服务等方面的评论越来越多。
这些评论中蕴含着丰富的情感信息,对于企业和研究者来说,如何有效地分析和理解这些情感信息具有重要意义。
本文将综述面向评论的方面级情感分析的研究现状、不足以及未来研究方向。
方面级情感分析是一种将文本情感分析细化到特定方面的技术,如产品特性、服务质量等方面。
通过对面包、酒店等特定方面的情感分析,可以为消费者提供更加详细、客观的参考信息。
在方面级情感分析中,情感分类和情感极性分析是两个基本的问题。
情感分类是将评论分为正面、负面或中立三类,而情感极性分析则是进一步确定评论的积极或消极程度。
情感词句的提取和特征选择是解决问题的关键。
面向评论的情感分析需要运用自然语言处理、机器学习等技术,根据评论内容提取情感信息。
常用的方法包括基于文本的监督学习和非监督学习。
监督学习需要标注大量的训练数据,通过学习模型进行情感分类和极性分析。
非监督学习则不需要标注数据,通过聚类、关联规则等方法发现情感模式和规则。
在实际应用中,需要根据具体场景选择合适的方法。
评估情感分析效果的方法包括传统评估方法和基于深度学习的评估方法。
传统评估方法主要通过准确率、召回率和F1分数等指标来衡量模型的性能。
基于深度学习的评估方法则可以利用神经网络模型,如卷积神经网络(CNN)、循环神经网络(RNN)等,对情感分析结果进行自动评估。
虽然面向评论的方面级情感分析已经取得了很大进展,但仍存在一些问题和挑战。
未来的研究方向包括:1)集成多种方法和数据,提高情感分析的准确性和可靠性;2)深入研究情感极性细粒度划分,以适应更加复杂的情感分析需求;3)考虑上下文信息对情感分析的影响,提高模型的情境理解能力;4)结合多模态数据,如图像、音频等,丰富情感分析的视角和维度;5)研究无监督学习方法,减少对大量标注数据的依赖;6)探索情感分析和对话系统的结合,为实际应用提供更多可能性。
基于机器学习的电影评论情感分析研究电影作为一种流行的娱乐形式,广泛受众喜爱。
然而,观众对于电影的评论千差万别,情感分析可以帮助我们更好地理解观众对电影的情感倾向。
基于机器学习的电影评论情感分析研究成为了当前研究的热点之一。
本文将从背景介绍、研究方法、实验结果以及应用前景等方面进行探讨和分析。
首先,让我们来了解一下基于机器学习的电影评论情感分析的背景。
随着社交媒体的普及,人们越来越多地在互联网上发布和分享电影评论。
这些评论包含了大量观众对电影的评价与情感表达,对电影制片商、电影评论者以及普通观众来说都具有重要的参考价值。
然而,由于评论数量庞大且时间紧迫,人工阅读和分析这些评论变得不太现实。
因此,基于机器学习的电影评论情感分析成为研究和应用的重要方向。
接下来,我们来介绍一下研究方法。
基于机器学习的电影评论情感分析研究通常分为几个步骤。
首先,需要构建一个情感词典,包含了一系列情感词汇以及其对应的情感极性(如积极或消极)。
这个情感词典可以通过人工标注或者自动抽取等方式得到。
然后,需要对电影评论进行预处理,包括分词、去除噪声以及词形还原等步骤,以便于后续的特征提取。
接下来,根据情感词典,可以计算每个评论的情感极性得分。
最后,可以使用机器学习算法(如支持向量机、决策树、神经网络等)对这些评论进行分类,以判断评论的情感倾向(积极、消极或中性)。
然而,基于机器学习的电影评论情感分析也面临一些挑战。
首先,电影评论的语言多样性和主观性导致了情感分析的复杂性。
同一个词语在不同语境下可能具有不同的情感倾向,这增加了情感分析的难度。
其次,情感词典的构建需要大量的标注工作,且由于语言的不断演化,情感词典的更新也成为了一个困难的问题。
此外,情感分析还需要解决词义消歧、否定词的处理以及未登录词的挑战等问题。
针对这些挑战,研究者们提出了一系列改进的方法。
一种常见的方法是引入上下文信息,考虑词语在句子中的位置、前后词语的关系以及句法结构等因素,以提升情感分析的准确性。
电子商务平台中的虚假评论检测技术研究引言:在电子商务的蓬勃发展中,用户越来越多地依赖于在线评论来做出购买决策。
然而,虚假评论的存在破坏了消费者对商品和服务的信任,给商家和消费者带来了许多负面影响。
因此,针对电子商务平台中的虚假评论问题进行有效检测,并保护消费者的利益和信誉,变得至关重要。
本文将探讨电子商务平台中的虚假评论检测技术研究的相关内容。
一、虚假评论的定义和分类虚假评论是指在电子商务平台上,由无实际消费经历或经济利益驱动的用户撰写的误导性评论。
虚假评论可以分为两大类:第一类是商家自身伪造的评论,旨在提高产品或服务的评价并吸引更多的买家;第二类是竞争对手或第三方机构故意发布的虚假评论,旨在贬低某家商家的产品或服务。
二、虚假评论的危害虚假评论对电子商务平台和用户产生了重大危害。
首先,虚假评论破坏了市场公平性,扰乱了商家之间的竞争秩序。
其次,它误导了消费者的购买决策,导致消费者购买到低质量的产品或服务。
最后,虚假评论还降低了用户对电子商务平台的信任,并可能导致平台的声誉受损。
三、虚假评论检测的现有方法目前,虚假评论检测主要采用的方法包括:1. 文本特征分析:利用自然语言处理和文本挖掘技术,通过分析评论文本中的语法、词汇、句法等特征来识别虚假评论。
例如,虚假评论通常使用夸大表述、重复关键词等模式,可以通过文本特征提取来检测。
2. 用户行为分析:通过分析用户在电子商务平台上的行为数据,如购买历史、浏览记录、评论频率等,来识别可能存在虚假评论的用户。
例如,多次发布类似内容的评论或者与商家有明显关联的用户,可能是虚假评论的发布者。
3. 机器学习和数据挖掘:利用机器学习和数据挖掘算法,构建虚假评论检测模型。
通过训练模型,将虚假评论和真实评论进行分类。
例如,可以使用支持向量机(SVM)、决策树(Decision Tree)和随机森林(Random Forest)等算法来训练虚假评论检测模型。
四、虚假评论检测技术的挑战和解决方案虚假评论检测技术仍然面临许多挑战:1. 数据稀缺性:真实虚假评论的比例通常极其不平衡,虚假评论的数量往往相对较少。
电子商务中的虚假评论检测与过滤技术研究在电子商务中,虚假评论已经成为一个严重的问题。
虚假评论不仅会误导消费者的购买决策,还会破坏商家的声誉和信誉。
为了解决这个问题,研究人员一直在努力开发虚假评论检测与过滤技术。
本文将对电子商务中的虚假评论检测与过滤技术进行研究与探讨。
首先,为了能够准确检测和过滤虚假评论,我们需要了解虚假评论的特征。
虚假评论通常具有以下特点:内容虚假、评论帐号异常、评论行为异常。
内容虚假是指虚假评论中存在误导性或不真实的内容,包括夸大其词、隐瞒真相等。
评论帐号异常是指虚假评论往往由大量的虚假账户发布,这些账户可能是由机器人或者低素质人员创建的。
评论行为异常是指虚假评论的发布行为与真实评论存在显著差异,例如评论的时间分布、评论的内容风格等。
基于以上特征,研究人员提出了多种方法来检测和过滤虚假评论。
其中一种常用的方法是基于机器学习算法的虚假评论检测。
通过构建合适的特征集合,并使用已知虚假评论作为训练样本,可以训练出一个虚假评论检测器。
这个检测器可以根据用户的评论特征来判断其是否为虚假评论。
常用的特征包括评论的词频、情感极性、语法结构等。
值得注意的是,为了提高检测的准确性,有必要选择足够多的特征,并使用合适的特征选择算法进行筛选。
另一种常用的方法是基于网络社交关系的虚假评论检测。
虚假评论通常由虚假账户发布,而虚假账户之间往往存在特定的社交关系。
例如,虚假账户之间可能具有共同的关注对象、相似的注册时间等。
基于这些社交关系,可以构建一个虚假账户网络,并通过分析网络结构来判断账户的真实性。
例如,如果一个账户的大部分关注对象都是虚假账户,那么这个账户很可能也是虚假的。
此外,还可以使用图论算法来检测虚假账户网络中的异常节点,进一步提高虚假评论检测的准确性。
除了上述方法,还有一些其他的虚假评论检测技术。
例如,一些研究人员尝试利用自然语言处理和情感分析技术来检测虚假评论。
通过分析评论中的情感词汇和语法结构,可以判断评论的真实性。
电子商务中的虚假评论识别技术研究第一章:引言电子商务的兴起给人们的生活带来了很多便利,同时也面临着虚假评论的威胁。
虚假评论影响着消费者的购买决策,也对电子商务平台的诚信度产生了影响。
虚假评论的识别技术在电子商务中变得越来越重要,本文将重点研究电子商务中虚假评论识别技术的研究与应用。
第二章:虚假评论的影响虚假评论对电子商务平台与消费者都有着不良的影响。
对于消费者而言,虚假评论会误导用户的购买决策,以致于他们购买的商品存在不少差错;而对于电子商务平台而言,虚假评论会降低平台的可信度,从而影响商家的积极性和销售额。
第三章:虚假评论的定义虚假评论是指与商品实际情况不符,或是少量真实的评论被夹杂着大量虚假评论,以达到推销、炒作等目的的行为。
虚假评论有时表面上看起来无害,但它实际上会对人们的购买决策产生严峻的影响。
第四章:虚假评论的识别技术虚假评论的识别技术通常采用人工智能、大数据分析和自然语言处理等相关技术。
其中,自然语言处理技术是其中最核心的部分。
其实本质上虚假评论的识别技术并不是太难,主要的难点既不在于数据的处理,而在于如何快速地识别出在大量的评论中哪些是虚假的。
第五章:虚假评论的识别方法一、基于机器学习的虚假评论识别方法机器学习基于大数据集对机器进行训练,让机器自动学习一定的规律,并为我们提供选项和反馈。
这种方法的好处是可以快速处理大量复杂的数据,但它也存在着无法全面把握评价标准的问题。
二、基于深度学习的虚假评论识别方法深度学习是机器学习的一部分,是一种复杂的人工智能算法,可以用来处理大规模数据,其在文本分类,图像识别,自然语言处理等领域中有着广泛的应用,相对机器学习,深度学习有着更精准的预测框架和更高的效率。
三、基于网络分析的虚假评论识别网络分析可以直接获取购物网站上的评论数据,通过对评论数据的分析研究,研究者能够更清楚的把握影响消费者购买的关键因素。
这种方法的优点是消费者不需要接受任何形式的训练,自然而然地会对真实评论产生些微的感觉。
电子商务平台的虚假评论检测算法随着电子商务的快速发展,越来越多的人选择在网上进行购物。
而在购物过程中,用户通常依赖商品的评价来决定是否购买,而这些评价往往存在着虚假的可能性。
为了保护消费者的权益,电子商务平台应该采取措施来检测和过滤虚假评论。
本文将讨论一种虚假评论检测算法,通过分析评论的特征和用户行为来确定其真实性。
首先,虚假评论的特征往往与真实评论存在明显的差异。
虚假评论通常会使用夸张的言辞,过度赞扬产品,甚至隐瞒产品的缺点。
因此,通过文本分析,可以识别这些虚假评论。
例如,使用自然语言处理技术,可以检测出虚假评论常用的词汇和句式。
此外,虚假评论往往过于通用化,不具体地描述产品的特点,因此,利用文本的信息来检测虚假评论也是一种常见的方法。
其次,虚假评论可以通过用户行为数据进行检测。
电子商务平台可以通过分析用户在平台上的行为来评估他们的可信度。
例如,用户的评论频率和评论内容的一致性可以反映其真实性。
虚假评论往往是批量生成的,无法与用户的其他行为相一致。
此外,用户的购买记录和产品浏览记录也可以被用来检测虚假评论。
如果评论与用户的行为不相符,那么有可能他们是虚假评论的发布者。
虚假评论检测算法还可以通过用户的社交网络信息来辅助判断。
在社交网络中,用户与其他用户之间的互动可以揭示其真实意图。
比如,如果一个用户发布了很多虚假评论,很可能会引起其他用户的怀疑。
通过分析用户的社交网络图谱,可以发现这些可疑的用户并加以监控。
此外,虚假评论的发布者往往会形成一定的社交圈子,通过分析社交网络中用户之间的连接,可以找出这些虚假评论的源头。
为了更准确地检测虚假评论,电子商务平台可以采用机器学习算法来训练模型。
通过构建一个训练集,其中包含真实评论和虚假评论的样本,并提取评论的特征,可以利用这些数据来训练分类器。
常见的分类算法包括支持向量机、朴素贝叶斯和神经网络等。
通过反复训练和优化,可以得到一个能够准确预测虚假评论的模型。
管理探索Һ㊀电子商务网站的虚假商品评论检测系统研究王㊀芳摘㊀要:随着虚假商品评论在电子商务网站中的不断涌现ꎬ极大地损害了电子商务网站的公平和公正ꎬ要通过对用户评论行为的分析ꎬ探讨虚假评论与其添加者之间的关系ꎬ并设计和开发电子商务网站的虚假商品评论检测系统ꎬ通过各个子系统功能模块锁定发布虚假评论的嫌疑用户及其评论ꎬ净化电子商务网站的交易环境ꎮ关键词:电子商务网站ꎻ虚假商品ꎻ评论ꎻ检测系统一㊁引言电子商务的蓬勃发展推动了互联网的飞跃ꎬ然而一些虚假商品评论严重影响了电子商务交易平台的健康发展ꎬ为此要构建和设计电子商务网站的虚假商品评论检测系统ꎬ保证电子商务交易过程公平和公正ꎬ最大限度保障消费者的利益ꎮ二㊁电子商务网站的评论概述电子商务网站是基于B2C的电子商务交易平台ꎬ商品评论是用户在购买了电子商务网站上的商品并使用后ꎬ向商家反馈自己对商品的个人感觉㊁使用状况和产品效果ꎬ商品搜索区会根据用户的商品评论进行商品排序和显示ꎬ其主要功能在于:(一)评论展示用户可以通过页面中部的商品评论区域详细了解商品信息ꎬ在评论的摘要区获悉商品的好评率和商品特点ꎬ在评论的评论列表区则可以看到所有商品评论及被点赞的数量ꎮ(二)评论点赞在商品评论的列表区会陈列所有的用户评论ꎬ用户在浏览相关评论后给予点赞ꎬ则表示对该评论的认同ꎻ也可以对该评论加点评ꎬ以表明自己对该评论的看法ꎮ(三)用户添加评论用户在电子商务网站购买商品并确认收货后ꎬ可以对自己购买的商品添加评论ꎬ如:总体评分㊁问卷调查㊁添加文字评论/图片㊁上传视频等ꎮ而电子商务网站中的虚假商品评论则主要源于以下三种:(一)卖家雇佣水军为自己的商品刷好评在新品上架后ꎬ卖家雇佣水军刷空单ꎬ对商品追加好评ꎬ为自己的商品造势ꎬ通过欺骗性销售诱导客户进行购买ꎮ(二)卖家雇佣水军对竞争者的商品添加消极评论当两个卖家处于激烈的竞争时ꎬ部分卖家会雇佣水军恶意诋毁对方商品ꎬ损害竞争者的商品声誉ꎬ使自己的商品在竞争中占据主动ꎮ(三)恶意点赞卖家恶意注册账号或雇佣水军为自己商品点赞ꎬ诱导消费者进行自主判断ꎮ三㊁电子商务网站的虚假商品评论检测系统分析(一)系统架构分析系统要使用相关数据ꎬ如:卖家数据㊁商品数据㊁评论数据㊁交易数据和用户信息数据ꎬ进行相关数据的整合分析ꎬ对数据进行必要的清洗㊁去重和过滤ꎬ并基于需求进行数据合并计算ꎬ并将计算结果存储于数据库之中ꎬ体现出数据的可复用性ꎮ同时ꎬ系统通过数据分析ꎬ进行评论行为相似度的计算㊁用户间信息相似度的计算㊁用户与卖家的关联度计算ꎬ并评论文本的情感分析ꎬ获悉评论添加者的动机ꎮ此外ꎬ确定一个虚假评价的添加者ꎬ进行嫌疑人的评估和信息展示ꎮ系统由外部系统㊁用户系统㊁评论系统㊁订单系统组成ꎬ采用开源的技术框架ꎬ减少技术的依赖性ꎬ降低虚假评论检测开发成本ꎬ实现对虚假评论检测系统的实时监控ꎬ并使线上系统与前端系统相隔离ꎬ确保数据的隔离性和安全性ꎮ(二)数据库设计要进行数据仓库的设计ꎬ采用Hive作为数据仓库ꎬ利用HQL进行数据处理ꎬ内设有两个基础数据库ꎬ即:存储用户基本信息数据㊁商品评论数据和订单数据的数据库ꎻ存储过滤㊁去重和计算后的数据库ꎮ同时ꎬ还要进行关系数据库的设计ꎬ利用QySQL存储虚假评论检测子系统分析出来的关系数据和评估数据ꎬ应用于嫌疑人管理子系统ꎮ(三)子系统模块设计电子商务网站的虚假商品评论检测系统的各个子系统模块包括以下内容:1.数据采集子系统使用Oozie进行多个Spark作业的调度ꎬ在大数据平台工作流调度系统下ꎬ控制若干个不同任务的并行或串行执行ꎬ并提供配置选项ꎬ由此进行相关数据的采集㊁去重㊁存储等数据采集工作ꎮ同时ꎬ系统还提供Hue管理大数据平台ꎬ查看作业运行状态和运行配置ꎬ也可作为客户端进行结果查询ꎮ2.虚假评论检测子系统该子系统从多维度上构建一系列的模型ꎬ如:用户与卖家之间的关联度评分模块㊁用户与用户间的相似度评价模块㊁交易状况评分模块㊁评价的情感分析模块等ꎬ进行用户各方面信息的分析ꎬ进行嫌疑人评估ꎬ找寻到卖家与水军之间的某种潜在关联关系ꎬ如:用户与用户间的关联㊁用户添加评论使用终端地址的相似关联性等ꎬ以此获悉用户与用户之间的相似度评分㊁用户与卖家之间的关联性ꎮ3.嫌疑人管理子系统设计主要采用三层架构设计方法ꎬ即:视图层㊁控制层㊁模型层ꎬ其中:视图层是前端展示层ꎬ终端用户在此进行信息查看㊁修改和删除操作ꎻ控制层接收视图层请求ꎬ并进行安全性㊁合法性校核ꎬ再将其转发至对应业务模块ꎬ并反馈回视图层ꎻ模型层则设置了一系列模块ꎬ如:业务对象定义㊁数据访问㊁业务接口等ꎬ明晰业务对象ꎬ实现与数据库的交互ꎬ并组装核定嫌疑人的数据ꎬ使用jQuery进行嫌疑人信息显示及其与后端的动态交互控制ꎮ四㊁小结总之ꎬ针对当前电子商务网站中的恶意刷单㊁虚假评论ꎬ要设计和应用电子商务网站的虚假商品评论检测系统ꎬ采集虚假商品评论数据信息ꎬ进行虚假评论的检测ꎬ从多维度进行嫌疑人的评估和管理ꎮ参考文献:[1]杜娇ꎬ钱育蓉ꎬ范迎迎.商品评论情感倾向性研究[J].电脑知识与技术ꎬ2017(21).[2]朱娟.在线商品虚假评论关键问题研究综述[J].现代情报ꎬ2017(5).作者简介:王芳ꎬ江苏龙虎网信息科技股份有限公司ꎮ33。