手把手教你分析携程网评论数据
- 格式:doc
- 大小:3.51 MB
- 文档页数:14
在线旅游平台中的用户评论情感分析在当今数字化时代,越来越多的消费者选择在在线旅游平台上进行旅行预订。
用户评论作为旅游平台上重要的信息来源之一,对其他用户的决策起着至关重要的作用。
因此,对这些用户评论进行情感分析,能够帮助平台提供更好的服务,同时满足用户的需求。
情感分析是一种通过自然语言处理(NLP)和机器学习技术,从文本信息中识别和理解情感和观点的方法。
在在线旅游平台中,用户评论的情感分析可以分为三个主要方面:正面评论、负面评论和中立评论。
首先,我们来讨论正面评论。
正面评论通常包含对旅游服务的赞美、高度评价、满意度等等。
通过对这些评论进行情感分析,平台可以了解哪些方面的服务受到用户的高度认可,进而加强和保持这些优势。
例如,用户可能表达了对酒店的礼貌和热情服务表示满意,并将这一点作为他们选择该酒店的原因之一。
平台可以通过这些正面评论中的关键词和短语,提高酒店服务人员的培训和素质,以便给更多的用户提供出色的体验。
与之相反的是负面评论。
负面评论通常表达了对旅游服务的不满意和抱怨。
对于平台来说,及时识别、分析和解决这些问题是至关重要的。
通过情感分析技术,平台可以快速识别出负面评论,并对用户提出的不满意进行回应和改进。
例如,用户可能抱怨酒店房间的卫生条件不佳或者餐厅服务态度不友好。
平台可以通过这些负面评论,及时对相关问题进行改进,提高服务质量,以便留住现有客户并吸引更多的潜在客户。
除了正面和负面评论,还有一类中立评论。
中立评论可能是对旅游服务中普通经历的描述,既没有积极的评价也没有消极的评价。
对于平台来说,中立评论也具有一定的价值。
首先,这些评论可以提供给其他用户一个更全面的了解,帮助他们做出客观的决策。
其次,通过对中立评论的情感分析,平台可以发现用户对旅游服务的一些普遍问题,并在今后的服务中进行改进。
例如,多个用户可能提到酒店的Wi-Fi信号不稳定,这提示平台应该重视这一问题并采取相应措施。
然而,在进行用户评论情感分析时,也需要注意一些挑战和限制。
携程商业分析书洪平一、为何选择“携程”进行分析?洪平本科学习的是电子商务专业,由于研究生阶段虽然是物流工程专业的学生,但由于导师的主要研究方向是互联网信息服务业,为此,从保研开始,近四年的研究生活让我对互联网信息服务业有了新的认识,从供应商到服务商的整个流程有了自己的想法,最重要的是爱上了互联网的电商行业,想从事这方面的工作。
由于我研究生阶段主要的物流方向是物流服务供应链(对集成商、客户和服务提供商具有一定的认识),而携程网正是我们物流服务供应链中的典型案例(详见《平台经济学》、《物流服务供应链》等著作),案例中,携程网属于我们的物流服务集成商的现实实体。
为此,我毅然决然的选择了携程进行分析,如此,我既能运用本科的电商知识和研究生阶段的物流知识,使得分析更加完善。
二、问题回答(一)问题一:你认为携程的前景如何?答:个人觉得随着中国互联网信息服务业的快速发展,“互联网+”在中国旅游市场的备受关注,Airbnb等国外的互联网旅游企业的天价估值显现出携程服务于旅游产业的相关产品是符合社会发展与用户需求的,在相当长的一段时期内是存在明显的优势的,加之携程目前的运营情况良好,为此,我觉得携程的前景是美好的,亦或是充满希望的。
同时,由于该行业的竞争明显、中国较大的互联网企业(腾讯、百度等)均投资于该领域,势必使得携程需要付出更多的服务创新与技术升级、科学规划战略等来应对今后的竞争氛围。
俗活说,口说无凭,为了进一步支持我的论点,洪平在这里简单的用“PEST”分析方法对携程的外部环境作一个简要的分析。
1、政策分析携程属于中国互联网信息服务业中的重要旅游服务企业,随着中国互联网的大规模发展,中国互联网企业的经济效益、社会效益对国内和国外均产生了较大的影响,使得克强总理提出“互联网+”的观点,互联网思维使得国家的各项产业政策(国务院、工信部、商业部等)均大力扶持电商企业、扶持民营企业。
国家关于电子商务的利好政策持续发酵。
携程用户调研分析方案携程用户调研是通过问卷调查等方式,对携程用户的使用习惯、需求和意见进行收集和分析的过程。
下面是一份针对携程用户的调研分析方案。
1. 调研目的通过携程用户调研,我们的目的是了解用户对携程平台的满意度、使用体验及服务需求,为改进产品和提升用户体验提供依据。
2. 调研内容调研内容包括以下几个方面:- 用户的个人信息,如年龄、性别、职业等;- 用户对携程平台的满意度评价,包括用户评价的指标、打分方式等;- 用户使用携程平台的频率和方式,如是通过网页还是移动端;- 用户在携程平台的主要需求和关注点,如酒店预订、机票购买、旅游攻略等;- 用户对携程平台的功能和服务的意见和建议。
3. 调研方法采用在线问卷调查的方式进行调研。
通过在携程平台上弹窗提示用户参与调研,并提供调研链接,用户可根据自己的时间进行填写。
问卷设计简洁明了,问题涵盖以上调研内容,可包括单选题、多选题、开放式问题等。
4. 调研样本调研样本应具备代表性,需覆盖不同年龄、性别、职业、使用频率及使用方式的携程用户。
样本的数量可根据实际情况确定,建议样本量在500-1000之间。
5. 数据分析通过问卷收集的数据,首先进行数据清理和预处理,如筛选有效样本、处理缺失数据等。
然后,根据调研目的和问卷设计的整体思路,对数据进行统计分析和总结。
可以采用统计软件进行数据分析,如SPSS或Excel。
6. 结果展示根据数据分析结果,结合调研目的和问题设计,提取关键发现和洞察。
将结果以图表的形式展示,包括表格、柱状图、饼图等,以便更直观地传达调研结果。
同时,也可以通过撰写调研报告的形式,将调研结果进行系统整理和解读,给出针对性的建议和改进措施。
通过以上调研方案,可以对携程用户的需求和意见进行全面了解,为携程平台的改进和优化提供科学依据,提升用户体验和用户满意度。
同时,也为携程平台提供了与用户进行沟通和互动的机会,增强用户参与感和忠诚度。
电子商务实例:/先来看看携程网的历史:携程旅行网创立于1999年,总部设在中国上海,目前已在北京、广州、深圳、成都、杭州、厦门、青岛、南京、武汉、沈阳等10个城市设立分公司,并在三十多个城市有分支机构,员工超过5000人。
作为中国领先的在线旅行服务公司,携程旅行网成功整合了高科技产业与传统旅行业,向超过1400万会员提供集酒店预订、机票预订、度假预订、商旅管理、特惠商户及旅游资讯在内的全方位旅行服务,被誉为互联网和传统旅游无缝结合的典范。
在互联网刚刚发展的阶段携程网董事长梁建章很有眼光的把电子商务用于旅游行业,创造了一种以旅游为主体的B2C商业模式,是主要集宾馆预订、机票预订、度假产品预订、旅游信息查询及打折商户服务为一体的综合性旅行服务公司。
互联网行业的人说,这并不是一家纯粹的互联网公司;而旅游行业的人说,这不是一家真正的旅游公司。
在1999年携程开始做旅游网站时就悄悄的改变了人们的生活,改变了旅游业的基本形态,给人们带了便利,所以携程网在创业伊始就定位为一个良好的大型旅游中介公司形象,为客户提供了一个可以信赖的旅游、出行媒介。
(1)愿景中国一二线城市的非连锁、三星以下的单体酒店有近万家,携程准备通过自己创立的“星程酒店跨区域联盟”将这些酒店整合在一个品牌之下。
作为盟主的携程,不直接参与联盟成员的日常管理,只是通过收取一定数量的“品牌维护费”,给予成员品牌建设、运营规范、销售推广三方面的支持。
据悉,首期已经有近20家酒店入盟。
从酒店服务预订开始,这是携程在旅游服务行业很好的一个切入点。
携程的”天外飞仙”,通过资金和网络资源优势整合传统旅游服务专业人员与上下游关系等边际资源。
比如收购北京现代运通,收购北京海岸机票代理快速占领市场,逐步建立了携程在酒店预订和机票预订的NO。
1地位。
在携程如制造企业般精细化的管理后台的支持下,进一步的发挥互联网与传统资源结合的优势。
作为一个独特的资源整合者,携程一只手掌控着全国近数十万会员客户,另一只手,则与全国数千家酒店、所有的航空公司紧密相连。
在线旅游平台的用户评论情感分析在当今数字化时代,互联网的发展给我们的生活带来了巨大的便利。
旅行已经成为人们生活中不可或缺的一部分,越来越多的人选择通过在线旅游平台来预订旅行。
作为在线旅游平台的用户各自具有自己独特的喜好和需求,他们的评论对于其他用户来说是非常有价值的。
因此,对用户评论的情感分析对于在线旅游平台的运营和改进具有重要意义。
情感分析是指通过机器学习和自然语言处理的技术对文本进行分析,识别其中的情绪和倾向。
对在线旅游平台的用户评论进行情感分析可以帮助平台了解用户的满意度、情绪倾向和需求,以及发现潜在的问题和改进空间。
具体来说,情感分析可以分为三个方面的内容:正面评论的特点、负面评论的原因和普遍存在的问题。
首先,通过分析正面评论的特点,平台可以了解用户满意的方面和亮点。
许多用户在评论中会表达他们对旅行体验的积极感受和好评。
这些评论通常包含诸如“五星好评”、“性价比高”、“服务周到”等积极的描述。
正面评论的特点可以告诉平台哪些方面的服务受到用户的认可和赞赏,从而为平台提供改进和继续优化的方向。
然而,负面评论也是在线旅游平台不可避免的一部分。
对于负面评论的原因进行情感分析可以帮助平台了解用户的不满和问题所在,从而及时采取措施进行改善。
负面评论通常包含用户对旅行体验的不满意处和抱怨。
这些评论可能提到的问题有旅馆卫生状况不好、景点设施陈旧、导游服务不专业等等。
通过分析和归纳负面评论的原因,平台可以及时解决客户的问题,提高用户满意度。
除了对正面和负面评论进行情感分析,还需要注意到一些普遍存在的问题。
用户的评论中可能提到一些有待改进的方面,平台应该认真倾听这些反馈并及时采取措施改进。
这些问题可能包括用户对价格不满意、预订流程复杂、退款和改签不便等等。
对这些普遍存在的问题进行情感分析可以帮助平台了解用户的真实需求和关注点,从而提供更好的服务。
然而,情感分析也面临着一些挑战和限制。
首先,情感分析算法可能对特定文本或语言的理解存在困难。
携程网网站分析报告一网站名称:携程网二网址:/三能实现的主要功能1)酒店预订:携程拥有中国领先的酒店预订服务中心,为会员提供即时预订服务。
我们的合作酒店超过32000家,遍布全球138个国家和地区的5900余个城市(Ctrip5,2010)。
2)机票预订:携程旅行网拥有全国联网的机票预订、配送和各大机场的现场服务系统,为会员提供国际和国内机票的查询预订服务。
3)度假预订:携程倡导自由享受与深度体验的度假休闲方式,为会员提供自由行、团队游、半自助、巴士游、自驾游、邮轮、自由行PASS、签证、用车等全系列度假产品服务。
4)商旅管理:商旅管理业务面向国内外各大企业与集团公司,以提升企业整体商旅管理水平与资源整合能力为服务宗旨。
5)特约商户:特约商户是为VIP 贵宾会员打造的增值服务,旨在为VIP 会员的商务旅行或周游各地提供更为完善的服务。
6)旅游资讯:旅游资讯是为会员提供的附加服务。
由线上交互式网站信息与线下旅行丛书、杂志形成立体式资讯组合。
四交易程序和规则交易程序主要分为搜索,选择,在线预订和预订成功四个部分。
以预定酒店为例详细说明交易过程:搜索酒店1、选择您要预订酒店所在的城市;2、选择该酒店附近地标,例如:选择北京王府井附近酒店;3、选择您要入住的时间,如您6日下午到达该城市,那么入住时间即为6日;4、选择您离开酒店的时间,如您是7号离开酒店退房,那么离店时间即为7日;5、选择您能够接受的价格区间,如:150至300元;6、填写您指定的酒店名称,如:格林豪泰酒店,如果没有指定的酒店此处可以留空;填写完搜索信息后点击酒店搜索按钮。
选择酒店选择合适的酒店。
以搜索出来的“北京东方之家酒店”为例,选择最适合您的房型、房价,确定后点击预订按钮。
若您想了解更详细的酒店信息,可点击酒店名称进入酒店详细页,了解酒店信息、参观酒店图片、交通地图等等相关信息,点击预订按钮。
在线预订请填写真实入住人数、入住人姓名(预订几间填写几个人的姓名)、证件类型内请选择预订人有效证件类型,手机号码请填写入住人手机号码,E-mail下是可选填写,接下选择预计到店的大概时间段,如果您对所选酒店有特殊要求请把要求写在特殊要求里,填写预订人姓名和预订人手机号码,填写结束后提交订单,等待订单处理。
携程钻级与评分标准
携程钻级是携程网针对酒店、景点、旅行社等旅游服务供应商的
评级体系。
携程钻级的评分标准主要包括以下几个方面:
1. 服务质量:评估供应商的服务质量,包括服务态度、服务效率、服务专业性等。
供应商需要提供良好的客户服务,满足客户的需求。
2. 设施设备:评估供应商的设施设备情况,包括房间设施、交通
工具、景点设施等。
供应商需要提供舒适、安全、便利的设施设备。
3. 卫生环境:评估供应商的卫生环境情况,包括房间卫生、公共
区域卫生等。
供应商需要保持良好的卫生环境,确保客户的健康和安全。
4. 用户评价:考虑用户对供应商的评价和反馈。
用户评价是评估
供应商的一个重要指标,可以反映供应商的实际表现和用户满意度。
根据以上评分标准,携程钻级分为五个等级,从高到低分别是钻
石级、金级、银级、铜级和星级。
钻石级是最高级别,表示供应商在
服务质量、设施设备、卫生环境等方面表现优秀;星级是最低级别,
表示供应商在以上方面表现一般。
携程钻级的评分是根据携程网用户的评价和携程网的评估结果综
合得出的。
供应商需要持续提供优质的服务和设施,才能获得更高的
钻级评分。
同时,供应商还需要积极关注用户的反馈,改进服务,提
高用户满意度。
携程旅行SEO分析实验报告一、分析携程旅行网主要的功能结构1.酒店预定:携程网拥有中国最领先的酒店预定服务中心,为每一们会员提供即时预定服务。
其合作酒店超过28000家,遍布全球134个国家和地区的5900余个城市。
2.机票预定:携程网拥有全国联网的机票预定、配送和各大机场服务系统,为会员提供国际和国内的机票查询预定服务。
3.休闲度假:携程倡导自由享受与深度体验的度假休闲方式,为会员提供自己行、海个团队游、半自助游、自驾游、签证等多种度假产品。
4.商旅管理:商旅管理业务面向国内外各大企业与集团公司。
以提升企业的整体商旅水平。
5.社区:提供社区是一个虚拟空间,为网友提供虚拟的交流场所。
6.特惠商户:特惠商户是为VIP贵宾会员打造增值服务。
7.旅游资讯:旅游资讯是为会员提供的附服务,由线上交互网站信息与线下旅行丛书、杂志形成立体式资讯组合。
二、分析携程旅行网的盈利模式1.酒店预订代理费,这是携程最主要的盈利来源。
虽然携程也明确了网上支付与前台支付的区别,但是大多只提供到目的地酒店前台支付房费的办法。
所以,携程的酒店预订代理费用基本上是从目的地酒店的盈利折扣返还中获取的;2.机票预订代理费,这是从顾客的订票费中获取的,等于顾客订票费与航空公司出票价格的差价;3.自助游与商务游中的酒店、机票预订代理费,其收入的途径与前两项基本一致;4.在线广告;让别人的信息放到他的网站上面去。
5.线路预订代理费,携程通过与其它一些旅行社的合作,也经营一些组团的业务。
除了酒店预订大多采用酒店前台支付的办法,对于其它三项的交易而言,顾客既可以选择网上支付,也可以选择线上浏览、电话确认、离线交易的办法。
三、主要竞争对手1.、艺龙旅行网艺龙创办于20XX年7月,控股方为全球最大在线旅游公司Expedia。
20XX年全年,艺龙酒店预订业务佣金收入为2.56亿元,与20XX年相比增长1%。
2、芒果网创办于20XX年4月,控股方为港中旅。
电子商务平台的用户评论分析技巧电子商务平台成为现代社会中进行购物的重要方式,用户评论已经成为了用户评价商品质量和服务质量的重要途径。
对于电子商务平台而言,分析用户评论能够帮助平台更好地了解用户的需求和反馈,并作出相应的改进和调整。
本文将介绍几种用户评论分析的技巧,帮助电子商务平台进行有针对性的分析和改进。
一、情感分析情感分析是一种对用户评论进行情感倾向分析的方法。
通过对用户评论中的情感词汇和情感强度进行计算和分析,可以得出用户对商品或服务的喜好程度。
情感分析可以帮助平台了解用户对商品的整体评价,从而找出优点和不足之处。
情感分析的方法主要有基于词典的方法和基于机器学习的方法。
基于词典的方法通过构建情感词典,将评论中的词汇与情感进行匹配,进而计算整体的情感倾向。
而基于机器学习的方法则需要建立训练集和测试集,通过机器学习算法对评论进行分类和情感判断。
二、主题提取主题提取是一种将用户评论中的主要主题或关键词提取出来的方法。
通过主题提取,可以了解用户对商品的关注点和重要需求,从而更好地为用户提供个性化的服务。
主题提取的方法主要有基于规则的方法和基于机器学习的方法。
基于规则的方法需要设定一系列的规则和关键词,对用户评论进行匹配和提取。
而基于机器学习的方法则通过训练集和测试集的建立,使用机器学习算法对评论进行分类和主题提取。
三、评论分类评论分类是一种将用户评论按照不同维度进行分类的方法。
通过将用户评论分为不同的类别,可以更好地了解用户对商品和服务的评价,从而提供相关的改进和调整建议。
评论分类的方法主要有基于词频的方法和基于机器学习的方法。
基于词频的方法通过统计评论中出现频率较高的关键词和词组,将评论归类到不同的类别中。
而基于机器学习的方法则通过训练集和测试集的建立,使用机器学习算法对评论进行分类和归类。
四、关键词分析关键词分析是一种对用户评论中的关键词进行分析和统计的方法。
通过对用户评论中的关键词进行统计,可以了解用户对商品和服务的主要需求和关注点,从而进行相应的改进和调整。
携程评分规则
在旅游行业中,酒店评分是非常重要的一项指标。
携程作为国内最大的在线旅游平台之一,其酒店评分规则也备受关注。
那么,如何评价一个酒店呢?
酒店的位置是评分的重要因素之一。
携程会根据酒店所在地的交通便利程度、周边环境、景点距离等因素进行评分。
如果酒店位于市中心或者景点附近,那么其位置得分会更高。
酒店的设施和服务也是评分的重要因素。
携程会根据酒店的房间设施、餐饮服务、前台服务、卫生清洁等方面进行评分。
如果酒店的设施和服务都很好,那么其得分也会相应提高。
酒店的价格也是评分的重要因素之一。
携程会根据酒店的价格水平进行评分。
如果酒店的价格比同类酒店更加合理,那么其得分也会相应提高。
酒店的用户评价也是评分的重要因素之一。
携程会根据用户对酒店的评价进行评分。
如果酒店的用户评价很好,那么其得分也会相应提高。
携程的酒店评分规则是非常严格和科学的。
如果想要评价一个酒店,需要从酒店的位置、设施和服务、价格和用户评价等方面进行综合考虑。
只有这样才能得出一个客观、准确的评价。
手把手教你分析携程网评论数据 中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装 http://blog.csdn.net/andy_henry/article/details/25929019
文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。
首先评论数据如何获取? 一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。
本次文本分析中需要使用如下3个包: 1)Rwordseg包用于分词 2)tmcn用于词频统计 3)wordcloud用于绘制文字云
library(Rwordseg) library(tmcn) library(wordcloud) #读取数据 Evaluation <- read.csv(file = file.choose(), encoding = 'UFT-8') #剔除评论数据中含有的英文和数字 text <- gsub('[a-zA-Z0-9]','',Evaluation$Evaluation) #分词 segword <- segmentCN(strwords = text) #查看第一条评论的分词效果 segword[1]
从上图的结果中发现,经分割后的词中有许多无意义的停止词,如“是”,“只”,“了”,“也”等,这些词是需要剔除的。关于停止词,可以到网上搜索获取。
#读取停止词 mystopwords <- read.table(file = file.choose(), stringsAsFactors = FALSE) head(mystopwords) class(mystopwords)
由于读入的数据为数据框格式,需要将其转换为向量格式,即: mystopwords <- as.vector(mystopwords[,1]) head(mystopwords)
现在有了停止词词库,接下来需要将分割后的词与停止词词库进行比对,将含有停止词的词进行剔除。下面是自定义删除停止词的函数:
removewords <- function(target_words,stop_words){ target_words = target_words[target_words%in%stop_words==FALSE] return(target_words) } #将该函数应用到已分割的词中 segword2 <- sapply(X = segword, FUN = removewords, mystopwords) #查看已删除后的分词结果 segword2[[1]]
从上图中显示,一些无意义的停止词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。 word_freq <- getWordFreq(string = unlist(segword2)) opar <- par(no.readonly = TRUE) par(bg = 'black') #绘制出现频率最高的前50个词 wordcloud(words = word_freq$Word, freq = word_freq$Freq, max.words = 50, random.color = TRUE, colors = rainbow(n = 7)) par(opar) 发现“不错”这个词非常明显,但到底是什么不错呢?下面来看一看都是哪些评论包含不错这样的字眼。
#根据频繁出现词汇,还原初始评价 index <- NULL for(i in 1:length(segword)){ if (any(segword[[i]] %in% '不错') == TRUE) index = unique(c(index, i)) } text[index]
含有“不错”字眼的评论有658条,这就需要人为干涉,将这些“不错”进行简化并组成词典。 这是一个非常繁工的过程,需要耐心的查看这些评论中都是怎么表达的情感的。经过约3个小时的人为选词(不断反复查看),将这些词组成词典,并导入为自定义词汇。(可能该方法比较笨拙,如有更好的方法,还请看官指导)。
#自定义词汇 words <- c('房间干净','服务不错','酒店不错','不错的酒店','不错的地方','卫生不错','设施不错','设备不错','硬件不错','位置不错','地段不错','景色不错','景观不错','环境不错','风景不错','视野不错','夜景不错','口味不错','味道不错','感觉不错','态度不错','态度冷漠','态度冷淡','服务差劲','热情','热心','不热情','态度好','态度差','态度不好','素质差','质量不错','房间不错','浴缸不错','早餐不错','早餐质量差','自助餐不错','下午茶不错','强烈推荐','推荐入住','值得推荐','性价比不错','隔音不错','体验不错','不错的体验','设施陈旧','五星级酒店','性价比不错','交通便利','交通方便','出行方便','房间小','价格不错','前台效率太低','携程','地理位置','陆家嘴') #插入自定义词汇 insertWords(strwords = words)
由于上面的词汇都是经过简化而成的,而原始评论可能是:“房间很干净”,“服务还是蛮不错的”,“酒店真心不错”等,所以就需要剔除这些干扰分词的词(“还是”,“蛮”,“真心”,“的”等)。
#根据业务情况、需要在原始评论中删除的字和词 pattern <- c('还是','很也','了','点','可以','还','是','真心','都','相当','大家','确实','挺','非常','应该','蛮','整体','里面','就','实在','总体','听说','有点','比较','质量','都是','够','十分','还算','极其','也算','方面','太','算是') #将这些词组成“正则表达式” pattern2 <- paste("[",paste(pattern,collapse = ','),"]", sep = '') #剔除原始评论中含有的这些干扰词汇 text2 <- gsub(pattern = pattern2, replacement = '', x = text)
好,经过清洗后,原始的评论相对简介而干净,下面对其进一步分词,记住,之前已经构建了自定义词汇,他会产生指定组合的词,如“酒店”,“不错”两个词组合为“酒店不错”。
#分词 segword3 <- segmentCN(strwords = text2) head(segword3) #新建停止词 stopwords_v2 <- c('不错','酒店','交通','前台','出差','价','去','免费','入','入住','大道','吃','退','上海','说','床','态度','升级','地理','很好','号','住','服务员','房间','服务','设施','环境','位置') #创建新添加的停止词 mystopwords <- c(mystopwords,stopwords_v2) #排除停止词 segword4 <- sapply(X = segword3, FUN = removewords, mystopwords) #查看已删除后的分词结果 segword4[[1]] 根据上面的分词结果,再一次绘制文字云,具体如下: word_freq2 <- getWordFreq(string = unlist(segword4)) opar <- par(no.readonly = TRUE) par(bg = 'black') #绘制出现频率最高的前50个词 wordcloud(words = word_freq2$Word, freq = word_freq2$Freq, scale = c(4,0.1), max.words = 50, random.color = TRUE, colors = rainbow(n = 7)) par(opar)
发现还是有一些词影响了其真实情况,如“早餐”,"房"等,需要进一步将其纳入停止词,因为这些词之前已经被组合成其他词汇。
#再一次清除停止词 stopwords_v3 <- c('早餐','嘴','电话','订','楼','人员','钟','修','办理','客人','品种','朋友','带','出门','房','影响','硬件','感觉','想','验','洁','希望','送') segword5 <- sapply(X = segword4, FUN = removewords, stopwords_v3) #查看已删除后的分词结果 segword5[[1]]
根据这次剔除的停止词,我们再绘制一次文字云: word_freq3 <- getWordFreq(string = unlist(segword5)) opar <- par(no.readonly = TRUE) par(bg = "black") #绘制出现频率最高的前50个词 wordcloud(words = word_freq3$Word, freq = word_freq3$Freq, scale = c(4,0.1), max.words = 50,random.color = TRUE, colors = rainbow(n = 7)) par(opar)