广告型微博的识别方法_郭跇秀
- 格式:pdf
- 大小:331.28 KB
- 文档页数:6
识别广告的妙招
识别广告的妙招主要包括以下几个方面:
1. 观察广告的形式和内容:广告往往采用夸张、过于美化或者虚假的手法来吸引眼球。
因此,在看到某些过于美好或者引人注目的信息时,要保持警惕,仔细辨认是否为广告。
2. 注意广告的来源和发布者:有些广告可能来自可信的品牌或者机构,但有些则可能来自不可信或者口碑不佳的来源。
因此,在看到广告时,要注意其来源和发布者,以判断其可信度。
3. 了解产品的口碑和评价:在购买产品之前,可以查阅其他消费者的评价和口碑,了解产品的质量和性能。
如果产品口碑较差,那么就要谨慎对待该产品的广告。
4. 注意广告的语气和用词:有些广告可能会采用过于绝对或者夸大的语气和用词,例如“最好”、“最棒”等词语。
如果发现广告存在这种情况,那么就需要警惕其真实性。
5. 寻找权威认证和证明:对于某些产品,例如健康保健品、美容产品等,可以寻找权威机构或者专家的认证和证明。
这些证明和认证可以增加产品的可信度。
综上所述,要识别广告的妙招需要保持警惕,注意广告的形式、来源、口碑、语气和用词等方面,同时寻找权威认证和证明。
这些方法可以帮助我们更好地识别广告,避免受到虚假广告的欺骗。
微博广告的营销传播分析(有案例)
微博广告作为社交媒体广告的一种,其营销传播具有以下特点:
1. 社交性强:微博广告能够在用户之间迅速传播,被大量用户
转发、评论并互动,从而扩大其传播范围和影响力。
2. 定向性强:微博广告可以根据用户人群的兴趣、年龄、性别
等进行精准投放,从而提高广告的受众匹配度和转化率。
3. 创意多样:微博广告可以采用文字、图片或视频等多种形式,具有更强的视觉冲击力和情感共鸣性。
4. 数据分析:微博广告提供了丰富的数据统计和分析,可以对
广告效果进行实时监测和优化,提高广告的投放效果。
以下是一则微博广告的营销传播分析案例:
广告主:KOLIBRIE (一家销售瑜伽教练裤子的网站)
广告形式:图片广告
传播方式:微博
传播目标:推广KOLIBRIE瑜伽裤,吸引有瑜伽练习习惯的女性
用户购买。
传播策略:
1. 选择有影响力的瑜伽博主合作,将KOLIBRIE的广告图片嵌
入他们的微博帖子中,向更多用户传播。
2. 在微博上投放KOLIBRIE的广告,根据用户兴趣、年龄、性
别等维度精准定向,提高广告的受众匹配度。
3. 制作有创意、有情感共鸣的广告图片,展示出KOLIBRIE瑜伽裤的质感和美观度,并配以促销信息,吸引用户进行购买。
传播效果:
1. KOLIBRIE的广告被大量的瑜伽博主转发并写下自己的使用心得,吸引了大量的目标用户的关注。
2. 经过精准投放,广告的点击率远高于平均水平,并且许多用户从点击广告到购买的转化率较高。
3. 广告成为了瑜伽爱好者之间的热门话题,广告效果显著。
基于图的微博广告文本识别罗斌;唐红艳;王志豪;秦悦;苏劲松【期刊名称】《厦门大学学报(自然科学版)》【年(卷),期】2017(056)005【摘要】大量的微博广告影响了微博数据分析模型的使用.针对微博广告文本识别问题,利用基于图的半监督的标签传播算法,指导计算机从大量的非结构化的微博文本中自动识别出微博广告.通过对实验数据的评测,结果显示,当已有标签样本较少时,基于图的半监督的标签传播算法能够获得比有监督的支持向量机和朴素贝叶斯算法更好的性能.%Many advertisements in micro-blog affected the use of micro-blog data analysis models.Aiming at implementing micro-blog advertisement text recognition,this paper investigates a graph-based semi-supervised learning algorithm,that is,the label propa-gation,to recognize micro-blog advertisement from a large number of micro-blogtexts.Experimental results on the large-scale data shows that this method achieves a better performance than supervised learning algorithm,such as support vector machine and naive Bayes,do when only very few labeled examples are available.【总页数】5页(P724-728)【作者】罗斌;唐红艳;王志豪;秦悦;苏劲松【作者单位】厦门大学软件学院,福建厦门 361005;厦门大学软件学院,福建厦门361005;北京大学软件与微电子学院,北京 102600;厦门大学航空航天学院,福建厦门 361005;厦门大学软件学院,福建厦门 361005;厦门大学软件学院,福建厦门361005【正文语种】中文【中图分类】TP391【相关文献】1.基于强化语义的中文广告文本识别技术研究 [J], 赵伟;邓叶勋;赵建强;李文瑞;韩冰;欧荣安2.基于深度学习的网络不良文本识别分析研究 [J], 武梦旭3.基于语音信号处理和文本识别技术的汉英口语翻译自动评分方法 [J], 汪斐;王婧锦4.基于OCR的中文债券图表数据检测和文本识别 [J], 张宁静;袁书培;吴海龙5.基于层次自注意力的高效场景文本识别 [J], 陈瑛;陈平平;林志坚因版权原因,仅展示原文概要,查看原文内容请购买。
微博广告效果分析报告1. 引言随着移动互联网的快速发展,社交媒体成为了广告主展示产品和服务的重要平台之一。
微博作为中国最大的社交媒体平台之一,拥有庞大的用户群体,为广告主提供了广阔的推广空间。
本文将对微博广告的效果进行分析,并提供一些改进策略,以帮助广告主获得更好的广告效果。
2. 数据收集为了进行微博广告效果分析,我们首先需要收集一些相关数据。
以下是我们收集到的数据类型和来源:•广告曝光量和点击量:通过微博广告平台提供的数据,我们可以获取广告曝光量和点击量的数据。
•广告转化率:通过与广告主合作,我们可以获得广告转化率的数据,例如用户在看到广告后购买产品或服务的比例。
•用户反馈:通过分析用户在微博上对广告的评论和转发情况,我们可以了解用户对广告的态度和兴趣。
3. 数据分析在这一部分,我们将对收集到的数据进行分析,以了解微博广告的效果。
以下是我们进行的数据分析步骤:3.1 广告曝光量与点击量分析通过分析广告曝光量和点击量的数据,我们可以了解广告的曝光效果和用户的点击兴趣。
具体步骤如下:1.计算广告的点击率:点击率可以作为广告效果的一个重要指标。
我们可以通过点击量除以曝光量来计算广告的点击率。
2.分析不同广告的点击率差异:我们可以将广告按照不同的标签或主题进行分类,然后比较不同广告之间的点击率差异,以了解哪些广告更受用户欢迎。
3.2 广告转化率分析广告转化率是衡量广告效果的重要指标之一。
通过分析广告转化率的数据,我们可以了解广告对用户购买行为的影响。
具体步骤如下:1.计算广告的转化率:我们可以通过广告转化量除以广告点击量来计算广告的转化率。
2.分析不同广告的转化率差异:类似于点击率分析,我们可以将广告按照不同的标签或主题进行分类,然后比较不同广告之间的转化率差异。
3.3 用户反馈分析用户反馈是了解用户对广告态度和兴趣的重要途径。
通过分析用户在微博上的评论和转发情况,我们可以得出以下结论:1.用户评论情绪分析:通过自然语言处理技术,我们可以对用户评论的情绪进行分析,以了解用户对广告的喜好和不满意之处。
第05期总第449期 2021年5月•传媒观察•M E D I A O B S E R V E R•热点透视•微博“大V”影响力负效应及其消解朱燕丹靖鸣(南京师范大学舆情与危机管理研究所,江苏南京210097 ;南京师范大学新闻与传播学院,江苏南京210097 )【摘要】“大V”影响力的负效应呈现出明显的“后现代主义”特征,受众商品化、“微博-微信”场域舆情监测困难加剧了新媒体时代微博“大V”影响力负效应的应对难度,由此需要从转换媒介素养教 育范式、构建新型“大V”群体和重塑影响力经济的运用方式等三方面入手,从思想、政治、经济等多角 度消解“大V”影响力的负效应。
【关键词】微博“大V”;影响力;负效应;公共事件【中图分类号】G206 【文献标识码】A【文章编号】1672-3406 (2021)05-0029-8虚拟空间具有动态性特征,就物质建构的维度而言,虚拟空间会因中介性应用技术的变化而呈现出不 同的“面貌”和运作逻辑。
也会因空间构成要素间的组合与裂变而处于动态不居的变化状态。
微博空间作为 虚拟空间的特殊表现形式,以微博技术为中介,是微博技术、微博空间结构和主体“微博行动”共同参与 实践的空间形式。
®微博的发展在经过井喷式扩张阶段以后,进人了较为成熟平稳的状态。
微博“大V”(以下简称“大V”)转发信息的增量效应促进了微博传播效果的爆发式增长,微博中扎堆的负面情绪和谣言让 “大V”成为重点管控对象,隐藏在“大V”背后的利益与话语权之争将“大V”推到了政府、企业与网民角 力的漩涡中。
微博及其意见领袖“大V”是一种客观存在,作为国内最大两个社交媒体平台,微博和微信的 优势地位依然显著。
微博在2019年第四季度财报中表示,2019年12月的月活跃用户数为1.6亿,较上年同 期净增约5400万。
月活跃用户数中约94%为移动端用户。
2019年12月平均日活跃用户数为2.2亿,较上年 同期净增约2200万。
基于新浪微博平台的网络广告研究近年来,随着互联网的普及和技术的迅速发展,网络广告已经成为各大品牌和企业进行宣传和推广的重要手段。
其中,新浪作为中国最大的社交媒体平台之一,也成为了广告主们竞相投放的热门领域。
本文将对基于新浪平台的网络广告进行深入的研究和分析。
用户基数庞大:新浪拥有数亿活跃用户,这为广告主提供了巨大的潜在受众群体。
定位精准:新浪通过用户行为分析,能够实现广告的精准投放,提高广告效果。
互动性强:用户可以在新浪上直接与广告主互动,提高用户参与度。
形式多样:新浪支持多种形式的广告,包括图片、视频、文字等,能够满足广告主多样化的需求。
开屏广告:在用户打开新浪时展示的广告,具有强制观看的特点。
信息流广告:与用户正常浏览时展示的内容混合展示的广告。
话题广告:通过热门话题或广告主自定义的话题进行传播的广告。
品牌推广:通过与新浪合作的品牌推广活动,提高品牌知名度和曝光度。
明确广告目标:在投放广告前,需要明确广告的目标和受众群体,制定有针对性的投放计划。
合理利用数据:通过对新浪数据的分析和挖掘,了解用户需求和行为习惯,实现广告的精准投放。
创意为王:在广告设计和创意上要新颖、独特,能够吸引用户的眼球并激发其参与欲望。
持续优化:根据广告效果反馈,及时调整投放策略和优化广告内容,提高广告效果。
虽然新浪已经成为一个重要的网络广告平台,但同时也面临着一些挑战和竞争。
如何保护用户隐私和防止过度商业化是新浪需要解决的重要问题。
随着社交媒体平台的多样化,新浪需要不断创新和改进以保持其竞争力。
与其他广告平台的合作也是新浪未来发展的一个重要方向。
例如,通过与搜索引擎、移动应用等平台的合作,可以扩大广告主的受众范围并提高广告效果。
总体而言,新浪作为一个具有巨大潜力的网络广告平台,将继续吸引着越来越多的广告主。
未来,随着技术的发展和社交媒体市场的不断变化,新浪广告也将不断创新和发展。
对于广告主来说,如何充分利用新浪的优势并制定科学的投放策略将是取得成功的关键。
微博广告营销的效果分析和评估体系随着互联网技术的发展,社交媒体平台的出现与普及,越来越多的企业开始将广告投放到社交媒体平台上,其中微博作为一款重要的社交媒体平台,广告投放量也越来越大。
如何评估微博广告营销的效果成为了广告投放方需要面对的难题。
本文将对微博广告营销的效果分析和评估体系进行深入研究。
一、微博广告营销的效果微博广告营销的效果一般包括以下几个方面:1. 曝光量曝光量是指广告在微博上被展示的次数。
曝光量越大,表示广告覆盖的人群越广,可能性越大。
2. 点击量广告的点击量是指用户在看到广告时,对这个广告的兴趣产生了点击,并进入到广告的相关页面。
点击量越大,表示广告营销的效果越好,用户对广告展示感兴趣。
3. 转化率广告的转化率是指用户在看到广告后达成目标行为的比例,也就是广告效果的最终体现。
目标行为不同,转化率的计算方法也有差异。
4. 点赞数与评论数点赞数与评论数是指广告在微博上受到用户喜欢的标志。
这个数据能够反映广告展示的受欢迎程度,对于企业来说具有较为重要的参考价值。
二、微博广告营销的评估体系1. 广告花费回报比广告花费回报比可以用来评估广告带来的直接营收。
其计算方法为广告带来的收益 / 广告费用。
如果计算结果大于1,表示广告效果不错,花费回报比高。
2. 转化率转化率是判断一个广告效果好坏的重要指标。
可以通过与其他同类型广告的比较来判断广告的转化率是否较高。
3. 客户满意度客户满意度是指客户对广告的整体评价和反馈。
可以从下面几个方面来衡量广告的客户满意度:1)用户反馈的点赞与评论数量2)点赞和评论的内容3)广告被转发的数量4)广告对用户的影响程度5)广告的传播效果6)广告带来的转化率客户满意度既可以从投放者角度来评价,也可以从客户体验的角度来评价。
4. 用户行为数据用户行为数据可以衡量广告对用户的影响和引导作用。
例如用户在广告页面中的停留时间、广告页面的访问量、用户对广告定向内容的点击量等。
新浪微博广告形式全攻略
一、新浪微博PC端广告形式:
1. 微博登陆页面广告:位于登陆页面左侧。
2. 微博顶部广告:出现在新鲜事下方,微博内容栏上方。
3. 快讯置顶栏目条:锁定固定账号,对微博内容进行置顶推送。
4. 底部广告:位于微博最底端。
5. 右侧活动广告:位于微博右上方。
6. 右侧话题广告:位于活动广告下方。
点击上图中的话题“小飞鞋寻找试穿者”,便会切到尊尼获加的活动页面,如下图。
7. 微博名称后面的icon广告:如361°奥运期间的全民记者团彩色五边形icon。
8. 模板广告:商业性模板,如韩庚演唱会模板。
9. APP游戏植入广告:如全民运动会游戏中的品牌。
二、新浪微博移动终端广告形式:
1. 客户端开屏广告:启动应用时出现。
2. 顶部条框广告:
3. 关键词广告:转发微博并且微博内容中含有”奥运”或含有品牌名称的关键词,便会出现相关品牌的漂浮广告。
相比于其它微博平台,新浪微博的媒体属性更重,而这也让用户对微博产品调整及微博广告有所敏感。
但这却是新浪微博的必由之路。
新浪官方也意识到,在微博广告、微博营销中,尊重用户的意愿与体验,而非强制性推广。
按CPM(千人成本)收费,每个用户看到的广告内容不完全相同,这样就使广告的承载量得到很大程度的扩充。
另外新浪CEO曹国伟还宣布新浪微博将在今年第四季度推出自助广告系统,加上新
版微博正在内测,可以预见新浪微博在商业化道路上的一番作为很快会再次进入我们的视线。
一起拭目以待。
新媒体广告案例分析——以微博为例_文化研究论文新媒体广告案例分析——以微博为例,摘要:自2009年新浪微博正式上线以来,短短几年时间,微博已成为了最常用的社交网络新媒体之一。
微博广告的出现既是微博发展的必然产物。
同时也促进着微博自身的完善与进步。
微博广告主要包括展示类广告、微博营销帐号广告、话题广告等形式,具有便捷性、针对性、精准化等优势,但也存在很多问题。
因此需要在完善管理制度、提高用户关注度等方面加以改进。
关键词:新媒体广告;微博;优势在新媒体的蓬勃发展中,“平民化”的微博大受欢迎,用户可以通过网页、客户端、短信和彩信等方式发布微博信息,也可在与微博有合作关系的媒体应用中,将视频、网址、图片等信息分享至微博。
随着微博的备受关注,微博营销也随之产生,微博广告的出现成为重要的营销形式,促进微博的可持续性发展。
一、微博广告的形式微博的商业模式已趋向成熟,微博广告的形式更多样化。
目前,新浪微博的广告形式主要有展示类广告、微博营销帐号广告(包含企业微博,影视节目微博,高校微博,营销帐号等)、话题广告、推送广告几种形式。
(一)展示类广告:展示类广告是微博广告的最主要形式。
在新浪微博登录页面和微博首页,均有横幅广告。
除此之外,微博主页、热门微博话题、还有其它分类应用也有广告。
“微游戏”页面还有对联广告。
(二)微博营销帐号广告:每一个微博用户都是信息的产生者和传播者,可以接收信息和传播信息,用户之间还可相互沟通交流加关注,通过评论转发扩大信息传播范围,取得更好的传播效果。
营销微博可以利用微博这个平台,与客户互动,拉近两者距离,提升好感度。
微博营销帐号包含企业微博、影视节目微博以及电商营销微博帐号等等。
1.营销帐号微博:营销帐号微博是指专门进行商业活动和广告宣传的微博,比如企业通过微博发布包含文字、图片、视频或网址等内容的信息,发布商业信息,宣传企业文化,扩大企业知名度,可信度较高。
APP应用微博、微商等专门从事推广宣传和营销的微博用户,都属于营销帐号微博。
小型微型计算机系统Journal of Chinese Computer Systems 2014年12月第12期Vol.35No.122014收稿日期:2013-08-16收修改稿日期:2013-10-24国家自然科学基金项目(61171159,61271304)资助;北京市教委科技发展计划重点项目暨北京市自然科学基金B 类重点项目(KZ201311232037)资助.作者简介:郭跇秀,男,1985年生,硕士研究生,CCF 会员,研究方向为中文信息处理、微博挖掘;吕学强,男,1970年生,博士,教授,研究方向为自然语言与多媒体信息处理;李卓,男,1983年生,博士,讲师,研究方向为主要研究方向为无线网路、移动计算.广告型微博的识别方法郭跇秀,吕学强,李卓(北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101)E-mail :gyxwudi@163.com摘要:微博空间内充斥着大量广告信息,这些广告信息对舆情分析造成了极不利的影响.分析广告型微博特点,提出了一种广告型微博识别方法:在传统文本特征的基础上,引入“非活跃期微博数”、“微博重复度”、“特征词对权重”三类特征,并结合支持向量机模型对微博文本进行分类,识别广告微博发布者;分析广告微博发布者与普通用户的差异,提取广告微博发布者的“主题”特征,并面向用户对微博文本进行过滤,实现对广告型微博的识别.实验结果正确率为87.6%,召回率为97.2%,F 值为91.6%,证明该方法能高效准确地识别广告型微博.关键词:广告型微博;支持向量机;文本过滤;主题中图分类号:TP311文献标识码:A文章编号:1000-1220(2014)12-2702-06Detecting Approach for Advertising MicroblogGUO Yi-xiu ,LV Xue-qiang ,LI Zhuo(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research ,Beijing Information Science and Technology University ,Beijing 100101,China )Abstract :There exists large amount of advertising information which has adverse effect on web public opinion analysis in microblog space.Detecting the advertising microblogs ,filtering the microblogs ,is becoming an urgent problem.Having analyzed the features of microblog base on massive data ,a detecting approach for advertising microblogs is proposed in this paper :add three new features named "word pair weight feature","multiplicity"and "post frequency"to the classification algorithm base on traditional text features and SVM model to detect the advertisers ;analyze the difference between advertisers and legitimate users ,extract the topic feature of every user ,filter the microblogs facing users and accomplish the advertising microblog detection.The results based on this method can achieve 86.7%precision ,97.2%recall and 91.6%F-score.It shows that our method can effectively detect the advertising microb-logs.Key words :advertising microblog ;advertiser ;SVM ;topic1引言微博,作为一种新型的网络传播载体,经过近几年的迅猛发展,已经越来越多的走进了人们的生活.随着微博的迅速发展,微博空间内出现了大量的垃圾微博,对舆情分析工作造成了极大地干扰;对于普通用户而言,用户需要从大量的垃圾微博中筛选出有实际意义的微博,降低了用户的体验感.因此,对微博空间内的垃圾微博进行文本过滤具有十分重要的意义.文本过滤是指依据一定的规则和使用一些工具,从大量的文本数据流中选取用户所需要的信息并过滤无用信息的技术[1].该研究在垃圾网页过滤[2]、垃圾邮件过滤[3]、BBS [4]、垃圾博客[5]过滤等方向已经取得了一定的成果.但微博有其自身的特点:内容精炼,携带的信息量较少;传播方式独特,需要以特殊方法提取传播特征.因此,以上领域的垃圾过滤方法不能直接应用于微博空间.对于微博空间文本过滤的相关研究也已经取得了一定成果[6-15],其中比较有代表性的研究包括:文献[6]分析微博的文本特征及用户特征,提出一种基于特征分类的中文微博垃圾信息检测方法,并应用多种分类模型进行实验对比,得到较好的检测效果.文献[10]对微博信息进行训练,利用半监督的支持向量机方法发现twitter 平台上的垃圾微博发布者.文献[11]通过提取twitter 中的用户特征、微博文本特征以及微博传播特征,采用朴素贝叶斯分类算法,对twitter 空间进行垃圾微博检测.文献[12]对twitter 上垃圾微博的发布时间进行了研究,并将其作为特征提取出来,结合用户及文本特征,采用随机森林分类算法进行分类,从而过滤垃圾微博.现有的垃圾微博过滤方法多以提取微博特征,结合相应的文本分类算法或权重计算方法来对微博进行过滤,但由于垃圾微博具有多样性,并且每种都有其独有的特点,以一组特征表征不同种类的垃圾微博模糊了种类间的区别,降低了识别精度.本文专门针对广告型垃圾微博,在分析其特点的基础上,提出了一种广告型微博识别方法,并实验验证本方法的有效性.与其他类型的微博相比,广告型微博具有其独特的特点:嵌入URL链接以达到宣传的目的;用词相对集中;发布时间呈现规律性.在微博空间中,广告微博通常由某一类人发布,且每一个发布者所发布的广告信息具有一定的相似性.针对这些特点,借助SVM识别出广告微博发布者,融入语义信息,抽取广告微博发布者所发布微博的主题信息,并基于主题信息实现对广告微博的精确识别.本文方法分为两个步骤,分别是基于SVM的广告微博发布者识别与广告型微博精确识别.2基于SVM的广告微博发布者识别一用户所发布的微博中广告型微博所占的比例较大,则这一用户通常被称为广告微博发布者.为此,本文将广告微博发布者的识别问题转换成某一用户所发微博的文本分类问题,将微博分为正常微博和广告型微博两类.根据同一用户所发微博的分类结果,计算该用户成为广告型微博发布者的可信度(以下简称可信度),实现广告型微博发布者的识别.可信度的计算方法如下:设用户U i在某一时间段T i内所发布微博总数为Count (Mb log),其中根据分类结果,统计出广告型微博总数为Count(Ads),则该用户Ui为广告型微博发布者的可信度Cred(Ui):Cred(Ui)=Count(Ads)/Count(Mblog)(1)可信度达到一定阈值ε,则将该用户识别为一个广告微博发布者.为此,广告微博发布者的识别在很大程度受分类结果的影响.如何准确、高效地从某一用户所发布的微博中区分出广告型微博,成为广告发布者识别的关键.2.1分类算法从微博中区分出广告型微博,可以看作是将微博分为广告型微博和非广告型微博的二分类问题.SVM算法最初为二分类问题设计,在二值分类问题上,它具有得天独厚的优势.其基本思想是:将输入向量映射到一个高维线性空间,使非线性样本变得线性可分,并在结构风险最小化的归纳原则基础上,求取线性最佳分离超平面,防止对训练数据的过拟合,同时可以控制整个样本集的期望风险.SVM模型解决了训练数据产生过适应的缺点,且对训练文本特征空间的高维稀疏性不敏感,在短文本分类方面相比其它机器学习模型具有一定优势.因此,本文采用SVM模型作为分类算法.2.2特征选择及特征权重计算特征选择是分类问题中最关键、最核心的步骤.微博空间中不仅存在所发布的一条条微博信息,同时还记录了发布者和微博的属性信息,这些信息可以弥补由于微博信息量少产生的数据稀疏问题.为此,在特征选择时,不仅考虑了微博文本级的特征,同时也融入了发布者的属性信息.2.2.1用户级特征分析垃圾微博发布者与普通用户的区别,提取用户信誉度、非活跃期微博数以及微博重复度作为用户级特征.(1)用户信誉度在微博空间中,广告微博发布者通常会关注大量用户,以此博得更多的关注.Twitter rules[16]中提到,如果一个用户关注了大量用户,但是被关注数却很少,那么这个用户很可能是一个垃圾微博发布者.因此,本文采用文献[11]中提出的“用户信誉度”概念,作为一维特征.用户信誉度用以描述一个用户的关注行为特征,计算公式如下:R(j)=nI(j)nI(j)+no(j)(2)其中,R(j)表示某一用户的信誉度值,n I(j)表示用户的被关注数,n o(j)表示该用户的关注数.R(j)越低,表示用户信誉度越低,成为广告信息发布者的可能性越大.(2)非活跃期微博数广告微博通常经专职发布者发出,他们通常会花费一段时间研究微博发布时间曲线,寻找最好的契机将广告微博投放出去,以达到高浏览量、高点击率的目的.因此,广告微博的发布通常会呈现一定的时间特性,这种时间特性通常表现为:广告微博发布者的发布行为集中在普通用户较活跃的时间区间内,而在普通用户活跃度较低的时间区间内几乎不发布广告微博.如图1所示为400个用户发布的约8000条微博时间特性,用户中包括300个普通用户及100个广告信息发布者.统计结果如图1所示.图1微博发布频率Fig.1Post frequency of microblog图中可以看出,普通用户在每天8点至24点之间较为活跃,在这个时段内,广告微博发布者也保持着较高的微博发布率;相比之下,在普通用户活跃度较低的0点至8点之间,广告微博发布者的微博发布率趋近于0.基于此特点,本文将每天0点至8点之间的时段称为用户的非活跃期,并将每个用户在非活跃期内的微博发布率作为特征,参与分类.微博发布率的计算方法如公式(3)所示.avgCountj=∑Kk=1nightTweetj,kK(3)其中,avgCount j是用户j在非活跃期内的微博发布率,nightTweetj,k是用户j在日期k当天的非活跃期发布的微博数,K为统计样本的日期跨度.(3)微博重复度观察大量广告微博发布者与普通用户,发现与普通用户相比,广告微博发布者所发布的信息中,内容相似的微博占有较大比例.分析原因有如下两点:1)微博空间信息更新频繁,最新发布的微博会优先显示在用户首页上,而首页上的信息得到的关注度相对较高.因此,为了使广告微博得到更多的关注,广告微博发布者通常会以一定的时间间隔重复地发布广告微博,从而保证其发布的广307212期郭跇秀等:广告型微博的识别方法告信息会长时间地显示在用户首页上,得到更多的关注.然而微博官方会对大量重复发布同一条微博的用户进行处罚,广告微博发布者会更改重复微博中的部分内容,以躲避官方检测.2)每个广告微博发布者都具有一定的语言习惯,因此,同一个发布者在广告中的用词相对集中;且一个广告微博发布者所宣传的产品一般会属于某一类别,如衣服、食品等,宣传同一类别实体的不同广告在内容上也有一定的相似性.为了兼顾这两种情况,从而更加准确的衡量两条微博的相似度,提出一种编辑距离与欧氏距离相结合的微博相似度计算方法,如公式(4),(5),(6)所示:LevSim(ti ,tj)=1-LevDistance(ti,tj)max length(ti,tj)(4)EucSim(ti ,tj)=1-EucDistance(ti,tj)max length(ti,tj)(5)Sim(ti ,tj)=(1-k)ˑLevSim(ti,tj)+kˑEuc Sim(ti,tj)(6)LevSim(ti ,tj)为基于编辑距离的微博文本相似度,许可的编辑操作包括替换、插入、删除三种,t i与t j为两条微博,LevDistance(ti ,tj)是ti与t j的编辑距离,max length(t i,t j)为ti与t j的最大文本长度.EucSim(ti ,tj)是基于欧氏距离的微博相似度,EucDis-tance(ti ,tj)是ti与t j的欧氏距离,max length(t i,t j)为t i与t j的最大文本长度.Sim(ti ,tj)是编辑距离与欧氏距离相结合的微博文本相似度.k为反映两种相似度重要程度的权值,范围是[0,1].在计算两条微博间的欧氏距离时,采用词语在该用户微博中出现的频次作为词语权重,构建文本-词语矩阵,从而计算得到两条微博间的欧氏距离.将相似度大于某一阈值η的两条微博视为重复微博.基于以上分析,提出微博重复度定义如下:定义1.微博重复度一个用户发布的微博中,重复微博的数量与该用户发布的微博总数的比值.统计每个用户的微博重复度,将其作为一维用户级特征,参与分类.2.2.2文本级特征分析广告微博与正常微博的特点,提取微博文本中的URL链接数,广告型微博高频词权重以及广告型微博高频词对权重,作为文本级特征.1)URL链接数广告型微博通常会以嵌入URL链接的方式达到宣传、增表1广告型微博特征举例Table1Examples of advertising microblog's features特征例子URL 时下网络红人潮男搭,喜欢的帅锅可不要错过了哦 地址:http://t.cn/zYS30kSURL冬季棉服怎么能少!男童鞋快戳:http://t.cn/zYSgBbj加点击率的目的.本文分析了500条随机抽取的广告型微博,其中包含URL链接的微博约占92%,可见URL链接特征是表征广告型微博的显著特征,如表1所示.本文提取每条微博中包含的URL链接数(“http”字符串的个数)作为特征值,参与分类.2)广告型微博中的高频词权重文献[13]中的研究表明,广告型微博文本的用词相对集中,而正常微博的用词相对分散.基于此特点,本文计算广告微博中出现的实词的特征权重,并降序排列,取前M个实词组成广告型微博高频词集.定义每条微博的高频词权重为该微博中所有出现在高频词集中的实词的权重之和.广告微博实词特征权重计算方法如公式(7)所示:Pw(ai)=Freqadv(ai)-Freqnor(ai)(7)其中,a i为广告型微博中出现的实词,Pw(a i)是实词a i 的权重,Freq adv(a i)是实词a i在广告型微博中出现的频率,Freqnor(ai)是实词ai在非广告微博中出现的频率.3)广告型微博中的高频词对权重观察大量广告型微博文本,发现有一类词的共现率较高,而在普通微博中,共现率相对较低.本文将这类词对称为广告微博高频词对.基于此特点,定义词对共现率,用以描述两个实词的共现情况,计算方法如公式(8)所示:CooccurRate(wi,wj)=CooccurFreq(wi,wj)Count(Mblog)(8)其中,CooccurRate(w i,w j)为词对(w i,w j)的共现率,CooccurFreq(wi,wj)为(wi,wj)共现的频次,Count(Mblog)为统计样本中微博的总数.定义共现词对的相对共现率,用以表征共现词对在广告型微博以及正常微博中的频次差异,从而筛选广告型微博高频词对,计算方法如公式(9)所示:Re-CooccurRate(wi,wj)=CooccurRateadv(wi,wj)-Cooc-curRatenor(wi,wj)(9)其中,w i,w j是广告型微博中出现的共现词对,Re-Cooc-curRate(wi,wj)为wi,wj的相对共现率,CooccurRate adv(w i,wj)为wi,wj在广告型微博中的共现率,CooccurRate nor(w i,wj)为wi,wj在正常微博中的共现率.计算广告型微博中出现的共现词对的相对共现率,并降序排列,取前N个组成广告型微博高频词对集;定义每条微博的高频词对权重特征,为该微博中所有出现在广告型微博高频词对集中的共现词对的相对共现率之和.3广告型微博精确识别在文本分类后得到广告微博集中,包含了部分识别正确的广告型微博,同时也依然存在一定比例的识别错误以及漏识别情况.为得到更为精确的识别结果,分析广告微博发布者的特点,发现在微博空间内,几乎每个广告微博发布者都会围绕一个或几个类别的实体进行宣传.因此,本文提出广告微博发布者主题概念,定义如下:定义2.广告微博发布者主题,即某一广告微博发布者所主要宣传的实体集合.主题举例如表2所示.找到广告信息发布者的主题将为广告微博的识别提供判4072小型微型计算机系统2014年断依据.因此,本文引入知网(Hownet),挖掘其中词语的概念描述式,找出用户主题.表2广告信息发布者主题特征举例Table2Examples of theme features ofadvertising microblog posters用户主题主题相关实词高富帅穿衣搭配男、衣物男人、帽子、衣、裤、鞋…爱上女装限时折扣女、衣物裙、姐妹、妹子、连衣裙…知网是一部比较详尽的语义知识词典,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库.在知网中,词语以概念描述式表示,概念表达式由一个或几个义原组成[17].知网中词语的概念描述式如表3所示.表3知网中词语的概念描述举例Table3Examples of words's description in Hownet词词性描述式打V exercise|锻练,sport|体育鞋N clothing|衣物,#foot|脚裙子N clothing|衣物,#leg|腿,#female|女在实词的描述式中,第一个义原总是一个基本义原,这也是该实词最重要的一个描述式,描述了该实词最基本的特征,称为第一基本义原.一个实词的第一基本义原往往表征着该实词所代表的主题信息.因此,发布者的主题特征受所发布微博的实词影响.对于每一个广告型微博发布者,借助知网,获取其发布的所有广告微博的实词的义原,以义原在该用户所发布的所有广告微博中的频次为权重,进行降序排列,抽取前λ个义原组成该用户的主题集.为便于下文描述,定义用户的义原集合表示法,用以描述用户的主题特征及相应权重,可形式化为:广告发布者ad_useri,其发布的广告微博所表现的义原可表示为defk∈[1,n],i ,其中n为ad_useri所发布的微博中出现的义原总数,义原对应的权重可表示为w k∈[1,n],i,则用户ad_user i的主题-权重集可表示为S i ={(def1,i,w1,i),(def2,i,w2,i),…,(defλ,i,wλ,i)}(10)其中,λ为主题集规模的阈值,且w k-1,i>w k,i.基于广告微博发布者主题-权重集合,提出一种广告型微博精确识别方法,该方法针对每个广告微博发布者,遍历其发布的每条微博,找到一条微博中出现的每个实词的第一基本义原,并从中筛选出属于该用户主题集的主题义原,计算这些主题义原的权重之和作为该条微博的主题特征权重,若主题特征权重大于某一阈值,则将该条微博视为广告型微博.可形式化为:广告微博发布者ad_user i,其主题集为S i,将其发布的每条微博以实词向量的形式表示:Microblogj,i =<word1,word2,…,wordn>(11)其对应的义原-频次集合表示为:SFj,i ={(defa,i,freqdef a,i,j),(defb,i,freqdef b,i,j),…,(defm,i,freqdef m,i,j)}(12)其中,def a,i是Microblog j,i中出现的实词对应的第一基本义原,freq defa,i 是def a,i在Microblog j,i中出现的频次.取SF j,i中的义原组成微博j的义原集SD j,i={def k,i|(defk,i,freqdef k,i,j)∈SFj,i},将其与主题-权重集Si中的义原组成的用户主题集ST i={def l,i|(def l,i,w l,i)∈S i}取交集,得到该条微博的所包含的主题义原集合ST j,i=SD j,i∩ST i,提取STj,i中的主题义原在该条微博中出现的频次以及该主题义原的权重,得到该条微博的主题义原-频次-权重集:STFj,i={(defk,i,freqdef k,i,j,wk,i)|defk,i∈ST j,i,(def k,i,freqdef k,i,j)∈SFj,i,(defk,i,wk,i)∈Si}(13)其中,def k,i是该条微博中出现的主题义原,freq defk,i,j是defk,i在该条微博内出现的频次,w k,i是def k,i的主题权重.计算每条微博的主题特征权重,将主题特征权重大于某一阈值μ的微博视为广告型微博.遍历每个用户的每条微博,得到广告微博集最终识别结果集S.每条微博的主题特征权重计算方法如公式(14)所示:TopicWeightj,i=∑def k,i∈STF j,i(wk,iˑfreqdef k,i,j)|Microblogj,i|(14)其中,TopicWeight j,i表示用户ad_user i发布的微博j的主题特征权重,def k,i是ad_user i的一个主题,w k,i是ad_user i的主题def k,i的权重,freq defk,i,j是主题def k,i在微博j中出现的频次.4实验与结果分析4.1实验数据及评价标准目前在微博过滤领域,尚无国际公认的标准测试语料库.从新浪微博开放平台获取到60万条微博,提取其中微博文本、用户信息及传播关系信息,并手动标注了8000条微博文本作为实验数据,其中包括4000条广告微博,4000条正常微博.取其中3000条正常微博和3000条广告微博作为训练集,剩余2000条微博作为测试集.所有实验都以此作为实验语料,在相同的实验环境下进行.本文采用正确率(Precision),召回率(Recall),F值(F-measure)来评价算法性能[18].计算公式分别如公式(15),公式(16),公式(17)所示,其中S为算法正确识别广告微博数量,C为算法识别为广告微博的数量,R为测试集中广告微博的总数量.precision=SC(15)recall=SR(16)f-measure=2ˑprecisionˑrecallprecision+recall(17)4.2特征比较在广告信息发布者识别的过程中,本文提出了三维新的特征:非活跃期微博数,微博重复度以及广告微博高频词对权重.为验证该三维特征对实验结果的影响,本文采用两组特征,应用SVM分类器做实验对比.一组特征为三维特征向量,包括URL链接数、用户信誉度以及广告高频词权重;另一组特征是在前面的三维特征的基础上,加入本文提出的非活跃期微博数、微博重复度以及高频特征词对权重构成的六维特征向量.在计算微博重复度时,本文设置相似度阈值为507212期郭跇秀等:广告型微博的识别方法0.8,权值k取0.5.实验发现,仅采用三维特征向量,得到的分类效果并不理想;相比之下,由于加入了更多有代表性的特征,特征向量更加全面的涵盖了广告型微博的特点,采用新的六维特征向量,得到了较好的分类结果.图2加入新特征对实验结果的影响Fig.2Influence of adding new features to the experiment's result实验结果如图2所示,采用六维特征向量,分类结果正确率为0.8539,召回率为0.8962,F值为0.874539,均高于使用三维特征向量特征分类得到的结果.可见本文提出的三维特征可以有效地提高分类效果.4.3阈值的选取在主题抽取与广告型微博精确识别过程中,阈值的选取十分重要.本文取可信度阈值ε为0.5,主题集规模阈值λ与主题特征权重阈值μ分别取不同的值进行实验.表4为λ与μ的取值对实验结果的影响.结果显示,当λ取3,μ取0.02时F值达到峰值0.915.保持λ不变,随着μ的增大,F值呈现递减趋势.这是因为随着阈值μ的增大,将一条微博识别为广告微博的条件趋于严格,造成漏识别错误,召回率降低.保持μ不变,当λ取3时,得到最优的识别结果.这是因为当λ小于3时,主题集规模过小,产生漏识别错误,降低召回率;而λ大于3时,主题集规模过大,将主题无关的义原识别为主题,造成误识别错误,降低了正确率.表4阈值λ,μ的选取对实验结果的影响Table4Influence of differentλandμto the experiment's resultλμPricisionRecall F-score20.020.8653940.9648480.91241920.030.8679060.9563640.9099920.040.868910.9345450.90053330.020.8653940.9709090.9151230.030.8679060.9636360.91326930.040.868910.943030.90445440.020.8653940.9672730.91350240.030.8679060.9612120.91217940.040.868910.9418180.9038964.4对比实验本文将文献[13]中的基于特征权重计算的垃圾微博识别方法和本文提出的方法在相同的条件下进行实验对比.在前者的实验中,分别设置权重阈值为0.4、0.5、0.6、0.7、0.8、0.9进行试验,并统计结果F值.实验结果显示,当阈值为0.5时,F值出现峰值0.87,相应的正确率、召回率分别为0.87,0.86.与本文提出方法的实验结果作对比,如图3所示.可以看出,本文提出的方法正确率略低于文献[13]所提出的方法0.004,但召回率与F值均明显高于后者,分别提高了0.11与0.04.以F值作为最终衡量标准,本文方法明显优于文献[13]中提出的方法,原因有以下几点:1)文献[13]中的方法将所有类型的垃圾微博等同看待,忽略了他们之间存在的差异.与其相比,本文提出的方法,将垃圾微博中的广告型微博作为过滤对象,细化了研究内容,所取特征更具代表性,消除了不同种类垃圾微博特征间的干扰,提高了分类结果的准确率.图3实验结果对比Fig.3Comparison between experiments'result 2)文献[13]中的方法分析了微博文本的特征,但对于微博用户的特征并未考虑.本文方法综合考虑了微博文本及用户的特点,提高了文本分类的结果,并在此基础上,提出了广告型微博精确识别方法,该方法引入用户“主题”特征,结合“知网”,有效地对微博数据进行二次提纯,进一步提高了识别率.5结语本文分析了中文广告型微博的文本特征以及用户特征,提出了一种广告型微博识别方法,算法效率较高,效果理想.与现有垃圾微博过滤方法相比,该方法将垃圾微博种类细化,着重对微博中的广告类微博进行识别.通过提取新颖的、具有代表性的特征,较大地提高了识别精度,从而准确地过滤微博中的广告信息,保留高质量的微博数据,对今后的研究,包括话题检测、情感分析等具有重要意义.同时,微博空间内还充斥着大量其他种类的垃圾信息,如符号型垃圾微博,重复微博等.这些信息的存在也会对微博相关的研究及用户体验产生不利的影响,所以,接下来的工作将是寻找方法过滤微博空间中其他类型的垃圾微博,对微博数据进行进一步的提纯.References:[1]Huang Xiao-bin.Network information filtering principle and appli-cation[M].Beijing:Peking University Press,2005:3-4.[2]Javier Ortega F,Craig Macdonald,JoséA Troyano,et al.Spam de-tection with a content-based random-walk algorithm[C].SMUC'10Proceedings of the2nd international workshop on Search and min-ing user-generated contents,Toronto,2010:45-51.[3]Tseng Chi-yao,Chen Ming-syan.Incremental SVM model for spam6072小型微型计算机系统2014年。