基于大数据挖掘分析的垃圾短信治理方案
- 格式:pdf
- 大小:2.53 MB
- 文档页数:5
DCWTechnology Analysis技术分析67数字通信世界2023.111 目标类型号码不良短信发送引发投诉案例杨某在家中收到来自007926****934的短信,称兼职刷单可日赚300~500元,杨某随即添加微信,对方称只要下载一个“天天任务”App 就可以开始刷单。
杨某下载完成后发现此App 中有投注大小的平台,杨某尝试了几回,有过小额收益,但是当其要提现时,“客服”称要先交9万元的税款,杨某才发现自己被骗,随即报警。
此案例即属不良短信发送引发的典型的通信信息安全问题。
2 此类不良短信防治存在的不足近年来,短信诈骗犯罪分子虽历经公安机关的严厉打击,但其犯罪形式却更加“丰富”,犯罪手法更加“智能”,发案数量居高不下,在一些地区短信诈骗更是呈现出“打不胜打、防不胜防”的持续高发态势。
这主要是由于针对目标类型号码涉诈短信防治技术手段仍存在不足,具体表现如下。
(1)缺乏面对目标号码类型短信的监测能力。
SM MC 系统缺乏针对目标号码发送短信的监测、归纳能力,同时对于捕捉到的异常目标号码发送的短信未设置单独的类别进行监测预警,导致无法及时发现该类涉诈短信特点并实施治理,从而增加了企业的生产经营风险。
(2)缺乏针对目标号码短信联防联控处置机制。
SMMC 系统还未打通与激活OSS 等系统的能力接口,无法得知哪些号码具有接收目标号码发送短信功能,这就导致无法从源头上开展精准治理,故目标号码发送的涉诈短信的前后端联防联控能力需持续完善。
3 基于数字化的目标号码涉诈短信精准治理能力构建构建基于数字化的目标号码发送涉诈短信的监测、发现、治理能力,进一步加大对某类号码发送的短基于数字化能力的目标号码短信精准治理温 侠(中国电信集团山西省分公司,山西 太原 030006)摘要:近年来,全国通信网涉诈短信引发用户业务使用感知持续下降,投诉工单量逐年上升,每年造成用户财产损失金额达上百亿元,极大危害群众生命财产安全,对不良短信的治理是一个与不法分子博弈的过程。
基于机器学习的垃圾短信过滤技术研究随着移动互联网的发展和普及,手机用户接收短信的数量越来越多,其中不乏大量的垃圾短信,给用户带来了很大的困扰。
传统的垃圾短信过滤技术主要是基于规则的模式匹配,但这种方法的有效性受限于规则的覆盖范围和精度,同时也存在误判和漏判的问题。
机器学习技术的应用为垃圾短信过滤带来了新的解决方案。
1、机器学习介绍机器学习是人工智能领域的重要分支,是研究计算机如何模拟人类学习的方法和过程。
机器学习可以自动对数据进行分类、聚类、预测和优化等任务,其核心思想是通过利用已有的数据进行训练和学习,形成模型,并通过模型对新数据进行预测和处理。
2、垃圾短信过滤技术概述垃圾短信是指没有用户明确请求的广告、推销、欺诈等短信信息,这些信息通常是不良商家或不法分子利用短信通道进行的。
传统的垃圾短信过滤技术主要采用基于规则的方法,即通过人工定义规则或特征模式,对短信进行分类和过滤。
但规则模式存在不可靠性、复杂性和覆盖性等问题,同时垃圾短信的特征和形式也在不断变化,导致规则模式跟不上变化速度。
3、基于机器学习的垃圾短信过滤技术研究现状基于机器学习的垃圾短信过滤技术成为当今的研究热点。
这种方法不依赖于特定规则和模式,而是通过训练数据和算法模型实现短信的分类。
目前,常见的机器学习算法包括朴素贝叶斯、决策树、支持向量机、神经网络等。
具体应用到垃圾短信过滤技术当中,也有不同的算法方案,如基于文本特征的机器学习模型、结合语义的机器学习模型、结合时间、空间和用户行为特征的机器学习模型等。
4、挖掘垃圾短信特征机器学习模型的核心是训练数据,只有合理有效的训练数据才能训练出合理有效的模型。
在垃圾短信过滤技术中,特征的挖掘是非常关键的。
一般来说,垃圾短信的特征分为文本特征、语义特征、时间特征、空间特征、用户行为特征等几个方面。
文本特征:短信的长度、关键词、词频、词性、语气等都是可以作为文本特征的重点。
语义特征:通过自然语言处理技术,短信的语义信息可以被抽象出来,如短信所涉及的产品、服务或商品等。
一、背景随着移动互联网的快速发展,垃圾短信问题日益严重,不仅严重干扰了人民群众的正常生活,还可能泄露个人信息,损害社会秩序。
为切实保障人民群众的合法权益,维护良好的网络环境,特制定本专项行动方案。
二、目标1. 净化网络环境,减少垃圾短信对人民群众正常生活的干扰。
2. 提高垃圾短信治理效果,降低垃圾短信对个人信息安全的威胁。
3. 加强监管力度,建立健全垃圾短信治理长效机制。
三、组织领导成立垃圾短信专项行动领导小组,负责专项行动的组织、协调和监督工作。
领导小组下设办公室,负责具体实施和日常工作。
四、行动措施1. 加强宣传教育(1)通过电视、广播、网络等媒体,广泛宣传垃圾短信的危害,提高人民群众的防范意识。
(2)组织各类宣传活动,普及垃圾短信识别和防范知识。
2. 严格监管(1)加强对短信服务提供商的监管,督促其落实垃圾短信治理责任。
(2)加大对违法短信传播者的打击力度,依法查处违法短信传播行为。
(3)建立垃圾短信举报平台,鼓励群众积极参与举报。
3. 技术手段(1)研发垃圾短信识别和过滤技术,提高垃圾短信拦截率。
(2)利用大数据分析,加强对垃圾短信传播渠道的监控和追踪。
4. 加强部门协作(1)加强与电信、公安、网信等部门的协作,形成合力,共同打击垃圾短信。
(2)建立信息共享机制,实现数据互通,提高治理效率。
5. 完善法律法规(1)修订相关法律法规,明确垃圾短信治理责任和处罚措施。
(2)加大对违法短信传播者的处罚力度,形成震慑效应。
五、实施步骤1. 宣传发动阶段(1个月)(1)制定宣传方案,开展各类宣传活动。
(2)组织培训,提高相关人员业务水平。
2. 监管执法阶段(3个月)(1)加强对短信服务提供商的监管,督促落实治理责任。
(2)开展专项行动,严厉打击违法短信传播行为。
3. 治理巩固阶段(4个月)(1)总结专项行动成果,巩固治理效果。
(2)建立健全垃圾短信治理长效机制。
六、保障措施1. 资金保障:加大财政投入,确保专项行动顺利开展。
垃圾短信整治专项行动方案一、问题现状垃圾短信是指在没有经过用户许可的情况下向用户发送的广告、诈骗、诋毁等垃圾信息。
这些垃圾短信不仅浪费了用户的时间,还可能造成用户的财产损失,给用户带来了很大的伤害。
而且,由于垃圾短信的发送成本低廉,数量巨大,给手机用户带来了很大的困扰,因此,垃圾短信成为了当前亟待解决的严重社会问题。
二、垃圾短信整治的重要性垃圾短信整治事关人民群众的切身利益,事关社会的和谐稳定。
深挖垃圾短信的源头,加大对垃圾短信的打击力度,将对整个社会生活产生深远的影响。
三、垃圾短信整治的具体措施1.强化监管力度政府部门要加大对垃圾短信的监管力度,通过建立严格的监管制度,对各种垃圾短信进行严格管理和监管。
同时,加大对违法垃圾短信发送者的处罚力度,对违法发送垃圾短信的行为进行严厉打击。
2.完善技术手段政府部门要加大对垃圾短信整治技术手段的研发和应用,通过技术手段对垃圾短信进行有效的过滤和拦截。
同时,鼓励和支持手机运营商和通讯设备制造商不断改进和完善手机软硬件技术,提高对垃圾短信的识别和拦截能力。
3.加强群众宣传政府部门要加强对垃圾短信整治的宣传工作,通过多种方式向广大群众普及防范垃圾短信的知识,增强群众防范垃圾短信的意识。
同时,号召广大手机用户积极参与举报垃圾短信的行为,共同维护通讯环境的整洁和安全。
4.建立多部门合作机制政府部门要积极推动多部门合作机制的建立,建立健全垃圾短信整治的工作机制。
通过建立多部门合作机制,加强对垃圾短信整治工作的协调和指导,形成合力,共同应对垃圾短信整治工作所面临的各种问题和挑战。
四、垃圾短信整治的效果评估政府部门要建立科学有效的垃圾短信整治效果评估机制,通过长期的垃圾短信整治工作的实践,不断总结和改进垃圾短信整治工作的经验,提高垃圾短信整治工作的效果和水平,为进一步推动垃圾短信整治工作提供有力的支撑和保障。
五、结语垃圾短信整治工作事关人们的身心健康和社会的和谐稳定,是一个长期而艰巨的任务。
基于数据挖掘对垃圾短信识别模型的研究与应用—以某省移动公司为2800字摘要:本文基于运营商现有的平台,分析用户的通信行为,结合数据挖掘技术,提出一个新的垃圾短信识别模型。
结合某省运营商短信运营数据对垃圾短信识别模型进行了实证研究,并从命中率和波动度两方面对模型进行验证,取得较好的效果。
关键词:垃圾短信过滤技术;相关性分析;特征选择;Logistic回归模型0绪言目前通信行业所采用的垃圾短信过滤的方法主要[1]有:第一,黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;第二,基于关键字规则的过滤技术,但是这种技术不能灵活识别和更新关键字;第三,基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤,有学者[2]、[3]提从词频的角度提出了基于贝叶斯分类器的垃圾短信过滤系统,还有基于文本分类的垃圾短信过滤方法。
但是随着垃圾短信治理活动的逐步开展,垃圾短信的手段越来越隐蔽了,如一人多号、以谐音字代替敏感字眼、以字符将敏感字眼隔开等。
这给垃圾短信治理工作带来了重重困难,优化拦截识别模型已迫在眉睫。
因此,本文提出融入客户行为研究和数据建模建立垃圾短信识别模型来取代目前的垃圾短信过滤技术,提高判断用户在发送垃圾短信的准确度和效率。
1垃圾短信识别模型1.1垃圾短信识别模型简介垃圾短信识别模型是通过对用户的通信行为,如用户的消费信息、交往圈、话单信息等的分析,建立Logistic回归模型预测其未来成为发送垃圾短信的用户的概率的模型。
1.2 建模指标的抽取从黑名单和白名单中随机抽取一部分数据,形成建模样本组。
在选定样本后,从数据仓库的全部客户数据中提取与该客户群相关的信息结合垃圾短信数据形成宽表[5]。
并采用统计学的方法对指标进行分析。
本文中对垃圾短信识别模型的基础变量的处理主要采用相关性分析[6]与特征选择分析[7]。
1.4模型的构建在垃圾短信识别模型,假定有二值变量y,它表示用户是“垃圾短信用户”与“正常用户”,y=1表示“垃圾用户”,y=0表示“正常用户”,现在就是要预测y=1的概率P。
基于大数据的智能短信分类与过滤算法研究在网络时代,随着人们对手机的依赖程度越来越高,短信成为了人们重要的沟通方式之一。
但是,随着时间的推移,人们接收到的短信数量越来越多,其中绝大部分都是垃圾短信,而这些垃圾短信不仅占用了用户短信存储空间,更严重的是,这些垃圾短信不良内容甚至会引起安全问题。
因此,如何对短信进行分类和过滤成为了当下亟待解决的问题之一。
随着大数据技术的发展,短信分类和过滤面临了新的解决方式。
传统的短信分类和过滤方法都是基于规则和规则库来实现的,如正则表达式等,这种方法的问题在于无法涵盖所有的短信情况,且维护规则的成本较为昂贵。
而基于大数据技术的智能短信分类与过滤算法则能够自动抽取特征,并依靠机器学习算法对短信进行分类和过滤。
基于大数据技术的智能短信分类与过滤算法主要包括两个步骤:特征抽取和机器学习分类。
具体来说,首先需要通过对海量短信数据进行分析,确定有效的特征,如短信文本、短信发送者、短信发送时间等,通过对这些特征进行数据挖掘,得到短信文本的分词、关键词、词频等特征,并将这些特征处理成向量形式,用于后续的机器学习算法。
在特征抽取过程中,还可以应用一些自然语言处理技术,如情感分析、语义分析等,以进一步确定特征。
经过特征抽取后,就可以将得到的特征向量用于机器学习分类算法中,该算法可分为有监督学习和无监督学习两种,分别对应着分类和聚类。
在有监督学习中,通过对已标注短信的学习,训练出分类器模型,在分类时使用该模型对新短信进行分类。
而在无监督学习中,算法会自动发现数据中的模式和规律,并将相似的数据归为一类。
除了特征抽取和机器学习分类,智能短信分类与过滤算法中还需要考虑到用户个性化需求。
用户之间对于短信的需求和感知差异非常大,因此在短信分类和过滤上需要考虑到用户的喜好和需求。
为此,可以引入用户反馈机制,不断优化算法,提高用户体验。
总的来说,基于大数据技术的智能短信分类与过滤算法是当下短信安全领域内的重要研究方向。
网络大数据中的垃圾信息过滤技术随着互联网的普及和发展,我们每天都会接触到大量的网络信息,从新闻、社交媒体到电子邮件等。
但是,随着网络信息的不断增加,垃圾信息也如同野草一样疯狂生长,严重干扰了我们的生活和工作。
如何准确迅速地过滤垃圾信息,一直是互联网行业和用户关注的重点问题。
那么,在现在的网络大数据时代,又有哪些垃圾信息过滤技术呢?一、什么是网络垃圾信息?垃圾信息可以简单的理解为指那些不必要、无用、甚至是欺诈性的信息。
网络垃圾信息除了包括垃圾邮件,还包括了大量存在于搜索结果中的虚假内容、短信垃圾、骚扰电话、恶意评论等。
它们严重影响了人们的阅读、学习、工作和交流体验。
二、常见的网络垃圾信息过滤技术在今天的网络时代,各种类型的过滤工具和技术已经被广泛使用和推广。
其中,在网络大数据中,垃圾信息过滤技术也在不断演变和升级。
下面,本文将介绍几种常见的网络垃圾信息过滤技术。
1、基于规则的过滤技术该技术是一种人工定义规则并将其应用于系统以过滤非法和垃圾信息的方法。
当数据到达过滤器时,过滤程序检查传入数据是否与规则列表中的任何规则匹配,如果匹配,则过滤程序将其分类为垃圾信息。
此技术的优点是,它确保执行操作非常快速和可定制,且适用于各种网络应用和数据类型。
但是缺点也很明显,这种技术需要人工定义规则和维护规则数据库,这对于大规模网络和数据来说不太可行。
2、基于机器学习的过滤技术这种技术是一种使用AI算法并通过监督学习来过滤非法和垃圾信息的方法。
监督学习是一种有监督学习技术,即数据源和其相应的分类已经为模型提供。
这些数据可以训练模型识别垃圾信息的特定特征,并用于新数据的分类和过滤。
而该技术的优缺点是,对于大规模网络和数据来说,训练时间较长,但也能够不断优化自己的特征识别与分类准确度。
3、基于深度学习的过滤技术在最近几年里,基于深度学习的网络垃圾信息过滤技术已获得了显着的成功。
深度学习是一种机器学习技术,它使用多层神经网络来模拟人脑的工作方式,并用于分类决策。
基于机器学习的短信垃圾过滤算法研究一、研究背景近年来,随着社交网络和移动通信技术的飞速发展,人们收到的短信数量越来越多,其中不可避免地出现了大量的垃圾短信。
这些垃圾短信不仅浪费了人们的时间和精力,还可能涉及到信息安全问题,严重影响了人们的生活和工作。
因此,如何有效地过滤短信垃圾成为了一个热门的研究领域。
二、前沿技术分析在短信垃圾过滤算法中,传统的关键词匹配算法被广泛应用。
该算法通过预先构建一个垃圾短信关键词库,将接收到的短信与该库进行匹配,以判断是否为垃圾短信。
但是,这种算法由于需要输入的关键词库过于庞大,而且常常存在误识别和漏识别问题,因此不太适合用来处理大量的短信数据。
而基于机器学习的短信垃圾过滤算法,则可以通过先前的短信分类来训练出一个能够自动判断新短信是否为垃圾短信的分类器。
借助于机器学习算法的高精度和高效率,这种算法已经成为了短信垃圾过滤领域的一大前沿技术。
三、算法实现1. 数据预处理在进行短信垃圾过滤算法的训练时,需要将“垃圾短信”和“非垃圾短信”都进行标注并分别存储在两个数据集中。
每个数据集由多条短信组成,每条短信由一串字符串表示。
2. 特征提取为了将短信转换为机器学习算法能够处理的形式,需要对每条短信进行特征提取。
常用的特征包括短信长度、关键词出现次数、发件人、时间戳等。
这些特征可以通过手动设计,也可以使用自然语言处理等技术进行提取。
3. 训练分类器将数据预处理和特征提取得到的数据输入到机器学习算法中进行训练,可以得到一个能够根据短信的特征自动判断是否为垃圾短信的分类器。
目前常用的机器学习算法包括朴素贝叶斯算法、支持向量机算法、决策树算法等。
4. 短信过滤当一个新的短信到达时,可以将其输入到已经训练好的分类器中进行预测。
分类器会根据短信的特征判断该短信是否为垃圾短信。
如果是垃圾短信,则可以直接将其过滤掉或者移动到垃圾箱中。
如果不是垃圾短信,则可以将其放入收件箱中。
四、算法优化与发展方向在实际应用中,机器学习算法需要经过不断的训练和优化方能达到最佳效果。
垃圾短信数据挖掘论文1垃圾短信治理面临的调整目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。
为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。
通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。
相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。
实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。
2大数据挖掘的原理与优势大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。
数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。
大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。
数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。
大数据挖据的数据源和处理方式对比。
3数据挖据流程和模型选取3.1数据挖掘的主要流程数据挖掘主要包括以下6大步骤。
(2)客户服务短信中夹带广告。
相应措施:禁止附加广告。
(3)运营商为完成收入指标主动为客户群发短信。
相应措施:运营商集团公司加强对分公司的监督和惩处力度,对违反法律法规、相关规定的行为采取相应制裁;建立垃圾短信治理考核指标。
(4)发送者与运营商内部人员勾结。
相应措施:对内部腐败行为进行严惩。
(5)运营商审核机制不健全。
相应措施:建立考核机制;建立审核责任人制,审核人需承担责任。
2. SP方面垃圾短信主要存在问题及相应措施(1)SP滥用端口群发。
相应措施:应针对SP滥用端口群发完善或补充相应管理办法;完善与客户签订的合同,严格规定发送对象和内容,明确合作违约条款;须在征得用户同意的前提下发送;建立企业签名制度。
(2)用户对SP收费争议的申诉绝对量仍呈现较明显的上升趋势。
相应措施:要求SP推出业务同时明确收费标准并以明显的方式的告知用户;严格处罚提供欺骗性业务的SP。
3.个人用户方面垃圾短信主要存在问题及相应措施(1)购买低门槛的短信套餐。
相应措施:运营商应提高套卡获得门槛;提高短信套餐开通门槛;建立社会渠道考核制度;逐步建立手机实名制。
(2)利用运营商自有业务(如飞信、桌面助理)群发。
相应措施:运营商认真清理自有业务,关闭和妥善处理存在隐患的业务种类;对批量发送的信息进行严格过滤。
(3)利用运营商短信欠费停机时差大量发送垃圾短信。
相应措施:控制和压缩用户的短信欠费空间;在垃圾短信监控系统设定流量门限;缩短话单采集和处理时延[4]。
(二)接收者维度(Receiver)垃圾短信主要存在问题及相应措施(1)用户投诉不积极。
相应措施:开通电话、互联网、WAP、短信等投诉渠道,并加大宣传力度;减免投诉短信收费并明确告知用户;在短信发送功能中增加一键投诉功能;采取措施鼓励/奖励用户投诉。
(2)信息安全意识薄弱。
相应措施:普通手机用户应注意保护个人资料,不随意提供个人用户信息给某些单位和个人。
(三)监管者维度(Supervior)垃圾存在问题及相应措施:(1)在垃圾短信界定及处置尺度方面缺少法律依据。
基于大数据挖掘分析的垃圾短信治理方案王睿,谭卫(中国移动通信集团四川有限公司 成都,610041)摘 要 本文简要介绍了垃圾短信对社会带来的负面影响,分析了目前垃圾短信治理体系存在的不足,提出了基于大数据挖掘分析的垃圾短信治理方案:首先构建垃圾短信用户识别指标体系,通过引入随机森林模型,对垃圾短信用户进行识别和有效治理,最后运用平台对垃圾短信用户进行精细化管理。
关键词 垃圾短信;大数据;随机森林中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2015)02-0078-05收稿日期:2014-11-281 垃圾短信治理面临的调整目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBM SPSS Modeler 平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。
为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。
通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。
相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。
实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。
2 大数据挖掘的原理与优势大数据是指数据量很大(一般是TB 到PB 数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。
数据大多以非结构化或者半结构化数据为主,大数据具有4V 特点:Volume、Velocity、Variety、Veracity。
大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。
数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。
大数据挖据的数据源和处理方式对比如表1所示。
3 数据挖据流程和模型选取3.1 数据挖掘的主要流程数据挖掘主要包括以下6大步骤。
(1)商业理解:确定挖掘目标以及产生一个项目计划。
(2)数据理解:知晓有哪些数据,以及数据的特征是什么。
(3)数据准备:对数据作出转换、清洗、选择、合并等工作。
(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。
(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。
(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
3.2 垃圾短信治理指标体系设计垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。
其中,用户通信行为信息包括活动轨迹、终端IMEI 和数据业务访问等信息,如图1所示。
3.3 模型的选取对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。
利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。
本文建模的重点着眼于垃圾短信用户的识别及其治理。
3.3.1 现有垃圾短信识别模型的优势与不足识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。
其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。
目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。
决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。
但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。
(1)决策树最大缺点是其原理中的贪心算法。
贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。
(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。
(3)容易出现过拟合。
当某些自变量的类别数量比图1 垃圾短信用户识别建模指标体系设计方法数据来源数据结构数据量级处理方法传统方法 单源结构化普通数据库大数据方法多源非(半)结构化巨大数据库&挖掘工具表1 大数据方法与传统方法比较较多,或者自变量是区间型时,决策树过拟合的危险性会增加。
(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。
尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。
(1)变量之间的多重共线性会对模型造成影响。
(2)应删除异常值,否则它会给模型带来很大干扰。
(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。
3.3.2 垃圾短信识别预测模型选取鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。
本文使用的数据挖掘模型为随机森林模型。
3.3.2.1 模型简介随机森林(Random Forest)算法是一种专门为决策树分类器设计的优化方法。
它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。
随机森林和使用决策树作为基本分类器的Bagging 有些类似。
以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。
而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。
随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。
因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。
随机森林让每棵树尽可能生长,而不进行修剪。
随机森林算法主要包括决策树的生长和投票过程。
随机森林中单棵树的生长可概括为以下几步。
(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。
(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。
在整个森林的生长过程中,m 的值保持不变。
(3)每棵树任其生长,不进行剪枝。
Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。
随机森林算法的投票过程如图2所示。
随机森林采用Bagging方法生成多个决策树分类器,其基本思想是给定一个弱学习算法和一个训练集,单个弱学习算法准确率不高,该学习算法使用多次,得出预测函数系列,进行投票最好结果准确率将得到提高。
随机森林投票算法公式:图2 随机森林的投票过程经投票后生成混淆表CM,它是一个nc ×nc表(nc为类别的总个数)。
表中元素cm(i,j)(i≠j),表示类型i被分类为j的次数,仅当i=j时,cm(i,j)表示类型i被分类正确的个数。
3.3.2.2 随机森林分类预测模型的主要优势(1)随机森林的预测精度高,它可以产生高准确度的分类器。
(2)可以处理相当多的输入变量。
随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。
(3)当在构建随机森林模型时候,对Generlization Error估计是无偏估计。
(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。
(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。
(6)当遇到分类数据不平衡时,可以较好地平衡误差。
(7)随机森林算法并不会导致过拟合。
定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。
若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出: PE *≤ρ(1-s2)/s2。
当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。
因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。
(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。
随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。
综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。
随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。
3.3.2.3 垃圾短信数据挖掘模型构建通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。
3.4 用户分类治理策略通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。
实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。
4 垃圾短信治理平台的实现4.1 系统架构垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。