数据挖掘流程模型CRISP-DM
- 格式:pdf
- 大小:670.02 KB
- 文档页数:57
基于CRISP-DM框架规划云舆情项目的数据挖掘方案【摘要】舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和,随着互联网发展,云端舆情显得尤为重要;本文简要介绍应用CRISP-DM框架来规划云舆情项目的数据挖掘流程,及部分数据应用方案。
【关键字】云舆情;CRISP-DM;数据挖掘1、引言舆情广义上是指舆情因变事项发生、发展和变化过程中,民众所持有的社会态度,通过辨析探究舆情,能够捕捉民意,预测事态发展,提供决策依据;近年来,我国互联网从用户规模、技术应用、数据信息量等方面都发生巨大变化;面对海量舆情信息,各机构目前采用最多的是对关键词进行人工搜索甄别的方法,效率极低,时效性和准确性得不到保障,得不到智能的分析预判数据。
为及时掌握、分析网上舆论动态,云舆情项目充分利用互联网智能分析处理等核心技术,采集新闻、论坛、自媒体、微博、微信、群聊、短视频、抖音、快手、外媒等媒体信息,为用户提供全面的大数据舆情监测预警服务,云舆情项目采用在各种KDD 过程模型中占据领先位置的CRISP-DM框架,对互联网信息进行数据挖掘、汇集整理和分析,为决策提供依据,增强对舆情信息的有效整合。
本文从项目规划实施的视角,阐述一下基于CRISP-DM框架规划云舆情项目数据挖掘的看法,供大家相互交流。
2、过程描述(1)、商业理解(business understanding)经市场调研,目前市场上对于多平台海量舆情数据分析处理很困难,急需一套互联网舆情监控分析系统开展互联网信息的挖掘汇集整理和分析工作;云舆情系统在此背景下应运而生,系统能把握互联网上舆论信息,及时掌握、分析网上舆论动态,全面了解社情民意,为决策提供舆情信息分析服务,并及时发现和解决潜在的舆情危机。
基本原理为根据关注的关键词组或关键词组集合从各媒体平台查找出海量舆情数据,经过数据集成、规约、清理、变换、统计等处理方式,整合汇聚成高价值数据,通过分析算法形成主题跟踪、专题分析、事件分析、倾向分析、预警分析、统计报告等可视化数据链条,最终形成SaaS化云舆情商业产品。
数据分析标准流程crispThe CRISP-DM (Cross-Industry Standard Process for Data Mining) is a comprehensive and well-established standard process for data mining and data analysis. It provides a structured approach to planning, executing, and evaluating data mining projects. CRISP-DM consists of six phases: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, and Deployment.CRISP-DM的六个阶段为:商业理解、数据理解、数据准备、建模、评估和部署。
这些阶段按顺序进行,每个阶段都提供了一些指导,以确保项目在逻辑上和有效方面顺利进行。
The first phase, Business Understanding, involves understanding the business objectives and requirements from a data mining perspective. It's essential to establish clear objectives and communicate with the stakeholders to ensure that the project's goals align with the business needs. This phase sets the foundation for the entire data mining process.商业理解阶段是CRISP-DM的第一个阶段,这个阶段从数据挖掘的角度了解业务目标和需求。
数据挖掘方法论之一----------CRISP-DM方法指南2006-2-10CRISP-DM是NCR和SPSS提出的跨行业标准数据挖掘过程,从最初提出至今将近10年了,可以感觉到这是一个不错的方法论。
给出了详细的步骤,可能需要考虑的问题,非常实用。
CRISP-DM全称Cross Industry Standard Process-Data Mining。
分为六个步骤:商业理解、数据理解、数据准备、建立模型、模型评估以及结果部署。
以下分别介绍每个步骤的要完成的任务,输出及产生输出所要进行的活动。
1.商业理解(Business understanding)1.1 确定商业目标任务:确定商业目标分析人员的首要目标是从商业的角度透彻地理解客户想要实现什么。
通常客户会有多个目标和约束需要去均衡。
在工程的最初,分析人员就要去揭示那些影响最后的输出的关键因素。
假如忽略了这一步,可能导致的后果是费尽力气却是为一个错误的问题去寻找答案。
输出:背景在工程的最开始比较有关该组织商业背景的所有已知信息。
这些细节不仅有助于确定商业目标,也有助于确定工程实施中所需的资源。
活动:关于组织建立图表来识别组织各分支、部门和工程组。
图表中应给出管理者的名字和职责;确定业务过程的关键人员及其角色;确定内部提供支持者(财务支持/主要使用者/领域专家);确定是否有一个指导小组及其成员情况;确定受数据挖掘影响的业务部门(如市场、销售、财务)。
问题域确定问题域(如市场、客户关怀、业务发展等);用一般性的文字描述问题;检验项目的当前状态;Identify target groups for the project result ( 如是否需要为上层管理者生成书面报告或者仅仅是一个供终端用户使用的系统);确定用户的需要和期望。
当前的解决方法描述为了解决问题当前所采用的方法;描述当前方法的优缺点及用户的接受程度。
输出商业目标从商业的角度,描述在该数据挖掘项目中客户的主要目标。
⼤数据中数据挖掘及案例(含CRISP-DM)⼤数据时代的数据挖掘及案例(含CRISP-DM⽅法论)课程收益:通过本次培训中实际案例的分享,了解数据管理和运营中的各种经验教训(别⼈花费上百亿学费买来的经验啊!),深刻理解数据运营的意义,通过数据挖掘技术,发掘客户精细营销和运营的价值,实现产品设计的个性化需求分析。
通过本次培训中实际案例的分享,学习数据挖掘的基本算法,了解数据挖掘的各种⽅法,深刻理解⼤数据时代的数据价值,学习提升企业精细化管理的途径和案例。
学习互联⽹思维如何应⽤于数据挖掘领域,提升客户体验,加强产品的个性化设计需求。
课程背景:2012-2014年,中国的营销者正⾯临着⼀个极具挑战的经济时局,然⽽他们有机会通过撬动海量数据的杠杆来获取巨额收益。
⾯对中国5.13亿的互联⽹⽤户、多样化的1.8万亿GB数据,以及企业数据每年55%的增长速度,在蓬勃发展的中国市场环境中,⼤数据所带来的机遇前所未有,这将是中国市场的营销者们预期取得⼤回报的最佳时机。
营销者必须知道如何透过数据库的挖掘与分析,让⼿中的数据与信息发挥最⼤的价值,通过有效整合、分析线上和线下数据,提⾼与客户、潜在客户互动的精准度,及时发现企业经营中的各种问题和风险。
在制造⾏业,通过ERP、CRM等系统,企业在产品制造的过程中也逐步积累了各种形式的⼤数据,如何将这些⼤数据服务于企业的⽣产过程,提⾼产品质量控制能⼒,并提升对客户服务质量,也是摆在制造企业⾯前的⼀个紧迫问题。
其中⼿机制造企业如何使⽤数据挖掘的⽅法,深化客户需求分析,改进产品设计,提升客户营销能⼒,扩展市场份额是摆在企业⾯前的问题。
培训⽬标:⼤数据时代下,客户的重新认识和精细营销,企业的精细化管理,产品质量的精准控制,如何提升企业的核⼼竞争能⼒,如何更新企业运营的新理念。
了解互联⽹时代带来的互联⽹思维,分享互联⽹⾏业⼤数据分析案例,对传统制造产业带来的冲击分析,探索制造业⼤数据应⽤场景。
数据挖掘的基本流程数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。
本节主要讲解数据挖掘的基本规范流程。
CRISP-DM和SEMMA是两种常用的数据挖掘流程。
2.5.1 数据挖掘的一般步骤从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。
对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。
数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
不然,挖掘的结果会差强人意。
步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。
三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。
在获得了EC(European Commission)的资助后,他们开始实现他们的目标。
为了征集业界广泛的意见共享知识,他们创建了CRISP-DM Special Interest Group(简称为SIG)。
大概在1999年,SIG(CRISP-DM Special Interest Group)组织开发并提炼出CRISP-DM(CRoss-Industry Standard Process for Data Mining),同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。
SIG还将CRISP-DM和商业数据挖掘工具集成起来。
SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。
当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。
他包括项目的相应周期,他们的各自任务和这些任务的关系。
在这个描述层,识别出所有关系是不可能的。
所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。
SIG 组织已经发布了CRISP-DM Version 1.0 Process Guide and User Manual的电子版,这个可以免费使用。
Figure: Phases of the CRISP-DM Process Model一个数据挖掘项目的生命周期包含六个阶段。
这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。
这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。
上图中箭头指出了最重要的和依赖度高的阶段关系。
上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布之后一个数据挖掘的过程才可以继续。
在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。
CRISP-DM--数据挖掘标准流程CRISP-DM--数据挖掘标准流程在1996年的时候,SPSS,戴姆勒-克莱斯勒和NCR公司发起共同成⽴了⼀个兴趣⼩组,⽬的是为了建⽴数据挖掘⽅法和过程的标准。
并在1999年正式提炼出了CRISP-DM流程。
这个流程确定了⼀个数据挖掘项⽬的⽣命周期包括以下六个阶段:1. 业务/研究理解阶段1. 确认⽬标:从整体上阐明项⽬⽬标和需求挖掘⽬标(优先级)成功标准(量化)2. 评估环境资源⽬录需求、假设、约束成本代价⽐3. 制定项⽬计划项⽬计划最初评估项⽬技术2. 数据理解阶段1. 收集数据2. 描述数据3. 探索数据4. 评估数据质量:5. 数据成本与质量平衡3. 数据准备阶段1. 选择数据:考虑与业务需求的相关性、数据质量和技术约束等因素2. 清洗数据:通过选择、替换等⽅法提⾼数据质量3. 构造数据:构造衍⽣属性4. 集成数据:同源数据合并和不同源数据合并5. 格式化数据:根据业务需求对数据进⾏格式化6. 在⼯业领域,⼀定要⼀定要⼀定要利⽤现有的知识,⾸先充分利⽤现有的知识进⾏特征提取。
在相对成熟的领域⼀般都已经有现成的解决⽅案、论⽂等可以参考。
4. 建模阶段1. 选择建模技术:充分利⽤现有的知识;对同⼀个挖掘问题可能应⽤多种不同的技术2. ⽣成测试设计:分离测试数据和训练数据,定义模型结果验证参数3. 建⽴模型:列出参数和选择值,评估模型,模型要简单、可靠、可解释性⾼5. 评估阶段1. 从业务⾓度评估结果,是否满⾜阶段⼀的⽬标2. 确认解释性:确认业务和研究问题的重要组合部分是否未被清楚地解释3. 审核结果:是否有重要因素被忽略4. 审核模型应⽤的风险:⽐如模型不可⽤的情况,模型的边界5. 评价部署⽅案:⽅案的成本、最终的收益、可扩展性、带来的风险等等。
6. 部署阶段1. 计划的监控和维护:数据分析实施的计划应⽤到业务系统中,数据和结果反馈2. 最终的报告3. 项⽬回顾报告过程出具的⼯作结果:分析问题的思维导图、明确项⽬依据和⽬标(业务理解和指标细化)、根据数据字典进⾏数据分析、总结性的数据探索报告、分析计划(维度和度量等指标确定和实现)、最终验证报告、业务实现。