大数据数据分析方法数据处理流程实战案例
- 格式:docx
- 大小:23.41 KB
- 文档页数:18
大数据分析师的工作流程及步骤大数据分析师是当前信息时代中备受追捧的职业之一。
他们通过对海量数据的处理、分析和挖掘,为企业决策提供可靠的依据和策略。
本文将介绍大数据分析师的工作流程及步骤,以帮助读者更好地了解这个职业,并为有意从事相关领域的人士提供一些指导。
一、需求分析和数据收集阶段在大数据分析师的工作流程中,需求分析和数据收集是非常关键的一步。
在这个阶段,分析师需要与业务团队合作,明确分析的目标和研究问题,以及所需的数据类型和数据来源。
分析师可以通过调研、问卷调查等方式获取数据,并借助数据挖掘工具进行数据清洗和整理,为后续的分析工作做好准备。
二、数据预处理和清洗阶段在收集到数据后,分析师需要对数据进行预处理和清洗。
这一步是非常重要的,因为原始数据中可能包含噪声、异常值、缺失值等问题,这些问题会对后续的分析结果产生影响。
分析师可以运用统计方法、数据可视化工具等手段,对数据进行清洗和处理,确保数据的准确性和完整性。
三、数据探索和特征选择阶段在数据预处理完成后,分析师可以开始进行数据探索和特征选择。
这一步旨在通过可视化和统计分析等方法,对数据进行探索,找出其中的规律、趋势和关联性。
同时,分析师还需要根据业务需求和专业知识,选择合适的特征和变量,以用于后续的建模和分析。
四、模型构建和分析阶段在数据探索和特征选择完成后,分析师可以开始进行模型构建和分析。
这一步通常包括选择合适的算法和模型,进行训练和测试,并根据实际情况对模型进行调整和优化。
分析师需要运用数学、统计学和机器学习等知识,将数据转化为有价值的信息和见解,为企业决策提供支持。
五、结果解释和报告撰写阶段最后一步是结果解释和报告撰写阶段。
分析师需要将分析结果进行解释和解读,向业务团队和决策者进行汇报和说明。
这一步要求分析师具备良好的沟通和表达能力,以及对业务背景和行业知识的理解。
同时,分析师还需将分析过程和结果整理成报告,以便后续参考和追溯。
综上所述,大数据分析师的工作流程涵盖了需求分析和数据收集、数据预处理和清洗、数据探索和特征选择、模型构建和分析、结果解释和报告撰写等多个步骤。
第1篇一、引言随着大数据时代的到来,数据分析已成为企业提高竞争力、优化业务流程的重要手段。
银行业作为我国金融体系的核心,其业务数据量庞大,涉及客户信息、交易记录、风险控制等多个方面。
通过对银行数据的深入分析,可以挖掘潜在价值,提升银行运营效率,优化客户服务。
本报告以某大型银行为例,对其数据分析实践进行详细阐述。
二、银行数据分析背景1. 数据来源本案例所涉及的银行数据主要来源于以下几个方面:(1)客户信息:包括客户基本信息、账户信息、信用评级等。
(2)交易记录:包括存款、贷款、理财、信用卡等业务交易记录。
(3)风险控制数据:包括不良贷款率、风险预警数据等。
(4)市场数据:包括宏观经济数据、行业数据、竞争对手数据等。
2. 数据分析目的通过对银行数据的分析,实现以下目标:(1)了解客户需求,提升客户满意度。
(2)优化业务流程,提高运营效率。
(3)控制风险,降低不良贷款率。
(4)挖掘潜在价值,实现业务增长。
三、数据分析方法1. 数据清洗对原始数据进行清洗,包括去除重复数据、处理缺失值、修正错误数据等,确保数据质量。
2. 数据集成将不同来源的数据进行整合,构建统一的数据仓库,为后续分析提供数据基础。
3. 数据分析采用多种数据分析方法,包括描述性统计、相关性分析、聚类分析、预测分析等,挖掘数据价值。
4. 数据可视化利用图表、地图等形式展示数据分析结果,便于理解和决策。
四、数据分析实例1. 客户需求分析通过对客户交易记录、账户信息等数据的分析,发现以下客户需求:(1)客户偏好理财业务,希望银行提供更多理财产品。
(2)客户对信用卡业务需求较高,希望银行提高信用卡额度。
(3)客户对线上银行服务满意度较高,希望银行继续优化线上渠道。
针对以上需求,银行可以调整业务策略,推出更多理财产品,提高信用卡额度,并优化线上银行服务。
2. 业务流程优化通过对交易记录、业务流程等数据的分析,发现以下问题:(1)部分业务流程复杂,导致客户体验不佳。
数据分析实战——共享单车共享单车在近两年来火爆的不要不要的,而我在学习了数据分析师(入门)的几堂课之后,十分想要尝试一下数据分析的过程。
此次打算从kaggle上的共享单车项目进行入手,选择了bike-sharing-demand 项目,COME ON !说到数据分析就要想到一个东西,数据分析的流程。
数据分析主要分为5大流程:1需求分析明确自己的需求是什么,想要用这个数据集来做什么?这个应该是很多小伙伴们都很纠结的一个问题,不知道从何入手,那我们可以去找一下资料,看看别人做这个分析的时候都会从哪些角度入手?怎么样研究问题呢?2数据获取我们有了明确的目标之后,就要考虑数据是怎么获取的,本文最初采用kaggle 数据集中的数据。
获取数据的方法除了从kaggle下载之外,还有很多方法,之前我们的公众号DC黑板报就有一篇专门介绍数据获取方式的文章(学会数据获取方式,搞定数据分析第一步)。
3数据处理数据处理是整个数据分析过程中最麻烦的步骤,有句话说“数据科学家的70%时间都是用在数据处理上”。
4数据分析当我们拿到了已经进行清洗完的数据之后,那我们就要考虑具体的分析内容了。
分析方法有很多,常见的有描述性统计分析、探索性数据分析、验证性数据分析。
可以根据自己的数据和分析目标去选择。
5数据可视化数据可视化是数据分析的最后一步,也叫做结果展示,通过图表的方式有效并且清晰的来展示与传达信息。
在本文中我们采用的是python中的seaborn库进行可视化。
我们可以认为它是matplotlib库的高级版,对复杂的可视化图表支持的比较好并且也很美观,可以媲美R语言的ggplot2库。
好了,简单介绍完了数据分析的流程之后,我们就要正式开工了。
step1 导入包这里面的包就不过多解释啦,都是我们常用的数据分析及可视化包。
你们可能会比较好奇%matplotlibinline是什么东西。
这个其实是因为我用的是jupyternotebook,如果不用这一行代码的话,就只会显示出一串稀奇古怪的东西。
请阐述大数据处理的基本流程大数据处理的基本流程随着信息技术的快速发展,大数据处理已经成为了当今社会中非常重要的一项技术。
大数据指的是规模庞大且难以使用传统数据库管理工具进行处理和分析的数据集合。
大数据的处理需要经过一系列复杂的流程,本文将从准备数据、数据采集、数据清洗、数据存储、数据分析和结果呈现等几个方面来阐述大数据处理的基本流程。
一、准备数据在进行大数据处理之前,首先要明确目标,并确定需要的数据类型和数据源。
在大数据分析之前,需要准备好原始数据,这些数据可以来自于互联网、传感器、设备、数据采集等多个渠道。
准备数据的过程中,需要根据分析目标的不同,进行数据的收集、筛选和整理。
二、数据采集数据采集是指从各种来源收集数据并存储到数据仓库或存储系统中的过程。
数据采集可以通过多种途径进行,比如网络爬虫、传感器收集、人工采集等。
数据采集的目的是为了获取大量的原始数据,以满足后续的数据处理和分析需求。
三、数据清洗大数据处理的一个重要环节是数据清洗。
原始数据往往包含噪声、重复、缺失、错误等问题,这些问题会影响到后续的数据分析结果。
在数据清洗阶段,需要对数据进行清洗和预处理,包括去除重复数据、填充缺失值、修正错误等。
通过数据清洗,可以提高数据的质量和准确性,为后续的数据分析提供可靠的基础。
四、数据存储在进行大数据处理之前,需要将数据存储到合适的存储系统中。
数据存储的选择取决于数据的规模和处理需求。
常见的数据存储方式包括关系数据库、分布式文件系统、云存储等。
合理选择数据存储方式可以提高数据的访问效率和处理速度。
五、数据分析数据分析是大数据处理的核心环节。
数据分析可以借助各种算法和工具进行,包括数据挖掘、机器学习、人工智能等技术。
通过数据分析可以发现潜在的模式、趋势和规律,提供决策支持和预测能力。
在数据分析过程中,需要根据分析目标选择合适的方法,并对数据进行建模、计算和分析。
六、结果呈现完成数据分析之后,需要将分析结果进行可视化和呈现。
Python数据分析与可视化实战Python是当前最热门的编程语言之一,其出色的可读性和易学性让它成为很多程序员的首选。
越来越多的企业和组织也开始采用Python,应用于数据科学的多个领域。
本文将介绍Python数据分析的基本理论和实用技能,并借助实战案例来展示如何运用Python进行数据分析和可视化。
一、Python数据分析的基本理论1. 数据分析的基本流程数据分析的基本流程由数据收集、数据清洗、数据转换、数据建模和数据可视化五个环节组成。
首先,数据分析人员需要收集大量的数据,这些数据可以来自于公共数据库、自身采集和第三方数据提供商等渠道。
然后,对收集到的数据进行清洗,删除错误数据和过期数据,确保数据的准确性和完整性。
接着,需要对数据进行转换和处理,将数据整理成可用的结构形式,以便下一步的建模。
在数据建模中,可以利用Python中的数据分析库对数据进行建模和预测。
最后,通过数据可视化的方式,将分析结果以直观的形式展示出来,以便更好地理解和应用分析结果。
2. Python数据分析的基本环境Python数据分析涉及多个工具和库,如Python编程语言、NumPy、Pandas、Matplotlib、Scikit-Learn和Jupyter Notebook等。
其中,Python编程语言是数据分析的核心,NumPy和Pandas库用于数据处理和转换,Matplotlib库用于数据可视化和统计分析结果的图表制作,Scikit-Learn库则提供了多个常用的数据建模算法。
Jupyter Notebook是一个开源的Web应用程序,可以创建和共享可交互的文档、代码和数据分析结果。
二、Python数据分析实用技能1. 数据清洗和转换数据清洗和转换是数据分析的第一步,也是最重要的步骤之一。
在数据清洗时,需要识别和删除数据中存在的错误、重复、未定义的值和空白行等问题。
在数据转换时,需要将数据整理成可用的结构形式,以便下一步的数据建模。
大数据数据分析方法数据处理流程实战案例一、背景介绍在当今大数据时代,数据已经成为了企业决策的重要依据。
如何高效地对海量的数据进行分析,挖掘出有价值的信息,对企业的经营管理具有重要意义。
本案例以电商平台为背景,介绍了一种基于大数据数据分析方法的数据处理流程。
二、数据收集1.数据源:电商平台的交易数据,包括购买记录、用户信息等。
2.数据采集:通过网络爬虫技术,对电商平台的各类页面进行爬取,获取所需的数据。
通过API接口获取实时数据。
三、数据清洗1.数据质量检查:对采集的数据进行质量检查,包括数据类型是否正确、数据格式是否规范等。
2.缺失值处理:对于存在缺失值的数据,可以选择删除该数据或者通过插值方法填充缺失值。
3.异常值处理:对于异常值较多的数据,可以通过数据预处理方法,选择适当的异常值处理方式,如将其替换为均值、中位数等。
四、数据整合1.数据集成:将不同数据源的数据整合成一个数据集,以方便后续分析。
可以使用ETL工具、数据集成软件等进行数据整合。
2.数据转换:对于不同数据源的数据格式不同的情况,可以使用数据转换方法,将数据转换成相同的格式,方便进一步的分析。
五、数据分析1.探索性数据分析:对数据集进行描述性统计分析,包括计算各个维度的均值、方差等,探索数据的整体分布特征、异常情况等。
2.关联规则挖掘:对交易数据进行频繁项集挖掘和关联规则挖掘,挖掘出不同商品之间的关联关系,为商品推荐、交叉销售等提供支持。
3.用户画像分析:通过对用户信息数据进行分析,挖掘用户的购买偏好、用户特征等,为个性化推荐、精准营销等提供依据。
六、数据可视化在数据分析阶段得到的结果,可以使用数据可视化方法将其呈现出来,以便更好地理解和传达分析结果。
可以使用数据可视化工具,如Tableau、PowerBI等,绘制直观、易理解的图表、图形等。
七、应用根据分析结果,结合业务需求,对数据分析结果进行应用。
可以为电商平台提供商品推荐、个性化营销、销售策略优化等方面的支持,进一步提高企业的竞争力。
金融行业的大数据应用案例及解决方案1. 引言金融行业是一个信息密集型的行业,大量的数据产生于交易、风险管理、客户关系管理等各个环节。
随着科技的进步和数据技术的发展,金融机构开始广泛应用大数据技术,以提高业务效率、降低风险和创造更多商业机会。
本文将介绍金融行业的大数据应用案例,并提供相应的解决方案。
2. 金融行业的大数据应用案例2.1 风险管理金融机构需要通过大数据技术来识别和管理风险。
例如,利用大数据分析技术,银行可以对客户的交易数据进行实时监测,以识别潜在的欺诈行为。
此外,金融机构还可以通过分析历史数据和市场数据,预测市场波动,从而制定相应的风险管理策略。
2.2 客户关系管理金融机构可以利用大数据技术来改善客户关系管理。
通过分析客户的交易数据、社交媒体数据和其他相关数据,金融机构可以了解客户的需求和偏好,从而提供个性化的产品和服务。
例如,银行可以根据客户的消费习惯和偏好,推荐适合的信用卡或投资产品。
2.3 信贷评分大数据技术可以帮助金融机构更准确地评估客户的信用风险。
通过分析客户的历史交易数据、社交媒体数据和其他相关数据,金融机构可以建立更精准的信贷评分模型。
这样,金融机构可以更好地判断客户的还款能力,减少坏账风险。
2.4 投资决策金融机构可以利用大数据技术来辅助投资决策。
通过分析市场数据、公司财务数据和其他相关数据,金融机构可以发现投资机会,制定更精准的投资策略。
例如,利用大数据分析技术,投资公司可以预测股票价格的波动,从而做出更明智的投资决策。
3. 解决方案3.1 数据采集与存储金融机构需要建立有效的数据采集和存储系统,以确保数据的质量和完整性。
这包括建立数据接口,从各个数据源收集数据,并将数据存储在可扩展的数据仓库或云平台中。
此外,金融机构还需要建立数据清洗和预处理的流程,以提高数据的准确性和可用性。
3.2 数据分析与挖掘金融机构需要利用数据分析和挖掘技术来发现数据中的价值和洞察。
这包括使用统计分析、机器学习和人工智能等技术,对数据进行模式识别、趋势分析和预测建模。
大数据分析的数据预处理数据预处理是大数据分析的重要环节,它包括数据清洗、数据集成、数据变换和数据归约等步骤。
数据预处理的目的是通过减少噪声、处理缺失值和处理异常值等手段,提高数据质量,为后续的数据分析提供高质量的数据。
数据清洗是数据预处理的第一步,它主要是清除数据中的错误、不完整和重复的数据。
错误数据指的是不符合数据定义的数据,比如数据类型错误等;不完整数据指的是存在缺失值的数据;而重复数据则是同一数据记录出现了多次。
清洗数据的方法有手工清洗和自动清洗。
手工清洗需要人工逐条检查数据,而自动清洗则可以利用各种算法自动发现和修复错误、缺失和重复数据。
数据变换是将原始数据转换为适合数据分析的形式,主要是通过数据清洗、数据标准化、数据规范化和数据离散化等方法。
数据标准化是将不同量级的数据转换为相同的量级,便于比较和分析。
数据规范化是将数据转换为一定的范围,比如将数值型数据转换为0-1之间的数值。
而数据离散化是将连续型数据转换为离散型数据,方便进行分类和聚类分析。
数据归约是对数据进行压缩和抽样,以减少数据的存储和计算开销。
常见的数据归约方法有:维度归约、属性归约和数据抽样。
维度归约是将数据降维,消除冗余的维度信息;而属性归约是将数据集中的属性进行选择,选择最有代表性的属性保留。
数据抽样是从大数据集中抽取部分数据作为样本进行分析,以节约计算资源。
总之,数据预处理是大数据分析的关键环节,对于提高数据质量、加快数据分析的速度具有重要意义。
通过数据清洗、数据集成、数据变换和数据归约等步骤,可以获得适合进行后续分析的高质量数据集。
大数据数据分析方法数据处理流程实战案例下面以一个实战案例来说明大数据数据处理流程:假设电商公司想通过大数据分析来优化其销售策略和营销活动,提高销售额和用户满意度。
1.收集数据:首先,需要收集相关的数据。
例如,电商公司可以收集包括用户订单数据、访问日志、用户信息等在内的各类数据。
这些数据可以通过数据采集工具、数据库、日志文件等方式进行采集。
2.清洗数据:在收集到的数据中,往往会存在一些噪声、缺失值、异常值等问题,需要对数据进行清洗。
清洗数据可以通过数据清洗工具,如Hadoop、Spark等进行,包括去重、删除缺失值、异常值处理等。
3.转换数据:在清洗完数据后,需要对数据进行转换,以方便后续的分析。
转换数据包括数据规范化、格式转换、特征提取等。
例如,将数据中的文本信息转化为数值型数据,将时间数据转化为可分析的时间序列等。
4.分析数据:在转换完数据后,可以使用各种数据分析方法对数据进行分析。
例如,可以使用机器学习算法进行预测分析,使用统计分析方法对销售数据进行趋势分析,使用聚类分析方法对用户进行分类等。
5.可视化数据:分析完数据后,将分析结果以可视化的形式呈现,有助于理解和传达数据分析的结果。
可以使用数据可视化工具,如Tableau、PowerBI等,将分析结果呈现为图表、地图等形式,使得决策者能够更好地理解数据分析结果。
6.解决问题:根据数据分析的结果,结合实际业务需求,提出解决问题的策略和方法。
例如,根据销售数据的分析结果,调整产品定价、优化库存管理,提供个性化推荐等。
7.评估和调整:对解决问题的策略和方法进行评估,判断其有效性和可行性。
如果需要调整,可以根据评估结果进行调整,优化解决方案。
通过以上的数据处理流程,电商公司可以从大数据中提取出有价值的信息,为决策提供支持和指导,帮助优化销售策略和营销活动,提高销售额和用户满意度。
这也是大数据数据分析方法在实战中的应用过程。
数据分析方法、数据处理流程实战案例大数据时代,我们人人都逐渐开始用数据的眼光来看待每一个事情、事物。
确实,数据的直观明了传达出来的信息让人一下子就能领略且毫无疑点,不过前提是数据本身的真实性和准确度要有保证。
今天就来和大家分享一下关于数据分析方法、数据处理流程的实战案例,让大家对于数据分析师这个岗位的工作内容有更多的理解和认识,让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后都是有多专业的流程在支撑着。
一、大数据思维在2011年、2012年大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己的业务给大数据靠一靠,并且提的比较多的大数据思维。
那么大数据思维是怎么回事?我们来看两个例子:案例1:输入法首先,我们来看一下输入法的例子。
我2001年上大学,那时用的输入法比较多的是智能ABC,还有微软拼音,还有五笔。
那时候的输入法比现在来说要慢的很多,许多时候输一个词都要选好几次,去选词还是调整才能把这个字打出来,效率是非常低的。
到了2002年,2003年出了一种新的输出法——紫光拼音,感觉真的很快,键盘没有按下去字就已经跳出来了。
但是,后来很快发现紫光拼音输入法也有它的问题,比如当时互联网发展已经比较快了,会经常出现一些新的词汇,这些词汇在它的词库里没有的话,就很难敲出来这个词。
在2006年左右,搜狗输入法出现了。
搜狗输入法基于搜狗本身是一个搜索,它积累了一些用户输入的检索词这些数据,用户用输入法时候产生的这些词的信息,将它们进行统计分析,把一些新的词汇逐步添加到词库里去,通过云的方式进行管理。
比如,去年流行一个词叫“然并卵”,这样的一个词如果用传统的方式,因为它是一个重新构造的词,在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。
然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用的时候可以直接找到这个词了。
案例2:地图再来看一个地图的案例,在这种电脑地图、手机地图出现之前,我们都是用纸质的地图。
这种地图差不多就是一年要换一版,因为许多地址可能变了,并且在纸质地图上肯定是看不出来,从一个地方到另外一个地方怎么走是最好的?中间是不是堵车?这些都是有需要有经验的各种司机才能判断出来。
在有了百度地图这样的产品就要好很多,比如:它能告诉你这条路当前是不是堵的?或者说能告诉你半个小时之后它是不是堵的?它是不是可以预测路况情况?此外,你去一个地方它可以给你规划另一条路线,这些就是因为它采集到许多数据。
比如:大家在用百度地图的时候,有GPS地位信息,基于你这个位置的移动信息,就可以知道路的拥堵情况。
另外,他可以收集到很多用户使用的情况,可以跟交管局或者其他部门来采集一些其他摄像头、地面的传感器采集的车辆的数量的数据,就可以做这样的判断了。
这里,我们来看一看纸质的地图跟新的手机地图之间,智能ABC 输入法跟搜狗输入法都有什么区别?这里面最大的差异就是有没有用上新的数据。
这里就引来了一个概念——数据驱动。
有了这些数据,基于数据上统计也好,做其他挖掘也好,把一个产品做的更加智能,变得更加好,这个跟它对应的就是之前可能没有数据的情况,可能是拍脑袋的方式,或者说我们用过去的,我们想清楚为什么然后再去做这个事情。
这些相比之下数据驱动这种方式效率就要高很多,并且有许多以前解决不了的问题它就能解决的非常好。
二、数据驱动对于数据驱动这一点,可能有些人从没有看数的习惯到了看数的习惯那是一大进步,是不是能看几个数这就叫数据驱动了呢?这还远远不够,这里来说一下什么是数据驱动?或者现有的创业公司在进行数据驱动这件事情上存在的一些问题。
一种情况大家在公司里面有一个数据工程师,他的工作职责就是跑数据。
不管是市场也好,产品也好,运营也好,老板也好,大家都会有各种各样的数据需求,但都会提给他。
然而,这个资源也是有限的,他的工作时间也是有限的,只能一个一个需求去处理,他本身工作很忙,大家提的需求之后可能并不会马上就处理,可能需要等待一段时间。
即使处理了这个需求,一方面他可能数据准备的不全,他需要去采集一些数据,或做一些升级,他要把数据拿过来。
拿过来之后又在这个数据上进行一些分析,这个过程本身可能两三天时间就过去了,如果加上等待的时间更长。
对于有些人来说,这个等待周期太长,整个时机可能就错过了。
比如,你重要的就是考察一个节日或者一个开学这样一个时间点,然后想搞一些运营相关的事情,这个时机可能就错过去了,许多人等不到了,有些同学可能就干脆还是拍脑袋,就不等待这个数据了。
这个过程其实就是说效率是非常低的,并不是说拿不到这个数据,而是说效率低的情况下我们错过了很多机会。
对于还有一些公司来说,之前可能连个数都没有,现在有了一个仪表盘,有了仪表盘可以看到公司上个季度、昨天总体的这些数据,还是很不错的。
对老板来说肯定还是比较高兴,但是,对于市场、运营这些同学来说可能就还不够。
比如,我们发现某一天的用户量跌了20%,这个时候肯定不能放着不管,需要查一查这个问题出在哪。
这个时候,只看一个宏观的数那是远远不够的,我们一般要对这个数据进行切分,按地域、按渠道,按不同的方式去追查,看到底是哪少了,是整体少了,还是某一个特殊的渠道独特的地方它这个数据少了,这个时候单单靠一个仪表盘是不够的。
理想状态的数据驱动应该是怎么样的?就是一个自助式的数据分析,让业务人员每一个人都能自己去进行数据分析,掌握这个数据。
前面我讲到一个模式,我们源头是一堆杂乱的数据,中间有一个工程师用来跑这个数据,然后右边是接各种业务同学提了需求,然后排队等待被处理,这种方式效率是非常低的。
理想状态来说,我们现象大数据源本身整好,整全整细了,中间提供强大的分析工具,让每一个业务员都能直接进行操作,大家并发的去做一些业务上的数据需求,这个效率就要高非常多。
三、数据处理的流程大数据分析这件事用一种非技术的角度来看的话,就可以分成金字塔,自底向上的是三个部分,第一个部分是数据采集,第二个部分是数据建模,第三个部分是数据分析,我们来分别看一下。
数据采集首先来说一下数据采集,我在百度干了有七年是数据相关的事情。
我最大的心得——数据这个事情如果想要更好,最重要的就是数据源,数据源这个整好了之后,后面的事情都很轻松。
用一个好的查询引擎、一个慢的查询引擎无非是时间上可能消耗不大一样,但是数据源如果是差的话,后面用再复杂的算法可能都解决不了这个问题,可能都是很难得到正确的结论。
我觉得好的数据处理流程有两个基本的原则,一个是全,一个是细。
全:就是说我们要拿多种数据源,不能说只拿一个客户端的数据源,服务端的数据源没有拿,数据库的数据源没有拿,做分析的时候没有这些数据你可能是搞歪了。
另外,大数据里面讲的是全量,而不是抽样。
不能说只抽了某些省的数据,然后就开始说全国是怎么样。
可能有些省非常特殊,比如新疆、西藏这些地方客户端跟内地可能有很大差异的。
细:其实就是强调多维度,在采集数据的时候尽量把每一个的维度、属性、字段都给它采集过来。
比如:像where、who、how这些东西给它替补下来,后面分析的时候就跳不出这些能够所选的这个维度,而不是说开始的时候也围着需求。
根据这个需求确定了产生某些数据,到了后面真正有一个新的需求来的时候,又要采集新的数据,这个时候整个迭代周期就会慢很多,效率就会差很多,尽量从源头抓的数据去做好采集。
数据建模有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给上面的业务分析人员,它可能本身是杂乱的,没有经过很好的逻辑的。
这里就牵扯到数据建框,首先,提一个概念就是数据模型。
许多人可能对数据模型这个词产生一种畏惧感,觉得模型这个东西是什么高深的东西,很复杂,但其实这个事情非常简单。
我春节期间在家干过一件事情,我自己家里面家谱在文革的时候被烧了,后来家里的长辈说一定要把家谱这些东西给存档一下,因为我会电脑,就帮着用电脑去理了一下这些家族的数据这些关系,整个族谱这个信息。
我们现实是一个个的人,家谱里面的人,通过一个树型的结构,还有它们之间数据关系,就能把现实实体的东西用几个简单图给表示出来,这里就是一个数据模型。
数据模型就是对现实世界的一个抽象化的数据的表示。
我们这些创业公司经常是这么一个情况,我们现在这种业务,一般前端做一个请求,然后对请求经过处理,再更新到数据库里面去,数据库里面建了一系列的数据表,数据表之间都是很多的依赖关系。
比如,就像我图片里面展示的这样,这些表一个业务项发展差不多一年以上它可能就牵扯到几十张甚至上百张数据表,然后把这个表直接提供给业务分析人员去使用,理解起来难度是非常大的。
这个数据模型是用于满足你正常的业务运转,为产品正常的运行而建的一个数据模型。
但是,它并不是一个针对分析人员使用的模型。
如果,非要把它用于数据分析那就带来了很多问题。
比如:它理解起来非常麻烦。
另外,数据分析很依赖表之间的这种格子,比如:某一天我们为了提升性能,对某一表进行了拆分,或者加了字段、删了某个字短,这个调整都会影响到你分析的逻辑。
这里,最好要针对分析的需求对数据重新进行解码,它内容可能是一致的,但是我们的组织方式改变了一下。
就拿用户行为这块数据来说,就可以对它进行一个抽象,然后重新把它作为一个判断表。
用户在产品上进行的一系列的操作,比如浏览一个商品,然后谁浏览的,什么时间浏览的,他用的什么操作系统,用的什么浏览器版本,还有他这个操作看了什么商品,这个商品的一些属性是什么,这个东西都给它进行了一个很好的抽象。
这种抽样的很大的好处很容易理解,看过去一眼就知道这表是什么,对分析来说也更加方便。
在数据分析方,特别是针对用户行为分析方面,目前比较有效的一个模型就是多维数据模型,在线分析处理这个模型,它里面有这个关键的概念,一个是维度,一个是指标。
维度比如城市,然后北京、上海这些一个维度,维度西面一些属性,然后操作系统,还有IOS、安卓这些就是一些维度,然后维度里面的属性。
通过维度交叉,就可以看一些指标问题,比如用户量、销售额,这些就是指标。
比如,通过这个模型就可以看来自北京,使用IOS 的,他们的整体销售额是怎么样的。
这里只是举了两个维度,可能还有很多个维度。
总之,通过维度组合就可以看一些指标的数,大家可以回忆一下,大家常用的这些业务的数据分析需求是不是许多都能通过这种简单的模式给抽样出来。
四、数据分析方法接下来看一下互联网产品采用的数据分析方法。
对于互联网产品常用的用户消费分析来说,有四种:•第一种是多维事件的分析,分析维度之间的组合、关系。
•第二种是漏斗分析,对于电商、订单相关的这种行为的产品来说非常重要,要看不同的渠道转化这些东西。