任务6数据分析
- 格式:doc
- 大小:125.00 KB
- 文档页数:7
第6章数据的分析(单元重点综合测试)一、单选题1.已知一组数据:4,1,2,3,4,这组数据的中位数和众数分别是()A.4,4B.3.5,4C.3,4D.2,42.已知一组数据85,80,x,90的平均数是85,那么x等于()A.80B.85C.90D.953.一组数据按从小到大排列为3,4,7,x,15,17,若这组数据的中位数为9,则x是()A.9B.10C.11D.124.在一次捐款活动中,某班50名同学都拿出自己的零花钱,有捐5元、10元、20元的,还有捐50元和100元的如图所示的统计图反映了不同捐款数的人数比例,那么根据图中信息,该班同学平均每人捐款()A.30元B.33元C.36元D.35元5.甲、乙、丙、丁四人进行射击测试,每人10次射击成绩的平均数都是9环,方差分别是22==0.61,0.52,S S甲乙22S S==0.53,0.42,则射击成绩比较稳定的是()丁丙A.甲B.乙C.丙D.丁6.如图是某企业2020年5~10月份月利润变化情况的折线统计图,下列说法与图中反映的信息相符的是()A.5~6月份月利润增长量大于9~10月份月利润增长量B.5~10月份月利润的中位数是700万元C.5~10月份月利润的平均数是760万元D.5~10月份月利润的众数是1000万元7.在第60届国际数学奥林匹克比赛中,中国队荣获团体总分第一名.我国参赛选手比赛成绩的方差计算(638x ++-B .我国参赛选手的平均成绩为38 D .我国选手比赛成绩的团体总分为天,好友双方的每日聊天记录的条数不低于天在该软件上聊天,条 B .中位数为二、填空题11.数据1,8,8,4,6,4的中位数为 .12.我国是世界上严重缺水的国家之一.为了倡导“节约用水从我做起”,小刚在他所在班的50名同学中,随机调查了10名同学家庭中一年的月均用水量(单位:t),并将调查结果绘成了如下的条形统计图,则这10个样本数据的平均数是 ,众数是 ,中位数是 .13.新冠疫情期间,小李同学连续两周居家健康检测,如下图是小李记录的体温情况折线统计图,记第一周体温的方差为21s ,第二周体温的方差为22s ,试判断两者之间的大小关系21s 22s (用“>”、“=”、“<”填空).小李连续两周居家体温测量折线统计图14.小明同学在德,智,体,美,劳五项评价的成绩分别为:10分,9分,8分,9分,8分.已知这5项三、解答题19.甲、乙两名同学本学期五次某项测试的成绩(单位:分)如图所示.(1)甲、乙两名同学五次测试成绩的平均数分别是______分、______分;(2)利用方差判断这两名同学该项测试成绩的稳定性;(3)结合数据,请再写出一条与(1)(2)不同角度的结论.20.王老师为了选拔一名学生参加数学比赛,对两名备赛选手进行了10次测验,成绩如下(单位:分):甲:5,6,6,6,6,6,7,9,9,10并绘制成下面的统计图.(1)本次调查的样本容量是________,这组数据的众数为________元;最高值,身高单位:cm,测量时精确到1cm):(1)请根据以上信息,完成下列问题:其中最低分为76分,满分率为5%,C 组成绩为89,89,86,88,89,89,89,86,89,90,89,89,88,88,89,87,回答下列问题:(1)学校共抽取了__________名同学进行测试,他们的成绩众数为__________;a .1月31日至2月20日观影人数统计图:b .1月31日至2月20日观影人数频数统计图:c .1月31日至2月20日观影人数在9020<1x ≤的数据为:91,92,93,95,97,102,110.八年级C组同学的分数分别为:91,92,93,93,94,94,94,94,94.七、八年级选取的学生竞赛成绩统计表请根据上面信息完成下列问题:(1)求加温至20C 25C t ︒≤≤︒的平均每天成本.(2)用含t 的代数式表示m .(3)计划该作物30天后上市,现根据市场调查:每提前一天上市售出(一次售完),销售额可增加600元.因此决定给大棚继续加温,但若欲加温到25C 37t ︒<≤摄氏度,要求成本太高,所以计划加温至20C 25C t ︒≤≤︒.请问加温多少摄氏度时增加的利润最大?并说明理由.(注:经济作物上市售出后大棚暂停使用)。
数据分析师的主要职责概述包括以下内容:1. 数据收集与清洗:负责收集和整理相关数据,并进行数据清洗,确保数据的准确性和完整性。
2. 数据分析与解释:运用统计学和数据分析技术,对收集到的数据进行分析,发现数据中的模式、趋势和关联性,并解释分析结果。
3. 报告撰写:将数据分析结果转化为易于理解的报告或演示文稿,向公司管理层、团队成员或客户提供相关洞察和建议。
4. 业务需求分析:与团队成员和业务部门密切合作,了解他们的需求并将其转化为数据分析的具体任务和目标。
5. 数据可视化:使用数据可视化工具,如表格、图表、仪表板等,展示数据分析结果,以便更直观地传达信息。
6. 预测与建模:基于历史数据和趋势,运用统计模型和算法进行预测和建模,为公司的决策提供支持。
7. 数据安全与隐私保护:负责保护数据的安全和隐私,确保数据的合规性和保密性。
8. 持续学习与发展:跟踪行业发展和最新的数据分析技术,不断提升自身的专业能力和知识。
总体而言,数据分析师的主要职责是将大量的数据转化为有意义的信息和见解,为企业的决策提供支持,并帮助企业实现业务目标。
数据分析师的主要职责概述(二)数据分析师是一种需求日益增长的职业,主要负责处理和分析大量的数据,以提供有关业务运营和决策的洞察和见解。
以下是数据分析师的主要职责概述。
1. 数据处理和整理:数据分析师的第一个主要职责是处理和整理数据。
这包括从各种来源收集数据,清洗和转换数据格式,以便于分析和使用。
2. 数据分析:数据分析师使用各种技术和工具来分析数据,以发现数据背后的模式、趋势和关联。
他们可以使用统计分析、数据挖掘、机器学习等方法来揭示数据的洞察。
3. 数据可视化:数据分析师使用图表、图形和可视化工具将数据结果呈现出来,以便于业务管理层和决策者理解和使用。
数据可视化不仅可以传达数据的关键信息,还可以帮助发现数据的新颖角度。
4. 数据报告和演示:数据分析师负责撰写数据报告和演示,以向非技术背景的人员解释数据的含义和趋势。
数据分析作业指导数据分析是一项关键任务,它可以帮助我们从大量的数据中提取有用的信息和见解,以便作出明智的决策。
在进行数据分析的过程中,有一些关键步骤和技巧是值得我们注意和掌握的。
本篇文章将为您提供一份数据分析作业指导,帮助您更好地完成数据分析任务。
一、数据收集与整理在开始数据分析之前,首先需要收集和整理相关的数据。
数据可以来自各种渠道,如调查问卷、网站访问数据、销售记录等。
在收集数据时,要确保数据的准确性和完整性。
同时,如果数据量庞大,需要进行适当的筛选和清洗,以排除异常值和错误数据。
二、确定分析目标在进行数据分析之前,需要明确自己的分析目标。
分析目标可以包括回答某个具体问题或解决某个业务难题。
确定分析目标有助于我们更好地选择合适的分析方法和工具,并避免在分析过程中迷失方向。
三、数据探索与可视化数据探索是数据分析的重要步骤,它可以帮助我们深入了解数据,找出其中的规律和趋势。
在进行数据探索时,可以使用统计学方法、可视化工具等。
通过数据可视化,我们可以更直观地展示数据之间的关系,并从中发现潜在的模式和趋势。
四、数据分析与建模根据分析目标和数据特点,选择合适的数据分析方法和建模技巧。
常用的数据分析方法包括描述统计、推断统计、回归分析、分类与聚类分析等。
在进行数据分析时,要合理选择变量并构建适当的模型,以便更准确地解读数据和做出预测。
五、解读结果与报告撰写在完成数据分析后,要对结果进行解读并撰写报告。
报告应该简明扼要地概述分析目的、方法和结果,以及相应的见解和建议。
在撰写报告时,要注意语言通顺、结构清晰,避免使用过多的专业术语和公式,以确保读者能够轻松理解和阅读报告。
六、反思与改进在完成数据分析作业后,要进行反思和总结。
回顾整个分析过程,思考自己在数据收集、分析和报告撰写等方面的不足之处,并寻找改进的方法。
通过反思与改进,我们可以不断提升自己的数据分析技能,为未来的工作提供更有价值的支持和见解。
总结:数据分析是一项复杂而重要的任务,它需要我们具备扎实的统计学和编程基础,以及灵活运用各种数据分析工具和方法的能力。
第六章数据的分析
本章的主要内容包括:算术平均数、加权平均数、中位数、众数、极差、方差、标准差的概念与计算;从统计图分析数据的集中趋势以及离散程度.
本章是中考考查的重点内容,主要考查平均数、中位数、众数、极差、方差、标准差的求法及合理选用,利用它们的意义对现实生活中的问题进行评判是近几年中考的热点,命题形式灵活多样.
【本章重点】
平均数、中位数、众数、极差、方差、标准差的计算.
【本章难点】
正确选用平均数、中位数、众数和方差进行数据的描述和分析.
【本章思想方法】
1.掌握数形结合思想,如:从统计图中获取有用的信息,就是利用了数形结合思想.2.掌握方程思想,如:本章中常利用平均数、中位数、众数的意义,根据题意列出方程(组),通过解方程(组)解答问题.
1平均数1课时
2中位数与众数1课时
3从统计图分析数据的集中趋势1课时
4数据的离散程度1课时。
数据分析作业数据分析作业是数据分析课程中的一项重要任务,通过对给定的数据进行分析和解读,帮助学生提高数据分析能力和对实际问题的理解能力。
本篇文档将以一个具体的数据分析作业为例,介绍数据分析的基本流程和方法。
一、项目背景本次数据分析作业的背景是一个电商平台的销售数据分析。
该电商平台每天有大量用户在上面购买各种商品,平台方希望通过对这些销售数据的分析,了解用户的购买行为、商品的销售情况以及运营策略的有效性,以便为未来的决策提供参考。
二、数据收集与清洗在进行数据分析之前,首先需要收集和清洗原始数据。
本次数据分析作业使用的数据集包含了一段时间内的用户购买记录、商品信息、用户信息等。
数据集以CSV格式存储,包含多个字段,如用户ID、商品ID、购买数量、购买时间等。
在进行数据清洗时,需要检查数据的完整性和准确性,删除重复数据和异常值,并对缺失值进行处理。
三、数据探索与可视化分析数据清洗完成后,接下来可以进行数据探索和可视化分析。
数据探索的目的是通过使用统计学和可视化方法,对数据的特征和分布进行了解。
通过对用户购买记录和商品销售情况的分析,可以探索以下问题:1.用户消费行为的特征:如用户购买次数、购买金额分布、用户活跃度等。
2.商品销售情况的分析:如畅销商品排名、商品销售额分布、商品的销售趋势等。
3.不同时间维度的分析:如不同时间段内销售情况的变化、季节性特征等。
4.用户购买行为的特征与商品属性的关联:如用户购买的商品类别分布、商品属性对用户购买行为的影响等。
在数据探索的过程中,可以使用各种统计学和可视化工具,如直方图、散点图、箱型图、折线图等。
通过这些分析和可视化结果,可以发现数据的规律和趋势,为后续建模和预测做准备。
四、数据建模与预测在数据探索的基础上,可以进行数据建模和预测。
数据建模是指使用数学或统计的方法,通过对已有数据进行拟合和预测,得到对未来数据的预测结果。
常见的数据建模方法包括回归分析、时间序列分析、聚类分析、关联规则挖掘等。
《数据的复习与比较》复习【学习目标】1.回顾思考本章内容,进一步掌握平均数、加权平均数、极差、方差的计算方法,理解它们的统计意义及它们在实际问题中的具体涵义,了解它们在生产和日常生活中的实际应用,学会对数据的特征性质进行概括、分析和比较;2.能熟练地进行平均数、加权平均数、极差、方差及其计算,能够说出具体问题的统计意义;3.接触生活中的数据相信,激发自己学习数学的热情.【体验学习】一、自主探究阅读教材P170 《小结与复习》,回答以下问题:1.本章学习了加权平均数、极差、方差等概念,请说说计算一组数据的平均数、加权平均数、极差、方差的计算方法.2.平均数、极差、方差等概念从不同的角度反映一组数据的特征性质,请分别说出它们的统计意义及它们在实际问题中的具体涵义.三、合作交流1.已知一组数据为2、0、-1、3、-4,则这组数据的方差为.2.甲、乙两名学生在相同的条件下各射靶10次,命中的环数如下:甲:7、8、6、8、6、5、9、10、7、4;乙:9、5、7、8、7、6、8、6、7、7.经过计算,两人射击环数的平均数相同,但甲的方差乙的方差(比较大小),所以确定______去参加比赛。
3.甲、乙两台机床生产同种零件,10天出的次品分别是()甲:0、1、0、2、2、0、3、1、2、4乙:2、3、1、2、0、2、1、1、2、1分别计算出两个样本的平均数和方差,根据你的计算判断哪台机床的性能较好?4.小爽和小兵在10次百米跑步练习中成绩如表所示:(单位:秒)如果根据这几次成绩选拔一人参加比赛,你会选谁呢?四、实践应用1. 从甲、乙两种农作物中各抽取1株苗,分别测得它的苗高如下:(单位:cm )甲:9、10、11、12、7、13、10、8、12、8; 乙:8、13、12、11、10、12、7、7、9、11; 问:(1)哪种农作物的苗长的比较高? (2)哪种农作物的苗长得比较整齐?2. 小明和小强两人参加体育项目训练,近期的5次测试成绩如下表所示,谁的成绩比较稳定?为什么?【快乐链接】填空:1. 如果一组数据1x ,2x ,…,5x 的平均数为x ,则另一组新数据11+x ,22+x ,…,55+x 的平均数为_________.2. 如果一组数据1x ,2x ,3x ,4x ,5x 的平均数是2,方差是31,那么另一组数据231-x ,232-x ,233-x ,234-x ,235-x 平均数为______,方差为________.【学海拾贝】请对照《小结与复习》,简单回顾本章《数据的分析与比较》学习的内容.。
数据分析作业(6)姓名:尹晨旭班级:信息与计算科学2班学号:13038069解:(1)由表1给出了观测值的KMO检验和Bartlett’s检验结果。
从表中可知KMO检验统计量的值较小,但Bartlett’s检验p值为0.000,说明样本数据来自多元正态总体,可尝试进一步分析。
由表2知hi2基本都在0.9以上,则提取两个公因子基本反映了每个原始变量所提供信息的90%以上。
表3为各因子的特征值、贡献率及累计贡献率。
可知,前两个公因子的累计贡献率为92.20%,因此,提取前两个公因子就可很好的反映原始四个变量所提供的信息。
碎石图进一步验证了该结论。
(2)由表4知载荷矩阵中f1的系数值都接近于1,不易解释实际意义,则考虑因子旋转。
左图进一步证实了这一点。
表5给出了作方差最大正交旋转后的公因子特征值,贡献率及累计贡献率。
可看出,f1的贡献率减少为55.19%,f2的贡献率增加为37.02%,但累计贡献率仍为92.20%。
因此,前两个因子仍可以很好的反映原始四个变量数据所提供的信息。
由表6知,旋转后的载荷矩阵中f1*的系数在-1~1间拉的很开,原煤,原油系数的绝对值较大,其他的都较小。
f2*的系数在-1~1间也拉的很开,天然气和水电、核电、风电为正,其他为负。
则因子1为化石能源,因子2为清洁能源。
(3)由表8可知各个公因子的得分表达式。
f1*=-0.511x1*-0.4x2*-0.192x3*+0.209x4*f2*=-0.320x1*-0.09x2*+0.716x3*+0.354x4*解:(1)由表1知KMO值较小,不太适合做因子分析,但球形检验的p值为0<0.05,着数据呈球形分布,可尝试做进一步分析。
(2)由表2知提取后的h i2基本都在0.9以上,故提取的两个公因子基本反映了每个原始变量所提供的信息的90%以上。
(3)由表3知前两个公因子的累计贡献率为93.40%,因此,提取前两个公因子可很好地反映原始变量所以提供的信息。
_____________________网店运营 __________________________________________ ×××职业中学学科教案本Teaching Plan20 年———20 年学年度 学期The (1st/2na)Semester of the Academic Year from 20 to 20学校(School )学科(Subject )年级(Grade ) 教师(Teacher )《网店运营》目录项目六数据分析任务一数据分析工具任务二网店运营数据分析教学课题任务一数据分析工具课题类型理实一体化课时安排2上课时间教学目标1.了解网店运营中常用的数据分析工具2.熟练运用网店数据分析的工具和方法3.培养对数据的敏锐度和敏感性,树立数据分析的意识4.具备电商数据化的运营思维教学重点了解网店运营中常用的数据分析工具熟练运用网店数据分析工具和方法教学难点养成对数据的敏锐度和敏感性,树立数据分析意识和电商数据化的运营思维辅助资源课件、多媒体、网络情景引入①通过《啤酒与尿布》的销售案例引入数据分析的重要性②常用的数据分析工具有哪些?教学手段教学过程师生互动活动设计情景教学情景设计:(参见教材)任务分解:了解以下几种常用的数据分析工具:生意参谋、千里眼、逐鹿工具箱。
活动1:生意参谋活动背景:想对网店运营数据进行分析,就必须借助数据分析工具,由于李丽是新手有点犯难,于是向刘部长主动请教。
刘部长给她推荐了一款常用的目前主流的数据分析工具——生意参谋。
通过生意参谋,经营者可以随时查看店铺的各项经营数据。
活动实施:。
第1步生意参谋的主要功能“想一想”教师利用PPT展现任务背景教师利用PPT展现任务环节。
学生分组讨论任务内容,并记录在实训记录表中。
李丽他们怎样进入“生意参谋”分析数据呢?课件演示教学1、首页生意参谋首页全面展示店铺经营全链路的各项核心数据,包括店铺实时数据、商品实时排行、店铺行业排名、店铺经营概况、流量分析、商品分析、交易分析、服务分析、营销分析和市场行情,如图6.1.1所示。
数据分析师岗位的工作职责职责:1.对运营数据进行监控分析,根据数据情况快速有效的定位问题并提出解决方案;2.对所运营的内容进行深入思考和分析,相关数据的收集、整理,形成专业分析报告和实施建议,并提供数据分析支持;3.完善数据分析标准体系与分析模型,并向业务人员提出需求;4.整理分析营销运营指标,量化指标,搭建多维数据,分析用户来源、行为路径、转化率等运营核心数据,给各职能人员提供数据反馈和建议;5.理解业务运作逻辑,利用数据分析手段,及时发现业务流程中存在的问题,进行原因分析,提出解决方案并与业务人员沟通达成共识;6.从业务运作视角出发,对数据监测系统进行功能优化,通过各类数据分析发现业务趋势,输出公司所需的报告,反馈至各业务人员进行落地。
任职资格:1.计算机、统计学、会计、数学相关专业本科及以上学历;2.熟悉数据库基本编程及SQL语言,熟悉海量数据处理和性能优化;3.熟练使用Python语言中Pandas数据分析包;4.较强的数据处理能力,熟练操作E____cel,掌握Access等数据处理工具,以及其他Word、Powerpoint等Office办公软件;____具有____年以上咨询公司、运营商经营企划/数据分析等相关工作经验;6.掌握数据分析基本流程,要有敏锐的数据感觉,良好的快速学习吸收能力。
数据分析师岗位的工作职责(二)职责:1、搜集相关的外汇市场咨询,完善外汇品种资料库2、研究外汇市场相关制度,分析外汇市场相关制度3、完成外汇演讲讲座,定期为需求者讲解外汇市场最近趋势,以及对需求者进行交易指导4、对基本面、技术面进行分析研究,给出行情走势分析和判断,撰写研究报告上交公司,供相关部门参考和使用任职要求:1、年龄:____岁,五官端正,性格开朗,善于沟通,2、本科以上学历、专业不限、经验不限,免费提供0基础岗前培训3、有经验者、金融相关专业者、有金融从业相关证件者优先录取4、退伍军人和应届毕业生优先录取、免费提供0基础岗前培训5、热爱金融行业,有励志于长期发展这个行业的意愿6、接受免费统一的专业学习培训和模拟训练;7、认同公司的发展理念,愿意与公司共同发展,具有很强的工作责任心和团队合作精神。
数据需求分析岗位职责数据需求分析岗位是数据团队中的关键角色之一,负责与业务团队合作,理解和挖掘业务需求,提出合理的数据需求,并协调数据团队完成相应的数据分析工作。
在数据驱动的时代,数据需求分析岗位的职责变得越来越重要和复杂。
1. 业务沟通与需求理解数据需求分析岗位需要与业务团队进行密切的沟通,在业务需求提出阶段,深入理解业务过程和业务目标,挖掘业务方面的数据需求。
通过与业务团队的交流,收集并整理相关的需求信息,明确分析目标和范围。
2. 数据收集与整理数据需求分析岗位需要对相关数据进行收集和整理,确保数据的准确性和完整性。
从各个渠道、系统和数据源中获取数据,并进行数据清洗、去重和整合,为后续的数据分析提供高质量的数据基础。
3. 数据分析需求提出根据业务团队的需求和数据情况,数据需求分析岗位需要提出合理的数据分析需求,包括但不限于数据的维度、指标和分析方法。
在提出需求时,考虑业务目标和数据可行性,为数据分析工作提供指导和支持。
4. 数据分析工作协调作为数据需求分析岗位,需要协调数据团队的工作,确保数据分析工作的顺利进行。
与数据团队的程序员、工程师和分析师密切合作,明确分析任务和进度安排,协调资源和工作分配,保证分析工作按时交付,并及时沟通和解决问题。
5. 数据结果呈现与报告数据需求分析岗位需要将分析结果进行整理和呈现,为业务团队提供清晰、简洁和易于理解的数据报告。
通过可视化和图表展示数据分析结果,帮助业务团队更好地理解数据,并做出相应的决策。
6. 数据需求优化与改进数据需求分析岗位需要持续关注业务需求的变化和发展,及时优化和改进数据需求和分析方式。
通过与业务团队的反馈和沟通,找出数据需求中的问题和瓶颈,并提出相应的优化建议和改进方案,不断提升数据分析的质量和效果。
7. 数据需求管理和存档数据需求分析岗位需要对数据需求进行管理和存档,确保数据的安全和可追溯性。
建立和维护数据需求的文档和数据库,记录和归档数据需求的相关信息,便于查询和追踪,为数据分析工作提供良好的基础和依据。
电商业务员岗位职责一、岗位概述电商业务员在电子商务领域扮演着重要角色,负责公司产品或服务的在线销售和推广工作。
他们需要通过各种数字渠道,如网站、社交媒体和电子邮件,与客户进行沟通和合作,以实现销售目标。
二、主要职责1.制定销售策略:负责制定电商销售策略,包括定价、促销活动和产品推广方案,以提高销售业绩。
2.寻找客户资源:积极寻找潜在客户资源,建立和维护客户关系,开拓市场,扩大客户群体。
3.客户沟通:通过在线渠道与客户沟通,解答客户疑问,解决问题,促成交易。
4.销售跟踪:跟踪销售进展,及时更新销售数据和客户信息,分析销售状况,制定改进方案。
5.售后服务:负责处理客户售后问题,提供解决方案,提高客户满意度,维护客户忠诚度。
6.数据分析:根据销售数据和市场趋势分析,为销售决策提供支持和建议。
7.团队合作:与团队成员密切合作,协调各部门资源,共同完成销售任务。
三、任职要求1.学历要求:本科及以上学历,市场营销、电子商务等相关专业优先。
2.技能要求:具备良好的沟通能力、谈判能力和销售技巧,熟练运用办公软件。
3.经验要求:具有一定的电商销售或客户服务经验者优先。
4.性格特征:积极向上、有责任心、具备团队合作精神,具备抗压和执行力。
四、发展前景随着电子商务的迅速发展,电商业务员将会有更广阔的发展空间。
未来,电商业务员还将面临更多的挑战和机遇,需要不断学习和提升自己的专业技能,以适应市场变化。
五、总结电商业务员是电子商务领域中至关重要的一环,他们通过与客户的沟通和合作,实现产品销售目标,推动企业发展。
希望通过本文对电商业务员岗位职责的介绍,能够帮助读者更深入了解这一职业,为未来的职业规划提供参考。
第13教案课题:模块六分析市场调查数据(1)目的要求(知识点、能力点、素质点):1.熟悉定性分析的操作要领;2.熟悉定量分析的操作要领;教学重点及难点:定性分析的操作要领;定量分析的操作要领。
教学方法及手段:讲授法、案例分析法;多媒体;练习。
学法指导:动手分析市场调查数据。
教学过程设计:(附后)创新点:课后小结:作业布置:教学过程设计:模块六分析市场调查数据6.1 常用的统计方法1、变量类型在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。
(1)定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。
问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。
对于定类变量,加减乘除等运算是没有实际意义的。
(2)定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。
问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
(3)定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。
有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。
定比变量取值为“0”时,则表示“没有”。
上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。
而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0℃”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。
一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。
比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。
由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。
对于缺失值的处理在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。
可以接受的标准是,缺失值的数量在10%以下。
处理缺失值的方法有下面4种:(1)用一个样本统计量的值代替缺失值缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。
由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。
如在收入或者年龄问题中出现缺失值,可以使用收入、年龄的平均值代替缺失值。
(2)用从一个统计模型计算出来的值去代替缺失值另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。
如“个人收入”、“ 年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。
根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。
(3)将有缺失值的个案删除将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。
(4)将有缺失值的个案保留,仅在相应的分析中做必要的删除将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。
调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。
2、统计方法根据研究的目的与要求,要选择不同的统计方法。
如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算百分比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。
在学习掌握这些统计方法的同时,还应该会熟练使用相关的统计软件,因为很多统计方法靠手工计算是难以完成的。
现在普遍使用的统计软件是SPSS、SAS。
下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分,介绍一些常用的统计方法,主要介绍如何应用这些方法,并列举模拟的例子,给出相应的用SPSS统计软件分析的结果,使读者能够较快地学会使用这些方法。
6.2 单变量分析1、频数和百分比所谓频数(Frequencies),时变量某一个去值的个案数;所谓百分比(Percentage),是表示该取值的个案数占总样本的比例,即频数/样本量×100%。
将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。
频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。
【例如】表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。
第二列是“变量取值”,即:“1”至“5”分别代表了“非常不好”到“非常好”,其中“.”代表缺失值,即有些人没有回答此题;第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好”有16样本、认为“好”的有216个样本、认为“一般”的有193人、认为“不好”的有10个样本、认为“非常不好”的有1个人,而没回答此题约有65人。
第四列是“百分比”,是频数对样本量(501人)的比率。
第五列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例,这里有效个案数是436人。
第六列是“累计百分比”,是对有效百分比的逐行累加的结果。
从对该题的频数分析的结果来看,对A品牌广告的评价总的来说还是倾向于比较好的,所有的样本中,认为“不好”或者“非常不好”的比例合计只有2.5%,即占样本2.5%的人不喜欢A品牌的广告。
频数和百分比计算中,百分比大小比较是一个相对的概念,频数大小则是绝对的数值,在市场分析报告中,经常利用百分比来说明结果,但是有时也需要频数进一步的说明之间的差异。
在比较两个公司的营业额的增长幅度时,A公司和B公司的经营规模差异巨大的情况下,虽然A公司的增长幅度没有B公司快,这是因为A公司的实际规模可能是B公司的几十倍,在这种情况下,也需要比较增长的实际数额,才能全面的说明问题。
2、指数指数(Index)的计算方法很多,最常用的一种方法是,将一些待比较的数字中的一个特定的数字定为基数100,计算其他数字相对于基数的百分数。
用各种指数来描述和比较一些特定的市场的问题,既方便又直观。
定义适当的指数不但可以进行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。
为了说明20多年来广告的发展情况,可以1978广告营业额作为基数,计算以后每年广告经营额与基数的百分比,如果小于100的指数表明广告经营额的负增长,如果大于100的指数,代表增长,而且还能够计算出来增长的幅度。
指数的使用和计算方法多种多样,在使用时要注意几个问题:首先,自定义指数时,应以简便的、合理的描述研究结果为原则;在自定义指数时,在考虑定义的合理性和科学性的基础上,还需要考虑其计算是否方便可行。
因此使用指数进行比较时,首先应该查阅和参考那些已经明确定义的、使用广泛的指数,避免重复制造。
其次,在应用这些指数的概念时,还必须详细了解其定义和计算方法,以便正确的使用。
目前国内的《中国统计年鉴》和各个省市的《统计年鉴》中,指数使用已经非常平常。
包括价格指数、消费指数、收入指数等,同时类似于房地产价格指数、股票价格指数等在相应的专业领域里使用的也是非常广泛。
最后,指数定义的基数一定要与研究目的紧密结合,根据调查的目的,确定是进行横向比较,还是进行纵向比较更为有效,从而确定基数的订立基准。
3、众数、中位数、均值和标准差用于描述一组市场调查数据或资料的中心的常用的统计量有三种:众数、中位数和平均数。
所谓众数(Mode),是表示一组数据中出现次数最多或最常见的数值。
在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取值。
变量的所有取值中频数最大的取值,如在消费者的教育程度问题里,初中学历程度选项最多,所以初中相对应的变量编码,就是众数。
众数适于描述定序和定类变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近似的认为是该变量的众数。
中位数(Median)表示一组数据按照大小的顺序排列时,中间位置的那个数值,即针对某个变量,有50%的个案的取值在中位数以下。
通俗的讲,样本的所有观测值中,有一半数比中位数大,有一半数比中位数小。
中位数的计算时会面临两种情况:当样本数(n)是奇数时,将样本的所有观测值按由小到大(或由大到小)的顺序排列,排在中间位置上的数值即为中位数;当样本为偶数时,排在中间两个位置上的数值的平均值即为中位数。
中位数适用于定序变量,对于定距变量,还是首先对观测值进行分组,简单的方法就是用中间那一组的组中值作为变量的中位数。
平均数(Mean)也叫均值,等于样本的所有n个观测值之和除以样本量。
假设n 个观测值用x1,x2,……x n表示,均值用x 表示,均值的公式为:这里公式(2)是针对分组的数据而言,其中X表示某变量的取值,f 表示变量落在某一组中的频数,∑ 表示对所有的值求和(或者对所有的组求和)。
平均数是最典型也是最常用的统计量,适用于定距变量和定比变量。
平均数也是最有“意义”的统计量,它可以看作是数据的“平衡点”或“重心”位置所在。
因为中位数在计算时,使用到了所有的数据,所以与众数和中位数相比,所包含的信息量最大。
但是平均数受受极端值的影响很大,个别的极端值会直接影响平均数的熟知的变化,不如中位数和众数稳定。
因此当调查的数据分布比较规则,不存在什么极端值,或数据对中心的偏离不是很大的情况下,平均数是很好的描述统计量;如果存在极端值或分布步偏离比较大时,还必须使用众数和中位数的来补充描述。
众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。
对变量的分布形状的描述,最常用的统计量是方差或标准差。