数据的统计描述和分析
- 格式:docx
- 大小:56.52 KB
- 文档页数:13
描述性统计报告范文引言描述性统计是一种重要的数据分析方法,它能够通过对数据进行整理、概括和总结,为我们提供了解数据的基本特征和趋势的有效工具。
本文通过对一组样本数据进行描述性统计分析,从多个角度对数据进行了详细的描述和解释。
数据来源本文所使用的数据是从一份市场调查问卷中收集到的,该问卷涵盖了消费者对某品牌汽车的偏好和购买意愿等信息。
总共收集到了200份有效问卷,每份问卷包含以下几个变量:•变量A:年龄(连续变量)•变量B:性别(离散变量,男/女)•变量C:收入(连续变量)•变量D:教育程度(离散变量,高中及以下/本科/研究生及以上)•变量E:购买意愿(离散变量,不愿购买/可能购买/肯定购买)描述性统计分析年龄分布分析首先我们对受访者的年龄进行了分布分析。
根据样本数据统计结果,受访者的年龄在18岁到65岁之间,平均年龄为35岁,标准差为10岁。
年龄分布图显示,年龄呈正态分布,集中在30岁左右。
性别分布分析在性别方面,受访者中男性占60%,女性占40%。
进一步分析发现,男性和女性在购买意愿上存在一定的差异。
男性中,不愿购买的比例为30%,可能购买的比例为50%,肯定购买的比例为20%;女性中,不愿购买的比例为50%,可能购买的比例为40%,肯定购买的比例为10%。
可以看出,男性对该品牌汽车的购买意愿要大于女性。
收入分布分析收入是一个关键的因素,能够反映消费者的购买能力。
根据样本数据统计结果,受访者的平均收入为10000元,标准差为3000元。
收入分布图显示,大部分受访者的收入集中在8000元到12000元之间,呈正偏态分布。
教育程度分布分析教育程度是影响消费者决策的另一个重要因素。
根据样本数据统计结果,受访者中,高中及以下学历的比例为40%,本科学历的比例为50%,研究生及以上学历的比例为10%。
进一步分析发现,不同教育程度的人群在购买意愿上存在一定的差异。
高中及以下学历的人群中,不愿购买的比例为50%,可能购买的比例为40%,肯定购买的比例为10%;本科学历的人群中,不愿购买的比例为40%,可能购买的比例为50%,肯定购买的比例为10%;研究生及以上学历的人群中,不愿购买的比例为30%,可能购买的比例为40%,肯定购买的比例为30%。
数据统计与分析教案一、教学目标1. 知识与技能:理解数据收集、整理、描述和分析的基本方法。
学会使用图表来展示数据,包括条形图、折线图和饼图。
掌握简单的统计量计算,如平均数、中位数和众数。
能够运用数据分析来解决实际问题。
2. 过程与方法:培养学生的数据收集、整理和分析能力,发展学生的数据分析思维。
学会从数据中提取有用的信息,对数据进行合理的解释和分析。
学会与他人合作,交流分析过程和结论。
3. 情感态度价值观:培养学生对数据的敏感性,认识到数据在生活中的重要性。
培养学生解决问题的能力,增强对数学和统计学科的兴趣。
二、教学内容1. 数据收集与整理:学习如何设计调查问卷,收集数据。
学习如何整理数据,包括分类、排序和筛选。
2. 数据描述:学习使用图表来描述数据,包括条形图、折线图和饼图。
学习使用数学语言来描述数据的特征,如平均数、中位数和众数。
三、教学重点与难点1. 教学重点:数据收集、整理、描述和分析的基本方法。
使用图表来展示数据,包括条形图、折线图和饼图。
计算平均数、中位数和众数。
2. 教学难点:对数据的合理解释和分析。
数据的整理和分析能力。
四、教学方法采用问题驱动的教学方法,让学生通过解决实际问题来学习数据统计与分析。
使用案例分析和小组讨论的方式,培养学生的合作和交流能力。
提供实践操作的机会,让学生通过实际操作来加深对数据统计与分析的理解。
五、教学评价评价学生的数据收集、整理和分析能力,通过小组讨论和口头报告来进行。
评价学生的图表绘制能力,通过作业和测试来进行。
评价学生对数据分析的理解和应用能力,通过解决实际问题的作业和测试来进行。
六、教学准备准备相关的数据集,用于教学示例和练习。
准备图表绘制工具,如电子表格软件或绘图软件。
准备教学材料,包括PPT、案例研究和问题练习。
七、教学过程1. 导入:通过引入一个实际问题,引起学生对数据统计与分析的兴趣。
引导学生思考数据在解决问题中的作用。
2. 新课内容:使用PPT展示数据统计与分析的基本概念和方法。
统计学中的描述性统计分析方法统计学是一门研究数据收集、整理、分析和解读的学科,它可以帮助我们更好地理解和解释数据。
描述性统计是统计学中的一个重要分支,旨在总结和揭示数据的基本特征。
在本文中,我们将介绍统计学中常用的描述性统计分析方法。
一、数据收集与整理描述性统计分析的第一步是数据收集,通过合适的调查问卷、实验或观察,我们可以获取所需的数据。
在数据收集完成后,我们需要对数据进行整理和准备,以便后续的分析。
二、测量指标在描述性统计中,我们常用各种测量指标来描绘数据的中心趋势、离散程度以及数据之间的关联性。
1. 中心趋势测量中心趋势测量用来反映数据集中的一个“典型值”。
(1)平均数(Mean):平均数是数据集中所有观测值的总和除以观测值的数量。
它可以用来衡量数据的总体情况。
(2)中位数(Median):中位数是将数据集按大小顺序排列后的中间值。
它可以忽略异常值的影响,更好地反映数据的中心位置。
(3)众数(Mode):众数是数据集中出现频率最高的值。
它在描述分类数据时特别有用。
2. 离散程度测量离散程度测量用来反映数据集的分散程度。
(1)标准差(Standard Deviation):标准差是数据集各个观测值与平均数之间的偏离度的平均值。
它反映了数据的总体分散程度。
(2)方差(Variance):方差是各个观测值与平均数之间偏离度的平方的平均值。
它是标准差的平方。
(3)极差(Range):极差是数据集中最大值与最小值之间的差值。
它可以用来衡量数据的全局范围。
三、数据可视化数据可视化是描述性统计分析中非常重要的一部分。
通过图表和图形的方式展示数据,可以使数据的特征更加直观地呈现出来。
1. 条形图(Bar Chart):条形图用于对比不同类别或组之间的数据差异。
2. 折线图(Line Chart):折线图可以展示变量随时间的变化趋势。
3. 饼图(Pie Chart):饼图适用于展示分类数据的比例关系。
4. 散点图(Scatterplot):散点图可以直观地显示两个变量之间的关系。
实验数据统计分析方法在科学研究、工业生产、社会调查等众多领域中,实验数据的统计分析是得出有价值结论、做出科学决策的关键步骤。
它能够帮助我们从大量看似杂乱无章的数据中发现规律、揭示关系、评估效果,从而为进一步的研究和实践提供有力的支持。
接下来,让我们一起深入探讨一下常见的实验数据统计分析方法。
一、描述性统计分析描述性统计分析是对数据的基本特征进行概括和描述,让我们对数据有一个初步的了解。
这就好像是给数据画一幅“肖像”,让我们能一眼看出数据的大致模样。
1、均值均值就是所有数据的平均值。
计算方法是将所有数据相加,然后除以数据的个数。
均值能够反映数据的集中趋势,但它容易受到极端值的影响。
比如说,有一组数据:10、20、30、40、500。
这组数据的均值是(10 + 20 + 30 + 40 + 500)÷ 5 = 120。
可以看到,由于 500 这个极端大的值,使得均值被拉高了很多。
2、中位数中位数是将数据按照从小到大或从大到小的顺序排列后,位于中间位置的数值。
如果数据个数是奇数,中位数就是中间那个数;如果数据个数是偶数,中位数就是中间两个数的平均值。
对于上面那组数据,排列后为10、20、30、40、500,中位数是30。
与均值相比,中位数不容易受到极端值的影响,更能反映数据的中间水平。
3、众数众数是数据中出现次数最多的数值。
比如,一组数据:1、2、2、3、3、3、4、4、4、4,众数就是 4。
众数可以帮助我们了解数据的最常见取值。
4、极差极差是数据中的最大值减去最小值,反映了数据的离散程度。
5、方差和标准差方差和标准差则更精确地衡量了数据的离散程度。
方差是每个数据与均值之差的平方的平均值,标准差是方差的平方根。
二、推断性统计分析推断性统计分析则是基于样本数据对总体的特征进行推断和估计。
1、假设检验假设检验是先提出一个关于总体参数的假设,然后通过样本数据来判断这个假设是否成立。
比如说,我们想知道一种新药物是否能显著提高患者的治愈率。
报告中的统计描述和解释步骤统计描述和解释是研究和实践中常用的数据分析方法。
在各个领域,从经济学到医学,从社会学到心理学,都会用到统计描述和解释。
精确的数据描述可以帮助我们理解现象的变化和趋势,提供依据,支持决策。
本文将从统计描述和解释的概念、意义和目的出发,讲解报告中的六个具体步骤,以帮助读者更好地应用统计描述和解释。
一、收集数据为了进行统计描述和解释,首先需要收集相关的数据。
数据可以是定量数据,也可以是定性数据。
定量数据是通过数值来度量和表示的,如年龄、收入等;定性数据则是通过描述性的词语来表示的,如性别、学历等。
数据的收集可以通过问卷调查、实地观察、实验设计等方式来完成。
二、整理数据在收集到数据之后,需要进行数据的整理和清洗。
这一步骤包括数据的录入、检查和处理。
数据的录入过程中要注意减少误差,确保数据的准确性。
检查数据时要注意发现和纠正数据的异常和缺失值。
处理数据包括去除离群值、转换数据格式等操作,以便更好地进行后续的统计分析。
三、确定总体指标在开始进行统计描述和解释之前,需要确定要研究的总体指标。
总体指标是对整个数据集或人群的特征进行概括和描述的指标。
常见的总体指标包括均值、中位数、众数、标准差等。
通过确定总体指标,可以更好地理解整个数据的分布和特征。
四、进行描述性统计描述性统计是对数据进行初步的统计描述和分析。
它包括了一系列统计指标的计算和展示。
通过均值、中位数等指标,可以描述数据的集中趋势;通过标准差、方差等指标,可以描述数据的离散程度;通过频数和比例可以描述定性数据的分布。
在进行描述性统计时,要注意将结果以适当的图表形式展示出来,以便更好地理解和比较。
五、解释统计结果在进行统计描述之后,需要对结果进行解释。
解释统计结果是分析和理解数据所得到的结论,同时要注意将结果与研究问题联系起来。
在解释统计结果时要注意避免过度解读,以免出现错误的推断和假设。
六、提出建议和改进最后一步是根据统计结果提出建议和改进措施。
描述性统计分析方法描述性统计分析是指对收集到的样本数据进行整理、分析和总结的过程。
它旨在通过使用统计指标和图表来描述数据的特征和分布,以便更好地理解数据,发现其中的规律和趋势。
在进行描述性统计分析时,常用的方法包括中心趋势测度、离散程度测度、分布形态描述和相关性分析等。
一、中心趋势测度中心趋势测度是用来表示数据集中趋向于某个中心的位置。
常用的中心趋势测度包括均值、中位数和众数等。
1. 均值:均值是以所有数据的数值和除以数据个数的统计量,用来表示平均水平。
均值对异常值敏感,容易受到极端值的影响。
2. 中位数:中位数是将数据按照顺序排列后,位于中间位置的数值。
中位数不会受到极端值的影响,更能反映数据的普遍情况。
3. 众数:众数是一组数据中出现频率最高的数值,可用于描述具有离散分布的数据。
二、离散程度测度离散程度测度是用来表示数据集合中数据分散程度的方法。
常用的离散程度测度有范围、方差和标准差等。
1. 范围:范围是最大值和最小值的差值,可用来衡量数据的整体变化幅度。
范围对异常值敏感,易受到极端值的影响。
2. 方差:方差是各数据与均值差的平方和的平均数,用来描述数据的平均离散程度。
方差较大时,表示数据的离散程度较高。
3. 标准差:标准差是方差的平方根,用于度量数据相对于均值的离散程度。
标准差较大时,表明数据分散程度大。
三、分布形态描述分布形态描述是对数据分布形态特征进行描述的方法。
常用的分布形态描述包括偏度和峰度等。
1. 偏度:偏度描述了数据分布曲线相对于均值偏离的大小和方向。
偏度为正表示数据分布朝右偏,为负表示数据分布朝左偏,为0表示数据均匀分布。
2. 峰度:峰度描述了数据分布曲线的陡峭程度,反映了数据分布的尖峰与平顶程度。
峰度大于0表示数据分布曲线相对于正态分布更陡峭,小于0表示数据分布曲线相对于正态分布更平顶。
四、相关性分析相关性分析用来研究两个变量之间的相关关系。
常用的相关性分析方法有协方差和相关系数。
报告中的变量分析和描述性统计引言:在进行统计分析时,变量分析和描述性统计是非常重要的步骤。
变量分析帮助我们了解变量的性质和特征,而描述性统计则提供了对数据的整体概括和描述。
本文将探讨报告中的变量分析和描述性统计的各个方面。
一、变量分析的概念和目的1.1 变量的概念变量是指在研究中可以被观察或测量的属性。
它可以是定量的,如年龄、收入;也可以是定性的,如性别、职业。
了解变量的性质对分析结果的解释和应用具有重要意义。
1.2 变量分析的目的变量分析的目的是通过对变量的研究和分析,揭示其内在规律和特点。
通过对变量的分析,可以进一步理解研究主题,并为后续的统计分析提供基础。
二、变量分析的方法和技巧2.1 单变量分析单变量分析是对单个变量进行分析的方法。
常用的单变量分析方法包括频数分析、百分比分析、均值分析等。
通过单变量分析,可以了解变量的分布情况和总体特征。
2.2 多变量分析多变量分析是对多个变量之间的关系进行分析的方法。
常用的多变量分析方法包括相关分析、回归分析、因子分析等。
通过多变量分析,可以了解变量之间的相互影响和关系,进一步深入研究问题。
三、描述性统计的概念和应用3.1 描述性统计的概念描述性统计是对数据进行概括和总结的统计方法。
通过描述性统计,可以了解数据的中心趋势、分散程度和形态特征。
常用的描述性统计指标包括均值、标准差、中位数等。
3.2 描述性统计的应用描述性统计可以帮助我们对数据集的整体特征进行了解和把握。
在报告中使用描述性统计指标,可以直观地呈现数据的分布情况,从而更好地展示研究结果和结论。
四、变量分析和描述性统计的实例应用4.1 假设检验与描述性统计的结合应用假设检验是统计分析中常用的方法之一,通过对样本数据进行分析,推断总体参数的性质。
在假设检验中,借助描述性统计的指标,可以更好地理解和说明研究结果的可信度和意义。
4.2 变量分析与实证研究的关系和应用变量分析是实证研究中不可或缺的一环。
数据挖掘中的描述性统计分析方法数据挖掘是一种通过发现隐藏在大量数据中的模式、关联和趋势来提取有用信息的过程。
而描述性统计分析方法则是数据挖掘中的一种重要工具,它可以帮助我们对数据进行全面的理解和分析。
本文将介绍数据挖掘中常用的描述性统计分析方法,包括频数分析、中心趋势度量、离散程度度量和相关性分析。
频数分析是描述性统计分析中最基本的方法之一。
它用于统计变量的取值频率,从而了解变量的分布情况。
例如,我们可以通过频数分析来了解某个产品在不同地区的销售情况,或者某个疾病在不同年龄段的发病率。
通过对频数分布的分析,我们可以发现数据中的规律和趋势,为后续的数据挖掘工作提供重要的参考依据。
中心趋势度量是描述性统计分析中用于衡量数据集中心位置的方法。
常见的中心趋势度量包括均值、中位数和众数。
均值是指所有数据的平均值,它能够反映数据的总体水平。
中位数是指将数据按照大小排序后,位于中间位置的数值,它能够反映数据的中间位置。
众数是指在数据集中出现频率最高的数值,它能够反映数据的典型特征。
通过对中心趋势度量的分析,我们可以了解数据的集中程度和分布形态,为后续的数据挖掘工作提供重要的参考依据。
离散程度度量是描述性统计分析中用于衡量数据集离散程度的方法。
常见的离散程度度量包括标准差、方差和极差。
标准差是指数据与均值之间的差异程度,它能够反映数据的波动情况。
方差是指数据与均值之间差异程度的平方,它能够反映数据的离散程度。
极差是指数据集中最大值与最小值之间的差异程度,它能够反映数据的全局范围。
通过对离散程度度量的分析,我们可以了解数据的分散程度和波动情况,为后续的数据挖掘工作提供重要的参考依据。
相关性分析是描述性统计分析中用于衡量变量之间关联程度的方法。
它可以帮助我们了解变量之间的相互影响和依赖关系。
常见的相关性分析方法包括皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数用于衡量两个连续变量之间的线性关系,它的取值范围为-1到1,其中1表示完全正相关,-1表示完全负相关,0表示无关。
统计分析方法有哪几种统计分析方法是一种通过数理统计学方法对数据进行整理、描述、分析和演绎的过程。
下面我将介绍一些常用的统计分析方法,包括描述统计、推断统计、相关分析、回归分析、方差分析和聚类分析等。
1. 描述统计描述统计是对数据进行整理、描述和总结的方法。
常用的描述统计方法包括测量数据的中心趋势(如均值、中位数、众数)、离散程度(如方差、标准差、极差)、数据的分布形态(如正态分布、偏态分布)等。
通过描述统计可以对数据的特征有一个整体了解,为进一步的分析提供基础。
2. 推断统计推断统计是利用已有的样本数据,对总体的参数进行推断的方法。
常用的推断统计方法包括参数估计和假设检验。
参数估计是通过样本数据估计总体参数的值,常用的方法有点估计和区间估计。
假设检验是通过对样本数据进行分析,判断总体参数的值是否符合某个特定的假设,常用的方法有t检验、F检验等。
3. 相关分析相关分析是用来探究变量之间是否存在某种相关关系的方法。
常用的相关分析方法包括相关系数和回归分析。
相关系数是用来衡量两个变量之间线性相关程度的指标,常用的相关系数有Pearson相关系数和Spearman相关系数。
回归分析是通过拟合一个数学模型,描述一个或多个自变量对因变量的影响程度和变化趋势。
4. 回归分析回归分析是一种用来探究因变量与自变量之间关系的统计方法。
在回归分析中,通过建立数学模型来描述因变量与自变量之间的关系,常用的回归分析方法有线性回归、多项式回归、逻辑回归等。
回归分析可以用来预测因变量的值,并分析自变量对因变量的影响程度和方向。
5. 方差分析方差分析是一种用来比较两个或多个组间差异显著性的方法。
方差分析可以用来判断一个因素对某个测量指标的影响是否显著,并比较不同水平之间差异的大小。
常用的方差分析方法有单因素方差分析、双因素方差分析、重复测量方差分析等。
6. 聚类分析聚类分析是一种将样本数据划分为若干个互不重叠的群组的方法。
聚类分析通过寻找数据中的相似性,将具有相似特征的样本划分到同一组,形成聚类结构。
第十章数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计 是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息 的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数 据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推 断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统 计的最基本方法。 我们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。
§ 1 统计的基本概念 1.1总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品 及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如 x)来表示,如 一件产品是合格品记 X =0,是废品记x =1 ; 一个身高170(cm)的学生记X = 170。
从总体中随机产生的若干个个体的集合称为样本,或子样,如 n件产品,100名 学生的身高,或者一根轴直径的 10次测量。实际上这就是从总体中随机取得的一批数 据,不妨记作x1,x2 ,L ,xn, n称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对 这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出 一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助 Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1学生的身高和体重 学校随机抽取100名学生,测量他们的身高和体重,所得数据如表
身高 体重 身高 体重 身高 体重 身高 体重 身高 体重 172 75 169 55 169 64 171 65 167 47 171 62 168 67 165 52 169 62 168 65 166 62 168 65 164 59 170 58 165 64
160 55 175 67 173 74 172 64 168 57 155 57 176 64 172 69 169 58 176 57
173 58 168 50 169 52 167 72 170 57 166 55 161 49 173 57 175 76 158 51 170 63 169 63 173 61 164 59 165 62
167 53 171 61 166 70 166 63 172 53 173 60 178 64 163 57 169 54 169 66 178 60 177 66 170 56 167 54 169 58
173 73 170 58 160 65 179 62 172 50 163 47 173 67 165 58 176 63 162 52 165 66 172 59 177 66 182 69 175 75 170 60 170 62 169 63 186 77 174 66
163 50 172 59 176 60 166 76 167 63 172 57 177 58 177 67 169 72 166 50
182 63 176 68 172 56 173 59 174 64 171 59 175 68 165 56 169 65 168 62 177 64 184 70 166 49 171 71 170 59
(i) 数据输入 数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量 比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt中, 格式如例1的表格,有20行、10列,数据列之间用空格键或 Tab键分割,该数据文 件data.txt存放在matlab'work子目录下,在 Matlab中用load命令读入数据,具体作 法是: load data.txt 这样在内存中建立了一个变量 data,它是一个包含有20 10个数据的矩阵。
为了得到我们需要的100个身高和体重各为一列的矩阵,应做如下的改变: high=data(:,1:2:9);high=high(:) weight=data(:,2:2:10);weight=weight(:) (ii) 作频数表及直方图 用hist命令实现,其用法是:
[N,X] = hist(Y,M) 数组(行、列均可) Y的频数表。它将区间[min(Y),max(Y)]等分为M份(缺省时M
设定为10),N返回M个小区间的频数,X返回M个小区间的中点。
hist(Y,M) 数组Y的直方图。
对于例1的数据,编写程序如下: load data.txt; high=data(:,1:2:9);high=high(:); weight=data(:,2:2:10);weight=weight(:); [n 1,x1]=hist(high) %下面语句与hist命令等价
%n 1=[le ngth(fi nd(high<158.1)),...
subplot(1,2,2) hist(weight) 计算结果略,直方图如下图所示:
% len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high> % len gth(fi nd(high>
158.1 &high<161.2)),. 161.2&high<164.5)),. 164.5&high<167.6)),. 167.6&high<170.7)),. 170.7&high<173.8)),. 173.8&high<176.9)),. 176.9&high<180)),... 180&high<183.1)),... 183.1))] [n 2,x2]=hist(weight) subplot(1,2,1) hist(high) 从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不 出什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓 “统计量”。直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据 对分布作假设检验。 例2 统计下列五行字符串中字符 a、g、c、t出现的频数 1. aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg 2. cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga 3. gggacggatacggattctggccacggacggaaaggaggacacggcggacataca 4. atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta 5. cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc 解 把上述五行复制到一个纯文本数据文件 shuju.txt中,放在 matlab'work子目录
下,编写如下程序:
clc fid仁 fope n( 'shuju.txt' ,‘r'); i=1; while (~feof(fid1)) data=fgetl(fid1); a=le ngth(fi nd(data==97)); b=le ngth(fi nd(data==99)); c=le ngth(fi nd(data==103)); d=le ngth(fi nd(data==116)); e=le ngth(fi nd(data>=97&data<=122)); f(i,:)=[a b c d e a+b+c+d]; i=i+1; end
he=[sum(f(:,1)) sum(f(:,2)) sum(f(:,3)) sum(f(:,4)) sum(f(:,5)) sum(f(:,6))] fid2=fope n( 'pinshu.txt' , 'w') 5 fprin tf(fid2, '%8d %8d %8d %8d %8d %8d\n' ,f);
fclose(fid1);fclose(fid2);
我们把统计结果最后写到一个纯文本文件 pinshu.txt中,在程序中多引进了几个变 量,是为了检验字符串是否只包含 a、g、c、t四个字符。
1.3 统计量 假设有一个容量为n的样本(即一组数据),记作X =(X1,X2,L ,Xn),需要对它 进行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。 统 计量就是加工出来的、反映样本数量特征的函数,它不含任何未知量。
? ? a ? 0
0