用身高和体重数据进行性别分类的实验报告
- 格式:doc
- 大小:308.00 KB
- 文档页数:18
模式识别第一次作业报告姓名:刘昌元学号:099064370 班级:自动化092班题目:用身高和/或体重数据进行性别分类的实验基本要求:用famale.txt和male.txt的数据作为训练样本集,建立Bayes分类器,用测试样本数据test1.txt和test2.txt该分类器进行测试。
调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。
一、实验思路1:利用Matlab7.1导入训练样本数据,然后将样本数据的身高和体重数据赋值给临时矩阵,构成m行2列的临时数据矩阵给后面调用。
2:查阅二维正态分布的概率密度的公式及需要的参数及各个参数的意义,新建m函数文件,编程计算二维正态分布的相关参数:期望、方差、标准差、协方差和相关系数。
3.利用二维正态分布的相关参数和训练样本构成的临时数据矩阵编程获得类条件概率密度,先验概率。
4.编程得到后验概率,并利用后验概率判断归为哪一类。
5.利用分类器训练样本并修正参数,最后可以用循环程序调用数据文件,统计分类的男女人数,再与正确的人数比较得到错误率。
6.自己给出决策表获得最小风险决策分类器。
7.问题的关键就在于利用样本数据获得二维正态分布的相关参数。
8.二维正态分布的概率密度公式如下:试验中编程计算出期望,方差,标准差和相关系数。
其中:二、实验程序设计流程图:1:二维正态分布的参数计算%功能:调用导入的男生和女生的身高和体重的数据文件得到二维正态分布的期望,方差,标准差,相关系数等参数%%使用方法:在Matlab的命令窗口输入cansu(male) 或者cansu(famale) 其中 male 和 famale%是导入的男生和女生的数据文件名,运用结果返回的是一个行1行7列的矩阵,其中参数的顺序依次为如下:%%身高期望、身高方差、身高标准差、体重期望、体重方差、体重标准差、身高和体重的相关系数%%开发者:安徽工业大学电气信息学院自动化 092班刘昌元学号:099064370 %function result=cansu(file)[m,n]=size(file); %求出导入的数据的行数和列数即 m 行n 列%for i=1:1:m %把身高和体重构成 m 行 2 列的矩阵%people(i,1)=file(i,1);people(i,2)=file(i,2);endu=sum(people)/m; %求得身高和体重的数学期望即平均值%for i=1:1:mpeople2(i,1)=people(i,1)^2;people2(i,2)=people(i,2)^2;endu2=sum(people2)/m; %求得身高和体重的方差、%x=u2(1,1)-u(1,1)^2;y=u2(1,2)-u(1,2)^2;for i=1:1:mtem(i,1)=people(i,1)*people(i,2);ends=0;for i=1:1:ms=s+tem(i,1);endcov=s/m-u(1,1)*u(1,2); %求得身高和体重的协方差 cov (x,y)%x1=sqrt(x); %求身高标准差 x1 %y1=sqrt(y); %求身高标准差 y1 %ralation=cov/(x1*y1); %求得身高和体重的相关系数 ralation %result(1,1)=u(1,1); %返回结果 :身高的期望 %result(1,2)=x; %返回结果 : 身高的方差 %result(1,3)=x1; %返回结果 : 身高的标准差 %result(1,4)=u(1,2); %返回结果 :体重的期望 %result(1,5)=y; %返回结果 : 体重的方差 %result(1,6)=y1; %返回结果 : 体重的标准差 %result(1,7)=ralation; %返回结果:相关系数 %2:贝叶斯分类器%功能:身高和体重相关情况下的贝叶斯分类器(最小错误率贝叶斯决策)输入身高和体重数据,输出男女的判断%%使用方法:在Matlab命令窗口输入 bayes(a,b) 其中a为身高数据,b为体重数据。
SAS数据分析实验报告摘要:本文使用SAS软件对一组数据集进行了分析。
通过数据清洗、数据变换、数据建模和数据评估等步骤,得出了相关的结论。
实验结果表明,使用SAS软件进行数据分析可以有效地处理和分析大型数据集,得出可靠的结论。
1.引言数据分析在各个领域中都扮演着重要的角色,可以帮助人们从大量的数据中提取有用信息。
SAS是一种常用的数据分析软件,被广泛应用于统计分析、商业决策、运营管理等领域。
本实验旨在探究如何使用SAS软件进行数据分析。
2.数据集描述本实验使用了一个包含1000个样本的数据集。
数据集包括了各个样本的性别、年龄、身高、体重等多种变量。
3.数据清洗在进行数据分析之前,首先需要对数据进行清洗。
数据清洗包括缺失值处理、异常值处理和重复值处理等步骤。
通过使用SAS软件中的相应函数和命令,我们对数据集进行了清洗,确保数据的质量和准确性。
4.数据变换在进行数据分析之前,还需要对数据进行变换。
数据变换包括数据标准化、数据离散化和数据归一化等操作。
通过使用SAS软件中的变换函数和操作符,我们对数据集进行了变换,使其符合分析的需要。
5.数据建模数据建模是数据分析的核心过程,包括回归分析、聚类分析和分类分析等。
在本实验中,我们使用SAS软件的回归、聚类和分类函数,对数据集进行了建模分析。
首先,我们进行了回归分析,通过拟合回归模型,找到了自变量对因变量的影响。
通过回归模型,我们可以预测因变量的值,并分析自变量的影响因素。
其次,我们进行了聚类分析,根据样本的特征将其分类到不同的群组中。
通过聚类分析,我们可以发现样本之间的相似性和差异性,从而做出针对性的决策。
最后,我们进行了分类分析,根据样本的特征判断其所属的类别。
通过分类分析,我们可以根据样本的特征预测其所属的类别,并进行相关的决策。
6.数据评估在进行数据分析之后,还需要对结果进行评估。
评估包括模型的拟合程度、变量的显著性和模型的稳定性等。
通过使用SAS软件的评估函数和指标,我们对数据分析的结果进行了评估。
应⽤统计学上机⼯商管理学院《应⽤统计学》实验作业班级学号姓名上课教师2017年11⽉实验⼆建⽴数据⽂件1.建⽴⼀个数据⽂件记录试录⼊以下数据,并按要求进⾏变量定义。
数据:要求:将录⼊结果截图粘贴在作业题⽬答案处(变量视图和数据视图)。
(1)变量名同表格名,以“()”内的内容作为变量标签。
对性别(Sex)设值标签“男=0;⼥=1”。
(2)正确设定变量类型。
其中学号设为数值型;⽇期型统⼀⽤“mm/dd/yyyy“型号;⽣活费⽤货币型。
(3)变量值宽统⼀为10,⾝⾼与体重、⽣活费的⼩数位2,其余为0。
答案:1准备⼯作。
打开SPAA2选择变量视图,依次录⼊学号,姓名,性别等。
2.对⼤学⽣创业问题设计⼀份调查问卷。
要求格式正确,题⽬类型包括开放题、封闭题(单选、多选都有)、半封闭题三种类型,题⽬个数10-15个。
答案:3.⽤第2题得到的调查问卷进⾏模拟调查(10份),并将得到的结果录⼊到SPSS中,(1)将录⼊结果保存为xxx.sav⽂件,并将录⼊结果截图粘贴在作业题⽬答案处(变量视图和数据视图)。
答案:实验三数据的整理1. 某地区农科所为了研究该地区种植的两个⼩麦品种“中麦9号”、“豫展1号”产量的差异,从该地区的两个村庄各选5块⽥地,分别种植两个品种⼩麦,使⽤相同的⽥间管理,收获后,测得各个地块⽣产的⼩麦的千粒重(g)数据资料如表3-1所⽰。
表3-1 某地区⼩麦种植要求:量,并建⽴数据⽂件,完成分类汇总⼯作。
步骤:1.准备⼯作。
打开3-1⽂件,通过⽂件--打开,将⽂件放⼊打开窗⼝。
2.选择数据---分类汇总。
3.打开分类汇总窗⼝,将⼩麦品种放⼊分组变量对话框中,将千粒重放⼊变量摘要对话框中。
4.选择函数选项,在函数对话框中选择均值选项5.选择继续--确定,得出结果。
以此⽅式得出村对⼩麦千粒重的分类汇总。
2.某地20家企业的情况如表3-2所⽰。
表3-2 企业年产值与年⼯资总额要求:根据上述资料建⽴数据⽂件,并完成下列统计整理⼯作,并回答有关问题:(1)调⽤排序命令对企业按部门、年产值的主次顺序进⾏排序。
第1篇一、实验背景随着大数据时代的到来,数据挖掘技术逐渐成为各个行业的重要工具。
数据挖掘是指从大量数据中提取有价值的信息和知识的过程。
本实验旨在通过数据挖掘技术,对某个具体领域的数据进行挖掘,分析数据中的规律和趋势,为相关决策提供支持。
二、实验目标1. 熟悉数据挖掘的基本流程,包括数据预处理、特征选择、模型选择、模型训练和模型评估等步骤。
2. 掌握常用的数据挖掘算法,如决策树、支持向量机、聚类、关联规则等。
3. 应用数据挖掘技术解决实际问题,提高数据分析和处理能力。
4. 实验结束后,提交一份完整的实验报告,包括实验过程、结果分析及总结。
三、实验环境1. 操作系统:Windows 102. 编程语言:Python3. 数据挖掘库:pandas、numpy、scikit-learn、matplotlib四、实验数据本实验选取了某电商平台用户购买行为数据作为实验数据。
数据包括用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业等。
五、实验步骤1. 数据预处理(1)数据清洗:剔除缺失值、异常值等无效数据。
(2)数据转换:将分类变量转换为数值变量,如年龄、性别等。
(3)数据归一化:将不同特征的范围统一到相同的尺度,便于模型训练。
2. 特征选择(1)相关性分析:计算特征之间的相关系数,剔除冗余特征。
(2)信息增益:根据特征的信息增益选择特征。
3. 模型选择(1)决策树:采用CART决策树算法。
(2)支持向量机:采用线性核函数。
(3)聚类:采用K-Means算法。
(4)关联规则:采用Apriori算法。
4. 模型训练使用训练集对各个模型进行训练。
5. 模型评估使用测试集对各个模型进行评估,比较不同模型的性能。
六、实验结果与分析1. 数据预处理经过数据清洗,剔除缺失值和异常值后,剩余数据量为10000条。
2. 特征选择通过相关性分析和信息增益,选取以下特征:用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业。
思考:你知道全班同学的营养状况如何吗?如果想要收集他们的身体发育水平数据,你会采用什么方法呢?①问卷调查:收集饮食习惯和运动频率。
②身高体重测量:计算BMI评估营养状态。
③数据分析:识别整体和个体的发育趋势。
④隐私保护:确保数据安全,尊重学生隐私。
2.播放视频。
所示。
观察法是最直接的收集数据的方法,应用非常广泛,有时候会和调查法结合使用,以提高所收集信息的可靠性。
比如,想要知道学校门口每天早上的人流量,就可以使用观察法,还可以通过询问校门口的保安来获取数据。
调查法调查法是一种常见的数据收集方法,主要分为普查和抽样调查两大类。
普查就是为了某一特定目的而对所有考察对象进行的全面调查。
比如人口普查,就是对全国人民的人口、民族、年龄、性别等进行数据统计。
抽样调查是一种非全面调查,它是从全部研究对象中,抽选一部分进行调查,并根据调查的数据对全部研究对象做出估计和推断的一种调查方法。
比如在对学生餐饮满意度进行调查时,就只需要随机选取一部分学生进行调查询问即可,如图 1.3.2所示。
实验法实验法就是通过实验过程获取信息或结论,它需要在特定的实验场所、特殊的状态下,对调查对象进行实验。
例如,在实验室做化学实验时,我们可以通过实验结果得出结论,并记录相关的数据如图 1.3.3 所示。
网络信息收集法网络信息是指通过计算机网络发布、传递和存储的各种信息。
在互联网上输入信息的关键字,可以搜到所有相关联的内容。
这个数据收集的过程本来就具有筛选性和分析性,也就是说,网络收集所得到的数据,可能更接近我们想要的结果。
但是在使用网络信息收集法获取数据(见图1.3.4)时,我们仍然需要过滤和辨别信息,因为互联网的数据繁杂并且真假难辨。
课堂活动说一说,收集全班同学的体重和身高数据应该使用哪种方法?收集全班同学的体重和身高数据,应采用直接测量法,使用精确的体重秤和身高尺,在固定时间由专人操作测量,确保数据的准确性和一致性,同时记录和管理数据时需注意保护学生隐私,安全存储信息。
苏州大学数学科学学院统计计算与SAS软件包实验报告姓名:学号:年级:日期:实验6 分类数据的初步处理与简单作图实验目的:掌握分类数据的一些常规处理方法与数据的简单图示实验内容:1.将sashelp.class数据集中性别变量的值加标签:M表示成“男”,F表示成“女”2.给sahelp.class数据集的变量加中文标签:name的标签为“姓名”,sex的标签为“性别”,age的标签为“年龄”,height的标签为“身高”,weight的标签为“体重”。
3.将sashelp.class数据集中的height分成三组,<150为一组,用“矮”表示,150-170为一组,用“中等”表示,>170为一组,表示为“高”。
并考虑sex与这种分组间是否独立。
4.画height和weight两变量的散点图,数据点用“红色三角形”表示5.画height的直方图。
结果与分析1.编写程序如下:proc format;value $sex 'M'='男''F'='女';run;data aa;set sashelp.class;format sex $sex.;run;输出的结果为:2.编写程序如下:data a;set sashelp.class; label name='姓名' sex='性别'age='年龄'height='身高'weight='体重';run;输出的结果为:3.编写程序如下:proc format;value height 0-59.5='°«'59.5-66.5='ÖÐ'66.5-80='¸ß'; run;data aaa;set sashelp.class;format height height.;run;输出的结果如下:4.编写程序如下:symbol color=red value=triangle;proc gplot data=sashelp.class;plot weight*name;run;做出体重关于姓名的散点图如下:symbol color=red value=triangle; proc gplot data=sashelp.class; plot height*name;run;做出身高关于姓名的散点图如下:proc gchart data=sashelp.class;vbar height;run;输出的结果如下:按性别分组的输出结果为:。
基础教育阶段学生体质报告引言本文档旨在提供基础教育阶段学生体质报告。
通过对学生体质状况的评估和分析,我们可以了解学生的健康状况,为进一步制定促进学生身心健康的措施提供依据。
体质评估结果经过对基础教育阶段学生的体质进行评估和测试,以下是体质评估结果的总结:1. 体重指数(BMI):学生的体重指数在正常范围内,表明学生整体上体重控制较好。
2. 身高:学生的身高处于正常范围内,符合其年龄和性别的发育水平。
3. 体能测试:学生在体能测试中表现良好,具备一定的耐力、力量和灵活性。
健康问题分析在对学生体质进行评估的过程中,我们发现了以下一些健康问题:1. 饮食习惯:部分学生存在不健康的饮食习惯,摄入过多的高糖、高盐和高脂肪食物,缺乏蔬菜和水果的摄入。
2. 缺乏运动:一些学生缺乏定期的体育锻炼,长时间久坐或缺乏运动会对身体健康造成负面影响。
3. 视力问题:部分学生存在视力问题,可能与长时间使用电子设备、缺乏户外活动等因素有关。
健康促进措施为了改善学生的身体健康状况,我们建议采取以下促进措施:1. 健康饮食教育:加强对学生的健康饮食教育,鼓励摄入均衡的营养食物,减少高糖、高盐和高脂肪食物的摄入,增加水果和蔬菜的消费。
2. 体育锻炼计划:制定合理的体育锻炼计划,鼓励学生进行适度的有氧运动和力量训练,增强体能素质。
3. 眼保健操和眼保健教育:引导学生进行眼保健操,减少长时间使用电子设备的时间,提倡户外活动,增加眼睛的放松和休息时间。
结论通过对基础教育阶段学生体质的评估和分析,我们发现学生整体上体重控制较好,但存在一些健康问题,如不健康的饮食习惯、缺乏运动和视力问题。
为了改善学生的身体健康状况,需要加强健康饮食教育、制定合理的体育锻炼计划,并进行眼保健操和眼保健教育。
这些措施将有助于提升学生的身心健康水平。
体重指数与中医体质类型的对应分析一、内容概要随着人们生活水平的提高,越来越多的人开始关注自己的身体健康。
体重指数(BMI)作为衡量一个人是否健康的重要指标,受到了广泛关注。
然而你知道吗?BMI并不能完全反映一个人的体质状况。
中医体质理论认为,每个人的体质都有其独特之处,因此需要根据体质来调整生活方式和饮食习惯。
那么如何根据中医体质类型来判断一个人的体重状况呢?本文将对体重指数与中医体质类型的对应关系进行分析,帮助大家更好地了解自己的身体状况,从而采取更有效的健康管理措施。
A. 体重指数的定义和意义咱们先来聊聊体重这个家伙,它可是我们身体健康的一个重要指标。
有个朋友叫体重指数(BMI),它是根据我们的身高和体重计算出来的一个数字,用来衡量我们是不是偏胖或者偏瘦。
BMI的计算公式很简单,就是我们的体重(公斤)除以身高(米)的平方。
比如说一个身高米,体重70公斤的人,他的BMI就是70)。
BMI的意义可大了去了,它可以帮助我们了解自己的身体状况,预防肥胖、心血管疾病等健康问题。
一般来说BMI在之间属于正常范围,超过24就被认为是超重,超过28就是肥胖了。
当然这只是一个大致的参考,每个人的身体状况和需求都不一样,所以不能完全依赖BMI来判断。
体重是我们生活中不可忽视的一个因素,关注我们的体重,关注BMI,让我们的身体更健康,生活更美好!B. 中医体质类型的概述中医体质类型是指人体在先天遗传和后天环境因素作用下,形成的一种稳定的生理、心理特征。
它主要体现在身体的机能活动、脏腑功能、情志变化等方面。
简单来说就是我们每个人独特的身体状态和性格特点,中医体质类型的划分主要是根据人体的阴阳平衡、五行相生相克等理论来进行的,包括平和质、气虚质、阳虚质、阴虚质、痰湿质、湿热质、血瘀质和气郁质等八种类型。
C. 本研究的目的和意义本研究的目的和意义非常明确,就是探讨体重指数(BMI)与中医体质类型之间的关系。
我们知道体重是衡量一个人健康状况的重要指标之一,而BMI又是体重与身高之间关系的量化表示。
用身高体重数据进行性别分类实验一一.题目要求:1.用dataset1.txt 作为训练样本,用dataset2.txt 作为测试样本,采用身高和体重数据为特征,在正态分布假设下估计概率密度(只用训练样本),建立最小错误率贝叶斯分类器,写出所用的密度估计方法和得到的决策规则,将该分类器分别应用到训练集和测试集,考察训练错误率和测试错误率。
将分类器应用到dataset3 上,考察测试错误率的情况。
(在分类器设计时可以尝试采用不同先验概率,考查对决策和错误率的影响。
)2.自行给出一个决策表,采用最小风险贝叶斯决策重复上面的实验。
二.数据文件:1.dataset1.txt----- 328 个同学的身高、体重、性别数据(78 个女生、250 个男生)(datasetf1:女生、datasetm1:男生)2.dataset2.txt -----124 个同学的数据(40 女、84 男)3.dataset3.txt----- 90 个同学的数据(16 女,74 男)三.题目分析:要估计正态分布下的概率密度函数,假设身高随机变量为X,体重随机变量为Y,二维随机变量(X,Y)的联合概率密度函数是:p x,y=1122{−121−ρ2[x−μ12ς12−2ρx−μ1y−μ2ς1ς2+(y−μ2)2ς22]}其中−∞<x,y<+∞;−∞<μ1,μ2<+∞;ς1,ς2>0;−1≤ρ≤1.并其μ1,μ2分别是X与Y的均值,ς12,ς22,分别是X与Y的方差,ρ是X与Y的相关系数。
运用最大似然估计求取概率密度函数,设样本集中包含N个样本,即X={x1,x2,…x N},其中x k是列向量。
根据教材中公式,令μ=(μ1,μ2)T,则μ=1 Nx kNk=1;协方差矩阵=ς12ρς1ς2ρς1ς2ς22,那么=1N(x kNk=1−μ)(x k−μ)T。
采用最小错误率贝叶斯分类器,设一个身高体重二维向量为x,女生类为ω1,男生类为ω2,决策规则如下:x∈ω1,当Pω1x)>P(ω2|x)ω2,当Pω2x)>P(ω1|x)。
身高遗传占比探究报告范文
近年来,人们对身高遗传占比的探究日益深度。
身高作为一个人的重要特征,一直备受关注。
那么,我们到底有多少身高是由基因决定的呢?本探究将对身高遗传占比进行深度探讨。
探究对象为1000名年龄在20至30岁之间的成年人,其中男性500人,女性500人。
通过对他们的身高数据进行统计分析,探究人员得出了以下结论。
起首,探究发现身高的遗传占比较高,达到了70%。
这意味着70%的身高差别可以归因于基因的影响。
这一结论与以往的探究相符合,证明了基因在身高决定中的重要性。
其次,环境因素也对身高产生了一定的影响。
探究人员发现,适当的营养摄入、良好的生活习惯和健康的生活环境可以增进身高的增长。
相比之下,营养不良、生活不规律和不良的生活环境则可能导致身高的发育不良。
此外,探究还发现,男性的身高普遍高于女性。
这与生物学上的性别差别有关,男性激素的分泌使得男性在发育期间有更多的机缘增长身高。
然而,尽管基因对身高的影响较大,环境因素也起到了一定的作用,但探究人员强调,身高并不仅仅取决于遗传和环境因素,还受到其他因素的影响,如健康状况、生活方式等。
因此,不能
完全把身高归结为遗传和环境因素的简易叠加,而是需要综合深思多个因素的综合影响。
综上所述,本探究对身高遗传占比进行了深度探究,并得出了基因对身高的影响占比达到70%的结论。
此外,环境因素和性别差别也对身高产生了一定的影响。
然而,身高的决定因素并不仅限于基因和环境,还受到其他因素的综合影响。
这一探究结果对于我们更好地理解身高的形成机制和增进身高发育具有重要意义。
用身高和体重数据进行性别分类的实验报告实验目的:本实验旨在通过身高和体重数据,利用机器学习算法对个体的性别进行分类。
实验步骤:1. 数据收集:收集了一组个体的身高和体重数据,包括男性和女性样本。
在收集数据时,确保样本的性别信息是准确的。
2. 数据预处理:对收集到的数据进行预处理工作,包括数据清洗、缺失值处理和异常值处理等。
确保数据的准确性和完整性。
3. 特征提取:从身高和体重数据中提取特征,作为输入特征向量。
可以使用常见的特征提取方法,如BMI指数等。
4. 数据划分:将数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
5. 模型选择:选择合适的机器学习算法进行性别分类。
常见的算法包括逻辑回归、支持向量机、决策树等。
6. 模型训练:使用训练集对选定的机器学习算法进行训练,并调整模型的参数。
7. 模型评估:使用测试集对训练好的模型进行评估,计算分类准确率、精确率、召回率等指标,评估模型的性能。
8. 结果分析:分析实验结果,对模型的性能进行评估和比较,得出结论。
实验结果:根据实验数据和模型训练结果,得出以下结论:1. 使用身高和体重数据可以较好地对个体的性别进行分类,模型的分类准确率达到了XX%。
2. 在本实验中,选择了逻辑回归算法进行性别分类,其性能表现良好。
3. 身高和体重这两个特征对性别分类有较好的区分能力,可以作为性别分类的重要特征。
实验总结:通过本实验,我们验证了使用身高和体重数据进行性别分类的可行性。
在实验过程中,我们收集了一组身高和体重数据,并进行了数据预处理、特征提取、模型训练和评估等步骤。
实验结果表明,使用逻辑回归算法可以较好地对个体的性别进行分类。
这个实验为进一步研究个体性别分类提供了一种方法和思路。
一、实验目的1. 熟悉Excel中分类汇总功能的操作方法。
2. 学会使用分类汇总对数据进行多级排序和筛选。
3. 掌握如何利用分类汇总功能进行数据分析和处理。
二、实验环境1. 操作系统:Windows 102. 软件环境:Microsoft Excel 2016三、实验内容1. 数据准备在Excel中创建一个数据表格,包含以下列:姓名、性别、年龄、分数、班级。
2. 分类汇总(1)按性别进行分类汇总① 选择数据表格中的任意单元格。
② 点击“数据”选项卡,在“排序与筛选”组中,选择“分类汇总”。
③ 在弹出的“分类汇总”对话框中,设置“分类字段”为“性别”,“汇总方式”为“计数”,“选定汇总项”为“姓名”。
④ 点击“确定”按钮,完成按性别分类汇总。
(2)按年龄进行分类汇总① 在“分类汇总”对话框中,将“分类字段”改为“年龄”,“汇总方式”改为“求和”,“选定汇总项”改为“分数”。
② 点击“确定”按钮,完成按年龄分类汇总。
(3)多级排序与筛选① 在“分类汇总”对话框中,点击“选项”按钮。
② 在弹出的“分类汇总选项”对话框中,勾选“替换当前分类汇总”、“汇总结果显示在数据下方”和“每组数据分页”。
③ 设置“排序依据”为“年龄”,选择“升序”。
④ 点击“确定”按钮,完成多级排序与筛选。
(4)筛选特定条件的数据① 在“分类汇总”对话框中,点击“选项”按钮。
② 在弹出的“分类汇总选项”对话框中,勾选“汇总结果显示在数据下方”。
③ 点击“确定”按钮,返回“分类汇总”对话框。
④ 点击“确定”按钮,完成筛选特定条件的数据。
四、实验结果与分析1. 按性别分类汇总结果显示,男生和女生的人数分别为10人和8人。
2. 按年龄分类汇总结果显示,18岁以下的学生共有12人,18-20岁的学生共有18人,20-22岁的学生共有10人。
3. 多级排序与筛选结果显示,年龄为18-20岁的学生中,分数最高的是张三,分数为95分。
4. 筛选特定条件的数据结果显示,年龄为18-20岁的学生中,分数在90分以上的有6人。
身体维度实验报告模板
实验目的
说明实验的目的和意义,以及预期的结果。
实验材料和仪器
列出所使用的实验材料和仪器的名称和规格。
实验步骤
逐步描述实验的操作步骤,确保实验的可重复性。
数据收集和处理
描述实验过程中收集的数据,并说明所使用的统计和分析方法。
结果与讨论
将实验数据整理成表格或图表,并进行分析和讨论。
可以使用文字解释图表中的趋势、差异或相关性,并讨论实验结果是否符合预期。
实验误差和不确定度
讨论实验过程中可能出现的误差和不确定度,并给出其原因和影响。
实验结论
总结实验结果并回答实验目的中提出的问题。
实验反思与改进
评估实验的有效性和可改进性,提出可能的改进措施和建议。
参考文献
列出所参考的文献和资料(包括书籍、期刊文章、网页等),确保实验报告的学术性和可信性。
附录
提供实验中使用的原始数据、程序代码、图表等。
以上为身体维度实验报告模板的框架。
根据具体的实验内容,可以适当调整和补充每个部分的内容。
在撰写实验报告时,要注意语言简明扼要、逻辑清晰、条理分明,同时注意遵守学术规范和报告格式要求。
用身高和体重数据进行性别分类的实验报告一、基本要求:1.用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。
调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。
二、具体做法:(1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。
在分类器设计时可以考察采用不同先验概率(如0.5对0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。
(2)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。
比较相关假设和不相关假设下结果的差异。
在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。
(3)自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。
三、原理简述及程序框图最小错误率Bayes分类器(1)基于身高第一步求出训练样本的方差和期望第二步利用单变量正态分布公式算出条件概率第三步将前两步的值带入贝叶斯公式第四步若pF>=pM,则判断其为第一类,反之,第二类(2-1) 假设身高与体重不相关令协方差矩阵次对角元素为零判别函数可简化为其中,具体算法步骤如下:第一步将训练样本集数据转为矩阵FA,MA。
第二步分别对FA,MA求取协方差,令协方差矩阵次对角元素为零,平均值并输入先验概率第三步将第二步所得数值代入判别函数表达式得。
用身高和体重数据进行性别分类的实验报告(二)一、 基本要求1、试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。
2、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。
3、体会留一法估计错误率的方法和结果。
二、具体做法1、在第一次实验中,挑选一次用身高作为特征,并且先验概率分别为男生0.5,女生0.5的情况。
改用Parzen 窗法或者k n 近邻法估计概率密度函数,得出贝叶斯分类器,对测试样本进行测试,比较与参数估计基础上得到的分类器和分类性能的差别。
2、同时采用身高和体重数据作为特征,用Fisher 线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。
将训练样本和求得的决策边界画到图上,同时把以往用Bayes 方法求得的分类器也画到图上,比较结果的异同。
3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。
三、原理简述及程序框图1、挑选身高(身高与体重)为特征,选择先验概率为男生0.5女生0.5的一组用Parzen 窗法来求概率密度函数,再用贝叶斯分类器进行分类。
以身高为例本次实验我们组选用的是正态函数窗,即21()2u u φ⎧⎫=-⎨⎬⎩⎭,窗宽为N h h =h 是调节的参量,N 是样本个数) dN NV h =,(d 表示维度)。
因为区域是一维的,所以体积为N n V h =。
Parzen 公式为()ˆN P x =111N i i N N x x N V h φ=⎛⎫-⎪⎝⎭∑。
故女生的条件概率密度为11111111N ii n x x p N VN h φ=⎛⎫-=⎪⎝⎭∑男生的条件概率密度为21112222N ii n x x p N VN h φ=⎛⎫-= ⎪⎝⎭∑ 根据贝叶斯决策规则()()()()()1122g x p x w p w p x w p w =-知 如果11*2*(1),p p p p x ω>-∈,否则,2x ω∈。
流程图如下:2、要求是同时采用身高和体重数据作为特征,用Fisher 线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。
将训练样本和求得的决策边界画到图上,同时把以往用Bayes 方法求得的分类器也画到图上,比较结果的异同。
说明,取男生和女生的先验概率分别为0.5,0.5。
在设计贝叶斯分类器时,首先求各类样本均值向量,及2,1,1==∑∈i x N m ix ii ω,然后求各个样本的来内离散度矩阵,及()()2,1,=--=∑∈i m x m x s T iw x ii i,再求出样本的总类内离散度,及()()2211s p s p s ωωω+=,根据公式()211m m s -=-*ωω求出把二维X 空间投影到一维Y 空间的最好的投影方向。
再求出一维Y 空间中各类样本均值2,1,1'==∑∈i y N m iy ii ω,其中x y **=ω,本次实验的分界阈值我们用如下方法得到:2122110''N N m N m N y ++=,最后,将测试样本中的值代入,求出y ,并将其与y0来进行比较来分类。
根据课本对Fisher 线性判别法的介绍,得到的算法流程图如下:3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。
这里我们选择Fisher 线性判别法,用留一法来估计它在训练集上的错误率,并将结果与Fisher线性判别法对测试集进行判别时得到的错误率进行比较。
具体流程图如下:四、实验结果及分析总结1、得到结果如下表以身高作为特征h=4估计方法女生先验概率男生先验概率男生错误个数女生错误个数总错误男生错误率女生错误率总错误率以身高与体重作为特征h=7分析:通过比较可知,在用最大似然估计这种参数估计方法和Parzen这种非参数估计方法来进行分类时,最大似然估计判别的错误率低。
2、得到结果如下(1)、用Fisher线性判别方法求分类器,将分类器应用到训练和测试样本上,比较其错误率判别对象男生错误个数女生错误个数总错误男生错误率女生错误率总错误率测试样本27 2 29 10.8% 4% 9.67%训练样本8 4 12 16% 8% 12%分析:用训练样本得到的分类器测试测试样本时错误率低,测试结果较好,但测试训练样本时,其错误率较高,测试结果不好。
(2)、将训练样本和求得的决策边界画到图上先验概略为0.5,0.5从图中我们可以直观的比较出对训练样本Fisher判别比最大似然Bayes判别效果更好。
3、留一法测试结果如下:分析:用留一法在训练样本机上估计错误率时,错误率小于它在测试样本集上得到的错误率,且留一法在测试样本集上女生错误个数远低于男生错误个数。
五、体会这次实验,我们组用了接近三天的时间,首先,我们对题目要求进行认真分析,在确保对题目完全理解的基础上,开始一步一步分析,求解。
对每个小题,及其每一问,我们都经过查书,查资料,编代码这几个步骤,仔细分析每一步算法,得出流程图。
经过第一次作业的编程,本次编程我们都觉得轻松了很多,但还会出现一些细节上的错误,不过,这些在我们经过不断的调试之后都会被发现并解决。
总体而言,本次试验,让我们对Parzen窗法求类条件概率密度,以及Fisher 线性判别法都有了更大的了解。
代码:%特征是身高,先验概率为0.5、0.5时用Parzen窗法,贝叶斯分类器。
clc;clear all;[FH FW]=textread('C:\Users\xuyd\Desktop\homework\FEMALE.txt','%f%f');[MH MW]=textread('C:\Users\xuyd\Desktop\homework\MALE.txt','%f%f');FA=[FH FW];MA=[MH MW];N1=max(size(FA));h1=4;hn1=h1/(sqrt(N1));VN1=h1/(sqrt(N1));N2=max(size(MA));h2=4;hn2=h2/(sqrt(N2));VN2=h2/(sqrt(N2));[tH tW]=textread('C:\Users\xuyd\Desktop\homework\test2.txt','%f%f%*s');X=[tH tW];[M N]=size(X);s=zeros(M,1);A=[X(:,1) X(:,2) s];error=0;errorgirl=0;errorboy=0;errorrate=0;errorgirlrate=0;errorboyrate=0;girl=0;boy=0;bad=0;for k=1:M %测试集x=A(k);p=0.5;%p为属于女生的先验概率,则1-p为男生的先验概率for i=1:N1pp(i)=1/sqrt(2*pi)*exp(-0.5*(abs(x-FA(i)))^2/(hn1^2));%pp(i)是窗函数endp1=sum(1/VN1*pp');y1=1/N1*p1;%是女生的条件概率密度函数for j=1:N2qq(j)=1/sqrt(2*pi)*exp(-0.5*(abs(x-MA(j)))^2/(hn2^2));endq1=sum(1/VN2*qq');y2=1/N2*q1;%男生的概率密度函数,即其条件概率g=p*y1-(1-p)*y2;%g为判别函数if g>0if k<=50s(k,1)=0;%判为女生girl=girl+1;elseerrorboy=errorboy+1;endelseif g<0if k<=50errorgirl=errorgirl+1;elses(k,1)=1;%判为男生boy=boy+1;endelses(k,1)=-2;%不能判别是指等于0时的情况bad=bad+1;endenderrorgirlerrorboybadgirl=errorboy+girlboy=boy+errorgirlerror=errorgirl+errorboyerrorgirlrate=errorgirl/50errorboyrate=errorboy/250errorrate=error/M%特征是身高与体重,先验概率为0.5、0.5时用Parzen窗法,贝叶斯分类器。
clc;clear all;[FH FW]=textread('C:\Users\xuyd\Desktop\homework\FEMALE.txt','%f%f'); [MH MW]=textread('C:\Users\xuyd\Desktop\homework\MALE.txt','%f%f');FA=[FH FW];MA=[MH MW];N1=max(size(FA));h1=7;hn1=h1/(sqrt(N1));VN1=hn1^2;N2=max(size(MA));h2=7;hn2=h2/(sqrt(N2));VN2=hn2^2;[tH tW]=textread('C:\Users\xuyd\Desktop\homework\test2.txt','%f%f%*s'); X=[tH tW];[M N]=size(X);s=zeros(M,1);error=0;errorgirl=0;errorboy=0;errorrate=0;errorgirlrate=0;errorboyrate=0;girl=0;boy=0;bad=0;for k=1:MA=[X(k,1) X(k,2)];x=A;p=0.5;%p为属于女生的先验概率,则1-p为男生的先验概率pp=0;for i=1:N1fa=[FA(i,1) FA(i,2)];n=1/sqrt(2*pi)*exp(-0.5*abs((x-fa)*(x-fa)')/(hn1^2)); pp=pp+n;endp1=1/VN1*pp';y1=1/N1*p1;%是女生的条件概率密度函数qq=0;for j=1:N2ma=[MA(j,1) MA(j,2)];m=1/sqrt(2*pi)*exp(-0.5*abs((x-ma)*(x-ma)')/(hn2^2)); qq=m+qq;endq1=sum(1/VN2*qq');y2=1/N2*q1;%男生的概率密度函数,即其条件概率g=p*y1-(1-p)*y2;%g为判别函数if g>0if k<=50s(k,1)=0;%判为女生girl=girl+1;elseerrorboy=errorboy+1;endelseif g<0if k<=50errorgirl=errorgirl+1;elses(k,1)=1;%判为男生boy=boy+1;endelses(k,1)=-2;%不能判别是指等于0时的情况bad=bad+1;endenderrorgirlerrorboybadgirl=errorboy+girlboy=boy+errorgirlerror=errorgirl+errorboyerrorgirlrate=errorgirl/50errorboyrate=errorboy/250errorrate=error/M%用fisher线性判别法求阈值function [w,y0]=fisher(AA,BB)A=AA';B=BB';[k1,l1]=size(A);[k2,l2]=size(B);M1=sum(AA);M1=M1';M1=M1/l1;%男生均值向量M2=sum(BB);M2=M2';M2=M2/l2;%女生均值向量S1=zeros(k1,k1);%建立矩阵S2=zeros(k2,k2);for i=1:l1S1=S1+(A(:,i)-M1)*((A(:,i)-M1).');%男生的类内离散度矩阵endfor i=1:l2S2=S2+(B(:,i)-M2)*((B(:,i)-M2).');%女生的类内离散度矩阵endSw=0.5*S1+0.5*S2;%总类内离散度矩阵,先验概率0.5w=inv(Sw)*(M1-M2);%两列wT=w';%wT就是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到1维Y空间的最好的投影方向for i=1:l1Y1(i)=wT(1,1)*A(1,i)+wT(1,2)*A(2,i);%求出二维男生样本集映射到一维时的量endfor i=1:l2Y2(i)=wT(1,1)*B(1,i)+wT(1,2)*B(2,i);%求出二维女生样本集映射到一维时的量endm1=sum(Y1)/l1;m2=sum(Y2)/l2;y0=(l1*m1+l2*m2)/(l1+l2);%%用fisher线性判别函数来判断clcclear all[filename,pathname,filterindex] = uigetfile('*.txt', '请读入男生训练集'); fileAddrs = [pathname,filename];[A1 A2]=textread(fileAddrs,'%f%f');[filename,pathname,filterindex] = uigetfile('*.txt', '请读入女生训练集'); fileAddrs = [pathname,filename];[B1 B2]=textread(fileAddrs,'%f%f');AA=[A1 A2];BB=[B1 B2];[w,y0]=fisher(AA,BB);wT=w';girl=0;boy=0;bad=0;errorgirl=0;errorboy=0;error=0;errorgirlrate=0;errorboyrate=0;errorrate=0;[filename,pathname,filterindex] = uigetfile('*.txt', '请读入测试集'); fileAddrs = [pathname,filename];[T1 T2]=textread(fileAddrs,'%f%f%*s');TT=[T1 T2];T=TT';[k3 l3]=size(T);for k=1:50y(k)=wT*T(:,k);if y(k)>y0errorgirl=errorgirl+1;else if y(k)<y0girl=girl+1;elsebad=bad+1;endendendfor k=51:300y(k)=wT*T(:,k);if y(k)>y0boy=boy+1;else if y(k)<y0errorboy=errorboy+1;elsebad=bad+1;endendenderrorgirlerrorboybadgirl=errorboy+girlboy=boy+errorgirlerror=errorgirl+errorboyerrorgirlrate=errorgirl/50errorboyrate=errorboy/250errorrate=error/l3%画图[filename,pathname,filterindex] = uigetfile('*.txt', '请读入男生训练集'); fileAddrs = [pathname,filename];[A1 A2]=textread(fileAddrs,'%f%f');[filename,pathname,filterindex] = uigetfile('*.txt', '请读入女生训练集'); fileAddrs = [pathname,filename];[B1 B2]=textread(fileAddrs,'%f%f');AA=[A1 A2];BB=[B1 B2];A=AA';B=BB';[k1,l1]=size(A);[k2,l2]=size(B);[w,y0]=fisher(AA,BB);for i=1:l1x=A(1,i);y=A(2,i);%x是身高,y是体重plot(x,y,'R.');hold onendfor i=1:l2x=B(1,i);y=B(2,i);plot(x,y,'G.');hold onenda1=min(A(1,:));%男生身高最小值a2=max(A(1,:));%男生身高最大值b1=min(B(1,:));%女生身高最小值b2=max(B(1,:));%女生身高最大值a3=min(A(2,:));%男生体重最小值a4=max(A(2,:));%男生体重最大值b3=min(B(2,:));%女生体重最小值b4=max(B(2,:));%女生体重最大值if a1<b1a=a1;elsea=b1;%a是所有人中身高最小值endif a2>b2b=a2;elseb=b2;%b是所有人中身高最大值endif a3<b3c=a3;elsec=b3;%c是所有人中体重最小值endif a4>b4d=a4;elsed=b4;%d为所有人中体重最大值endx=a:0.01:b;y=(y0-x*w(1,1))/w(2,1);plot(x,y,'B');hold on;%身高体重相关,判别测试样本%手动先验概率P1=0.5;P2=0.5;FA=A;MA=B;a=cov(FA')*(length(FA)-1)/length(FA); b=cov(MA')*(length(MA)-1)/length(MA); W1=-1/2*inv(a);W2=-1/2*inv(b);Ave1=(sum(FA')/length(FA))';Ave2=(sum(MA')/length(MA))';w1=inv(a)*Ave1;w2=inv(b)*Ave2;w10=-1/2*Ave1'*inv(a)*Ave1-1/2*log(det(a))+log(P1);w20=-1/2*Ave2'*inv(b)*Ave2-1/2*log(det(b))+log(P2);syms x ;syms y ;h=[x y]';h1=h'*W1*h+w1'*h+w10;h2=h'*W2*h+w2'*h+w20 ;h=h1-h2;ezplot(h,[130,200,30,100])%功能:应用Fisher准则判断一个身高体重二维数据的性别vector=[x;y];yy=(w.')*vector;if yy>y0value=2;%表示样本是男生elsevalue=1;%表示样本是女生end%功能:使用留一法求训练样本错误率[A1 A2]=textread('C:\Users\Administrator\Desktop\模式识别\homework\MALE.txt','%f%f');[B1 B2]=textread('C:\Users\Administrator\Desktop\模式识别\homework\FEMALE.txt','%f%f');AA=[A1 A2];BB=[B1 B2];A=AA';B=BB';m1=2;m2=2;n1=50;n2=50;tempA=zeros(m1,n1-1);count=0;for i=1:n1for j=1:(i-1)tempA(:,j)=A(:,j);endfor j=(i+1):n1tempA(:,j-1)=A(:,j);end[w,y0]=fisher((tempA.'),BB);flag=classify_CH(A(1,i),A(2,i),w,y0); if flag==1count=count+1;endendtempB=zeros(m2,n2-1);for i=1:n2for j=1:(i-1)tempB(:,j)=B(:,j);endfor j=(i+1):n2tempB(:,j-1)=B(:,j);end[w,y0]=fisher(AA,(tempB.'));flag=classify_CH(B(1,i),B(2,i),w,y0); if flag==2count=count+1;endenderror_ratio=count/(n1+n2)%使用留一法求测试样本错误率[T1 T2]=textread('C:\Users\Administrator\Desktop\模式识别\homework\test2.txt','%f%f%*s');TT=[T1 T2];T=TT';[k3 l3]=size(T);TG=zeros(2,50);TB=zeros(2,250);for i=1:50TG(:,i)=T(:,i);endfor j=51:l3TB(:,j-50)=T(:,j);endm1=2;m2=2;n1=50;n2=250;tempA=zeros(m1,n1-1);count=0;for i=1:n1for j=1:(i-1)tempA(:,j)=TG(:,j);endfor j=(i+1):n1tempA(:,j-1)=TG(:,j);end[w,y0]=fisher((tempA.'),TB');flag=classify_CH(TG(1,i),TB(2,i),w,y0);if flag==1count=count+1;endendtempB=zeros(m2,n2-1);for i=1:n2for j=1:(i-1)tempB(:,j)=TB(:,j);endfor j=(i+1):n2tempB(:,j-1)=TB(:,j);end[w,y0]=fisher(TG',(tempB.'));flag=classify_CH(TB(1,i),TB(2,i),w,y0); if flag==2count=count+1;endenderror_ratio=count/(n1+n2)。