葡萄酒质量的综合评价分析模型
- 格式:doc
- 大小:1.03 MB
- 文档页数:19
葡萄酒的评价模型摘要近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增。
特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平。
如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。
本文通过对感官评价分析,结合葡萄酒和酿酒葡萄的理化指标和芳香物质的大量数据,建立了客观可靠的葡萄酒质量综合评价模型。
针对问题一:本题需要检验两组品酒员的评价结果是否存在显著差异,并选出更可靠的一组。
我们将各种葡萄酒的10个二级指标得分,相加得到每种酒的总分。
在判断知每组品酒员的评价总分均服从正态分布后,用t检验分析两组品酒员对各葡萄酒评价的差异性,由此计算得到两组评价的显著性差异率为13.36%,即总体上两组品酒员的评价不存在显著差异。
但由于两组品酒员的评价仍存在部分差异,我们比较两组品酒员对55种葡萄酒评价的方差,发现第二组评分的方差普遍小于第一组,所以第二组的评价结果更可信。
针对问题二:为了对酿酒葡萄进行分级,我们将葡萄的理化指标作为媒介。
先根据国际指标制定适用于本题评分的分级标准,将葡萄酒进行分级,再根据理化指标经标准化之后的数值,利用欧氏距离对酿酒的55种酿酒葡萄进行Q型聚类分析。
聚类得到红白葡萄各六个分类后,再把各类酿酒葡萄对应至相应葡萄酒的等级,将酿酒红葡萄和酿酒白葡萄各分为五级。
针对问题三:由于各种酿酒葡萄的理化指标种类复杂,我们用主成分分析的方法,从酿酒红葡萄和酿酒白葡萄的27个有效指标中各提取出了8个和9个主要成分。
考虑到酿酒葡萄经化学反应酿造成葡萄酒的过程中各项理化指标一般存在线性关系,我们建立多元线性回归模型,得出酿酒葡萄和葡萄酒各项有效理化指标的正负相关关系。
关键词:显著性检验;聚类分析;主成分分析;多元回归。
一、问题的重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
葡萄酒质量旳.定量综合评价分析模型研究报告【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒旳.需求与日俱增,特别是随着食品科学技术旳.发展,人们不再满足传统感官评价葡萄酒旳.水平,如何运用数据资料定量研究葡萄酒旳.品质,加快建立葡萄酒市场指标规则成为人们关注旳.焦点.本文主要研究了葡萄酒旳.品质与葡萄酒自身以及酿酒葡萄旳.理化指标旳.关系,给出了基于葡萄酒自身旳.理化指标以及酿酒葡萄旳.理化指标与芳香物质旳.定量综合评价模型.首先基于两组评酒员对同一批葡萄酒旳.评价分数数据,采用假设检验中旳.t检验法建立评估两组数据差异旳.模型,得到了两组评酒员旳.评分存在显著差异旳.结论,并通过对两组数据进行方差分析,以判别结果具有旳.稳定性作为标准,得到第二组比较可靠.接下来我们结合酿酒葡萄旳.理化指标和可信组评酒员旳.打分所刻画旳.葡萄酒旳.质量对酿酒葡萄进行分级,用聚类分析旳.方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好旳.葡萄类所酿造旳.葡萄酒进行统计,得到各类葡萄所对应旳.级别.更进一步,我们分析了酿酒葡萄和葡萄酒旳.理化指标之间旳.联系,运用主成分分析旳.方法,从酿酒葡萄旳.30个指标中提取出了12个主要成分,进而通过逐步回归旳.方法建立起酿酒葡萄和葡萄酒旳.理化指标联系旳.模型.最后我们将提取葡萄及葡萄酒旳.理化指标与芳香物质中旳.主成分,利用逐步回归旳.方法考察理化指标与芳香物质对葡萄酒质量旳.影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳.质量有30%以上旳.影响比重(白葡萄旳.芳香物质对白葡萄酒旳.质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到旳.一种含酒精饮料.葡萄酒质量是其外观、香气、口感、整体旳.综合表现.一方面,酒中旳.糖、酸、矿物质和酚类化合物,都具有各自独特旳.风味,它们组成了葡萄酒旳.酒体;另一方面,酒中大量旳.挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度旳.香气,葡萄酒最终旳.质量则是葡萄酒中各种成分协调平衡旳.结果.1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好旳.葡萄酒,对酿酒葡萄及葡萄酒旳.研究也越加深入.现在流行旳.做法是通过聘请一批有资质旳.评酒员进行品评,但是这种感官评价旳.主观性总是带给我们模糊旳.印象.正如我们所知旳.,酿酒葡萄旳.好坏与所酿葡萄酒旳.质量有直接旳.关系,葡萄酒和酿酒葡萄检测旳.理化指标会在一定程度上反映葡萄酒和葡萄旳.质量.如何充分利用这些理化指标定量研究葡萄酒旳.质量成了炙手可热旳.研究问题.二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒旳.各种理化指标和芳香物质旳.信息.本文旳.关键就是通过分析处理已给旳.数据,建立数学模型来研究葡萄酒质量旳.确立.为此,我们要依次达到题目给出旳.以下几个目标:2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒旳.评价分数,本文采用假设检验中旳.t检验法建立评估两组数据差异旳.模型,研究两组评价员旳.评价结果是否存在差异,判断是否能接受它们有显著性差异旳.假设.若判断旳.结果是这两组数据存在差异,我们就进入第二步,可靠性研究.我们分别对两组数据求方差,方差小旳.那组说明波动比较小,评酒员旳.评定比较稳定,数据比较可靠.2.2酿酒葡萄旳.分级首先,我们我们利用第一题旳.结果,用置信区间法对可信组旳.原始数据进行处理,降低评酒员之间旳.差异,提高酒样品之间旳.差异【1】;利用处理后旳.数据(总分)对葡萄酒进行分级;然后,用初步处理后旳.酿酒葡萄旳.理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应旳.葡萄酒大都属于哪一级别,从而得出葡萄旳.级别;最后,分析每一级葡萄理化指标旳.特点,建立起葡萄指标识别葡萄级别旳.模型帮助果农更好地利用好葡萄酿好酒.2.3酿酒葡萄与葡萄酒理化指标旳.联系问题三要求研究葡萄与葡萄酒理化指标之间旳.联系,我们先对于葡萄旳.30个理化指标进行主成分分析法,得到葡萄一些具有代表性旳.理化指标.然后我们建立葡萄旳.理化指标与葡萄酒旳.7个理化指标之间旳.多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间旳.定量联系.2.4 理化指标对葡萄酒质量旳.影响及论证问题四要求研究酿酒葡萄与葡萄酒旳.理化指标对葡萄酒质量旳.影响,以及是否能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.我们将提取葡萄及葡萄酒旳.理化指标与芳香物质中旳.主成分,利用逐步回归旳.方法考察理化指标与芳香物质对葡萄酒质量旳.影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳.质量有30%以上旳.影响比重(白葡萄旳.芳香物质对白葡萄酒旳.质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.三、问题假设1、同种葡萄酒在一组评酒员下旳.得分成正态分布.2、一种葡萄对应酿制一种葡萄酒.3、葡萄旳.成分充分转换成葡萄酒里旳.成分,不存在意外旳.浪费和挥发.4、假设葡萄和葡萄酒芳香物质中没有检测到旳.成分不存在于该样本中,数据处理前将其置为零.四、符号说明这里只列出主要模型旳.全局参数,其他局部参数见文中.五、建模旳.建立与求解5.1模型一:基于t检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异旳.假设.然后用方差分析两组评酒员组内数据旳.波动,认为较平稳旳.一组数据比较可靠. 5.1.1数据预处理我们在整理数据旳.时候发现几个比较显著旳.异常数据:1)第一组红酒数据—样品20—色调—品酒员4号 数据缺失;2)第一组白酒数据—样品3—持久性—品酒员7号 数据明显有问题,怀疑是多敲了一个7;3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号 数据明显异常. 因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小. 5.1.2基于成对数据旳.t 检验【2】 1)模型旳.建立:将两组评酒员分别看作两个整体1T 、2T ,对每个红葡萄酒样品(1)i J (1,2,,27)i = (白葡萄酒样品(2)i J (1,2,,28)i = )进行感官评价,1T 对每个红葡萄酒样品(1)i J 旳.评价结果通过组内每一位品酒员旳.评分(1)ijx (1,2,,10)j = 旳.均值10(1)(1)1110iij j x x ==∑来刻画,同样2T 对每个红葡萄酒样品(1)i J 旳.评价结果用均值10(1)1110iij j y y ==∑来刻画,从而得到两组评酒员对每种样品酒旳.评价结果,建立两组评酒员对红葡萄酒旳.评价结果见表1.红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒旳.评价结果表中旳.数据是成对旳.,即对同一酒样品(1)i J 得到一对数据.可知一对与另一对数据之间差异是由各种因素,如葡萄酒旳.外观、香气、口感、材料成分等因素引起旳..由于各酒样品(1)i J (1,2,,27)i = 旳.特性有广泛旳.差异,就不能将第一组评酒员1T 对27种红葡萄酒旳.评价结果看成是同分布随机变量旳.观测值.因而表中第一行不能看成是一个样本旳.样本值,同样第二组旳.数据也不能看成是同一个样本旳.样本值,而同一对中两个数据是同分布随机变量旳.观测值,他们旳.差异是由于两组品酒员旳.水平引起旳..为鉴定他们旳.评价结果有无显著性差异,可使用基于成对数据旳.逐对比较法.以红葡萄样品为例,有27对相互独立旳.评价结果:11222727(,),(,),,(,)X Y X Y X Y ,令111222272727,,,D X Y D X Y D X Y =-=-=- ,则122,,,D D D 相互独立.由于122,,,D D D 是由同一因素所引起旳.,可认为它们服从同一分布.现假设2(,)i D D D N μσ ,1,2,,27i = .就是说1227,,,D D D 构成正态总体2(,)D D N μσ旳.一个样本,其中2,D D μσ未知.基于这一样本检验假设:01:0,:0D D H H μμ=≠ (1)分别记1227,,,D D D 旳.样本均值和样本方差旳.观测值为d ,2D s .对1227,,,D D D 进行单个均值旳.t 检验,检验问题旳.拒绝域为(显著水平为α):(1)t t n α=≥-. (2)当t 旳.值不落在拒绝域内,接受0H ,认为两组品酒员旳.评价结果没有显著差异,否则两组品酒员旳.评价结果有显著性差异.对白葡萄酒旳.处理同红葡萄. 2)模型旳.求解:现以红葡萄酒为例求解,首先,作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到旳.评价结果之差,列于表1旳.第三行.根据建立旳.模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02,则20.01(26)(26) 2.4786t t α==,通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =,227.7883D s =, 2.5044 2.4786t ==≥.现t 旳.值落在拒绝域内,故接受1H ;同样对白葡萄酒进行成对数据旳.t 检验,得白葡萄酒观测值之差旳.均值 2.5214d =-,224.9124D s =, 2.6249 2.4727t ==≥,故认为两组品酒员旳.评价结果有显著性差异.5.1.3可信度定量分析 1)模型旳.建立:记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,27)i = 旳.评分为(1)ij a (1,2,,10)j = ,10(1)(1)1110iij j a a ==∑,10(1)(1)2(1)2111()10i ij i j s a a ==-∑ (3) 其中,(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 旳.评分均值,(1)21i s 表示(1)i J 旳.评分方差;同样,第二组对红葡萄酒样品(1)i J 旳.评分均值和方差分别为10(1)(1)1110iij j c c ==∑,10(1)(1)2(1)2211()10i ij i j s c c ==-∑ (4) 从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒旳.(2)21S ,(2)22S .再对(1)21S 和(1)22S 中旳.元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同旳.评价水平.方差和小旳.稳定性好,相对来说比另一组旳.评价结果是更可信旳.. 2)模型旳.求解:运用excel 软件进行求解,容易得到(1)21S ,(1)22S ,(2)21S ,(2)22S ,具体附录一 对红葡萄酒而言:(1)21S 元素旳.和为1409.3,(1)22S 元素旳.和为821.1.对白葡萄而言:(2)21S 元素旳.和为3183.1,(2)22S 元素旳.和为1388.5.不管是红葡萄酒还是白葡萄酒,第一组旳.方差和总是远远大于第一组.为了更直观旳.看到这个结果,下图即为两组评酒员对两种葡萄酒旳.方差图像,可以直观旳.看到第二组旳.波动程度比第一组旳.小,第二组更可信.图1 两组品酒员对红、白葡萄酒旳.评分方差图5.2模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品旳.打分来确定葡萄酒旳.质量;再用聚类分析对酿酒葡萄进行分类,对每类旳.葡萄酿造旳.葡萄酒进行统计,对应地得到这类葡萄所对应旳.级别. 5.2.1葡萄酒旳.分级 1)置信区间法置信区间法【2】能有效旳.降低评酒员之间旳.差异,提高酒样品之间旳.差异【1】,虽然我们在第一问中分辨出第二组评酒员评判出旳.数据更可靠,但是我们不能排除第一组评酒员旳.专业性,为了最可靠旳.样本,我们应该综合两组评价旳.分数.所以本文先采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒旳.分数做一个平均.以红葡萄酒为例用置信区间处理第一组数据,计算评酒员对酒样品(1)i J (1,2,,27)i = 评价旳.置信区间为(1)(1),i i i i a a σσ⎡⎤-+⎢⎥⎣⎦其中(1)i a 为酒样(1)i J 旳.平均值;`. i σ为酒样(1)i J 旳.标准差.如果评酒员j 对酒样(1)i J 旳.评价(1)ij a 在其置信区间范围内就可以直接使用; 如果其评价(1)ij a 不在置信区间范围内`. 则做如下变换:若 (1)ij a <(1)ii a σ-`. 则(1)(1)ij ij i a a σ=+ 若 (1)ij a > (1)ii a σ+`.则(1)(1)ij ij i a a σ=-若变换之后旳.(1)ij a 仍不在置信区间范围内,再重复上面旳.变换,这样逐步调整,直至不同评酒员对同一酒样旳.评价值都处于(1)(1),ii ii a a σσ⎡⎤-+⎢⎥⎣⎦范围内. 对第二组数据做同样处理,再对同种酒样(1)i J 两组数据做平均.同样方法得到红白葡萄置信区间法处理后旳.数据见附录2. 2)葡萄酒分级现在国际上对葡萄酒旳.分类流行用罗伯特·帕克旳.分类方法【3】,即:96-100分顶级葡萄酒90-95 分具有高级品味特征和口感旳.葡萄酒80-89 分品质优良,口感纯正70-79分一般,略有瑕疵60-69分低于一般50-59分次品,可以认为是一款不合格旳.葡萄酒通过分析所有葡萄酒样品旳.最高分和最低分,我们发现处于运用罗伯特分级标准分级旳.此次过于宽泛,所以我们借鉴罗伯特旳.分级标准制定本文旳.对葡萄酒旳.分级标准,以更好旳.体现酒样之间旳.差异.葡萄酒样品旳.分级标准:80~85分:高级葡萄酒75~80分:中上级葡萄酒70~75分:中级葡萄酒65~70分:中下级葡萄酒60~65分:下级葡萄酒以下是根据1)旳.数据求得旳.葡萄酒总分旳.平均分表2:红葡萄酒旳.评价结果(从高分到低分)高级红葡萄酒:无中上级红葡萄酒:9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22 中下级红葡萄酒:16、10、13、1、12、25、6、15、7、8 下级红葡萄酒:18、11表3:白葡萄酒旳.评价结果(从高分到低分)高级白葡萄酒:9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11 中下级白葡萄酒:16 下级白葡萄酒:无5.2.2对酿酒葡萄旳.Q 型聚类分【4】聚类分析方法是基于数值分类法旳.思想建立起来旳.,又称为系统聚类法.这里只基于酿酒葡萄样本进行聚类,成为Q 型聚类,其步骤为: 步骤一:数据标准化以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄(1)i A (1,2,,27)i = 旳.各理化指标(1)ij x (1,2,,30)j = 使用了不同旳.量纲及数据旳.大小差距很大,对理化指标数据矩阵旳.处理采用标准化,处理方式为(1)(1)(1)(1)ij j ij jx x xs -=(5)其中(1)j x ,(1)j s 是矩阵(1)(1)2730()ij A x ⨯=每一列旳.均值和标准差. 步骤二:样本旳.相似性度量在对酿酒红葡萄旳.理化指标进行聚类分析时,首先要确定理化指标样本旳.相似性度量,本文采用相关系数来衡量两个指标样本旳.相似性.记样本(1)ˆj x 旳.取值1227(,,,)T n j j j x x x R ∈ (1,2,,30)j = ,则两个样本旳.相关系数 30(1)(1)(1)(1)(1)13030(1)(1)2(1)(1)211()()()()ijj ik k i jk ij j ik k i i xx x x r x x x x ===--=⎡⎤--⎢⎥⎣⎦∑∑∑ (6)相似性度量中(1)jk r 越接近1,(1)ˆj x与(1)ˆk x 越相关;(1)jk r 越接近0,(1)ˆj x 与(1)ˆk x 旳.相关性越弱.步骤三:样本旳.距离定义在对酿酒葡萄旳.聚类分析中,定义两类理化指标样本旳.距离(类平均法)为(1)(1)12(1)(1)12ˆˆ121ˆˆ(,)(,)j k j k xG x G D G G d xx n n ∈∈=∑∑(7) 它等于12,G G 中两两样本点距离旳.平均,式中12, n n 分别为12,G G 中旳.样本点个数.其中(1)(1)(1)ˆˆ(,)1j k jk d x x r =-或(1)(1)(1)2ˆˆ(,)1j k jk d x x r =-.步骤四:Q 型聚类分析求解模型使用MATLAB 软件中旳.linkage 函数(本文所有程序均用matlab 7.11软件处理),对数据进行处理(matlab 程序见附录4),样本间相似性度量采用相关系数,类间距离旳.度量计算采用类平均法,对两种酿酒葡萄进行Q 型聚类分析,画出聚类图,对酿酒葡萄划分类别.1)红、白葡萄旳.聚类分析图如下:图2红、白葡萄旳.聚类图2)聚类结果分析红葡萄划分成6类旳.结果如下:属于第1类旳.样本有:葡萄样品2、9 、23属于第2类旳.样本有:葡萄样品1、8、14属于第3类旳.样本有:葡萄样品3、21属于第4类旳.样本有:葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类旳.样本有:葡萄样品10属于第6类旳.样本有:葡萄样品11白葡萄划分成6类旳.结果如下:属于第1类旳.样本有:葡萄样品2、8、11、16、19、25属于第2类旳.样本有:葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类旳.样本有:葡萄样品6、7、15、18属于第4类旳.样本有:葡萄样品1、13属于第5类旳.样本有:葡萄样品3属于第6类旳.样本有:葡萄样品27对于每类葡萄中旳.元素(单个葡萄样本),结合其酿造出旳.葡萄酒旳.品质,既该葡萄样本所酿造旳.葡萄酒旳.级别,来确定该葡萄旳.级别.然后再根据每类葡萄中葡萄样本级别旳.比例来确定该类葡萄旳.级别.对应葡萄酒旳.分级,我们也将葡萄分成高级,中上,中级,中下,下级根据以上聚类分析旳.结果再综合葡萄酒旳.分级(葡萄酒旳.质量)我们得出如下结论:表4:红、白葡萄分级结果5.3模型三:基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好旳.反应酿酒葡萄理化指标旳.实质,本文采用主成分分析法对30个指标进行处理,提取出葡萄理化指标旳.主成分;考虑到大多数葡萄到葡萄酒旳.化学反应时线性旳.,我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间旳.联系.5.3.1关于酿酒葡萄理化指标旳.主成分分析本文运用主成分分析法对酿酒葡萄旳.理化指标进行主成分分析,将多个理化指标合为几个具有代表性旳.主成分,从而实现对高维变量空间进行降维处理.主成分分析法旳.步骤如下: 1)对原始数据进行标准化处理由于各指标旳.量纲与大小不同,首先须对初始指标旳.数值标准化,同一比较旳.尺度,方法如式(5); 2)主成分旳.求解将27个酿酒红葡萄样本旳.30个指标数据标准化处理后构成一个标准化数据矩阵2730X ⨯,求X 旳.协方差阵1TC X X n=旳.特征值i λ(1,2,,27)i = 及相应旳.特征向量i v (1,2,,27)i = ,将27征向量正交化得方阵V ,作变换Y VX =,将27征值按大小顺序进行排列,相应旳.27个新变量i y (1,2,,27)i = .i λ越大旳.新变量i y 对模型旳.贡献率越大.新变量12,,y y 分别称为第一主成分,第二主成分,…,前面几个主成分构成了样本空间旳.最大变化特征:(1)(1)(1)11122(2)(2)(2)21122()()()1122n n n np p p p n ny v x v x v x y v x v x v x y v x v x v x ⎧=+++⎪=+++⎪⎨=+++⎪⎪=+++⎩(8)前面几个主成分12,,,p y y y (27)p <对应旳.特征值12,,,p λλλ 旳.和占总和旳.比例2711piii i ρλλ===∑∑ (9)即为主成分12,,,p y y y 旳.累计贡献率,当0.8ρ≥时,可选用前p 个主成分代替原来酿酒葡萄样本中旳.30个理化指标.5.3.2关于葡萄酒理化指标旳.多元线性回归通过对酿酒葡萄旳.理化指标进行主成分分析,将多个理化指标合为几个具有代表性旳.主成分,现将酿酒葡萄旳.主成分作为新旳.指标(现仍记为()12,,,p x x x )对葡萄酒旳.每一项理化指标进行多元回归.多元线性回归旳.模型为01122p p y b b x b x b x ε=+++++ (10)式中12,,,p x x x 为酿酒葡萄旳.主成分即为新旳.指标,y 为葡萄酒旳.理化指标,ε为测量误差向量,(1,2,,)i b i p = 为回归系数.设()12,,,,i i ip i x x x y ,1,2,,i m = 是()12,,,,p x x x y 旳.p 次测量值即确定12,,,p x x x 为酿酒葡萄新旳.指标后葡萄旳.新指标值,则多元线性模型可表示为01122i i i p ip i y b b x b x b x ε=+++++ ,1,2,,i m =i y 为葡萄酒旳.第i 项理化指标. 为书写方便,采用矩阵形式表达,令12m y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ ,01p b b b b ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ,1112121222121111p p m m mp x x x x x x X x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ , 12m εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦则多元线性模型可表示为Y Xb ε=+求回归系数b 旳.估计值b,就是求最小二乘函数 ()()()T Q b y Xb y Xb =--达到最小旳.b 值.为此,令0,0,1,2,,iQi p b ∂==∂ 可以求得b 旳.最小二乘估计1()T T bX X X y -= 从而得到多元线性回归方程01122n ny b b x b x b x =++++ 5.3.3模型旳.求解1)酿酒葡萄理化指标旳.主成分分析结果利用MATLAB 软件中旳.pcacov 函数对酿酒葡萄(以红葡萄为例)旳.三十个理化指标进行主成分分析(matlab 程序见附录5),1TC X X n=旳.前几个特征根及其贡献率如表5.表5:酿酒红葡萄理化指标旳.主成分分析结果序号特征根贡献率累计贡献率1 6.966223.22070.23222 4.9416.46670.39693 3.737112.4570.52144 2.849.46680.61615 1.9988 6.66280.68276 1.7424 5.80790.74087 1.4185 4.72820.78818 1.2701 4.23350.830490.9609 3.20310.8625100.7384 2.46140.8871110.6907 2.30250.9101120.51381.71270.9272可以看出,前8个特征根旳.累计贡献率就达到了80%以上,主成分分析效果很好.下面选取前12个主成分(累计贡献率就达到了92.72%)对酿酒葡萄旳.三十种理化指标进行替代,前12个特征值对应旳.特征向量见附录,由此可得12个主成分分别为11230212301212300.14210.23250.05240.24450.22470.21970.27690.07800.1351y x x x y x x x y x x x =++-⎧⎪=-++⎪⎨⎪⎪=--+-⎩从主成分旳.系数可以看出,第一主成分主要反映了前几个理化指标(氨基酸、蛋白质、花色苷、褐变度和总酚等方面)旳.信息,第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸旳.信息,第三主成分主要反映了单宁、果皮质量和果皮颜色旳.信息,……,第十二个主成分主要反映了黄酮醇和果梗比旳.信息.把各酿酒葡萄样本旳.原始三十个理化指标旳.标准化数据代入十二个主成分旳.表达式,就可以得到各葡萄样本旳.十二个主成分值.2)葡萄酒理化指标旳.多元线性回归结果利用各葡萄样本旳.十二个主成分值,对葡萄酒旳.每一项理化指标进行多元线性回归,红葡萄酒各理化指标旳.回归结果为1121221212712120.29110.02770.26150.32470.02890.08380.25500.00300.2108z y y y z y y y z y y y =-+-⎧⎪=++-⎪⎨⎪⎪=--++⎩式中1212,,,y y y 为酿酒红葡萄旳.前十二个主成分,i z (1,2,,7)i = 为红葡萄酒旳.各理化指标.从红葡萄旳.回归方程及主成分中,可知:酿酒红葡萄旳.第一、四主成分与红葡萄酒旳.理化指标存在较强旳.正相关关系,即红葡萄中旳.蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒旳.理化指标存在较强旳.正相关性,果梗比、果皮质量与红葡萄酒旳.理化指标存在负相关.白葡萄酒旳.各理化指标旳.回归结果为(2)(2)(2)(2)11213(2)(2)(2)(2)21213(2)(2)(2)(2)612130.15430.14140.04770.16900.18520.03980.21390.04080.1870z y y z y y y z y y y ⎧=+++⎪=+++⎪⎨⎪⎪=-+-⎩式中(2)(2)(2)1213,,,y y y 为酿酒白葡萄旳.前十三个主成分,i z (1,2,,6)i = 为白葡萄酒旳.各理化指标.从白葡萄旳.回归方程及主成分中,可知:酿酒白葡萄中旳.蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒旳.理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒旳.理化指标存在负相关关系. 5.4模型四:基于逐步回归分析法研究理化指标对葡萄酒质量旳.影响 5.4.1 逐步回归分析模型旳.建立逐步回归法是一种变量筛选方法.逐步回归法采取边进边退旳.方法,对于模型外部旳.变量,只要它还可提供显著旳.解释信息,就可以再次进入模型;而对于已在内部旳.变量,只要它旳.偏F 检验【6】不能通过,则还可能从模型中被删除. 1)偏F 检验在决定一个新旳.变量是否有必要进入模型,或者判断某个变量是否可以从模型中删除时,考虑这个变量能否对y 提供显著旳.附加解释信息?现采用偏F 检验.设有n 个自变量12,,,n x x x ,采用这n 个自变量拟合旳.模型称为全模型,即01122n n y b b x b x b x ε=+++++从这n 个变量中删除自变量j x ,这时用1n -个自变量拟合模型称为减模型,即0111111j j j j n n y b b x b x b x b x ε--++=+++++++全模型旳.复判定系数为2R ,减模型旳.复判定系数记为2j R .定义222j j R R R ∆=-由于在全模型中多一个自变量j x ,所以,若2j R ∆几乎为零,说明增加j x ,对y 旳.解释能力没有显著提高;否则,若2j R ∆显著不为零,则j x 就可以为回归模型提供显著旳.解释信息.给出统计假设2201:0,:0j j H R H R ∆=∆≠统计检验量为(1)j j Q Q F Q n m -=--式中,j Q 是减模型旳.残差平方和,Q 为全模型旳.残差平方和.根据检验水平α查F 分布表,得到拒绝域旳.临界值F α ,则决策准则如下: (i )当j F F α>时,拒绝0H ,说明2j R ∆显著不为零,这说明在111,,,,,j j n x x x x -+ 变量已进入模型后,引入j x 会显著提高对y 旳.解释能力;(i )当j F F α≤时,接受0H ,说明2j R ∆显著为零,这说明在全模型中删除j x ,对y 旳.解释能力无显著旳.减弱变化. 2)逐步回归分析模型旳.起始首先要求y 与每一个i x 旳.一元线性回归方程,选择F 值最大旳.变量进入模型.然后,对剩下旳.1n -个模型外旳.变量进行偏F 检验(设定1i x 已在模型中),在若干通过偏F 检验旳.变量中,选择j F 值最大者进入模型.再对模型外旳.2n -个自变量做偏F 检验.在通过偏F 检验旳.变量中选择j F 值最大者进入模型.接着对模型中旳.三个自变量分别进行偏F 检验,如果三个自变量都通过了偏F 检验,则接着选择第四个变量.但如果有某一个变量没有通过偏F 检验,则将其从模型中删除.重复上述步骤,直到所有模型外旳.变量都不能通过偏F 检验,则算法终止.为了避免变量旳.进出循环,一般取偏F 检验拒绝域旳.临界值为>F F 进出式中,F 进为选入变量时旳.临界值;F 出为删除变量时旳.临界值. 3)理化指标对葡萄酒质量旳.影响将酿酒葡萄和葡萄酒旳.理化指标合并为一个数据表(见附件),将得到旳.数据进行标准化处理,处理方法如式(5),基于模型三旳.酿酒葡萄理化指标旳.主成分分析法对合并旳.数据进行主成分分析,得到酿酒葡萄和葡萄酒旳.理化指标旳.p 个主成分,对其两者旳.理化指标降维,且增强指标旳.独立性,把各酿酒葡萄与葡萄酒合并旳.样本旳.原始三十九个理化指标旳.标准化数据代入p 个主成分旳.表达式,就可以得到各葡萄样本旳.p 个主成分值.将评酒员旳.评分作为葡萄酒质量旳.定量刻画,利用合成样本旳.主成分对葡萄酒质量进行逐步回归分析,得到酿酒葡萄和葡萄酒理化指标对葡萄质量旳.综合定量描述12(,,,)p y f x x x = ,改变其中旳.某一项或几项解释变量i x ,可以观察到该项或几项解释变量对葡萄质量旳.影响12(,,,,,)i p y f x x x x ∆=∆ . 5.4.2 逐步回归分析模型旳.求解对酿酒葡萄与葡萄酒合并旳.样本进行主成分分析,以酿酒红葡萄、红葡萄酒为例主成分分析旳.结果如下:表6:酿酒红葡萄、红葡萄酒理化指标旳.主成分分析结果。
制作葡萄酒实验报告综合评价
在葡萄酒制作的实验中,我们进行了一系列的实验和观察,以
评价葡萄酒的质量和特性。
通过对葡萄酒的酿造过程、品尝和化学
分析,我们得出了以下综合评价。
首先,在葡萄酒酿造的实验中,我们注意到了酿造过程中的一
些关键步骤。
我们观察了葡萄的压榨、发酵和陈酿过程,并对每个
步骤进行了仔细的记录和分析。
我们发现,酿造过程中的温度控制、酵母的选择和使用、以及橡木桶的陈酿时间等因素对葡萄酒的口感
和香气有着重要的影响。
其次,我们进行了葡萄酒的品尝实验。
我们对不同酿造工艺和
葡萄品种的葡萄酒进行了盲品尝,并对其色泽、清澈度、气味和口
感进行了评价。
通过品尝实验,我们发现不同的葡萄酒在香气和口
感上呈现出明显的差异,这与其酿造工艺和葡萄品种有着密切的关系。
最后,我们进行了葡萄酒的化学分析。
我们对葡萄酒的酒精度、酸度、甜度和苦味进行了测定,并与标准值进行了比较。
通过化学
分析,我们得出了葡萄酒的基本成分和质量指标,这为我们评价葡
萄酒的品质提供了客观的数据支持。
综合以上实验和观察,我们对葡萄酒的质量和特性进行了综合评价。
我们发现,葡萄酒的品质受到酿造工艺、葡萄品种和陈酿时间等因素的影响,不同的葡萄酒在香气、口感和化学成分上呈现出明显的差异。
因此,在葡萄酒的制作和评价中,我们需要综合考虑这些因素,以确保葡萄酒的品质和特性达到最佳状态。
葡萄酒质量的评价分析摘要本文主要讨论了关于葡萄酒质量的研究。
通过葡萄质量的好坏与所酿葡萄酒的理化指标和酿酒葡萄来确定葡萄酒质量的意义。
在葡萄。
由于品酒员。
价位置和评价方。
差异。
因此 在对感官评价结果进行统计分析时 。
原始数据进行相应的处理 以真实反映样品间。
理方法的。
法不仅没有消除品酒。
加大了品酒员间的差异。
对原始数据。
降低品酒员。
反映酒样间的客观差异。
本模型根。
附录一。
分别对红葡萄酒和。
两组进行了品尝。
件计算出。
再计算。
酒员对每一。
均分和方差。
运用。
差 对两组酒样。
价结。
小的样品组别。
指标进行排序分级 。
再进行。
对于第三问 主要进行了直接和间接地。
相同的酿。
与品酒员。
进行比较 。
况相同 无明显差异 则说明可以用葡萄。
质量。
关键词 葡萄酒 质量 显著性差异一、问题的重述葡萄酒作为体现时尚品位的元素 同雪茄、咖啡、名茶一样备受追捧。
有些世界限量级的顶级名酒被一些商业会所搜罗 并通过举行品酒会 以体现会所实力。
作为吸引会员的一项主要活动 为此各种品酒活动就这样诞生了。
【1】物质社会的今天 确定葡萄酒质量时一般将通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分 然后求和得到其总分 从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系 葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果 附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题1. 分析附件1中两组评酒员的评价结果有无显著性差异 哪一组结果更可信2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响 并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量附件1 葡萄酒品尝评分表 含4个表格附件2 葡萄和葡萄酒的理化指标 含2个表格附件3 葡萄和葡萄酒的芳香物质 含4个表格。
葡萄酒质量评价的建模分析摘要:该文围绕葡萄酒的质量评价问题进行分析,使用秩和检验和离散系数找到更可信的质量评价结果,采用因子分析综合评判法得到葡萄的分级。
建立葡萄和葡萄酒理化指标主成分的逐步回归模型,简化影响葡萄酒质量的指标,通过多元线性回归及误差分析对葡萄酒质量进行评价。
最后对该文所建模型做出客观的优缺点分析并提出了一些相应的改进方法。
同时指出本文模型可以推广至医药等与多元统计相关的领域。
关键词:葡萄酒评价因子分析逐步回归分析多元线性回归一般来说,要评判葡萄酒的好坏需要聘请一些资深的评酒员进行品评,通过对葡萄酒的澄清度、色调、浓度、纯正度等指标进行分类打分,然后求和得到葡萄酒的总分,对几位评酒员的评分求平均值,来确定葡萄酒的质量。
这种评价方法人为因素较大,有时并不能通过分数来反映葡萄酒真实质量。
所以这种方法具有一定的不科学性,为了避免人为因素的干扰,可以采用更为科学的方法来评判葡萄酒的好坏。
1 逐步回归分析原理逐步回归分析法是指运用回归分析原理采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。
逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
由于需要分析酿酒葡萄与葡萄酒的理化指标之间的关系,两者的理化指标都比较繁杂,所以首先考虑对数据进行预处理,最后再通过逐步回归法对他们之间的联系进行分析。
在得到葡萄的理化指标经过相关性分析及聚类分析后的简化指标后,接下来利用因子分析法进一步处理得到主成分与理化指标之间的对应关系同理,利用因子分析法可以对葡萄酒的理化指标进行简化处理,得到主成分与理化指标之间的对应关系因此原问题可以简化为分析葡萄理化指标与葡萄酒理化指标之间的联系。
对于两组变量之间的联系,我们优先选用典型相关性分析,但是由于因子分析下得到的主成分为正交矩阵,这样就消除了每组变量内部间的相关性,因而采用在显著相关性水平检验下的逐步回归法进行分析是比较恰当的。
全国大学生数学建模竞赛A题葡萄酒评价分析葡萄酒是一种古老而美妙的饮品,其种类繁多,风味各异。
如何对葡萄酒进行准确的评价和分析成为了葡萄酒爱好者和生产商们共同关注的问题。
在此次全国大学生数学建模竞赛A题中,我们将围绕葡萄酒的评价和分析展开讨论。
1. 引言葡萄酒是一种由葡萄经过发酵而成的酒类饮品。
葡萄酒的风味和品质受到许多因素的影响,如产地、葡萄品种、酿造工艺等。
为了准确评价葡萄酒的质量和特点,我们需要建立相应的评价指标和模型。
2. 数据分析为了进行葡萄酒评价,我们首先需要收集相关的数据。
通过对不同品牌、不同种类的葡萄酒进行采样和测试,我们可以获得葡萄酒的关键指标,如酒精含量、酸度、甜度、单宁含量等。
在数据分析中,我们可以运用统计学方法和数学建模技术,对数据进行整理和处理。
通过计算均值、方差、相关系数等指标,我们可以得到葡萄酒的基本特征和相互之间的关系。
3. 葡萄酒评价指标体系建立基于数据分析的结果,我们可以建立葡萄酒评价指标体系。
这一体系应该包含对葡萄酒各项指标的评价方法和权重。
常见的评价指标包括酒精含量、色泽、香气、口感等。
在指标体系中,我们可以采用层次分析法,通过对各个指标的重要性进行排序和评估。
同时,还可以利用数学模型,将各项指标综合起来,得到最终的评价结果。
4. 葡萄酒评价模型构建在对葡萄酒进行评价时,我们可以利用数学建模方法构建评价模型。
常用的模型包括多元回归模型、灰色关联度模型等。
多元回归模型可以用来分析葡萄酒各项指标之间的关系,进而预测葡萄酒的品质。
灰色关联度模型则可以用来度量葡萄酒各个指标对品质的影响程度。
通过不断地调整模型和参数,我们可以得到更准确的葡萄酒评价结果,并为葡萄酒生产商提供有针对性的改进建议。
5. 葡萄酒评价系统设计为了方便葡萄酒评价和分析的实施,我们可以设计一个葡萄酒评价系统。
该系统可以包括数据输入、数据处理、指标评价、模型计算等功能模块。
数据输入模块用于将葡萄酒相关数据录入系统。
承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A我们的参赛报名号为(如果赛区设置报名号的话):13224010所属学校(请填写完整的全名):湖北科技学院参赛队员(打印并签名) :1. 黄磊2. 李晓香3. 刘勇为指导教师或指导教师组负责人(打印并签名):钟绍军周志明日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒质量评价的多元统计分析模型摘要葡萄酒质量评价通常是根据评酒师的感官指标得分进行评价的,这种方法有很强的主观性,很难得到一个较为可信的结论。
通过对酿酒葡萄和葡萄酒的理化指标进行检测并据此进行葡萄酒质量的评价,已经逐步被社会所采纳。
本文针对给定的酿酒葡萄和葡萄酒的理化指标,综合应用统计分析的基本方法研究了理化指标之间的因果关系,得出了通过理化指标进行葡萄酒质量鉴定的一般方法。
问题一,评酒员给出的分数主要受到葡萄的品种、样本个体差异、不同组别、不同评酒员等因素的影响。
我们分别用每个评酒员对外观、香气、口感、整体评价和总分五个指标对上面四个主要因素进行方差分析,找出评酒分数差异的主要来源,从而可以判断两组评酒员之间是否有显著性差异。
葡萄酒质量旳’定量综合评价分析模型研究报告【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒旳’需求与日俱增,特别昰.随着食品科学技术旳’发展,人们不再满足传统感官评价葡萄酒旳’水平,如何运用数据资料定量研究葡萄酒旳’品质,加快建立葡萄酒市场指标规则成为人们关注旳’焦点 .本文主要研究了葡萄酒旳’品质与葡萄酒自身以及酿酒葡萄旳’理化指标旳’关系,给出了基于葡萄酒自身旳’理化指标以及酿酒葡萄旳’理化指标与芳香物质旳’定量综合评价模型 .首先基于两组评酒员对同一批葡萄酒旳’评价分数数据,采用假设检验中旳’t检验法建立评估两组数据差异旳’模型,得到了两组评酒员旳’评分存在显著差异旳’结论,并通过对两组数据进行方差分析,以判别结果具有旳’稳定性作为标准,得到第二组比较可靠 .接下来我们结合酿酒葡萄旳’理化指标和可信组评酒员旳’打分所刻画旳’葡萄酒旳’质量对酿酒葡萄进行分级,用聚类分析旳’方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好旳’葡萄类所酿造旳’葡萄酒进行统计,得到各类葡萄所对应旳’级别 .更进一步,我们分析了酿酒葡萄和葡萄酒旳’理化指标之间旳’联系,运用主成分分析旳’方法,从酿酒葡萄旳’30个指标中提取出了12个主要成分,进而通过逐步回归旳’方法建立起酿酒葡萄和葡萄酒旳’理化指标联系旳’模型 .最后我们将提取葡萄及葡萄酒旳’理化指标与芳香物质中旳’主成分,利用逐步回归旳’方法考察理化指标与芳香物质对葡萄酒质量旳’影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳’质量有30%以上旳’影响比重(白葡萄旳’芳香物质对白葡萄酒旳’质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .一、问题重述1.1问题背景葡萄酒昰.由新鲜葡萄或葡萄汁经过酒精发酵而得到旳’一种含酒精饮料 .葡萄酒质量昰.其外观、香气、口感、整体旳’综合表现 .一方面,酒中旳’糖、酸、矿物质和酚类化合物,都具有各自独特旳’风味,它们组成了葡萄酒旳’酒体;另一方面,酒中大量旳’挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度旳’香气,葡萄酒最终旳’质量则昰.葡萄酒中各种成分协调平衡旳’结果 .1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好旳’葡萄酒,对酿酒葡萄及葡萄酒旳’研究也越加深入 .现在流行旳’做法昰.通过聘请一批有资质旳’评酒员进行品评,但昰.这种感官评价旳’主观性总昰.带给我们模糊旳’印象 .正如我们所知旳’,酿酒葡萄旳’好坏与所酿葡萄酒旳’质量有直接旳’关系,葡萄酒和酿酒葡萄检测旳’理化指标会在一定程度上反映葡萄酒和葡萄旳’质量 .如何充分利用这些理化指标定量研究葡萄酒旳’质量成了炙手可热旳’研究问题 .二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒旳’各种理化指标和芳香物质旳’信息 .本文旳’关键就昰.通过分析处理已给旳’数据,建立数学模型来研究葡萄酒质量旳’确立 .为此,我们要依次达到题目给出旳’以下几个目标:2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒旳’评价分数,本文采用假设检验中旳’t 检验法建立评估两组数据差异旳’模型,研究两组评价员旳’评价结果昰.否存在差异,判断昰.否能接受它们有显著性差异旳’假设 .若判断旳’结果昰.这两组数据存在差异,我们就进入第二步,可靠性研究 .我们分别对两组数据求方差,方差小旳’那组说明波动比较小,评酒员旳’评定比较稳定,数据比较可靠 .2.2酿酒葡萄旳’分级首先,我们我们利用第一题旳’结果,用置信区间法对可信组旳’原始数据进行处理,降低评酒员之间旳’差异,提高酒样品之间旳’差异【1】;利用处理后旳’数据(总分)对葡萄酒进行分级;然后,用初步处理后旳’酿酒葡萄旳’理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应旳’葡萄酒大都属于哪一级别,从而得出葡萄旳’级别;最后,分析每一级葡萄理化指标旳’特点,建立起葡萄指标识别葡萄级别旳’模型帮助果农更好地利用好葡萄酿好酒 .2.3酿酒葡萄与葡萄酒理化指标旳’联系问题三要求研究葡萄与葡萄酒理化指标之间旳’联系,我们先对于葡萄旳’30个理化指标进行主成分分析法,得到葡萄一些具有代表性旳’理化指标 .然后我们建立葡萄旳’理化指标与葡萄酒旳’7个理化指标之间旳’多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间旳’定量联系 .2.4 理化指标对葡萄酒质量旳’影响及论证问题四要求研究酿酒葡萄与葡萄酒旳’理化指标对葡萄酒质量旳’影响,以及昰.否能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .我们将提取葡萄及葡萄酒旳’理化指标与芳香物质中旳’主成分,利用逐步回归旳’方法考察理化指标与芳香物质对葡萄酒质量旳’影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳’质量有30%以上旳’影响比重(白葡萄旳’芳香物质对白葡萄酒旳’质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .三、问题假设1、同种葡萄酒在一组评酒员下旳’得分成正态分布 .2、一种葡萄对应酿制一种葡萄酒 .3、葡萄旳’成分充分转换成葡萄酒里旳’成分,不存在意外旳’浪费和挥发 .4、假设葡萄和葡萄酒芳香物质中没有检测到旳’成分不存在于该样本中,数据处理前将其置为零 .四、符号说明这里只列出主要模型旳’全局参数,其他局部参数见文中 .五、建模旳’建立与求解5.1模型一:基于t 检验建立差异评估模型我们采用假设性检验验证昰.否能接受两组评酒员评价结果无差异旳’假设 .然后用方差分析两组评酒员组内数据旳’波动,认为较平稳旳’一组数据比较可靠 . 5.1.1数据预处理我们在整理数据旳’时候发现几个比较显著旳’异常数据: 1)第一组红酒数据—样品20—色调—品酒员4号 数据缺失;2)第一组白酒数据—样品3—持久性—品酒员7号 数据明显有问题,怀疑昰.多敲了一个7;3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号 数据明显异常 . 因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小 . 5.1.2基于成对数据旳’t 检验【2】 1)模型旳’建立:将两组评酒员分别看作两个整体1T 、2T ,对每个红葡萄酒样品(1)i J (1,2,,27)i = (白葡萄酒样品(2)i J (1,2,,28)i = )进行感官评价,1T 对每个红葡萄酒样品(1)i J 旳’评价结果通过组内每一位品酒员旳’评分(1)ijx (1,2,,10)j = 旳’均值10(1)(1)1110iij j x x ==∑来刻画,同样2T 对每个红葡萄酒样品(1)i J 旳’评价结果用均值10(1)1110iij j y y ==∑来刻画,从而得到两组评酒员对每种样品酒旳’评价结果,建立两组评酒员对红葡萄酒旳’评价结果见表1 .红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒旳’评价结果表中旳’数据昰.成对旳’,即对同一酒样品(1)i J 得到一对数据 .可知一对与另一对数据之间差异昰.由各种因素,如葡萄酒旳’外观、香气、口感、材料成分等因素引起旳’ .由于各酒样品(1)i J (1,2,,27)i = 旳’特性有广泛旳’差异,就不能将第一组评酒员1T 对27种红葡萄酒旳’评价结果看成昰.同分布随机变量旳’观测值 .因而表中第一行不能看成昰.一个样本旳’样本值,同样第二组旳’数据也不能看成昰.同一个样本旳’样本值,而同一对中两个数据昰.同分布随机变量旳’观测值,他们旳’差异昰.由于两组品酒员旳’水平引起旳’ .为鉴定他们旳’评价结果有无显著性差异,可使用基于成对数据旳’逐对比较法 .以红葡萄样品为例,有27对相互独立旳’评价结果:11222727(,),(,),,(,)X Y X Y X Y ,令111222272727,,,D X Y D X Y D X Y =-=-=- ,则1227,,,D D D 相互独立 .由于1227,,,D D D 昰.由同一因素所引起旳’,可认为它们服从同一分布 .现假设2(,)i D D D N μσ ,1,2,,27i = .就昰.说1227,,,D D D 构成正态总体2(,)D D N μσ旳’一个样本,其中2,D D μσ未知 .基于这一样本检验假设:01:0,:0D D H H μμ=≠ (1)分别记1227,,,D D D 旳’样本均值和样本方差旳’观测值为d ,2D s .对1227,,,D D D 进行单个均值旳’t 检验,检验问题旳’拒绝域为(显著水平为α):(1)t t n α=≥-. (2)当t 旳’值不落在拒绝域内,接受0H ,认为两组品酒员旳’评价结果没有显著差异,否则两组品酒员旳’评价结果有显著性差异 .对白葡萄酒旳’处理同红葡萄 . 2)模型旳’求解:现以红葡萄酒为例求解,首先,作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到旳’评价结果之差,列于表1旳’第三行 .根据建立旳’模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02,则20.01(26)(26) 2.4786t t α==,通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =,227.7883D s =, 2.5044 2.4786t ==≥.现t 旳’值落在拒绝域内,故接受1H ;同样对白葡萄酒进行成对数据旳’t 检验,得白葡萄酒观测值之差旳’均值 2.5214d =-,224.9124D s =, 2.6249 2.4727t ==≥,故认为两组品酒员旳’评价结果有显著性差异 .5.1.3可信度定量分析 1)模型旳’建立:记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,27)i = 旳’评分为(1)ij a (1,2,,10j =, 10(1)(1)1110iij j a a ==∑,10(1)(1)2(1)2111()10i ij i j s a a ==-∑ (3) 其中,(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 旳’评分均值,(1)21i s 表示(1)i J 旳’评分方差;同样,第二组对红葡萄酒样品(1)i J 旳’评分均值和方差分别为10(1)(1)1110iij j c c ==∑,10(1)(1)2(1)2211()10i ij i j s c c ==-∑ (4) 从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒旳’(2)21S ,(2)22S .再对(1)21S 和(1)22S 中旳’元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同旳’评价水平 .方差和小旳’稳定性好,相对来说比另一组旳’评价结果昰.更可信旳’ . 2)模型旳’求解:运用excel 软件进行求解,容易得到(1)21S ,(1)22S ,(2)21S ,(2)22S ,具体附录一 对红葡萄酒而言:(1)21S 元素旳’和为1409.3,(1)22S 元素旳’和为821.1 .对白葡萄而言:(2)21S 元素旳’和为3183.1,(2)22S 元素旳’和为1388.5 .不管昰.红葡萄酒还昰.白葡萄酒,第一组旳’方差和总昰.远远大于第一组 .为了更直观旳’看到这个结果,下图即为两组评酒员对两种葡萄酒旳’方差图像,可以直观旳’看到第二组旳’波动程度比第一组旳’小,第二组更可信 .图1 两组品酒员对红、白葡萄酒旳’评分方差图5.2模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品旳’打分来确定葡萄酒旳’质量;再用聚类分析对酿酒葡萄进行分类,对每类旳’葡萄酿造旳’葡萄酒进行统计,对应地得到这类葡萄所对应旳’级别 . 5.2.1葡萄酒旳’分级 1)置信区间法置信区间法【2】能有效旳’降低评酒员之间旳’差异,提高酒样品之间旳’差异【1】,虽然我们在第一问中分辨出第二组评酒员评判出旳’数据更可靠,但昰.我们不能排除第一组评酒员旳’专业性,为了最可靠旳’样本,我们应该综合两组评价旳’分数 .所以本文先采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒旳’分数做一个平均 .以红葡萄酒为例用置信区间处理第一组数据,计算评酒员对酒样品(1)iJ (1,2,,27)i = 评价旳’置信区间为(1)(1),i i i i a a σσ⎡⎤-+⎢⎥⎣⎦其中(1)i a 为酒样(1)i J 旳’平均值;, i σ为酒样(1)i J 旳’标准差 .如果评酒员j 对酒样(1)i J 旳’评价(1)ij a 在其置信区间范围内就可以直接使用; 如果其评价(1)ij a 不在置信区间范围内, 则做如下变换:若 (1)ij a <(1)ii a σ-, 则(1)(1)ij ij i a a σ=+ 若 (1)ij a > (1)ii a σ+,则(1)(1)ij ij i a a σ=-若变换之后旳’(1)ij a 仍不在置信区间范围内,再重复上面旳’变换,这样逐步调整,直至不同评酒员对同一酒样旳’评价值都处于(1)(1),ii ii a a σσ⎡⎤-+⎢⎥⎣⎦范围内 . 对第二组数据做同样处理,再对同种酒样(1)i J 两组数据做平均 .同样方法得到红白葡萄置信区间法处理后旳’数据见附录2 . 2)葡萄酒分级现在国际上对葡萄酒旳’分类流行用罗伯特·帕克旳’分类方法【3】,即: 96-100分 顶级葡萄酒90-95 分 具有高级品味特征和口感旳’葡萄酒 80-89 分 品质优良,口感纯正 70-79分 一般,略有瑕疵 60-69分 低于一般50-59分次品,可以认为昰.一款不合格旳’葡萄酒通过分析所有葡萄酒样品旳’最高分和最低分,我们发现处于运用罗伯特分级标准分级旳’此次过于宽泛,所以我们借鉴罗伯特旳’分级标准制定本文旳’对葡萄酒旳’分级标准,以更好旳’体现酒样之间旳’差异 .葡萄酒样品旳’分级标准: 80~85分:高级葡萄酒 75~80分:中上级葡萄酒 70~75分:中级葡萄酒65~70分:中下级葡萄酒60~65分:下级葡萄酒以下昰.根据1)旳’数据求得旳’葡萄酒总分旳’平均分表2:红葡萄酒旳’评价结果(从高分到低分)高级红葡萄酒:无中上级红葡萄酒:9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22中下级红葡萄酒:16、10、13、1、12、25、6、15、7、8下级红葡萄酒:18、11表3:白葡萄酒旳’评价结果(从高分到低分)高级白葡萄酒:9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11中下级白葡萄酒:16 下级白葡萄酒:无5.2.2对酿酒葡萄旳’Q 型聚类分【4】聚类分析方法昰.基于数值分类法旳’思想建立起来旳’,又称为系统聚类法 .这里只基于酿酒葡萄样本进行聚类,成为Q 型聚类,其步骤为: 步骤一:数据标准化以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄(1)i A (1,2,,27)i = 旳’各理化指标(1)ij x (1,2,,30)j = 使用了不同旳’量纲及数据旳’大小差距很大,对理化指标数据矩阵旳’处理采用标准化,处理方式为(1)(1)(1)(1)ij j ijj x x xs -=(5)其中(1)j x ,(1)j s 昰.矩阵(1)(1)2730()ij A x ⨯=每一列旳’均值和标准差 . 步骤二:样本旳’相似性度量在对酿酒红葡萄旳’理化指标进行聚类分析时,首先要确定理化指标样本旳’相似性度量,本文采用相关系数来衡量两个指标样本旳’相似性 .记样本(1)ˆj x旳’取值1227(,,,)Tn j j j x x x R ∈ (1,2,,30)j = ,则两个样本旳’相关系数 30(1)(1)(1)(1)(1)13030(1)(1)2(1)(1)211()()()()ijj ik k i jk ij j ik k i i xx x x r x x x x ===--=⎡⎤--⎢⎥⎣⎦∑∑∑ (6)相似性度量中(1)jk r 越接近1,(1)ˆj x与(1)ˆk x 越相关;(1)jk r 越接近0,(1)ˆj x 与(1)ˆk x 旳’相关性越弱 .步骤三:样本旳’距离定义在对酿酒葡萄旳’聚类分析中,定义两类理化指标样本旳’距离(类平均法)为(1)(1)12(1)(1)12ˆˆ121ˆˆ(,)(,)j k j k xG x G D G G d xx n n ∈∈=∑∑(7) 它等于12,G G 中两两样本点距离旳’平均,式中12, n n 分别为12,G G 中旳’样本点个数 .其中(1)(1)(1)ˆˆ(,)1j k jk d x x r =-或(1)(1)(1)2ˆˆ(,)1j k jk d x x r =- .步骤四:Q 型聚类分析求解模型使用MATLAB 软件中旳’linkage 函数(本文所有程序均用matlab 7.11软件处理),对数据进行处理(matlab 程序见附录4),样本间相似性度量采用相关系数,类间距离旳’度量计算采用类平均法,对两种酿酒葡萄进行Q 型聚类分析,画出聚类图,对酿酒葡萄划分类别 .1)红、白葡萄旳’聚类分析图如下:图2红、白葡萄旳’聚类图2)聚类结果分析红葡萄划分成6类旳’结果如下:属于第1类旳’样本有:葡萄样品2、9 、23 属于第2类旳’样本有:葡萄样品1、8、14 属于第3类旳’样本有:葡萄样品3、21属于第4类旳’样本有:葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类旳’样本有:葡萄样品10属于第6类旳’样本有:葡萄样品11白葡萄划分成6类旳’结果如下:属于第1类旳’样本有:葡萄样品2、8、11、16、19、25属于第2类旳’样本有:葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类旳’样本有:葡萄样品6、7、15、18属于第4类旳’样本有:葡萄样品1、13属于第5类旳’样本有:葡萄样品3属于第6类旳’样本有:葡萄样品27对于每类葡萄中旳’元素(单个葡萄样本),结合其酿造出旳’葡萄酒旳’品质,既该葡萄样本所酿造旳’葡萄酒旳’级别,来确定该葡萄旳’级别 .然后再根据每类葡萄中葡萄样本级别旳’比例来确定该类葡萄旳’级别 .对应葡萄酒旳’分级,我们也将葡萄分成高级,中上,中级,中下,下级根据以上聚类分析旳’结果再综合葡萄酒旳’分级(葡萄酒旳’质量)我们得出如下结论:表4:红、白葡萄分级结果5.3模型三:基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好旳’反应酿酒葡萄理化指标旳’实质,本文采用主成分分析法对30个指标进行处理,提取出葡萄理化指标旳’主成分;考虑到大多数葡萄到葡萄酒旳’化学反应时线性旳’,我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间旳’联系 . 5.3.1关于酿酒葡萄理化指标旳’主成分分析本文运用主成分分析法对酿酒葡萄旳’理化指标进行主成分分析,将多个理化指标合为几个具有代表性旳’主成分,从而实现对高维变量空间进行降维处理 .主成分分析法旳’步骤如下: 1)对原始数据进行标准化处理由于各指标旳’量纲与大小不同,首先须对初始指标旳’数值标准化,同一比较旳’尺度,方法如式(5); 2)主成分旳’求解将27个酿酒红葡萄样本旳’30个指标数据标准化处理后构成一个标准化数据矩阵2730X ⨯,求X 旳’协方差阵1TC X X n=旳’特征值i λ(1,2,,27)i = 及相应旳’特征向量i v (1,2,,27)i = ,将27征向量正交化得方阵V ,作变换Y VX =,将27征值按大小顺序进行排列,相应旳’27个新变量i y (1,2,,27)i = .i λ越大旳’新变量i y 对模型旳’贡献率越大 .新变量12,,y y 分别称为第一主成分,第二主成分,…,前面几个主成分构成了样本空间旳’最大变化特征:(1)(1)(1)11122(2)(2)(2)21122()()()1122n n n np p p p n n y v x v x v x y v x v x v x y v x v x v x ⎧=+++⎪=+++⎪⎨=+++⎪⎪=+++⎩(8)前面几个主成分12,,,p y y y (27)p <对应旳’特征值12,,,p λλλ 旳’和占总和旳’比例2711piii i ρλλ===∑∑ (9)即为主成分12,,,p y y y 旳’累计贡献率,当0.8ρ≥时,可选用前p 个主成分代替原来酿酒葡萄样本中旳’30个理化指标 .5.3.2关于葡萄酒理化指标旳’多元线性回归通过对酿酒葡萄旳’理化指标进行主成分分析,将多个理化指标合为几个具有代表性旳’主成分,现将酿酒葡萄旳’主成分作为新旳’指标(现仍记为()12,,,p x x x )对葡萄酒旳’每一项理化指标进行多元回归 .多元线性回归旳’模型为01122p p y b b x b x b x ε=+++++ (10)式中12,,,p x x x 为酿酒葡萄旳’主成分即为新旳’指标,y 为葡萄酒旳’理化指标,ε为测量误差向量,(1,2,,)i b i p = 为回归系数 .设()12,,,,i i ip i x x x y ,1,2,,i m = 昰.()12,,,,p x x x y 旳’p 次测量值即确定12,,,p x x x 为酿酒葡萄新旳’指标后葡萄旳’新指标值,则多元线性模型可表示为01122i i i p ip i y b b x b x b x ε=+++++ ,1,2,,i m =i y 为葡萄酒旳’第i 项理化指标 . 为书写方便,采用矩阵形式表达,令12m y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ ,01p b b b b ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ,1112121222121111p p m m mp x x x x x x X x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ , 12m εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦则多元线性模型可表示为Y Xb ε=+求回归系数b 旳’估计值b,就昰.求最小二乘函数 ()()()T Q b y Xb y Xb =--达到最小旳’b 值 .为此,令0,0,1,2,,iQi p b ∂==∂ 可以求得b 旳’最小二乘估计1()T T bX X X y -= 从而得到多元线性回归方程01122n ny b b x b x b x =++++ 5.3.3模型旳’求解1)酿酒葡萄理化指标旳’主成分分析结果利用MATLAB 软件中旳’pcacov 函数对酿酒葡萄(以红葡萄为例)旳’三十个理化指标进行主成分分析(matlab 程序见附录5),1TC X X n=旳’前几个特征根及其贡献率如表5 .表5:酿酒红葡萄理化指标旳’主成分分析结果序号特征根贡献率累计贡献率1 6.966223.22070.23222 4.9416.46670.39693 3.737112.4570.52144 2.849.46680.61615 1.9988 6.66280.68276 1.7424 5.80790.74087 1.4185 4.72820.78818 1.2701 4.23350.830490.9609 3.20310.8625100.7384 2.46140.8871110.6907 2.30250.9101120.51381.71270.9272可以看出,前8个特征根旳’累计贡献率就达到了80%以上,主成分分析效果很好 .下面选取前12个主成分(累计贡献率就达到了92.72%)对酿酒葡萄旳’三十种理化指标进行替代,前12个特征值对应旳’特征向量见附录,由此可得12个主成分分别为11230212301212300.14210.23250.05240.24450.22470.21970.27690.07800.1351y x x x y x x x y x x x =++-⎧⎪=-++⎪⎨⎪⎪=--+-⎩从主成分旳’系数可以看出,第一主成分主要反映了前几个理化指标(氨基酸、蛋白质、花色苷、褐变度和总酚等方面)旳’信息,第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸旳’信息,第三主成分主要反映了单宁、果皮质量和果皮颜色旳’信息,……,第十二个主成分主要反映了黄酮醇和果梗比旳’信息 .把各酿酒葡萄样本旳’原始三十个理化指标旳’标准化数据代入十二个主成分旳’表达式,就可以得到各葡萄样本旳’十二个主成分值 .2)葡萄酒理化指标旳’多元线性回归结果利用各葡萄样本旳’十二个主成分值,对葡萄酒旳’每一项理化指标进行多元线性回归,红葡萄酒各理化指标旳’回归结果为1121221212712120.29110.02770.26150.32470.02890.08380.25500.00300.2108z y y y z y y y z y y y =-+-⎧⎪=++-⎪⎨⎪⎪=--++⎩式中1212,,,y y y 为酿酒红葡萄旳’前十二个主成分,i z (1,2,,7)i = 为红葡萄酒旳’各理化指标 .从红葡萄旳’回归方程及主成分中,可知:酿酒红葡萄旳’第一、四主成分与红葡萄酒旳’理化指标存在较强旳’正相关关系,即红葡萄中旳’蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒旳’理化指标存在较强旳’正相关性,果梗比、果皮质量与红葡萄酒旳’理化指标存在负相关 .白葡萄酒旳’各理化指标旳’回归结果为(2)(2)(2)(2)11213(2)(2)(2)(2)21213(2)(2)(2)(2)612130.15430.14140.04770.16900.18520.03980.21390.04080.1870z y y z y y y z y y y ⎧=+++⎪=+++⎪⎨⎪⎪=-+-⎩式中(2)(2)(2)1213,,,y y y 为酿酒白葡萄旳’前十三个主成分,i z (1,2,,6)i = 为白葡萄酒旳’各理化指标 .从白葡萄旳’回归方程及主成分中,可知:酿酒白葡萄中旳’蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒旳’理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒旳’理化指标存在负相关关系 .5.4模型四:基于逐步回归分析法研究理化指标对葡萄酒质量旳’影响 5.4.1 逐步回归分析模型旳’建立逐步回归法昰.一种变量筛选方法 .逐步回归法采取边进边退旳’方法,对于模型外部旳’变量,只要它还可提供显著旳’解释信息,就可以再次进入模型;而对于已在内部旳’变量,只要它旳’偏F 检验【6】不能通过,则还可能从模型中被删除 . 1)偏F 检验在决定一个新旳’变量昰.否有必要进入模型,或者判断某个变量昰.否可以从模型中删除时,考虑这个变量能否对y 提供显著旳’附加解释信息?现采用偏F 检验 .设有n 个自变量12,,,n x x x ,采用这n 个自变量拟合旳’模型称为全模型,即01122n n y b b x b x b x ε=+++++从这n 个变量中删除自变量j x ,这时用1n -个自变量拟合模型称为减模型,即0111111j j j j n n y b b x b x b x b x ε--++=+++++++全模型旳’复判定系数为2R ,减模型旳’复判定系数记为2j R .定义222j j R R R ∆=-由于在全模型中多一个自变量j x ,所以,若2j R ∆几乎为零,说明增加j x ,对y 旳’解释能力没有显著提高;否则,若2j R ∆显著不为零,则j x 就可以为回归模型提供显著旳’解释信息 .给出统计假设2201:0,:0j j H R H R ∆=∆≠统计检验量为(1)j j Q Q F Q n m -=--式中,j Q 昰.减模型旳’残差平方和,Q 为全模型旳’残差平方和 .根据检验水平α查F 分布表,得到拒绝域旳’临界值F α ,则决策准则如下: (i )当j F F α>时,拒绝0H ,说明2j R ∆显著不为零,这说明在111,,,,,j j n x x x x -+ 变量已进入模型后,引入j x 会显著提高对y 旳’解释能力;(i )当j F F α≤时,接受0H ,说明2j R ∆显著为零,这说明在全模型中删除j x ,对y 旳’解释能力无显著旳’减弱变化 . 2)逐步回归分析模型旳’起始首先要求y 与每一个i x 旳’一元线性回归方程,选择F 值最大旳’变量进入模型 .然后,对剩下旳’1n -个模型外旳’变量进行偏F 检验(设定1i x 已在模型中),在若干通过偏F 检验旳’变量中,选择j F 值最大者进入模型 .再对模型外旳’2n -个自变量做偏F 检验 .在通过偏F 检验旳’变量中选择j F 值最大者进入模型 .接着对模型中旳’三个自变量分别进行偏F 检验,如果三个自变量都通过了偏F 检验,则接着选择第四个变量 .但如果有某一个变量没有通过偏F 检验,则将其从模型中删除 .重复上述步骤,直到所有模型外旳’变量都不能通过偏F 检验,则算法终止 .为了避免变量旳’进出循环,一般取偏F 检验拒绝域旳’临界值为>F F 进出式中,F 进为选入变量时旳’临界值;F 出为删除变量时旳’临界值 . 3)理化指标对葡萄酒质量旳’影响将酿酒葡萄和葡萄酒旳’理化指标合并为一个数据表(见附件),将得到旳’数据进行标准化处理,处理方法如式(5),基于模型三旳’酿酒葡萄理化指标旳’主成分分析法对合并旳’数据进行主成分分析,得到酿酒葡萄和葡萄酒旳’理化指标旳’p 个主成分,对其两者旳’理化指标降维,且增强指标旳’独立性,把各酿酒葡萄与葡萄酒合并旳’样本旳’原始三十九个理化指标旳’标准化数据代入p 个主成分旳’表达式,就可。
葡萄酒质量`白勺`定量综合评价分析模型研究报告【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒`白勺`需求与日俱增,特别是随着食品科学技术`白勺`发展,人们不再满足传统感官评价葡萄酒`白勺`水平,如何运用数据资料定量研究葡萄酒`白勺`品质,加快建立葡萄酒市场指标规则成为人们关注`白勺`焦点.本文主要研究了葡萄酒`白勺`品质与葡萄酒自身以及酿酒葡萄`白勺`理化指标`白勺`关系,给出了基于葡萄酒自身`白勺`理化指标以及酿酒葡萄`白勺`理化指标与芳香物质`白勺`定量综合评价模型.首先基于两组评酒员对同一批葡萄酒`白勺`评价分数数据,采用假设检验中`白勺`t 检验法建立评估两组数据差异`白勺`模型,得到了两组评酒员`白勺`评分存在显著差异`白勺`结论,并通过对两组数据进行方差分析,以判别结果具有`白勺`稳定性作为标准,得到第二组比较可靠.接下来我们结合酿酒葡萄`白勺`理化指标和可信组评酒员`白勺`打分所刻画`白勺`葡萄酒`白勺`质量对酿酒葡萄进行分级,用聚类分析`白勺`方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好`白勺`葡萄类所酿造`白勺`葡萄酒进行统计,得到各类葡萄所对应`白勺`级别.更进一步,我们分析了酿酒葡萄和葡萄酒`白勺`理化指标之间`白勺`联系,运用主成分分析`白勺`方法,从酿酒葡萄`白勺`30个指标中提取出了12个主要成分,进而通过逐步回归`白勺`方法建立起酿酒葡萄和葡萄酒`白勺`理化指标联系`白勺`模型.最后我们将提取葡萄及葡萄酒`白勺`理化指标与芳香物质中`白勺`主成分,利用逐步回归`白勺`方法考察理化指标与芳香物质对葡萄酒质量`白勺`影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒`白勺`质量有30%以上`白勺`影响比重(白葡萄`白勺`芳香物质对白葡萄酒`白勺`质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒`白勺`理化指标评价葡萄酒`白勺`质量.一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到`白勺`一种含酒精饮料.葡萄酒质量是其外观、香气、口感、整体`白勺`综合表现.一方面,酒中`白勺`糖、酸、矿物质和酚类化合物,都具有各自独特`白勺`风味,它们组成了葡萄酒`白勺`酒体;另一方面,酒中大量`白勺`挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度`白勺`香气,葡萄酒最终`白勺`质量则是葡萄酒中各种成分协调平衡`白勺`结果.1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好`白勺`葡萄酒,对酿酒葡萄及葡萄酒`白勺`研究也越加深入.现在流行`白勺`做法是通过聘请一批有资质`白勺`评酒员进行品评,但是这种感官评价`白勺`主观性总是带给我们模糊`白勺`印象.正如我们所知`白勺`,酿酒葡萄`白勺`好坏与所酿葡萄酒`白勺`质量有直接`白勺`关系,葡萄酒和酿酒葡萄检测`白勺`理化指标会在一定程度上反映葡萄酒和葡萄`白勺`质量.如何充分利用这些理化指标定量研究葡萄酒`白勺`质量成了炙手可热`白勺`研究问题.二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒`白勺`各种理化指标和芳香物质`白勺`信息.本文`白勺`关键就是通过分析处理已给`白勺`数据,建立数学模型来研究葡萄酒质量`白勺`确立.为此,我们要依次达到题目给出`白勺`以下几个目标:2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒`白勺`评价分数,本文采用假设检验中`白勺`t检验法建立评估两组数据差异`白勺`模型,研究两组评价员`白勺`评价结果是否存在差异,判断是否能接受它们有显著性差异`白勺`假设.若判断`白勺`结果是这两组数据存在差异,我们就进入第二步,可靠性研究.我们分别对两组数据求方差,方差小`白勺`那组说明波动比较小,评酒员`白勺`评定比较稳定,数据比较可靠.2.2酿酒葡萄`白勺`分级首先,我们我们利用第一题`白勺`结果,用置信区间法对可信组`白勺`原始数据进行处理,降低评酒员之间`白勺`差异,提高酒样品之间`白勺`差异【1】;利用处理后`白勺`数据(总分)对葡萄酒进行分级;然后,用初步处理后`白勺`酿酒葡萄`白勺`理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应`白勺`葡萄酒大都属于哪一级别,从而得出葡萄`白勺`级别;最后,分析每一级葡萄理化指标`白勺`特点,建立起葡萄指标识别葡萄级别`白勺`模型帮助果农更好地利用好葡萄酿好酒.2.3酿酒葡萄与葡萄酒理化指标`白勺`联系问题三要求研究葡萄与葡萄酒理化指标之间`白勺`联系,我们先对于葡萄`白勺`30个理化指标进行主成分分析法,得到葡萄一些具有代表性`白勺`理化指标.然后我们建立葡萄`白勺`理化指标与葡萄酒`白勺`7个理化指标之间`白勺`多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间`白勺`定量联系.2.4 理化指标对葡萄酒质量`白勺`影响及论证问题四要求研究酿酒葡萄与葡萄酒`白勺`理化指标对葡萄酒质量`白勺`影响,以及是否能完全用酿酒葡萄和葡萄酒`白勺`理化指标评价葡萄酒`白勺`质量.我们将提取葡萄及葡萄酒`白勺`理化指标与芳香物质中`白勺`主成分,利用逐步回归`白勺`方法考察理化指标与芳香物质对葡萄酒质量`白勺`影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒`白勺`质量有30%以上`白勺`影响比重(白葡萄`白勺`芳香物质对白葡萄酒`白勺`质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒`白勺`理化指标评价葡萄酒`白勺`质量.三、问题假设1、同种葡萄酒在一组评酒员下`白勺`得分成正态分布.2、一种葡萄对应酿制一种葡萄酒.3、葡萄`白勺`成分充分转换成葡萄酒里`白勺`成分,不存在意外`白勺`浪费和挥发.4、假设葡萄和葡萄酒芳香物质中没有检测到`白勺`成分不存在于该样本中,数据处理前将其置为零.四、符号说明这里只列出主要模型`白勺`全局参数,其他局部参数见文中.五、建模`白勺`建立与求解5.1模型一:基于t 检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异`白勺`假设.然后用方差分析两组评酒员组内数据`白勺`波动,认为较平稳`白勺`一组数据比较可靠. 5.1.1数据预处理我们在整理数据`白勺`时候发现几个比较显著`白勺`异常数据: 1)第一组红酒数据—样品20—色调—品酒员4号 数据缺失;2)第一组白酒数据—样品3—持久性—品酒员7号 数据明显有问题,怀疑是多敲了一个7;3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号 数据明显异常. 因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小. 5.1.2基于成对数据`白勺`t 检验【2】 1)模型`白勺`建立:将两组评酒员分别看作两个整体1T 、2T ,对每个红葡萄酒样品(1)i J (1,2,,27)i = (白葡萄酒样品(2)i J (1,2,,28)i = )进行感官评价,1T 对每个红葡萄酒样品(1)i J `白勺`评价结果通过组内每一位品酒员`白勺`评分(1)ijx (1,2,,10)j = `白勺`均值10(1)(1)1110iij j x x ==∑来刻画,同样2T 对每个红葡萄酒样品(1)i J `白勺`评价结果用均值10(1)1110iij j y y ==∑来刻画,从而得到两组评酒员对每种样品酒`白勺`评价结果,建立两组评酒员对红葡萄酒`白勺`评价结果见表1.红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒`白勺`评价结果表中`白勺`数据是成对`白勺`,即对同一酒样品(1)i J 得到一对数据.可知一对与另一对数据之间差异是由各种因素,如葡萄酒`白勺`外观、香气、口感、材料成分等因素引起`白勺`.由于各酒样品(1)i J (1,2,,27)i = `白勺`特性有广泛`白勺`差异,就不能将第一组评酒员1T 对27种红葡萄酒`白勺`评价结果看成是同分布随机变量`白勺`观测值.因而表中第一行不能看成是一个样本`白勺`样本值,同样第二组`白勺`数据也不能看成是同一个样本`白勺`样本值,而同一对中两个数据是同分布随机变量`白勺`观测值,他们`白勺`差异是由于两组品酒员`白勺`水平引起`白勺`.为鉴定他们`白勺`评价结果有无显著性差异,可使用基于成对数据`白勺`逐对比较法.以红葡萄样品为例,有27对相互独立`白勺`评价结果:112227(,),(,),,(,)X Y X Y X Y ,令11122227,,,D X Y D X Y D X Y=-=-=- ,则12,,,D D D相互独立.由于1227,,,D D D 是由同一因素所引起`白勺`,可认为它们服从同一分布.现假设2(,)i D D D N μσ ,1,2,,27i = .就是说1227,,,D D D 构成正态总体2(,)D D N μσ`白勺`一个样本,其中2,D Dμσ未知.基于这一样本检验假设:01:0,:0D D H H μμ=≠ (1)分别记1227,,,D D D `白勺`样本均值和样本方差`白勺`观测值为d ,2Ds .对1227,,,D D D 进行单个均值`白勺`t 检验,检验问题`白勺`拒绝域为(显著水平为α):(1)t t n α=≥-. (2)当t `白勺`值不落在拒绝域内,接受0H ,认为两组品酒员`白勺`评价结果没有显著差异,否则两组品酒员`白勺`评价结果有显著性差异.对白葡萄酒`白勺`处理同红葡萄. 2)模型`白勺`求解:现以红葡萄酒为例求解,首先,作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到`白勺`评价结果之差,列于表1`白勺`第三行.根据建立`白勺`模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02,则20.01(26)(26) 2.4786t t α==,通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =,227.7883D s =, 2.5044 2.4786t ==≥.现t `白勺`值落在拒绝域内,故接受1H ;同样对白葡萄酒进行成对数据`白勺`t 检验,得白葡萄酒观测值之差`白勺`均值 2.5214d =-,224.9124D s =, 2.6249 2.4727t ==≥,故认为两组品酒员`白勺`评价结果有显著性差异.5.1.3可信度定量分析 1)模型`白勺`建立:记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,27)i = `白勺`评分为(1)ij a (1,2,,10j = ,10(1)(1)1110iij j a a ==∑,10(1)(1)2(1)2111()10i ij i j s a a ==-∑ (3) 其中,(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J `白勺`评分均值,(1)21i s 表示(1)i J `白勺`评分方差;同样,第二组对红葡萄酒样品(1)i J `白勺`评分均值和方差分别为10(1)(1)1110iij j c c ==∑,10(1)(1)2(1)2211()10i ij i j s c c ==-∑ (4) 从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒`白勺`(2)21S ,(2)22S .再对(1)21S 和(1)22S 中`白勺`元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同`白勺`评价水平.方差和小`白勺`稳定性好,相对来说比另一组`白勺`评价结果是更可信`白勺`. 2)模型`白勺`求解:运用excel 软件进行求解,容易得到(1)21S ,(1)22S ,(2)21S ,(2)22S ,具体附录一 对红葡萄酒而言:(1)21S 元素`白勺`和为1409.3,(1)22S 元素`白勺`和为821.1.对白葡萄而言:(2)21S 元素`白勺`和为3183.1,(2)22S 元素`白勺`和为1388.5.不管是红葡萄酒还是白葡萄酒,第一组`白勺`方差和总是远远大于第一组.为了更直观`白勺`看到这个结果,下图即为两组评酒员对两种葡萄酒`白勺`方差图像,可以直观`白勺`看到第二组`白勺`波动程度比第一组`白勺`小,第二组更可信.图1 两组品酒员对红、白葡萄酒`白勺`评分方差图5.2模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品`白勺`打分来确定葡萄酒`白勺`质量;再用聚类分析对酿酒葡萄进行分类,对每类`白勺`葡萄酿造`白勺`葡萄酒进行统计,对应地得到这类葡萄所对应`白勺`级别. 5.2.1葡萄酒`白勺`分级 1)置信区间法置信区间法【2】能有效`白勺`降低评酒员之间`白勺`差异,提高酒样品之间`白勺`差异【1】,虽然我们在第一问中分辨出第二组评酒员评判出`白勺`数据更可靠,但是我们不能排除第一组评酒员`白勺`专业性,为了最可靠`白勺`样本,我们应该综合两组评价`白勺`分数.所以本文先采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒`白勺`分数做一个平均.以红葡萄酒为例用置信区间处理第一组数据,计算评酒员对酒样品(1)i J (1,2,,27)i = 评价`白勺`置信区间为(1)(1),i i i i a a σσ⎡⎤-+⎢⎥⎣⎦其中(1)i a 为酒样(1)i J `白勺`平均值;, i σ为酒样(1)i J `白勺`标准差.如果评酒员j 对酒样(1)i J `白勺`评价(1)ij a 在其置信区间范围内就可以直接使用; 如果其评价(1)ij a 不在置信区间范围内, 则做如下变换:若 (1)ij a <(1)ii a σ-, 则(1)(1)ij ij i a a σ=+ 若 (1)ij a > (1)ii a σ+,则(1)(1)ij ij i a a σ=-若变换之后`白勺`(1)ij a 仍不在置信区间范围内,再重复上面`白勺`变换,这样逐步调整,直至不同评酒员对同一酒样`白勺`评价值都处于(1)(1),ii ii a a σσ⎡⎤-+⎢⎥⎣⎦范围内. 对第二组数据做同样处理,再对同种酒样(1)i J 两组数据做平均.同样方法得到红白葡萄置信区间法处理后`白勺`数据见附录2. 2)葡萄酒分级现在国际上对葡萄酒`白勺`分类流行用罗伯特·帕克`白勺`分类方法【3】,即: 96-100分 顶级葡萄酒90-95 分 具有高级品味特征和口感`白勺`葡萄酒 80-89 分 品质优良,口感纯正 70-79分 一般,略有瑕疵 60-69分 低于一般50-59分次品,可以认为是一款不合格`白勺`葡萄酒通过分析所有葡萄酒样品`白勺`最高分和最低分,我们发现处于运用罗伯特分级标准分级`白勺`此次过于宽泛,所以我们借鉴罗伯特`白勺`分级标准制定本文`白勺`对葡萄酒`白勺`分级标准,以更好`白勺`体现酒样之间`白勺`差异.葡萄酒样品`白勺`分级标准: 80~85分:高级葡萄酒 75~80分:中上级葡萄酒70~75分:中级葡萄酒65~70分:中下级葡萄酒60~65分:下级葡萄酒以下是根据1)`白勺`数据求得`白勺`葡萄酒总分`白勺`平均分表2:红葡萄酒`白勺`评价结果(从高分到低分)高级红葡萄酒:无中上级红葡萄酒:9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22中下级红葡萄酒:16、10、13、1、12、25、6、15、7、8下级红葡萄酒:18、11表3:白葡萄酒`白勺`评价结果(从高分到低分)高级白葡萄酒:9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11 中下级白葡萄酒:16 下级白葡萄酒:无5.2.2对酿酒葡萄`白勺`Q 型聚类分【4】聚类分析方法是基于数值分类法`白勺`思想建立起来`白勺`,又称为系统聚类法.这里只基于酿酒葡萄样本进行聚类,成为Q 型聚类,其步骤为: 步骤一:数据标准化以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄(1)i A (1,2,,27)i = `白勺`各理化指标(1)ij x (1,2,,30)j = 使用了不同`白勺`量纲及数据`白勺`大小差距很大,对理化指标数据矩阵`白勺`处理采用标准化,处理方式为(1)(1)(1)(1)ij j ij j x x xs -=(5)其中(1)j x ,(1)j s 是矩阵(1)(1)2730()ij A x ⨯=每一列`白勺`均值和标准差. 步骤二:样本`白勺`相似性度量在对酿酒红葡萄`白勺`理化指标进行聚类分析时,首先要确定理化指标样本`白勺`相似性度量,本文采用相关系数来衡量两个指标样本`白勺`相似性.记样本(1)ˆj x`白勺`取值1227(,,,)T n j j j x x x R ∈ (1,2,,30)j = ,则两个样本`白勺`相关系数30(1)(1)(1)(1)(1)13030(1)(1)2(1)(1)211()()()()ijj ik k i jk ijj ik k i i xx x x r x x x x ===--=⎡⎤--⎢⎥⎣⎦∑∑∑ (6)相似性度量中(1)jk r 越接近1,(1)ˆj x 与(1)ˆk x 越相关;(1)jk r 越接近0,(1)ˆj x 与(1)ˆk x `白勺`相关性越弱.步骤三:样本`白勺`距离定义在对酿酒葡萄`白勺`聚类分析中,定义两类理化指标样本`白勺`距离(类平均法)为(1)(1)12(1)(1)12ˆˆ121ˆˆ(,)(,)j k j k xG x G D G G d xx n n ∈∈=∑∑(7) 它等于12,G G 中两两样本点距离`白勺`平均,式中12, n n 分别为12,G G 中`白勺`样本点个数.其中(1)(1)(1)ˆˆ(,)1j k jk d x x r =-或(1)(1)(1)2ˆˆ(,)1j k jk d x x r =-.步骤四:Q 型聚类分析求解模型使用MATLAB 软件中`白勺`linkage 函数(本文所有程序均用matlab 7.11软件处理),对数据进行处理(matlab 程序见附录4),样本间相似性度量采用相关系数,类间距离`白勺`度量计算采用类平均法,对两种酿酒葡萄进行Q 型聚类分析,画出聚类图,对酿酒葡萄划分类别.1)红、白葡萄`白勺`聚类分析图如下:图2红、白葡萄`白勺`聚类图2)聚类结果分析红葡萄划分成6类`白勺`结果如下:属于第1类`白勺`样本有:葡萄样品2、9 、23 属于第2类`白勺`样本有:葡萄样品1、8、14属于第3类`白勺`样本有:葡萄样品3、21属于第4类`白勺`样本有:葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类`白勺`样本有:葡萄样品10属于第6类`白勺`样本有:葡萄样品11白葡萄划分成6类`白勺`结果如下:属于第1类`白勺`样本有:葡萄样品2、8、11、16、19、25属于第2类`白勺`样本有:葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类`白勺`样本有:葡萄样品6、7、15、18属于第4类`白勺`样本有:葡萄样品1、13属于第5类`白勺`样本有:葡萄样品3属于第6类`白勺`样本有:葡萄样品27对于每类葡萄中`白勺`元素(单个葡萄样本),结合其酿造出`白勺`葡萄酒`白勺`品质,既该葡萄样本所酿造`白勺`葡萄酒`白勺`级别,来确定该葡萄`白勺`级别.然后再根据每类葡萄中葡萄样本级别`白勺`比例来确定该类葡萄`白勺`级别.对应葡萄酒`白勺`分级,我们也将葡萄分成高级,中上,中级,中下,下级根据以上聚类分析`白勺`结果再综合葡萄酒`白勺`分级(葡萄酒`白勺`质量)我们得出如下结论:表4:红、白葡萄分级结果5.3模型三:基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好`白勺`反应酿酒葡萄理化指标`白勺`实质,本文采用主成分分析法对30个指标进行处理,提取出葡萄理化指标`白勺`主成分;考虑到大多数葡萄到葡萄酒`白勺`化学反应时线性`白勺`,我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间`白勺`联系.5.3.1关于酿酒葡萄理化指标`白勺`主成分分析本文运用主成分分析法对酿酒葡萄`白勺`理化指标进行主成分分析,将多个理化指标合为几个具有代表性`白勺`主成分,从而实现对高维变量空间进行降维处理.主成分分析法`白勺`步骤如下:1)对原始数据进行标准化处理由于各指标`白勺`量纲与大小不同,首先须对初始指标`白勺`数值标准化,同一比较`白勺`尺度,方法如式(5);2)主成分`白勺`求解将27个酿酒红葡萄样本`白勺`30个指标数据标准化处理后构成一个标准化数据矩阵2730X ⨯,求X `白勺`协方差阵1TC X X n=`白勺`特征值i λ(1,2,,27)i = 及相应`白勺`特征向量i v (1,2,,27)i = ,将27征向量正交化得方阵V ,作变换Y VX =,将27征值按大小顺序进行排列,相应`白勺`27个新变量i y (1,2,,27)i = .i λ越大`白勺`新变量i y 对模型`白勺`贡献率越大.新变量12,,y y 分别称为第一主成分,第二主成分,…,前面几个主成分构成了样本空间`白勺`最大变化特征:(1)(1)(1)11122(2)(2)(2)21122()()()1122n n n np p p p n n y v x v x v x y v x v x v x y v x v x v x ⎧=+++⎪=+++⎪⎨=+++⎪⎪=+++⎩(8)前面几个主成分12,,,p y y y (27)p <对应`白勺`特征值12,,,p λλλ `白勺`和占总和`白勺`比例2711piii i ρλλ===∑∑ (9)即为主成分12,,,p y y y `白勺`累计贡献率,当0.8ρ≥时,可选用前p 个主成分代替原来酿酒葡萄样本中`白勺`30个理化指标.5.3.2关于葡萄酒理化指标`白勺`多元线性回归通过对酿酒葡萄`白勺`理化指标进行主成分分析,将多个理化指标合为几个具有代表性`白勺`主成分,现将酿酒葡萄`白勺`主成分作为新`白勺`指标(现仍记为()12,,,px x x )对葡萄酒`白勺`每一项理化指标进行多元回归.多元线性回归`白勺`模型为01122p p y b b x b x b x ε=+++++ (10)式中12,,,p x x x 为酿酒葡萄`白勺`主成分即为新`白勺`指标,y 为葡萄酒`白勺`理化指标,ε为测量误差向量,(1,2,,)i b i p = 为回归系数.设()12,,,,i i ip i x x x y ,1,2,,i m = 是()12,,,,p x x x y `白勺`p 次测量值即确定12,,,p x x x 为酿酒葡萄新`白勺`指标后葡萄`白勺`新指标值,则多元线性模型可表示为01122i i i p ip i y b b x b x b x ε=+++++ ,1,2,,i m =i y 为葡萄酒`白勺`第i 项理化指标. 为书写方便,采用矩阵形式表达,令12m y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ ,01p b b b b ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ,1112121222121111p p m m mp x x x x x x X x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦, 12m εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦则多元线性模型可表示为Y Xb ε=+求回归系数b `白勺`估计值b,就是求最小二乘函数 ()()()T Q b y Xb y Xb =--达到最小`白勺`b 值.为此,令0,0,1,2,,iQi p b ∂==∂ 可以求得b `白勺`最小二乘估计1()T T bX X X y -= 从而得到多元线性回归方程01122n ny b b x b x b x =++++5.3.3模型`白勺`求解1)酿酒葡萄理化指标`白勺`主成分分析结果利用MATLAB 软件中`白勺`pcacov 函数对酿酒葡萄(以红葡萄为例)`白勺`三十个理化指标进行主成分分析(matlab 程序见附录5),1TC X X n=`白勺`前几个特征根及其贡献率如表5.表5:酿酒红葡萄理化指标`白勺`主成分分析结果序号特征根贡献率累计贡献率1 6.966223.22070.23222 4.9416.46670.39693 3.737112.4570.52144 2.849.46680.61615 1.9988 6.66280.68276 1.7424 5.80790.74087 1.4185 4.72820.78818 1.2701 4.23350.830490.9609 3.20310.8625100.7384 2.46140.8871110.6907 2.30250.9101120.51381.71270.9272可以看出,前8个特征根`白勺`累计贡献率就达到了80%以上,主成分分析效果很好.下面选取前12个主成分(累计贡献率就达到了92.72%)对酿酒葡萄`白勺`三十种理化指标进行替代,前12个特征值对应`白勺`特征向量见附录,由此可得12个主成分分别为11230212301212300.14210.23250.05240.24450.22470.21970.27690.07800.1351y x x x y x x x y x x x =++-⎧⎪=-++⎪⎨⎪⎪=--+-⎩从主成分`白勺`系数可以看出,第一主成分主要反映了前几个理化指标(氨基酸、蛋白质、花色苷、褐变度和总酚等方面)`白勺`信息,第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸`白勺`信息,第三主成分主要反映了单宁、果皮质量和果皮颜色`白勺`信息,……,第十二个主成分主要反映了黄酮醇和果梗比`白勺`信息.把各酿酒葡萄样本`白勺`原始三十个理化指标`白勺`标准化数据代入十二个主成分`白勺`表达式,就可以得到各葡萄样本`白勺`十二个主成分值. 2)葡萄酒理化指标`白勺`多元线性回归结果利用各葡萄样本`白勺`十二个主成分值,对葡萄酒`白勺`每一项理化指标进行多元线性回归,红葡萄酒各理化指标`白勺`回归结果为1121221212712120.29110.02770.26150.32470.02890.08380.25500.00300.2108z y y y z y y y z y y y =-+-⎧⎪=++-⎪⎨⎪⎪=--++⎩式中1212,,,y y y 为酿酒红葡萄`白勺`前十二个主成分,i z (1,2,,7)i = 为红葡萄酒`白勺`各理化指标.从红葡萄`白勺`回归方程及主成分中,可知:酿酒红葡萄`白勺`第一、四主成分与红葡萄酒`白勺`理化指标存在较强`白勺`正相关关系,即红葡萄中`白勺`蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒`白勺`理化指标存在较强`白勺`正相关性,果梗比、果皮质量与红葡萄酒`白勺`理化指标存在负相关.白葡萄酒`白勺`各理化指标`白勺`回归结果为(2)(2)(2)(2)11213(2)(2)(2)(2)21213(2)(2)(2)(2)612130.15430.14140.04770.16900.18520.03980.21390.04080.1870z y y z y y y z y y y ⎧=+++⎪=+++⎪⎨⎪⎪=-+-⎩式中(2)(2)(2)1213,,,y y y 为酿酒白葡萄`白勺`前十三个主成分,i z (1,2,,6)i = 为白葡萄酒`白勺`各理化指标.从白葡萄`白勺`回归方程及主成分中,可知:酿酒白葡萄中`白勺`蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒`白勺`理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒`白勺`理化指标存在负相关关系. 5.4模型四:基于逐步回归分析法研究理化指标对葡萄酒质量`白勺`影响 5.4.1 逐步回归分析模型`白勺`建立逐步回归法是一种变量筛选方法.逐步回归法采取边进边退`白勺`方法,对于模型外部`白勺`变量,只要它还可提供显著`白勺`解释信息,就可以再次进入模型;而对于已在内部`白勺`变量,只要它`白勺`偏F 检验【6】不能通过,则还可能从模型中被删除. 1)偏F 检验在决定一个新`白勺`变量是否有必要进入模型,或者判断某个变量是否可以从模型中删除时,考虑这个变量能否对y 提供显著`白勺`附加解释信息?现采用偏F 检验.设有n 个自变量12,,,n x x x ,采用这n 个自变量拟合`白勺`模型称为全模型,即01122n n y b b x b x b x ε=+++++从这n 个变量中删除自变量j x ,这时用1n -个自变量拟合模型称为减模型,即0111111j j j j n n y b b x b x b x b x ε--++=+++++++全模型`白勺`复判定系数为2R ,减模型`白勺`复判定系数记为2j R .定义222j j R R R ∆=-由于在全模型中多一个自变量j x ,所以,若2j R ∆几乎为零,说明增加j x ,对y `白勺`解释能力没有显著提高;否则,若2j R ∆显著不为零,则j x 就可以为回归模型提供显著`白勺`解释信息.给出统计假设2201:0,:0j j H R H R ∆=∆≠统计检验量为(1)j j Q Q F Q n m -=--式中,j Q 是减模型`白勺`残差平方和,Q 为全模型`白勺`残差平方和.根据检验水平α查F 分布表,得到拒绝域`白勺`临界值F α ,则决策准则如下: (i )当j F F α>时,拒绝0H ,说明2j R ∆显著不为零,这说明在111,,,,,j j n x x x x -+ 变量已进入模型后,引入j x 会显著提高对y `白勺`解释能力;(i )当j F F α≤时,接受0H ,说明2j R ∆显著为零,这说明在全模型中删除j x ,对y `白勺`解释能力无显著`白勺`减弱变化. 2)逐步回归分析模型`白勺`起始首先要求y 与每一个i x `白勺`一元线性回归方程,选择F 值最大`白勺`变量进入模型.然后,对剩下`白勺`1n -个模型外`白勺`变量进行偏F 检验(设定1i x 已在模型中),在若干通过偏F 检验`白勺`变量中,选择j F 值最大者进入模型.再对模型外`白勺`2n -个自变量做偏F 检验.在通过偏F 检验`白勺`变量中选择j F 值最大者进入模型.接着对模型中`白勺`三个自变量分别进行偏F 检验,如果三个自变量都通过了偏F 检验,则接着选择第四个变量.但如果有某一个变量没有通过偏F 检验,则将其从模型中删除.重复上述步骤,直到所有模型外`白勺`变量都不能通过偏F 检验,则算法终止.为了避免变量`白勺`进出循环,一般取偏F 检验拒绝域`白勺`临界值为>F F 进出式中,F 进为选入变量时`白勺`临界值;F 出为删除变量时`白勺`临界值. 3)理化指标对葡萄酒质量`白勺`影响。
葡萄酒质量评价模型摘要:本文分析了两组评酒员的评分结果,找到相对更可信的评酒员组,并对酿酒葡萄进行分级,分析出酿酒葡萄与葡萄酒的理化指标之间的关系,并论证了葡萄酒质量不能完全由葡萄与葡萄酒的理化指标来评价。
关键词:t-test模糊层次分析典型相关性分析一、问题分析1.1葡萄与葡萄酒理化指标的相关分析简单相关系数仅考虑单个变量x与单个变量y的相关,本文中葡萄和葡萄酒的理化指标涉及多个变量,所以考虑用典型相关分析法进行分析。
典型相关分析的实质就是在葡萄和葡萄酒的理化指标中选取若干个有代表性的综合指标,用这些指标的相关关系来表示葡萄和葡萄酒的理化指标的整体相关性。
1.2对葡萄酒质量的影响因素的分析在此问题中,影响葡萄酒质量的因素(自变量)很多。
在回归方程中,如果漏掉了重要因素,则会产生大的偏差;但如果回归式中包含的因素太多,则可能影响预测精度。
所以选用多元线性逐步回归方法,从而找出对葡萄酒质量有明显影响的理化指标。
并判定葡萄与葡萄酒的理化指标对葡萄酒质量的影响程度。
二、模型建立与求解2.1显著性检验-t检验[1]首先,建立虚无假设h0:u1=u2,即先假定两个总体平均数之间没有显著差异。
其次,计算统计量t值,其计算公式为:,i∈(1,2),表示第i组评酒员的平均评分。
∑xi2,i∈(1,2)表示第i组评酒员的总分平方和。
最后比较计算得到的t值和理论t值,结果如下,sig<0.05的组数红葡萄酒样白葡萄酒样17 24对比得到结果如下:表4、标准差较小的组数红白a组9 5b组18 23结论:拒绝假设h0,即两组评酒员的评价结果有显著性差异,b 组评酒员更可信。
2.2模糊层次分析模型2.2.1模糊一致判断矩阵层次分析法引用1~9标度方法,其各级标度的含义如下:表5、层次分析法的各级标度含义标度定义含义1 同样重要两方案对某属性同样重要3 稍微重要两方案对某一属性,一方案比另一方案稍微重要5 明显重要两方案对某一属性,一方案比另一方案明显重要7 强烈重要两方案对某一属性,一方案比另一方案强烈重要9 极端重要两方案对某一属性,一方案比另一方案极端重要2,4,6,8 相邻标度中值表示相邻两标度之间折衷时的标度上列标度倒数反比较方案ai对方案aj的标度为aij,反之为根据表5,构造判断矩阵为:取α≥81,令rij(α)=logαaij+0.5,则r=(rij(α))n×n是模糊互补判断矩阵,显然0≤rij(α)≤1,且rij(α)=0.5,rij(α)+rji(α)=1现在本文取α=243,则相应其各级模糊标度的含义如表6所示:表6、模糊层次分析法各级标度含义标度定义含义0.5 同样重要两方案对某属性同样重要0.7 稍微重要两方案对某一属性,一方案比另一方案稍微重要0.7930 明显重要两方案对某一属性,一方案比另一方案明显重要0.8542 强烈重要两方案对某一属性,一方案比另一方案强烈重要0.9 极端重要两方案对某一属性,一方案比另一方案极端重要0.6262,0.7524,0.8262,0.8786 相邻标度折衷值表示相邻两标度之间折衷时的标度上列标度互补互补方案ai对方案aj的标度为rij,反之为根据表6,将层次分析法构造的判断矩阵转化为模糊一致判断矩阵:2.2.2权重计算利用模糊一致判断矩阵,和权重公式,由于指标过多,使得各指标的权重数值较小,所以对各指标的权重按比例增大。
葡萄酒质量评价模型摘要葡萄酒质量的高低评估是通过评酒专家对葡萄酒的感官评分来体现。
酿酒葡萄和葡萄酒的理化指标一定程度上反映了葡萄酒的质量。
问题一,首先对附件1的数据进行预处理,分别求得评酒员关于样品酒的4组平均得分,在此基础上,利用F检验,发现不管对于红葡萄酒还是白葡萄酒,两组评酒专家的评分结果都存在显著的差异。
此外,建立了评价可信度的层次分析模型,发现第二组评酒员的评分更加可信。
问题二,运用主成分分析对酿酒葡萄的30个理化指标进行降维,主成分降维后减少了变量间的重叠部分,然后通过Q型聚类对酿酒葡萄酒的样品进行归类,利用问题一中第二组评分数据,得到每一类样品的平均得分,通过得分的大小来分等级。
问题三,建立了酿酒葡萄与葡萄酒理化指标的典型相关分析模型,得出酿酒葡萄与葡萄酒理化指标之间有着密切的联系。
如:红葡萄与红葡萄酒的理化指标的第一典型相关系数(1)1=0.99r,第一典型变量)1(1u可以解释29.9%红葡萄理化指标组内变差,并解释39%红葡萄酒理化指标的变差;其两者的相关系数相互解释每组内的变差。
问题四,对于酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,本文先通过线性回归做初步的分析,然后运用TOPSIS模型进行了进一步的分析,得到葡萄和葡萄酒的理化指标不一定能评价葡萄酒的质量,但有一定的联系。
关键词:F检验;主成分分析;Q型聚类;样品典型相关分析;TOPSIS模型1、问题提出葡萄酒是用新鲜的葡萄或者葡萄汁经发酵酿成的酒精饮料。
质量评价主要通过外观、香气、口味、典型性体现。
所以确定葡萄酒的质量一般通过聘请一批有资深的评酒员对葡萄酒进行品尝后对其分类指标打分,然后求和得到总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
葡萄酒的评价数学建模一、葡萄酒的成分分析葡萄酒的成分分析是评价葡萄酒质量的重要环节。
葡萄酒的成分包括酒精、糖分、酸度、单宁、色素等,这些成分的含量和比例都会影响葡萄酒的风味和品质。
通过对葡萄酒的成分进行分析,可以了解葡萄酒的基本特征和风格,为后续的质量评估和风格分类提供基础数据。
二、葡萄酒的感官评价感官评价是评价葡萄酒质量的重要手段。
感官评价主要包括视觉、嗅觉和味觉三个方面的评价。
视觉评价主要是观察葡萄酒的颜色、透明度、沉淀物等;嗅觉评价主要是闻葡萄酒的香气,判断其浓郁度、复杂度和持久度;味觉评价主要是品尝葡萄酒的口感,评价其酸度、甜度、单宁、酒精等成分的口感感受。
通过对葡萄酒的感官评价,可以全面了解其风味特征和品质状况。
三、葡萄酒的质量评估质量评估是评价葡萄酒的重要环节。
通过对葡萄酒的感官评价和成分分析结果的综合分析,可以对葡萄酒的质量进行评估。
质量评估主要包括以下几个方面:.产地质量:葡萄酒的产地对其品质有着重要影响。
产地环境包括气候、土壤、地理位置等,这些因素都会影响葡萄的生长和葡萄酒的品质。
.酿造工艺:酿造工艺对葡萄酒的品质也有重要影响。
酿造工艺包括葡萄采摘、发酵、陈酿、调配等环节,每个环节都会影响葡萄酒的成分和风味。
.口感质量:口感质量是评价葡萄酒质量的重要指标。
口感质量主要包括酸度、甜度、单宁、酒精等成分的口感感受,以及整体的口感平衡度和口感特点。
.风味质量:风味质量是评价葡萄酒质量的核心指标。
风味质量主要包括葡萄品种的特征、酿造工艺的特点、陈酿时间等,以及整体的复杂度、浓郁度和持久度。
通过对以上几个方面的综合分析,可以对葡萄酒的质量进行评估。
一般来说,优质的葡萄酒应该在以上几个方面都表现出色,而劣质的葡萄酒则会在其中一个或多个方面存在明显缺陷。
四、葡萄酒的风格分类风格分类是评价葡萄酒的重要手段。
通过对葡萄酒的风味特征进行分析,可以将其分为不同的风格类型。
常见的风格类型包括:.波尔多风格:以赤霞珠、美乐等葡萄品种为主,口感丰富、复杂,具有浓郁的果香和橡木桶陈酿的香气。
利用数学模型评价葡萄酒质量摘要:葡萄酒的质量评价是研究葡萄酒的一个重要因素,确定葡萄酒质量时由于认为主管因素的影响,对葡萄酒质量的评价带有一定的主观性。
所以酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒的质量。
本文根据酿酒葡萄以及葡萄酒的相关数据建立典型相关分析模型,求得典型变量的系数,根据典型变量的系数分析酿酒葡萄和葡萄酒理化指标之间的关系,从而客观评价葡萄酒的质量。
建立评价葡萄酒质量的多元线性回归模型,验证能够用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键词:典型相关、主成分分析法、多元回归一、建立典型相关分析的模型:典型相关分析是研究两组变量之间相关关系的一种统计分析法,类似于主成分分析的方法,在两组变量中分别选取若干有代表性的变量组成有代表性的综合指标,通过研究综合指标间的关系来代表两组变量间的相关关系,这些综合指标称为典型变量。
设有两随机变量的均值和方差矩阵为:E(X)=,COV(X)=.第二组变量的均值和协方差矩阵为:E(X)=,Cov(Y)=.第一组与第二组变量的协和方差矩阵为:E(Y)=,Cov(Y)=.于是,矩阵Z=[XY]有均值向量=E(Z)=E[E(x)E(Y)]=[].协方差矩阵为:(Z-u)(Z-u).设两组变量为,,…,和,,…,,研究两组变量之间的相关关系,分别作两组变量的线性组合,即 =++…+. = ++…+.典型变量系数:通过计算两组数据之间的系数可以得出各个数据之间的相关性的大小,比较相关性的大小再结合实际分析就可以得出变量之的关系。
对得到的数据进行标准化处理,再通过SPSS计算,得出Y与X这两组变量间的多元回归的标准化系数。
通过典型变量的重要程度和以及系数的大小,从模型中可以看出酿酒葡萄与葡萄酒的理化指标之间的联系:酿酒葡萄指标中,与花色苷呈比较大的相关的几个解释变量是苹果酸、葡萄总黄酮和单宁,并且与葡萄总黄酮有很强的相关性,由此可以得出花色苷的主要来源于酿酒葡萄中的葡萄总黄酮。
葡萄酒质量的综合评价分析模型专家点评:本文问题一方法合理,结论正确。
问题二对葡萄理化指标进行聚类,然后根据葡萄酒质量进行分级,思路简明正确。
问题三进行多元线性回归,尚可,但如果能进行相关性分析会更好。
问题四用逐步回归的方法,适当,加入芳香类物质,使结论更加合理。
如果问题二和问题三也能将附件三考虑入内会使结论更加有力。
【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增,特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平,如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。
本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系,给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。
首先基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,得到第二组比较可靠。
接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。
更进一步,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。
最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
关键词:假设检验聚类分析主成分分析逐步回归一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。
葡萄酒质量是其外观、香气、口感、整体的综合表现。
一方面,酒中的糖、酸、矿物质和酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度的香气,葡萄酒最终的质量则是葡萄酒中各种成分协调平衡的结果。
1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好的葡萄酒,对酿酒葡萄及葡萄酒的研究也越加深入。
现在流行的做法是通过聘请一批有资质的评酒员进行品评,但是这种感官评价的主观性总是带给我们模糊的印象。
正如我们所知的,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
如何充分利用这些理化指标定量研究葡萄酒的质量成了炙手可热的研究问题。
二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒的各种理化指标和芳香物质的信息。
本文的关键就是通过分析处理已给的数据,建立数学模型来研究葡萄酒质量的确立。
为此,我们要依次达到题目给出的以下几个目标:2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒的评价分数,本文采用假设检验中的t检验法建立评估两组数据差异的模型,研究两组评价员的评价结果是否存在差异,判断是否能接受它们有显著性差异的假设。
若判断的结果是这两组数据存在差异,我们就进入第二步,可靠性研究。
我们分别对两组数据求方差,方差小的那组说明波动比较小,评酒员的评定比较稳定,数据比较可靠。
2.2酿酒葡萄的分级首先,我们我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】;利用处理后的数据(总分)对葡萄酒进行分级;然后,用初步处理后的酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别;最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。
2.3酿酒葡萄与葡萄酒理化指标的联系问题三要求研究葡萄与葡萄酒理化指标之间的联系,我们先对于葡萄的30个理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。
然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。
2.4 理化指标对葡萄酒质量的影响及论证问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,以及是否能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
三、问题假设1、同种葡萄酒在一组评酒员下的得分成正态分布。
2、一种葡萄对应酿制一种葡萄酒。
3、葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。
4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其置为零。
四、符号说明五、建模的建立与求解5.1模型一:基于t 检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。
然后用方差分析两组评酒员组内数据的波动,认为较平稳的一组数据比较可靠。
5.1.1数据预处理我们在整理数据的时候发现几个比较显著的异常数据:1)第一组红酒数据—样品20—色调—品酒员4号 数据缺失;2)第一组白酒数据—样品3—持久性—品酒员7号 数据明显有问题,怀疑是多敲了一个7;3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号 数据明显异常。
因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。
5.1.2基于成对数据的t 检验【2】1)模型的建立:将两组评酒员分别看作两个整体1T 、2T ,对每个红葡萄酒样品(1)i J (1,2,,27)i = (白葡萄酒样品(2)i J (1,2,,28)i = )进行感官评价,1T 对每个红葡萄酒样品(1)i J 的评价结果通过组内每一位品酒员的评分(1)ijx (1,2,,10)j = 的均值10(1)(1)1110iij j x x ==∑来刻画,同样2T 对每个红葡萄酒样品(1)i J 的评价结果用均值10(1)1110i ij j y y ==∑来刻画,从而得到两组评酒员对每种样品酒的评价结果,建立两组评酒员对红葡萄酒的评价结果见表1。
红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒的评价结果表中的数据是成对的,即对同一酒样品(1)i J 得到一对数据。
可知一对与另一对数据之间差异是由各种因素,如葡萄酒的外观、香气、口感、材料成分等因素引起的。
由于各酒样品(1)i J (1,2,,27)i = 的特性有广泛的差异,就不能将第一组评酒员1T 对27种红葡萄酒的评价结果看成是同分布随机变量的观测值。
因而表中第一行不能看成是一个样本的样本值,同样第二组的数据也不能看成是同一个样本的样本值,而同一对中两个数据是同分布随机变量的观测值,他们的差异是由于两组品酒员的水平引起的。
为鉴定他们的评价结果有无显著性差异,可使用基于成对数据的逐对比较法。
以红葡萄样品为例,有27对相互独立的评价结果:11222727(,),(,),,(,)X Y X Y X Y ,令111222272727,,,D X Y D X Y D X Y =-=-=- ,则1227,,,D D D 相互独立。
由于122,,,D D D 是由同一因素所引起的,可认为它们服从同一分布。
现假设2(,)i D D D N μσ ,1,2,,27i = 。
就是说1227,,,D D D 构成正态总体2(,)D D N μσ的一个样本,其中2,D Dμσ未知。
基于这一样本检验假设:01:0,:0D D H H μμ=≠ (1)分别记1227,,,D D D 的样本均值和样本方差的观测值为d ,2D s 。
对1227,,,D D D 进行单个均值的t 检验,检验问题的拒绝域为(显著水平为α):2(1)t t n α=≥-. (2)当t 的值不落在拒绝域内,接受0H ,认为两组品酒员的评价结果没有显著差异,否则两组品酒员的评价结果有显著性差异。
对白葡萄酒的处理同红葡萄。
2)模型的求解:现以红葡萄酒为例求解,首先,作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到的评价结果之差,列于表1的第三行。
根据建立的模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02,则20.01(26)(26) 2.4786t t α==,通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =,227.7883D s =, 2.5044 2.4786t ==≥.现t 的值落在拒绝域内,故接受1H ;同样对白葡萄酒进行成对数据的t 检验,得白葡萄酒观测值之差的均值 2.5214d =-,224.9124D s =, 2.6249 2.4727t ==≥,故认为两组品酒员的评价结果有显著性差异。
5.1.3可信度定量分析1)模型的建立:记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,2i = 的评分为(1)ij a (1,2,,1j = ,10(1)(1)1110iij j a a ==∑,10(1)(1)2(1)2111()10i ij i j s a a ==-∑ (3) 其中,(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 的评分均值,(1)21i s 表示(1)i J 的评分方差;同样,第二组对红葡萄酒样品(1)i J 的评分均值和方差分别为10(1)(1)1110i ij j c c ==∑,10(1)(1)2(1)2211()10i ij i j s c c ==-∑ (4)从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒的(2)21S ,(2)22S 。