您好,欢迎来到步遥情感网。
搜索
您的当前位置:首页葡萄酒质量评价的定量分析

葡萄酒质量评价的定量分析

来源:步遥情感网
第35卷第3期 宜春学院学报 Journal of Yichun College V01.35.No.3 Mar.2013 2013年3月 葡萄酒质量评价的定量分析 朱家明。钟梅。张月茹,吴磊 (安徽财经大学统计与应用数学学院,安徽蚌埠233030) 摘要:针对葡萄酒质量的评价,综合分析葡萄酒品尝评分、酿酒葡萄与葡萄酒的理化指标 等数据,建立非参数检验模型、模糊c均值聚类模型和多元统计分析模型,运用Matlab软件, 得出了对葡萄酒评价的可信度、酿酒葡萄的分级和酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的 影响等结果。 关键词:葡萄酒质量;曼一惠特尼u检验;主成分分析;多元统计分析;Matlab7.0 中图分类号:0121文献标识码:A文章编号:1671—380X(2013)03—0008一O5 Quantitative Analysis of the Wine Quality Evaluation ZHU Jia—ming,ZHONG Mei,ZHANG Yue—ru,WU Lei (School ofStat ̄tics and Appl Math,Anhui University ofFinance and Economics,Bengbu 233030,China) Abstract:In this paper,based on the data of wine connoisseurs and physics and chemistry inddx of brewing grapes,some comprehensive evaluation models are established by using the methods of nonparametric tests,fuzzy C—means clustering and multivariate statistical analysis.Moreover,wih tthe help of Maflab,some important re— suits are obtained,such as reliability of wine evaluation,classiifcation of brewing grapes,the effect on wine’S quality by corresponding physics and chemistry index,and SO Oil. Key words:Wine Quality;Mann Whitney U Test;Principal Component Analysis;Multivariate Statistical Analy— sis:Madab7.0 葡萄酒的主要质量指标大体可分为感官指标和 理化指标两大类…。感官指标主要指色泽、香气、 针对所给两组评酒员的评价结果进行显著性检 验,并判断评价结果的可信度。考虑到统计分析中的 各种假设检验(F检验、t检验和 检验)均要求总体 分布已知,而所给数据为小样本,无法判断总体分布, 且两组评酒员的评价结果相互的,故采用两 样本的非参数检验。常用方法有曼一惠特尼 检 验 ]、 —Is检验、 一 游程检验、极端反应检验等。 本文采用了曼一惠特尼 检验,建模流程如图1。 滋味和典型性方面的要求,理化指标主要指酒精 度、酸度和糖分指标。本文旨寻找影响葡萄酒质量 的主要指标并建立葡萄酒质量的综合评价模型 (详见2012年全国数学建模A题)。 1 葡萄酒评价结果的显著性检验及可信度判断 I.1建模准备 图1非参数检验模型的思路流程图 收稿日期:2012—11—27 基金项目:国家自然科学基金项目(71171001),国家社会科学基金青年项目(08CJY028),安徽高等学校省级自然科 学研究重点项目(KJ2011AO01)。 作者简介:朱家明(1973一),男,安徽泗县人,讲师,安徽财经大学统计与应用数学学院数学建模实验室主任,研究 方向:应用数学与数学建模。 ・8・ 第3期 朱家明,钟梅,张月茹,等:葡萄酒质量评价的定量分析 第35卷 1.2模型的建立与求解 1.2.1显著性检验 以一、二组红葡萄酒的评价结果为例,曼一惠 特尼u检验分四步: 1)将第一、二组红葡萄酒的评价结果数据 昆 合,按照大小顺序编排等级。最小的数据等级为 1,第二小的数据等级为2,以此类推; 2)分别求出这两组葡萄酒评价结果的等级和 、 ,具体如表1所示。 表1 两组红葡萄酒及白酒评价结果的等级和 3)计算曼一惠特尼U检验统计量。n 、n 分 别为第一、二样本的量,其中U =/7'1/7,:+ n1(n1+1)/2一W1,U2 n1n2+n2( 2+1)/2一 ,具体两组红葡萄酒及两组白葡萄酒评价结果的曼 一惠特尼 检验统计量如表2所示。 表2红、白葡萄酒两组数据的曼一惠特尼U检验统计量 4)作出判断。选择 、 中最小者与临界值 进行比较。如果U<U ,则拒绝 。 通过查阅曼一惠特尼 检验的临界值表:在 置信水平为95%即 =0.05时,临界值U=23。 将两组每种酒品种的U 、 中最小者与临界值 进行比较。可以看到,酒品种10、11、12、13、 16、23的 、 值均小于临界值 ,故应拒绝原 假设,即原假设——两组评酒员的评价结果无显著 性差异的假定不成立,存在显著性差异。 1.2.2判断两组结果的可信度 由于显著性差异的数据存在异常点的可能,故 先对(1)中有显著性差异的这2O个数据除去一个最 大值和一个最小值,再对剔除后的数据进行方差分 析,最终评价结果见表3、表4。 ・9. 第3期 宜春学院学报 表3显著性差异的红葡萄酒的方差和及可倍组 第35卷 表4显著性差异的白葡萄酒的方差和及可信组 2酿酒葡萄的分级 2.1建模准备 要对酿酒葡萄进行分级,首先需考虑葡萄的级 别可由各品种葡萄本身具有的某些性质以及各品种 葡萄对葡萄酒质量的影响进行划分。但该问题的难 点就在于如何确定级别数,这关系到模糊聚类问题 的有效性。为此,需找到客观的最佳聚类数的确定 方法。通过查阅有关模糊聚类法最佳聚类数的资 料 】,知道了为了得到最佳聚类数,我们需要将 原始数据进行预处理,把欧氏距离推广到广义欧氏 距离,建立谱系聚类准则函数。设 P。=∑(‘EG^  一xk) (戈 一 ) 这个准则函数表示第G 组样品的组内离差平 方和。其中, 是G 组的重心。由于在聚类后,当 组内离差平方和很小时,虽然表明该组内的样品比 较接近,但会使得分类数目c变得很大。因此,需 要对该谱系聚类准则函数进行改进,于是得到了如 下函数: 厂(c)=Pc( )’ 荟 ( ) ( )( ) 若令g(c)=(_! )。,在c≥1时,g c)= >0,所以g(c)是关于c的单调递增函 \ 十二 数。而P 是c的单调递减函数,那么厂(c)存在最 大值。此时,其最大值点c 就是所要求的最佳聚 类数。将建模思路通过流程图表示为图2: 建立 谱系聚类 确定最佳 模糊C均 红白葡萄 准则函数 聚类数C 匀值聚类 酒的分级 结果 图2模糊C均值聚类模型的思路图 ・1O・ 2.2模型的建立与求解 2.2.1求解最佳聚类数 首先,将红白葡萄的各种指标数据整理后,计 算各类红白葡萄品种的类内离差平方和,即P。; 其次,建立经改进的谱系聚类准则函数,(c),利 用Matlab软件进行编程,画出在红白葡萄下,c的 不同取值所对应的 c)。 通过建立谱系聚类准则函数的改进型 c), 求出最佳聚类数等于,进而做出谱系聚类图,具体 如图3、图4所示: 准则函数与聚类数的关系 图3红葡萄酒C与f(c)的变化情况 准则函数与聚类数的关系 图4 自葡萄酒C与f【c)的变化情况 第3期 朱家明,钟梅,张月茹,等:葡萄酒质量评价的定量分析 2 f1= l+l2 2+…+f 。第35卷 =分析图3、4可以看出,当C等于3时,不论 1 是红葡萄酒还是白葡萄酒, c)的值均达到最大 值。因此,该问题的最佳聚类是为3。 2.2.2建立模糊C均值聚类模型 设Z=(z ,z:,…,z ), 为第k个样本属于 当z 使var(S )达到最大时,由此确定的随机 变量y1称为随机变量t。,t ,…,t 的第一主成分。 若第一主成分 还不足以反映原变量的信息,则 进一步求得y2。为使 和y2所反映的信息不相重 叠,则需要y】和y2不相关,即 第i类的隶属度, 聚类中心,则 =∈[0,1]。若 表示第i类的 Cov(S。,.s:)=z ∑z =0 于是在约束条件下求得使vat( )达到最大时 的Z ,由此得到随机变量tl,t2,…,t 的第二主成 分。同理,可以依次得到第一个主成分,第二个主 ∑( ) /∑(u ) ( =1,2,…,c),(1< ) H C 从而模糊c均值聚类所求的目标函数为: .,(u, )=∑∑( ) ( 其中d =Il 一 lI是第k个序列到第i类中 心的欧氏距离,-,(u, )表示了各类中样本到聚类 中心的加权距离平方和,权重是样本 对第i类隶 属度的m次方。则聚类准则取为所求极小值: min{J(U,V))。 成分,…,第P个主成分。 有多个自变量的线性回归模型称为多元线性回 归模型。假定Y是一个可观测的随机变量, …, ,, 为Z个自变量,且有 Y=卢0+ l 1+ 2+…+卢l l+ 其中 , 一, 为未知参数,8为随机误差, 且 一N(0, )。 结合(1)和(2),通过Matlab软件将葡萄品种分 成3类。便可以得到红白葡萄的分级结果如下: 红葡萄:一级有5、lO、13、14、16、17、 24、25、26、27,二级有l、2、4、6、7、8、11、 15、18、19、2O、22、23,三级有3、21;白葡 萄:一级有2、4、5、6、7、9、10、12、15、20、 24、25、26、27,二级有1、8、l1、13、14、16、 3.2模型的建立与求解 1)采用主成分分析的方法,确定综合指标 首先,对所有指标实现无量纲化,并建立相关 系数矩阵R;其次,计算R的特征值与对应的特 征向量,并根据特征值计算累计贡献率,确定主成 分的个数,而特征向量就是主成分的系数向量。不 l7、18、2l、22、23,三级有3、28。 过,在采用此方法时,第一主成分需要满足两个条 件:最大特征值对应的最大特征向量是正向量;贡 献率大于50%。通过上述步骤,可得到因子载荷 矩阵,即第 个变量对第 个主成分的重要程度。 3分析酿酒葡萄对葡萄酒理化指标的影响程度 3.1建模准备 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质 量的影响程度,首先能想到多元线性回归分析的方 2)在理论准备的基础上,.结合(1)得到的因子 载荷矩阵以及第三问中酿酒葡萄和葡萄酒理化指标 之间的联系将酿酒葡萄和葡萄酒理化指标运用主成 法 】[引,首先采用主成分分析方法减少指标。 主成分分析的基本思想:设t ,t:,…,t 为P个 /7,维随机变量(P项指标),即 tn t12 分分析法转变为一组新的指标,运用Matlab编程 得到可以反映酿酒葡萄和葡萄酒理化指标的新指标 与葡萄酒质量之间的回归方程。同理,得到考虑芳 ● t12 t22 : T= 香类物质下的回归方程,从而得到在考虑芳香物质 £1p t2p…t印J L 情况下各品种酒的得分。红、白葡萄酒的质量与由 酿酒葡萄和葡萄酒理化指标经主成分得到的新指标 在处理实际问题时,经常使用原始指标的线性 组合所构成的综合指标来代替原有的指标,即 Si=zn +z +…+z , =1,2,…,P 之间的回归方程分别为: y1=ATX y2=BTX (1) (2) 对于 ,需尽可能地反映原有P项指标的信 息。此处的信息用 的方差来度量,即要求 在得到多元线性回归方程的具体形式之前,为 了提高精确度,作残差分析图,如图5、6所示。 var(S )=z ∑2 达到最大,为此需要对系数向量 加以,即满足约束条件: 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- obuygou.com 版权所有 赣ICP备2024042798号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务