评价食品风味的好坏,历来是食品研发领域技术性很强的一项工作。该项评价既需要借助现代科学技术,也需要经验的积累,还需要生理学、心理学和数理统计学等方面的知识,才能保证评价结果的科学性和可靠性。食物中各种挥发性成分的鉴定开始于 20 世纪,研究人员使用色谱——质谱联用仪对数千种风味化合物进行了结构分析及在食品香气成分中的高灵敏度定量分析。食品中的风味物质具有浓度极低、组分多、结构复杂、挥发性高、稳定性差以及与食品中其他组分间存在动态平衡等特点。因此,食品风味成分的分析、分离、提取、合成、模拟以及控制释放都具有很大难度。
我们对市售的若干种牛乳制品进行了常见呈味物质的测量,并组织了人员对其风味进行了品评。具体的物质按照分子量和大致结构被分为若干类,以 A、B、C 等代号标注。参与品评的是 8 位经过短期培训的人员,对每种风味的打分为 0(极弱/无法感知)——9(极强),最终结果为分数的平均值。最后,我们对消费者的喜好程度进行了问卷调查,参与问卷的有 60 位随机选择的消费者,对喜好程度的打分为 0(非常不喜欢)——9(非常喜欢),最终结果为分数的平均值。我们希望通过对这些数据的研究以及相关专业知识,解决如下问题。
第二阶段问题:
1. 对产品风味的测量工作通常需要组织人力进行品尝和评价,但这样得到的数据不够稳定,致使数据质量不佳。而对不同物质的含量,我们可以使用仪器进行较为可靠的测量。所以我们希望能够通过对表中呈味物质的测量结果来推算出被测产品的风味,请你建立合理的模型来完成这项工作。
2. 如果想对市售产品的口味进行逐步改进,请制定每种产品的改进目标。并请给出在模型中的理想产品的口味参数。
几千年来,人类都是靠着自身的天然能力,用嘴、鼻、眼等感官去判别、评价一种东西能不能吃或好不好吃,并形成了各种口味。随着社会生产力和人们生活水平的提高,促进了食品风味的研究。民以食为天,食物是人类赖以生存的物质基础。
针对问题一,我们通过呈味物质的测量结果来推算出被测产品的风味。首先,对数据进行正态性检验;其次,对数据进行异常值处理和数据标准化处理,并通过 Pearson相关系数法分析风味与呈味物质之间的相关性;再次,经过简单的降维后,建立机械学习随机森林回归模型;最后,使用 SPSS 软件,根据呈味物质的测量结果来推算出了被测产品的风味,并对各种口味预测值与实际值进行比较,得出预测值与实际值拟合效果较好,说明了随机森林回归方法的可行性,因此,可通过关键呈味物质含量预测各种口味。
针对问题二,我们对市场口味进行改进,首先,了解消费者对口味的喜好度,使用Spearman 相关系数法分析喜好度与九种不同风味的相关性;其次,结合上文我们利用Pearson相关系数法分析风味与呈味物质之间的相关性得到喜好度主要受哪些风味影响;再次,由于呈味物质在样品中的含量会造成风味参数改变而影响消费者的喜好度,因此我们通过调节呈味物质在样品中的含量来改进产品,同时通过数据比对得出最理想的产品;最后,以上的模型与相关性分析得出最理想产品的参数为:牛奶味 6.5 奶油味 4.5甜味 3.9 咸味 3.2 蒸煮味 4.2 蛋味 3.8 膻味 3.8 豆味 0.5 塑料味 0。根据最理想产品的参数,我们对各产品进行逐步改进,详见正文 6.1.3 节。
1.假设牛奶在运输过程中未受到气候影响而发生变质 ;
2.假设仪器在测量过程中未出现故障,所测数据精确;
3.假设同种物质中的结构相同;
4.假设被调查者无任何喜爱风味偏向;
5.假设参与品评人员的生理结构相同,使感知不同风味牛乳制品无偏向;
6.假设参与品评人员的心理状态相同,使感知不同风味牛乳制品无偏向。
问题一要求我们通过对表中呈味物质的测量结果来推算出被测产品的风味,首先对数据异常值和数据标准化(归一化处理)再进行正态性检验,通过相关性分析进行降维度,然后使用机械学习回归中的随机森林回归以呈味物质为自变量预测九种不同风味的参数并且与实际值进行对比且分析预测值的精确度。从而实现通过呈味物质的测量结果来推算出被测产品的风味。操作流程图如下:
问题二要求我们在进行对数据的分析后,分别制定出每一种产品的口味改进方法,以及改进目标,最后得到理想产品的口味参数。若要得到改进方法,就要先对风味与相关化学物质进行相关性分析,通过 Pearson 相关系数法分别得到和风味相关性较大的化学物质。再对风味和喜好度进行相关性分析,再通过 Spearman 相关系数法得到喜好度和风味的相关性,根据相关性系数的大小来判定该风味是否影响到喜好度。若有影响,联合风味与相关化学物质进行相关性分析的结果分别制定出改进方案,到达改进目标;若没有影响,则不用讨论。最后,根据数学建模得出理想产品的口味参数。
操作流程图如下:
数据正态分布检验
在进行数据预处理前我们首先进行对数据的简单分析,使用 Spsspro 数据分析软件对其进行正态性检验,了解其是否服从正态分布,分析结果如下表所示:
1.Shapiro-Wilk 检验,适用于小样本资料(样本量≤5000);
2.若呈现显著性(p<0.05 或 0.01),则说明拒绝原假设(数据符合正态分布),该数据不满足正态分布,反之则说明该数据满足正态分布;
3.通常现实研究情况下很难满足检验,若其样本峰度绝对值小于 10 并且偏度绝对值小于 3,结合正态分布直方图、PP 图和 QQ 图可以描述为基本符合正态分布。根据“正态性检验分析结果”分析:牛奶味,奶油味,甜味,咸味,蛋味,膻味和豆味(P<0.05 或者 0.01)水平不呈现显著性,不能拒绝原假设,因此数据满足正态分布。
剩下的蒸煮味、塑料味、酮 A,醇 A,醛 C,酮 E,酮 B,酯 C,烯 A,酸 A,酮 F,酯 A,醛 A,醛 E,酮 C,酮 D,醛 D,酸 B,醛 F,醇 B,酯 B,醛 B 正态图基本上呈现出钟形(中间高,两端低),则说明数据虽然不是绝对正态,但基本可接受为正态分布。
异常值处理
在这里我们根据对数据的简单分析基本可以接受满足正态分布所以我们通过使用Spsspro 均值±3 倍标准差异常值处理,然后进行归一化数据标准化处理。
数据标准化处理
数据准化处理的方法很多,根据本题数据,我们采用归一化方法。归一化方法是将各个特征数据按比例缩放,使其收敛在一个特定区间内。这里所指的特定区间是指区间0 到 1,即通过归一化处理,各个特征向量被去掉其原来的取值量纲,统一被重新赋予新的数据量纲[0,1]。数据归一化公式为:
本文使用 Spsspro 数据分析软件对数据异常值和数据标准化处理好的数据进行机械
学习-随机森林回归模型的求解。
1.通过训练集数据来建立随机森林回归模型。
2.通过建立的随机森林来计算特征重要性。
3.将建立的随机森林回归模型应用到训练、测试数据,得到模型评估结果。
4.由于随机森林具有随机性,每次运算的结果不一样,若保存本次训练模型,后续可以直接上传数据代入到本次训练模型进行计算预测。
5.注:随机森林无法像传统模型一样得到确定的方程,通常通过测试数据预测精度来对模型进行评价。
首先选择以牛奶味作为因变量 Y,选择醇 A-酮 E-酮 B-醛 D-醇 B-酸 B-酯 C-烯 A-酸A-酮 F 作为自变量,进行数据分析。示意图如下:
开始分析:输出的结果有模型参数、特征重要性、模型评估结果、测试数据预测结果、测试数据预测图、模型预测与应用。
我们主要对测试数据预测图和模型预测与应用进行分析。
测试数据预测图
通过测试数据预测图我们能清楚的分析出真实值与预测值的差异。
模型预测与应用进行分析
在输出结果模型预测与应用中我们在此选择对处理好的数据进行模型预测得出真实值与预测值评价和模型预测结果两份表格。我们主要对其进行分析。
模型预测结果为本次主要分析对象,同理重复更改因变量 Y 为奶油味-甜味-咸味蒸煮味-蛋味-膻味-豆味-塑料味,自变量不变持续为醇 A-酮 E-酮 B-醛 D-醇 B-酸 B-酯C-烯 A-酸 A-酮 F。
通过九次重复分析获得结果。
max=-9.247+1.088*6.023+0.797*4.142+0.307*3.287-2.213*x4-
3.621*x5+5.019*3.563+2.394*3.59-0.216*x8+0.537*0;
x4<=3.804;
x5<=5.04;
x8<=0;
x4>=2.409;
x5>=3.192;
x8>=0;
-9.247+1.088*6.023+0.797*4.142+0.307*3.287-2.213*x4-
3.621*x5+5.019*3.563+2.394*3.59-0.216*x8+0.537*0<=9;
End
max=-9.247+1.088*5.739+0.797*3.815+0.307*3.572-2.213*x4-
3.621*x5+5.019*2.875+2.394*3.345-0.216*x8+0.537*0;
x4<=3.335;
x5<=3.645;
x8<=4.104;
x4>=2.112;
x5>=2.309;
x8>=2.6;
-9.247+1.088*5.739+0.797*3.815+0.307*3.572-2.213*x4-
3.621*x5+5.019*2.875+2.394*3.345-0.216*x8+0.537*0<=9;
End