人工智能_机器学习058_葡萄酒特征分类模型_核函数_支持向量机分类器SVC和不同核函数的差异_linear线性_poly多项式_rbf高斯分布_sigmoid---人工智能工作笔记0098
高教社杯大学生数学建模竞赛编号页赛区评阅编号(由赛区评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):
注统一编号(由赛区送交前编号):评阅编号(由评阅前进行编号):葡萄酒的评价【】本文针对酿酒葡萄的理化指标、葡萄酒的质量以及葡萄酒的理化指标讨论两
其中,右下角的紫色数据点为异常数据,左上角的紫色点数据为噪声数据,但其同样均属于我们要筛除的不符合要求的数据点,也不作另外区分。
同理,利用白葡萄酒数据,我们可以得到白葡萄酒各主成分的累积贡献率、前两个主成分向量及其特征值-字段索引值折线图。
我们假定,在数据本身记录无误的情况下,我们在此只认定不符合食品生产理化要求的数据为不符合生产要求的异常值,并予以剔除。
其次,根据3.3.1中的属性条形图可知,白葡萄酒数据的挥发酸含量属性正常,红葡萄酒数据则存在异常值,我们利用3.3.1中的索引列表,迅速*异常值。
由于缺失值大于1的实例数量极少,我们使用删除的方法进行处理;缺失值小于等于1的实例有留存及后续处理的意义,对于缺失值等于1的实例,我们选用该缺失值所在特征属性的中位数进行填充:
以固定酸度(fixedacidity)的箱线图为例,我们将该属性下n条数据从小到大进行排序,分为四等份。位于第25%(n+1)位置的数字是第一四分位数Q1,位于第50%(n+1)位置的数字是第二四分位数Q2(即中位数),位于第75%(n+1)位置的数字是第三四分位数Q3。第三四分位数与第一四分位数的差值称为四分位距IQR(IQR=Q3-Q1),IQR表征在箱线图中即为箱体的长度。
chlorides(氯化物)和sulphates(*盐)都属于葡萄酒中的矿物盐成分,通常情况下含量分别是0.1-0.4g/L和0.25-0.85g/L,且红葡萄酒所含的矿物质多于白葡萄酒。
我们借助列表C记录各数据索引最终对应的簇索引值。对于未被聚类的数据,其簇标签为-1;否则,其簇标签为非负整数k。
由2.2.2节中的重复率分析可知,数据集中存在小部分重复的实例。在本次数据分析工作中,重复值对质量评估及异常检测几乎没有影响,因而我们将异常的重复数据进行处理,减少无效冗余。
有话要说...