做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理

作者:我看人看我 时间:2024-01-09 阅读:2721

文章来源:微 信 公 众 号【我看人看我】,公 号可获取SPSS案例数据

聚类分析是一种常用的多元统计分析方法,主要基于研究对象的特征,将他们分门别类,以让同类别的样本之间差异尽可能小,不同类别间的差异尽可能的大。


在前面的文章中,基于案例介绍了常用的聚类分析方法【系统聚类】和【K-均值聚类】的SPSS操作过程。(详见《聚类分析怎么做(二):SPSS案例操作》 )


但要想做好聚类分析,还需要注意以下几个问题。


01 不同聚类方法的适用范围


聚类分析方法有多种,使用不同的聚类分析方法,得到的结果会有所不同,但这些结果无法在统计理论上分出优劣,也不存在最优的聚类方法,只能针对具体的问题、数据特征,多采用几种方法进行尝试,再观察哪一个分类结果更符合实际、更合理。


做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理


一般会将不同的聚类方法结合使用,取长补短,比如系统聚类法和K-均值聚类法就经常结合在一起使用。首先,使用系统聚类法来确定分类数,筛查异常值;其次,去掉异常值后,对剩下的样本重新进行系统聚类,得到各类的聚类中心;最后,将由系统聚类得到的聚类中心作为K-均值聚类分析的初始分类中心,进行K-均值聚类,得出最终的聚类结果。


系统聚类和K-均值聚类只能针对单一类型的变量进行分析,即参与分析的变量,要么是分类变量,要么是连续变量。如果数据中既存在分类变量也存在连续变量,可使用二阶聚类方法,这种方法可以同时对分类变量和连续变量进行分析。


02 聚类指标不是越多越好


聚类分析的依据是比较分类对象的特征的差异性,而特征则以量化的指标来表达。因此,做好聚类分析的关键前提,是要选对能很好地代表、衡量分类对象的指标。


并不是加入的聚类指标越多,聚类结果就越客观。有时候,加入一两个不合适的变量指标会导致聚类结果的大相径庭。因此,在聚类分析前,需要根据研究目的、研究经验和理论基础,严格选择能反映分类对象差异的变量指标。


比如,希望依照学校的科研情况对高校进行分类,那就可以选择参加科研人数、科研经费、立项课题数等变量指标作为聚类指标,而不应该选择如在校人数、校园面积、年用水量等和研究主题无关的指标。


得到聚类结果后,并不意味着分析就结束了,而是要对聚类结果不断检验,剔除在不同类别之间没有显著差异的、不合适的变量指标,以使聚类分析得到最优结果。


03 数据的标准化处理


聚类分析主要是基于分类对象之间的距离进行分类,容易受到聚类变量的测量单位的影响。数量级越大的变量,对距离计算结果的影响就越大,在聚类过程中也就会占据主导地位,从而掩盖了其他数量级小的变量,导致聚类结果的偏差。例如:


假设A、B、C三个个案在受教育年限、年收入两个变量上的值如下表1。年收入有万元和元两种单位。


做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理


下表2给出了基于受教育年限和年收入的两种单位,使用简单欧式距离方法进行相似性测度的结果,距离越小的个案,说明相似程度越高,越可能聚为一类。当单位为万元时,A-C之间的距离最小,说明两者的相似性最高,其次为A-B、B-C;再结合三个个案的受教育年限分布,可以发现个案之间的相似性,与他们受教育年限的差异存在很大关联,受教育年限差异最小的A-C,相似性最高,受教育年限差异最大的B-C,相似性最小。也就是说,当以单位万元计算距离时,在受教育年限变量在聚类中起到了主导作用。


做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理


而若以单位元进行测量,那A-C之间的相似性就变为了最低的,A-B、B-C的相似性相同,这意味着年收入在聚类中起主导作用。


从这个栗子中可以看到,测量单位的差异,会产生差异甚大的聚类结果。因此,在聚类分析前,需要对数据进行处理,将原始数据转化为无量纲的数据,让变量或者个案在同一标准下进行比较。在SPSS中,系统聚类分析提供了自动对数据进行标准化的方法,比如z分处理、将数据转换为范围在0~1之间的数据等。


做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理


而对于其他聚类方法,则需要预先手动对数据进行标准化处理,在SPSS中的实现路径为:【分析】-【描述统计】-【描述】-【将标准化值另存为变量】。


做好聚类分析的前提:聚类方法适用性、数据标准化、共线性处理


但数据标准化也会存在问题,因为标准化后会使所有变量或者个案对聚类结果的贡献都趋同,这显然并不符合实际情况的,其结果是使得聚类效果变差。因此,在进行数据标准化时,需要综合考虑此种分析场景是否有必要对数据做标准化处理。


04 聚类指标间不能存在高度相关


聚类分析是以基于距离来度量个案间或变量间的亲疏程度。如果所选的聚类变量指标之间存在较高的相关关系,能够相互替代,那么计算距离时同类变量将会重复起作用,相当于给这些相似变量进行了加权,从而导致聚类结果偏向该变量。


比如,如果所选择的聚类变量中有3个高度相关的变量,就相当于在聚类过程中,选择了三个变量中的一个进行距离计算,并给予该变量3倍的权重,从而得到不合理的聚类结果。


所以,进行聚类分析前,我们需要检验聚类指标之间是否存在较高的相关关系。这里可通过相关性分析来计算聚类指标之间的相关系数,从而确定是否存在共线性问题。


如果聚类指标存在高度相关性,可通过以下两种方法解决:


(1)在聚类分析前,先对存在高度相关的变量进行聚类分析,然后再从聚类结果中分别挑选出一个有代表性的变量作为最终的聚类指标。

(2)对聚类变量进行主成分分析或者因子分析,用以降低数据的维数,产生不相关的变量,再基于这些变量进行聚类。


文章来源: 公 众 号【我看人看我】,主要分享统计分析、SPSS教程、社会科学研究与方法等。

上一篇:16种常用的数据分析方法-聚类分析

下一篇:厨房门口两边柜子图(冰箱放在进厨房的门边

猜你喜欢

欧式油烟机离灶台一般是多高?(欧式烟机安装高度应该是多少)

欧式油烟机离灶台一般是多高?(欧式烟机安装高度应该是多少)

知识 2023-11-05 2322
花岗石密度1立方米多少吨重(1立方米石头多少吨)

花岗石密度1立方米多少吨重(1立方米石头多少吨)

知识 2023-11-06 1445
刨花板 生产布局(餐边柜顶封板几公分)

刨花板 生产布局(餐边柜顶封板几公分)

知识 2023-11-08 3402
神奇拖把厂家(你曾经遇到过哪些极度尴尬的事)

神奇拖把厂家(你曾经遇到过哪些极度尴尬的事)

知识 2023-11-14 3437
绿化率和绿化面积(绿化率和绿地覆盖率有何区别)

绿化率和绿化面积(绿化率和绿地覆盖率有何区别)

知识 2023-11-14 699
保利西山林语是哪个区(听说保利西山林语靠近西山隧道和地铁9号线)

保利西山林语是哪个区(听说保利西山林语靠近西山隧道和地铁9号线)

知识 2023-11-15 123
封边皮(马鞍皮不封边有隐患吗)

封边皮(马鞍皮不封边有隐患吗)

资讯 2023-11-18 438
习近平向美中贸易全国委员会成立50周年庆典致贺信

习近平向美中贸易全国委员会成立50周年庆典致贺信

知识 2023-12-16 2533
交流接触器的优缺点(交流接触器指的是线圈还是触点)

交流接触器的优缺点(交流接触器指的是线圈还是触点)

知识 2023-12-17 4586
山东2名幼师出租屋外被杀,另一幼师关门报警逃过一劫,内幕曝光

山东2名幼师出租屋外被杀,另一幼师关门报警逃过一劫,内幕曝光

资讯 2023-12-20 959
欧式起重机厂家教你如何节省产品维修费用

欧式起重机厂家教你如何节省产品维修费用

资讯 2023-12-28 2082
装修全包费用(50平小户型装修全包费用明细)

装修全包费用(50平小户型装修全包费用明细)

资讯 2023-12-29 4491
钢制型材床(木床用什么材料垫高)

钢制型材床(木床用什么材料垫高)

知识 2024-01-01 2530
蒙古国距中国最近的县城,用中国电,花人民币,还想喝咱的自来水

蒙古国距中国最近的县城,用中国电,花人民币,还想喝咱的自来水

知识 2024-01-07 97
淋浴房品牌ble(bolina卫浴是几线品牌)

淋浴房品牌ble(bolina卫浴是几线品牌)

资讯 2024-01-15 2383
CAD欧式开放柜合集,分享

CAD欧式开放柜合集,分享

知识 2024-01-16 1260
洗脸盆翻板塞子尺寸(洗手盆翻转式塞子坏了怎么换)

洗脸盆翻板塞子尺寸(洗手盆翻转式塞子坏了怎么换)

资讯 2024-01-19 1674
轮到腾讯反攻了

轮到腾讯反攻了

资讯 2024-01-25 4806
圆形吊顶造型效果图卧室(方镜和圆镜哪个好)

圆形吊顶造型效果图卧室(方镜和圆镜哪个好)

知识 2024-03-08 1742
铝镁合金隔断 铝镁合金窗纱 铝镁合金铝板

铝镁合金隔断 铝镁合金窗纱 铝镁合金铝板

资讯 2024-03-18 2231