用Excel做聚类分析:层次聚类法

作者:大数据研习社 时间:2024-01-08 阅读:626

聚类分析将个体进行分类,已知当前所研究的问题的类别数目及各类特征,将一些未知类别的个体正确地归属于其中某一类。

常用聚类分析方法有层次聚类法k-均值聚类法、DBSCAN、模糊聚类法等。本文将介绍层次聚类法。

在开始具体的聚类分析方法之前,需要了解一些关于聚类分析的基本原理。

聚类不同于分类

聚类分析不同于日常生活中所说的分类,事先不知道所研究的问题应分为几类,也不知道观测到的个体的具体分类情况,需要按照性质上的亲疏程度没有先验知识的情况下进行自动分类,产生分类结果。

例如,在大学,同学之间根据兴趣爱好、性格、家乡等,自发地聚集成不同的圈子,这个过程就是聚类,一开始不知道类别数目及细节,聚类过程自发进行。

上面提到两个关键点:亲疏程度没有先验知识

亲疏程度通过样品间的距离来衡量,下面介绍样品间的距离。

样品间的距离

1、欧式距离

最常用的距离是欧氏距离,初高中数学学过的两点间的距离就是欧式距离。

用Excel做聚类分析:层次聚类法

2、平方欧式距离

平方欧式距离,即欧氏距离的平方。

用Excel做聚类分析:层次聚类法

3、切比雪夫距离

切比雪夫距离定义为两个体中k个变量值绝对差的最大值。

用Excel做聚类分析:层次聚类法

4、块距离

块距离定义为两个体中k个变量值绝对差的总和。

用Excel做聚类分析:层次聚类法

5、闵可夫斯基距离

用Excel做聚类分析:层次聚类法

在闵可夫斯基距离中,

  • 当q=2时,就是欧式距离;
  • 当q=1时,就是块距离;
  • 当q趋于无穷时,就是切比雪夫距离。

其他距离还有兰氏距离和马氏距离等。

总结一下,如下图所示。

用Excel做聚类分析:层次聚类法

一个例子

下表是同一批客户对经常光顾的五座商厦在购物环境和服务质量两方面的平均评分。现希望根据这批数据将五座商厦分类。

用Excel做聚类分析:层次聚类法

首先,通过这个例子讲解一下样品间的距离。

以A,B为例,在Excel中,可以直接根据公式计算:

用Excel做聚类分析:层次聚类法

具体Excel公式如下:

用Excel做聚类分析:层次聚类法

定义类间距离的方法

在聚类分析中,不仅要计算要计算样品间的距离,还要计算类与类之间的距离,比较常用的有:最短距离法、最长距离法、类平均法、Ward离差平方和法和重心法。

1、最短距离法

最短距离法:定义为两个类中最邻近的两个样品的距离,如下图所示,这两个类中最近的两个样本是2与4,按照最短距离法,将样本2与4的距离作为这两个类的距离。

用Excel做聚类分析:层次聚类法

2、最长距离法

最长距离法:定义为两个类中最远的两个样品的距离,如下图所示,这两个类中最远的两个样本是1与3,按照最长距离法,将样本1与3的距离作为这两个类的距离。

用Excel做聚类分析:层次聚类法

3、类平均法

类平均法:定义为两个类中任意两个样品距离的平均,如下图所示,将这两个类中的所有样本的距离都计算出来,然后取平均,作为这两个类的距离。

用Excel做聚类分析:层次聚类法

其他常用的距离还有Ward离差平方和法重心法

总结如下:

用Excel做聚类分析:层次聚类法

层次聚类法

层次聚类法分为3步:

1、开始每个对象自成一类;

2、然后每次将距离最近的两类合并,合并后重新计算新类与其他类的距离;

3、重复步骤2,直到所有对象归为一类。

具体操作如下:

1、开始每个对象自成一类,计算出距离矩阵,记为D1

用Excel做聚类分析:层次聚类法

距离计算公式:

例如,计算A,B之间的距离,公式为:

=SQRT(($C$5-C6)^2+($D$5-D6)^2)

其他样本距离按照类似的方式计算。

2、然后每次将距离最近的两类合并,合并后重新计算新类与其他类的距离

由距离矩阵D1可知,D,E之间距离最小,因合并为一新类,记为CL4

接着,按最短距离法计算新类与其他类的距离,得到距离矩阵,记为D2。

用Excel做聚类分析:层次聚类法

从距离矩阵D2可知,A,B之间距离最小,合并为一新类,记为CL3。

接着计算新类与其他类的距离,得到距离矩阵,记为D3。

用Excel做聚类分析:层次聚类法

由距离矩阵D3可知,C,CL4之间距离最小,合并为一新类,记为CL2。

接着计算新类与其他类的距离,得到距离矩阵,记为D4。

用Excel做聚类分析:层次聚类法

合并CL3与CL2,记为CL1。至此,聚类过程完成。

层次聚类法聚类的过程可用一张谱系聚类图描述,如下所示。

用Excel做聚类分析:层次聚类法

如果要分为三类,则按照下图所示的方式切割:

用Excel做聚类分析:层次聚类法

三类划分方式为:G1={A,B},G2={C},G3={D,E}。

如果要分为两类,则按照下图所示的方式切割:

用Excel做聚类分析:层次聚类法

两类划分方式为:G1={A,B},G2={C,D,E}。

聚类分析不仅可以对样品进行分类,也可以对变量进行分类,多数情况下,都是对样品进行聚类,这也叫做Q型聚类,少数情况,需要对变量进行聚类,称为R型聚类

你是否做过聚类分析?用什么工具呢?欢迎评论留言!

上一篇:机器学习——几种距离度量方法比较(2)

下一篇:厨房门口两边柜子图(冰箱放在进厨房的门边

猜你喜欢

水性涂料乳液十大品牌(有知道无机涂料的吗)

水性涂料乳液十大品牌(有知道无机涂料的吗)

知识 2023-11-02 481
外墙保温网格布每平米用量(每平外墙保温要用多少抹面砂浆和粘结砂浆)

外墙保温网格布每平米用量(每平外墙保温要用多少抹面砂浆和粘结砂浆)

资讯 2023-11-04 1111
杜拉维特洁具公司属于国企吗(杜拉维特216001怎么样)

杜拉维特洁具公司属于国企吗(杜拉维特216001怎么样)

知识 2023-11-04 1837
集成灶美大和火星人哪个更好(集成灶排行中排在前面的是哪些)

集成灶美大和火星人哪个更好(集成灶排行中排在前面的是哪些)

资讯 2023-11-09 540
墙壁支架隔板(在软卧车厢遇到过什么奇怪的事情)

墙壁支架隔板(在软卧车厢遇到过什么奇怪的事情)

知识 2023-11-09 1340
生石灰为什么不能加热水(生石灰怎么熬药)

生石灰为什么不能加热水(生石灰怎么熬药)

知识 2023-11-14 4201
家用配电箱接线图是什么样子的(华哥家庭配电箱怎样接线)

家用配电箱接线图是什么样子的(华哥家庭配电箱怎样接线)

资讯 2023-11-17 3988
双人被8斤(15米的8斤被子厚吗)

双人被8斤(15米的8斤被子厚吗)

资讯 2023-11-19 521
佛山装修吧(你被装修公司坑过吗)

佛山装修吧(你被装修公司坑过吗)

资讯 2023-11-21 4764
旋转门标准尺寸(旋转门三扇价格)

旋转门标准尺寸(旋转门三扇价格)

知识 2023-11-23 4632
新中式家具选购(新中式风格的茶桌怎么样)

新中式家具选购(新中式风格的茶桌怎么样)

资讯 2023-12-21 4060
潘长江豪宅内景曝光!欧式风格简洁有档次,一整墙红酒柜太抢镜

潘长江豪宅内景曝光!欧式风格简洁有档次,一整墙红酒柜太抢镜

知识 2024-01-14 3460
石家庄阳光房遮阳帘(你下一个换车的目标是什么)

石家庄阳光房遮阳帘(你下一个换车的目标是什么)

资讯 2024-01-19 3542
富兰克林13美德(如何利用碎片化时间学习)

富兰克林13美德(如何利用碎片化时间学习)

资讯 2024-01-26 742
立邦价格为什么差距这么大(多乐士和立邦漆那个好)

立邦价格为什么差距这么大(多乐士和立邦漆那个好)

资讯 2024-01-27 1068
led灯管尺寸规格型号(led灯管尺寸规格型号及图片)

led灯管尺寸规格型号(led灯管尺寸规格型号及图片)

资讯 2024-02-02 2263
整体厨房cad制图教程(CAD厨房推拉门的尺寸)

整体厨房cad制图教程(CAD厨房推拉门的尺寸)

资讯 2024-02-18 3924
面馆快餐加盟店10大品牌(什么牌子的快餐面好吃)

面馆快餐加盟店10大品牌(什么牌子的快餐面好吃)

资讯 2024-02-21 1049
大宝漆防腐漆(大宝润肤乳有防腐剂吗)

大宝漆防腐漆(大宝润肤乳有防腐剂吗)

资讯 2024-03-06 1750
辽宁男篮逆转,杨鸣赛后一针见血,发言显高情商!郭士强颇受感动

辽宁男篮逆转,杨鸣赛后一针见血,发言显高情商!郭士强颇受感动

资讯 2024-03-10 158