土木在线论坛 \ 水利工程 \ 水土保持 \ 聚类分析导论

聚类分析导论

发布于：2022-12-28 09:23:28 来自：水利工程/水土保持 [复制转发]

聚类分析的数学表达

特征向量维数为，样本量为。

目标是将个样本分为个分类，，且满足

即各个分类之间不相交并构成整个空间。

换句话说，聚类分析就是将样本进行完成多对一的映射，其中

聚类分析是一种典型的无监督学习方法。它根据样本之间的某种相似关系实现对样本数据集的某种归类，使得相似度比较大的样本归为一类。总的来说，聚类方法分为四类：

聚类方法的核心在于如何判断相似度。这里我们引入一个距离的概念。也就是在聚类分析当中，样本距离越近我们就认为它们是同一类的概率越大。

对于不同的数据类型，距离度量的方式也不相同。对于连续型数据，不同的样本就是多维空间当中的点，可以进一步计算点与点之间的距离。此时，距离可以有以下几种方式来计算：

二维空间当中的点与点之间的欧式距离可以写成，其实就是二维空间当中两点确定的线段长度（通过勾股定理求斜边长）。如下图

二维空间当中的点与点之间的曼哈顿距离其实是，其实是二维空间当中两点确定的线段映射在直角坐标系当中的线段之和。如图：

二维空间当中点与点之间的切比雪夫距离可以写成，其实是二维空间当中两点确定的线段映射在直角坐标系当中最长的线段

闵可夫斯基距离其实是前三种距离表示的一般形式。当的取值为2时，就是欧氏距离；当p的取值为1时，就是曼哈顿距离；当p的取值为无穷大时，就是切比雪夫距离。以上其实只是确定距离的方式，你也可以确定自己的距离函数，但是距离函数需要满足以下几个要求：

闵氏距离的缺点 ：

二维样本(身高[单位:cm],体重[单位:kg]),现有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。

(1)将各个分量的量纲(scale)，也就是“单位”相同的看待了;

(2)未考虑各个分量的分布（期望，方差等）可能是不同的。

解决方案——数据预处理

离散型数据的距离度量方法通常使用简单匹配系数或者杰卡德相似系数来度量。简单来说就是判断相似的属性数量在总属性数量之中的占比。假使离散型数据都是二元变量。那么一个样本跟另外一个样本的可能性为都为1，都为0，一个0，一个1

我们用字母代替这些情况：

简单匹配的公式如下：

杰卡德相似系数公式如下：

全部回复（0 ）

只看楼主我来说两句抢沙发