特征向量维数为 ,样本量为 。
目标是将 个样本分为 个分类, ,且满足
即各个分类之间不相交并构成整个空间。
换句话说,聚类分析就是将样本进行完成 多对一的映射,其中
聚类分析是一种典型的无监督学习方法。它根据样本之间的某种相似关系实现对样本数据集的某种归类,使得相似度比较大的样本归为一类。总的来说,聚类方法分为四类:
基于划分的聚类,k-means算法,k-mediods算法
层次聚类,分裂法,凝聚法等
基于密度聚类:DBSCAN(Density-based Spatial Clustering of Application with Noise)等
基于模型的聚类:自组织神经网络聚类等
聚类方法的核心在于如何判断相似度。这里我们引入一个距离的概念。也就是在聚类分析当中,样本距离越近我们就认为它们是同一类的概率越大。
对于不同的数据类型,距离度量的方式也不相同。对于连续型数据,不同的样本就是多维空间当中的点,可以进一步计算点与点之间的距离。此时,距离可以有以下几种方式来计算:
二维空间当中的点与点之间的欧式距离可以写成 ,其实就是二维空间当中两点确定的线段长度(通过勾股定理求斜边长)。如下图
二维空间当中的点与点之间的曼哈顿距离其实是 ,其实是二维空间当中两点确定的线段映射在直角坐标系当中的线段之和。如图:
二维空间当中点与点之间的切比雪夫距离可以写成 ,其实是二维空间当中两点确定的线段映射在直角坐标系当中最长的线段
闵可夫斯基距离其实是前三种距离表示的一般形式。当 的取值为2时,就是欧氏距离;当p的取值为1时,就是曼哈顿距离;当p的取值为无穷大时,就是切比雪夫距离。以上其实只是确定距离的方式,你也可以确定自己的距离函数,但是距离函数需要满足以下几个要求:
点与自身之间的距离为0,
点与其他点之间的距离大于0,
两点之间的距离小于等于与第三点之间形成的两个距离之和,
两点之间的距离不因始终点改变,
闵氏距离的缺点 :
二维样本(身高[单位:cm],体重[单位:kg]),现有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。
(1)将各个分量的量纲(scale),也就是“单位”相同的看待了;
(2)未考虑各个分量的分布(期望,方差等)可能是不同的。
解决方案——数据预处理
标准化: ,适用于数据量大,基本符合正态分布的情况;
归一化: ,适用于数据量小,无法判断分布的情况;
均值化:每个变量除以该变量的均值。可以去除量纲差异,相除后接近1左右;
极小值化:每个变量除以该变量的极小值。可以去除量纲差异,相除后大于1;
极大值化:每个变量除以该变量的极大值。可以去除量纲差异,相除后小于1;
其他
离散型数据的距离度量方法通常使用简单匹配系数或者杰卡德相似系数来度量。简单来说就是判断相似的属性数量在总属性数量之中的占比。假使离散型数据都是二元变量。那么一个样本跟另外一个样本的可能性为都为1,都为0,一个0,一个1
我们用字母代替这些情况:
a = 两个样本的某个属性取值都为1,即都具有这个属性
b = 第一个样本的某个属性取值为1,第二个样本该属性取值为0
c = 第一个样本的某个属性取值为0,第二个样本该属性取值为1
d = 两个样本的某个属性取值都为0,即都不具有这个属性
简单匹配的公式如下:
杰卡德相似系数公式如下:
0人已收藏
0人已打赏
免费1人已点赞
分享
水土保持
返回版块4.33 万条内容 · 189 人订阅
回帖成功
经验值 +10
全部回复(0 )
只看楼主 我来说两句抢沙发