聚类分析统计量怎么算

飞翔的猪评论

聚类分析是一种常用的无监督学习方法，用于将数据集中具有相似特征的样本归类到同一组中。在聚类分析中，我们需要一些统计量来评估聚类的效果。下面将介绍一些常用的聚类分析统计量及其计算方法：

簇内平方和（Within Cluster Sum of Squares, WCSS）：WCSS是评估聚类效果的一种常用指标，表示每个簇中所有样本与簇内均值的距离的平方和。WCSS越小，则簇内样本越相似，聚类效果越好。计算方法为对每个簇中的样本求距离平方和，然后将各簇的距离平方和相加即可得到总的簇内平方和。
簇间平方和（Between Cluster Sum of Squares, BCSS）：BCSS是指不同簇之间均值之间的距离的平方和，表示样本之间的相似度。BCSS越大，则簇之间的差异越明显，聚类效果越好。计算方法为计算各簇均值与全局均值之间的距离平方和。
轮廓系数（Silhouette Coefficient）：轮廓系数是一种综合考虑簇内紧密度和簇间分离度的评价指标，取值范围在[-1, 1]之间。当轮廓系数接近1时，表示聚类效果较好；当轮廓系数接近-1时，表示聚类效果较差。计算方法为对每个样本计算轮廓系数，并求所有样本的平均值作为最终的轮廓系数。
DB指数（Davies-Bouldin Index）：DB指数是一种用于评估聚类效果的指标，越小表示聚类效果越好。计算方法为对每个簇计算簇内样本与簇内均值的距离平均值，然后计算不同簇之间的距离平均值，并将两者相加。最终的DB指数是对不同簇之间的距离相对于簇内距离的比值的最大值。
CH指数（Calinski-Harabasz Index）：CH指数是一种评估聚类效果的指标，计算方法是簇内样本的协方差矩阵与簇间样本的协方差矩阵的比值。CH指数越大，表示聚类效果越好。

以上就是一些常用的聚类分析统计量及其计算方法，在实际应用中可以根据具体情况选择合适的统计量来评估聚类效果。

1年前 0条评论

山山而川评论

聚类分析是一种常用的数据分析方法，用于将数据集中的样本按照相似性进行划分和分类。在聚类分析中，有许多常用的统计量用于评估聚类结果的好坏，以下将介绍一些常见的统计量以及它们的计算方法。

簇内平方和（Within-Cluster Sum of Squares, WCSS）：
- 计算每个样本点到其所属簇的中心点（质心）的距离的平方，然后将所有样本点的距离平方和起来，得到簇内平方和。
- 公式：$WCSS = \sum\limits_{i=1}^k \sum\limits_{x \in C_i} ||x – c_i||^2$，其中$k$为簇的个数，$C_i$表示第$i$个簇中的所有样本，$c_i$表示第$i$个簇的质心。
簇间平方和（Between-Cluster Sum of Squares, BCSS）：
- 计算所有簇质心之间的距离的平方和，用于衡量不同簇之间的分离程度。
- 公式：$BCSS = \sum\limits_{i=1}^k n_i \cdot ||c_i – c||^2$，其中$n_i$为第$i$个簇中的样本数，$c_i$为第$i$个簇的质心，$c$为所有样本的整体平均值。
轮廓系数（Silhouette Coefficient）：
- 衡量了簇内样本的密集程度和簇间距离的远近，取值范围在[-1, 1]之间，值越接近1表示聚类效果越好。
- 公式：$s = \frac{b – a}{max(a, b)}$，其中$a$表示样本到同簇其他点的平均距离（簇内距离），$b$表示样本到最近其他簇中所有点的平均距离（簇间距离）。
Davies–Bouldin指数：
- 结合了簇内离散度和簇间分离度，值越小表示聚类效果越好。
- 公式：$DB = \frac{1}{k} \sum\limits_{i=1}^k max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d(c_i, c_j)} \right)$，其中$\sigma_i$为第$i$个簇内样本到质心的平均距离，$d(c_i, c_j)$表示第$i$个簇和第$j$个簇质心之间的距禛。
Calinski-Harabasz指数：
- 评估聚类结果的紧密度和分离度，值越大表示聚类效果越好。
- 公式：$CH = \frac{Tr(B_k)}{Tr(W_k)} \times \frac{N-k}{k-1}$，其中$B_k$为类间协方差矩阵，$W_k$为类内协方差矩阵，$N$为样本总个数，$k$为簇的个数。