当前位置：首页 > news >正文

实战：用密度峰值聚类(DPC)算法处理你的第一份复杂形状数据集（附完整Python代码与可视化）

news 2026/5/24 8:07:50

实战用密度峰值聚类(DPC)算法处理复杂形状数据集附完整Python代码与可视化当面对螺旋形、环形或任意形状分布的数据集时传统K-Means这类基于距离的聚类算法往往力不从心。2014年发表于《Science》的密度峰值聚类算法(DPC)提供了一种直观的解决方案——它不需要预设簇数量通过局部密度ρ和相对距离δ两个核心指标就能自动识别出数据中的自然聚类中心。本文将手把手带你用Python实现DPC算法并处理典型的复杂分布数据集。1. DPC算法核心原理与优势密度峰值聚类基于一个直观的观察聚类中心往往被低密度区域包围且距离其他更高密度的点较远。这与人类识别中心点的直觉完全一致——想象山脉中的高峰不仅自身海拔高还与相邻高峰保持一定距离。相比K-MeansDPC有三大优势无需指定簇数量自动通过决策图识别中心点处理任意形状对螺旋、环形等非凸分布效果优异抗噪声能力强孤立点会被自动识别为异常关键计算公式# 高斯核密度计算连续型 rho[i] sum(exp(-(dists[i,j]/dc)**2) for j in range(N)) - 1 # 最小距离计算 delta[i] min(dists[i,j] for j in range(N) if rho[j] rho[i])提示截断距离dc通常使每个点平均有1%-2%的邻居可通过排序距离矩阵快速确定2. 环境准备与数据加载我们使用经典的螺旋数据集进行演示先准备基础环境import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_moons # 生成测试数据 def load_spiral_data(): # 此处应替换为实际数据加载代码 X, _ make_moons(n_samples300, noise0.05) return X数据预处理步骤标准化数据使各维度量纲一致计算全样本距离矩阵可视化原始数据分布# 数据标准化 def normalize_data(X): return (X - X.mean(axis0)) / X.std(axis0)3. 关键参数计算与决策图解读DPC的核心是计算每个点的两个特征值3.1 局部密度ρ计算def calculate_rho(dists, dc, methodgaussian): N dists.shape[0] rho np.zeros(N) for i in range(N): if method cutoff: rho[i] np.sum(dists[i] dc) - 1 else: # gaussian rho[i] np.sum(np.exp(-(dists[i]/dc)**2)) - 1 return rho3.2 相对距离δ计算def calculate_delta(dists, rho): N len(rho) delta np.zeros(N) nearest_higher np.zeros(N, dtypeint) # 按密度降序处理 order np.argsort(-rho) for i, idx in enumerate(order): if i 0: # 密度最大的点 delta[idx] np.max(dists[idx]) nearest_higher[idx] -1 else: mask rho rho[idx] if np.any(mask): delta[idx] np.min(dists[idx][mask]) nearest_higher[idx] np.argmin(np.where(mask, dists[idx], np.inf)) else: delta[idx] np.max(dists[idx]) nearest_higher[idx] -1 return delta, nearest_higher3.3 决策图解读技巧绘制ρ-δ散点图后真正的聚类中心会出现在右上角——这些点同时具有高密度和高距离值。实际操作中人工选择时圈出右上角的孤立点自动选择时可用以下策略设置ρ和δ的双重阈值选择ρ×δ乘积最大的前K个点使用γρ×δ排序并寻找拐点def find_centers(rho, delta, n_clustersNone): gamma rho * delta if n_clusters is None: # 自动检测拐点 sorted_gamma -np.sort(-gamma) diffs np.diff(sorted_gamma) n_clusters np.argmax(diffs[1:]/diffs[:-1]) 2 centers np.argsort(-gamma)[:n_clusters] return centers4. 完整聚类流程实现4.1 距离矩阵计算优化原始O(N²)计算可通过向量化加速def fast_pairwise_dist(X): sum_X np.sum(np.square(X), axis1) dists np.sqrt(np.abs(sum_X[:, np.newaxis] sum_X - 2 * np.dot(X, X.T))) return dists4.2 聚类分配策略非中心点归属原则分配到最近且密度更高的邻居所属类别def assign_clusters(rho, centers, nearest_higher): labels -np.ones_like(rho) # 标记中心点 for i, c in enumerate(centers): labels[c] i # 按密度降序处理 for idx in np.argsort(-rho): if labels[idx] -1: labels[idx] labels[nearest_higher[idx]] return labels4.3 结果可视化def plot_results(X, labels, centers): plt.figure(figsize(12,5)) plt.subplot(121) plt.scatter(rho, delta, ck, s10) plt.scatter(rho[centers], delta[centers], cr, s50) plt.xlabel(ρ), plt.ylabel(δ) plt.subplot(122) for k in range(len(centers)): mask labels k plt.scatter(X[mask,0], X[mask,1], s10) plt.scatter(X[centers,0], X[centers,1], cr, marker*, s200) plt.title(fFound {len(centers)} clusters)5. 实战案例与调参技巧5.1 不同数据集的对比实验数据集类型最佳dc范围密度计算方法中心点识别策略螺旋数据0.1-0.3高斯核γ值拐点法月牙数据0.2-0.4截断核双阈值法球形数据0.3-0.5高斯核指定K值法5.2 常见问题解决方案dc值选择不当现象所有点ρ值相似或两极分化解决调整dc使平均邻居数占1%-2%中心点漏选检查决策图是否呈现明显的右上方分布尝试对数变换γ log(ρ)×log(δ)噪声点误判后处理移除ρ阈值的小簇可视化标记边界点δ大但ρ小# 噪声过滤示例 def filter_noise(X, labels, rho, rho_thresh): cluster_rhos [np.median(rho[labelsk]) for k in np.unique(labels)] valid_clusters [k for k,r in zip(np.unique(labels), cluster_rhos) if r rho_thresh] new_labels np.where(np.isin(labels, valid_clusters), labels, -1) return new_labels5.3 性能优化技巧对于大规模数据使用KDTree加速近邻搜索采样估算dc值并行化距离矩阵计算from scipy.spatial import KDTree def fast_rho_calculation(X, dc, k10): tree KDTree(X) rho np.zeros(len(X)) for i, x in enumerate(X): dists tree.query(x, kk)[0] rho[i] np.sum(np.exp(-(dists/dc)**2)) return rho将上述模块组合成完整流程后你就能得到一个鲁棒的DPC实现。在实际项目中建议先用小样本调试dc参数再扩展到全数据集。对于维度灾难问题可先使用UMAP等降维方法预处理数据。

查看全文

http://www.zskr.cn/news/1364885.html