当前位置：首页 > news >正文

曼哈顿距离实战指南：高维稀疏数据下的鲁棒相似性计算

news 2026/5/27 15:53:37

1. 什么是曼哈顿距离？——一个被低估却高频使用的距离度量

你有没有在手机地图上规划过路线？输入起点和终点后，App显示“预计步行1.2公里，用时15分钟”，而你抬头一看，直线距离其实只有800米。这多出来的400米，就是曼哈顿距离在现实世界里的第一次“露脸”。它不走斜线，不抄近道，只沿着街道网格一格一格地走——就像纽约曼哈顿的出租车司机，必须在横平竖直的街区间穿行，不能直接飞越楼顶。这个看似“绕远”的度量，恰恰是机器学习、城市规划、电路设计甚至游戏AI里最常被调用的底层逻辑之一。我做数据科学项目十年，几乎每个涉及空间建模或相似性计算的场景，都会在Euclidean（欧氏）和Manhattan（曼哈顿）之间反复掂量；而最终选曼哈顿的次数，比想象中多得多。它不是“次优解”，而是针对特定结构的最优解。关键词：曼哈顿距离、L1距离、taxicab距离、绝对差值求和、距离度量、机器学习、路径规划、异常检测、高维稀疏数据。这篇文章不讲抽象定义，而是从你真正会遇到的问题出发：为什么K-Means聚类用曼哈顿有时比欧氏更稳？为什么A*寻路算法默认用它当启发式函数？为什么处理用户行为日志这种超高维稀疏向量时，它比欧氏距离更抗噪？我会用真实代码、可复现的对比实验、调试过程中的报错截图，以及我在三个不同行业项目里踩过的坑，把曼哈顿距离从教科书概念，变成你工具箱里一把趁手的扳手。

2. 核心设计思路与底层逻辑拆解

2.1 为什么非得是“绝对差值之和”？——几何直觉与数学必然性的统一

曼哈顿距离的公式看起来极简：对两个n维点A=(a₁,a₂,…,aₙ)和B=(b₁,b₂,…,bₙ)，距离d = Σ|aᵢ − bᵢ|。但这个“绝对值+求和”的组合，绝非随意拼凑。它背后是两层严密逻辑的咬合：几何约束与代数性质。先看几何。在二维平面，欧氏距离是直角三角形的斜边，遵循勾股定理；而曼哈顿距离是两条直角边的长度之和。这直接对应了“只能沿坐标轴方向移动”的物理限制——比如机器人在工厂地板上只能前进/后退/左移/右移，不能斜着滑；又比如城市道路网，你无法从第5街第3大道直接瞬移到第7街第8大道，必须先横着走5个街区，再竖着走2个街区，总步数就是|5−7| + |3−8| = 2 + 5 = 7。这个“只能正交移动”的约束，天然排除了平方运算（因为平方会隐含对角线路径的合法性），而绝对值恰好是刻画“单向位移量”的最自然工具：无论A在B左边还是右边，x方向的距离都是|a₁−b₁|，没有负距离的概念。再看代数。绝对值函数|x|是L1范数的核心，它让整个距离度量具备了稀疏性偏好。什么意思？假设你比较两个用户画像向量：用户A的向量是[1, 0, 0, 0, 100]（代表他只在“科技新闻”和“高端消费”两个维度有强行为），用户B是[0, 1, 0, 0, 99]。欧氏距离会算√[(1−0)² + (0−1)² + (0−0)² + (0−0)² + (100−99)²] = √3 ≈ 1.73；而曼哈顿距离是|1| + |1| + |0| + |0| + |1| = 3。表面看欧氏更小，但问题在于：欧氏距离被最后一个维度的微小差异（100 vs 99）主导了，而前四个维度的“完全不重合”（1 vs 0, 0 vs 1）只贡献了微乎其微的√2。曼哈顿距离则平等对待每一维的差异，清晰地告诉你：“他们在5个维度中有3个维度存在实质性差异”。这种“各维度贡献均等”的特性，在处理文本TF-IDF向量（成千上万维，99%为0）、用户点击序列（百万级特征，绝大多数为0）时，能避免单个强信号维度淹没整体模式。这就是为什么在推荐系统里，用曼哈顿距离计算用户相似度，往往比欧氏距离更能捕捉到真实的兴趣结构——它不迷信“某个维度数值大就更重要”，而是相信“有行为就是有信号”。

2.2 它为什么叫“L1距离”？——从向量空间到范数体系的升维理解

“L1距离”这个名称，暴露了它在数学谱系中的真正位置：它是Lp范数家族在p=1时的特例。Lp范数定义为||x||ₚ = (Σ|xᵢ|ᵖ)^(1/p)。当p=1，就是Σ|xᵢ|，即曼哈顿距离；当p=2，就是√(Σxᵢ²)，即欧氏距离；当p→∞，就是max|xᵢ|，即切比雪夫距离。理解这个谱系，能帮你预判不同距离度量的行为边界。关键洞察在于：p值越小，距离度量对“稀疏性”越敏感；p值越大，对“最大差异维度”越敏感。L1（曼哈顿）的p=1，意味着它对所有非零维度的差异“一视同仁”，且由于没有指数放大，它天然抑制了极端值的影响。而L2（欧氏）的p=2，会对大差异进行平方放大，导致一个维度的剧烈波动（比如传感器读数异常跳变）会不成比例地拉高整体距离，从而扭曲相似性判断。我在一个工业设备故障预测项目中就吃过这个亏：用欧氏距离计算传感器时序向量相似度，结果某次训练集里混入了一个温度传感器漂移的数据点（本该是25℃，误读为125℃），导致所有与之计算距离的样本都被判定为“异常远”，模型直接崩溃。换成曼哈顿距离后，|25−125|=100的差异虽然大，但它只是总和中的一项，其他几十个正常维度的差异（比如|22−23|=1, |30−29|=1）依然能提供稳定锚点，模型鲁棒性立刻提升。所以，“L1”不只是个代号，它是一个承诺：承诺在高维、稀疏、含噪的数据战场上，提供一种更均衡、更稳健的“战场感知”。

2.3 何时选它？——一份基于真实项目场景的决策树

别再死记硬背“适用于网格路径”这种教科书答案。我给你一张在三个不同项目现场画出来的决策树，它来自凌晨三点调试失败模型时的真实笔记：

第一步：问数据结构
→ 如果你的数据天然是离散的、分类型的、或经过one-hot编码的（比如用户购买品类向量[0,1,0,0,1]，网页点击流序列[page_A, page_B, page_A]转成的稀疏向量），无条件选曼哈顿。理由：欧氏距离在离散空间里没有几何意义，而曼哈顿的“计数”本质（有多少个位置不同）完美匹配。
→ 如果你的数据是连续的、物理量纲明确的（比如身高、体重、血压），且各维度量纲相近、无显著异常值，优先试欧氏；但如果发现聚类结果被某个维度（如“年收入”）完全主导，立刻切曼哈顿。
第二步：问计算瓶颈
→ 如果你在处理百万级样本、万维特征的实时推荐（比如电商首页千人千面），必须选曼哈顿。原因：计算欧氏距离需要乘法+开方，而曼哈顿只需减法+绝对值+加法，CPU指令周期少50%以上。我们线上AB测试过，用曼哈顿替换欧氏后，相似用户召回延迟从87ms降到42ms，QPS提升1.8倍。
→ 如果你在做小规模研究性分析（<1万样本），计算不是瓶颈，那重点看第三步。
第三步：问业务目标
→ 如果你的目标是识别全局模式、找典型代表（如客户分群找“核心用户”），欧氏可能更合适，因为它对整体分布更敏感。
→ 如果你的目标是检测局部异常、找细微偏差（如金融风控找“异常交易组合”，医疗影像找“早期病灶像素簇”），闭眼选曼哈顿。它的线性累加特性，能让一个维度的微小但持续的偏移（比如某支付渠道成功率连续3天下降0.5%）被稳定捕捉，而欧氏的平方会把它淹没在噪声里。

这张树不是理论推导，是我在支付风控、智能客服、工业质检三个团队里，和工程师、产品经理、业务方一起，用真实数据、真实错误、真实上线效果反复验证出来的。它不保证100%正确，但能让你在90%的场景下，5分钟内做出有依据的选择。

3. 核心细节解析与实操要点

3.1 公式背后的“陷阱”：坐标系、量纲与归一化的生死线

看到公式d = Σ|aᵢ − bᵢ|，新手常犯一个致命错误：直接把原始数据扔进去算。我见过最惨的一次，是实习生用未处理的房价数据（单位：万元）和房间数（单位：个）混合计算曼哈顿距离，结果房价维度的差异动辄上千，房间数差异最多±5，距离值完全由房价决定，房间数信息彻底失效。这暴露了曼哈顿距离的第一个核心前提：所有维度必须在同一量纲下可比。解决方案不是“标准化”，而是“归一化”——因为曼哈顿距离对尺度极其敏感。具体怎么做？我推荐两种实战方案：

方案A：Min-Max归一化（最常用）
对每个维度j，计算 x'ⱼ = (xⱼ − minⱼ) / (maxⱼ − minⱼ)。这样所有维度都被压缩到[0,1]区间，差异值在0~1之间，求和才有意义。优点：简单、可解释性强（0.8的差异就是80%的区间跨度）；缺点：受极值影响大。应对方法：在生产环境，我从来不用全量数据的min/max，而是用滚动窗口的P1和P99分位数。比如每天计算过去30天数据的1%和99%分位数作为min/max，这样既能压制异常值，又能适应数据漂移。代码实现上，用sklearn.preprocessing.MinMaxScaler时，务必设置feature_range=(0, 1)，并用fit()在训练集上拟合，再用transform()处理新数据——千万别用fit_transform()直接处理测试集，这是新手坟场。
方案B：Z-score标准化（适合高斯分布）
x'ⱼ = (xⱼ − μⱼ) / σⱼ。优点：对离群点鲁棒性稍好；缺点：结果无界，可能产生>1的值，求和后数值范围难直观把握。我的经验是：仅当确认某维度近似正态分布（用Q-Q图检验），且业务方明确要求“以标准差为单位衡量差异”时才用。否则，一律首选方案A。

提示：永远不要在归一化前计算距离！我见过太多人先算出一个“巨大”的曼哈顿距离，再试图用这个距离去解释业务，结果全是幻觉。记住：距离值本身没有绝对意义，只有相对大小有意义。归一化后的距离，才能用于k-NN的邻居排序、K-Means的质心更新。

3.2 高维稀疏数据的“隐形杀手”：零值膨胀与内存优化

当曼哈顿距离遇上稀疏矩阵（比如10万维的文本向量，99.9%是0），会出现一个教科书不提但工程中必踩的坑：零值爆炸。假设向量A和B各有1000个非零元素，但重合度只有10%，那么它们的曼哈顿距离 = Σ|aᵢ − bᵢ|。对于99%的i，aᵢ=bᵢ=0，所以|aᵢ − bᵢ|=0；但对于那1000个非零位置，如果A有而B没有，|aᵢ − 0|=aᵢ，反之亦然。问题来了：如果你用稠密数组存储，就要遍历10万个位置，其中99900次都在算|0−0|=0，纯属浪费CPU。解决方案是利用稀疏矩阵的CSR（Compressed Sparse Row）格式。在Python中，scipy.sparse.csr_matrix是你的救星。它只存储非零元素的值、列索引和行指针。计算曼哈顿距离时，你只需要遍历A和B各自的非零位置，用集合操作找出差异位置，再求和。实测：对10万维、密度0.1%的向量，稠密计算耗时120ms，CSR计算仅需8ms。代码关键片段：

from scipy.sparse import csr_matrix import numpy as np # 假设vec_a_dense和vec_b_dense是你的稠密向量 vec_a_sparse = csr_matrix(vec_a_dense) vec_b_sparse = csr_matrix(vec_b_dense) # 获取非零索引和值 a_data, a_indices = vec_a_sparse.data, vec_a_sparse.indices b_data, b_indices = vec_b_sparse.data, vec_b_sparse.indices # 使用set操作高效计算差异（伪代码，实际用np.union1d等） # 距离 = sum(|a_i| for i in a_only) + sum(|b_j| for j in b_only) + sum(|a_k - b_k| for k in both)

这个技巧在处理千万级用户行为日志时，能把每日相似用户计算任务从6小时压缩到22分钟。记住：稀疏数据不用稀疏结构，等于裸奔。

3.3 “绝对值”的工程实现：浮点精度与NaN的幽灵

公式里的|aᵢ − bᵢ|看似简单，但在浮点数世界里暗藏杀机。当aᵢ和bᵢ都是极大数（如1e308）且非常接近时，aᵢ − bᵢ会产生灾难性抵消，结果可能是nan或极小的错误值。更隐蔽的是，当aᵢ或bᵢ是NaN时，abs(NaN)还是NaN，整个距离计算就崩了。我的防御策略是三层过滤：

数据清洗层：在进入距离计算前，用pandas.isna()或np.isnan()扫描所有输入向量，对含NaN的样本打标或剔除。这是底线。
计算层防护：不用原生abs()，改用np.nan_to_num(np.abs(a - b), nan=0.0)。nan_to_num会把NaN转为0，把inf转为大数（可设posinf=1e10），确保计算流不中断。
结果校验层：计算完距离后，用np.isfinite(distance)检查，若为False，立即记录日志并触发告警——这通常意味着上游数据管道出了严重问题。

这个三层防护，是我在线上服务中坚持了7年的习惯。它不增加多少性能开销，但能让你在半夜收到告警时，第一反应是“数据源坏了”，而不是“算法bug了”。

4. 实操过程与核心环节实现

4.1 Python全流程实现：从零开始构建可复用的距离计算器

下面是一个我在生产环境中使用的、经过千锤百炼的曼哈顿距离计算器。它不是玩具代码，而是能直接集成进你项目的模块：

import numpy as np from scipy.spatial.distance import cityblock from sklearn.preprocessing import MinMaxScaler from typing import Union, Optional, Tuple class ManhattanDistanceCalculator: """ 生产级曼哈顿距离计算器，支持稠密/稀疏输入、自动归一化、异常处理 """ def __init__(self, normalize: bool = True, scaler_type: str = 'minmax', feature_range: Tuple[float, float] = (0, 1), handle_nan: str = 'error'): """ 初始化计算器 Parameters: ----------- normalize : bool 是否启用归一化（强烈建议True） scaler_type : str 归一化类型，'minmax' 或 'zscore' feature_range : tuple MinMax归一化的范围，默认(0,1) handle_nan : str NaN处理策略：'error'(报错), 'ignore'(跳过), 'zero'(置0) """ self.normalize = normalize self.scaler_type = scaler_type self.feature_range = feature_range self.handle_nan = handle_nan self.scaler = None self.is_fitted = False def _validate_input(self, X: np.ndarray) -> None: """输入验证：检查维度、NaN、inf""" if not isinstance(X, np.ndarray): raise TypeError("Input must be numpy array") if X.ndim != 2: raise ValueError(f"Input must be 2D, got {X.ndim}D") if self.handle_nan == 'error': if np.isnan(X).any() or np.isinf(X).any(): raise ValueError("Input contains NaN or inf values") elif self.handle_nan == 'zero': X = np.nan_to_num(X, nan=0.0, posinf=1e10, neginf=-1e10) def fit(self, X_train: np.ndarray) -> 'ManhattanDistanceCalculator': """拟合归一化器（仅在normalize=True时调用）""" self._validate_input(X_train) if self.normalize: if self.scaler_type == 'minmax': self.scaler = MinMaxScaler(feature_range=self.feature_range) else: # zscore from sklearn.preprocessing import StandardScaler self.scaler = StandardScaler() self.scaler.fit(X_train) self.is_fitted = True return self def transform(self, X: np.ndarray) -> np.ndarray: """归一化输入数据""" if not self.normalize: return X if not self.is_fitted: raise RuntimeError("Must call fit() before transform()") return self.scaler.transform(X) def calculate_pairwise(self, X: np.ndarray, Y: Optional[np.ndarray] = None) -> np.ndarray: """ 计算成对距离矩阵 Parameters: ----------- X : np.ndarray, shape (n_samples_X, n_features) 第一组点 Y : np.ndarray, shape (n_samples_Y, n_features), optional 第二组点；若为None，则计算X内部的成对距离 Returns: -------- distances : np.ndarray 距离矩阵，shape (n_samples_X, n_samples_Y) 或 (n_samples_X, n_samples_X) """ self._validate_input(X) if Y is not None: self._validate_input(Y) if X.shape[1] != Y.shape[1]: raise ValueError("X and Y must have same number of features") # 归一化 X_norm = self.transform(X) Y_norm = self.transform(Y) if Y is not None else None # 核心计算：使用scipy.cityblock，它已高度优化 if Y is None: # 计算X内部成对距离 n = X_norm.shape[0] distances = np.zeros((n, n)) for i in range(n): for j in range(i+1, n): # 只计算上三角 d = cityblock(X_norm[i], X_norm[j]) distances[i, j] = d distances[j, i] = d # 对称 return distances else: # 计算X到Y的距离 n_x, n_y = X_norm.shape[0], Y_norm.shape[0] distances = np.zeros((n_x, n_y)) for i in range(n_x): for j in range(n_y): distances[i, j] = cityblock(X_norm[i], Y_norm[j]) return distances def calculate_single(self, point_a: np.ndarray, point_b: np.ndarray) -> float: """计算单个点对距离""" self._validate_input(point_a.reshape(1, -1)) self._validate_input(point_b.reshape(1, -1)) a_norm = self.transform(point_a.reshape(1, -1)).flatten() b_norm = self.transform(point_b.reshape(1, -1)).flatten() return float(cityblock(a_norm, b_norm)) # 使用示例 if __name__ == "__main__": # 模拟一个有量纲问题的数据集：房价(万元)和房间数(个) data = np.array([ [500, 3], # 500万，3室 [800, 4], # 800万，4室 [1200, 5], # 1200万，5室 [300, 2], # 300万，2室 ]) calc = ManhattanDistanceCalculator(normalize=True, scaler_type='minmax') calc.fit(data) # 在训练集上拟合归一化器 # 计算成对距离 dist_matrix = calc.calculate_pairwise(data) print("归一化后的成对曼哈顿距离矩阵:") print(dist_matrix) # 输出应为对称矩阵，对角线为0，值在0~2之间（因归一化到[0,1]） # 计算单个点对 d = calc.calculate_single(np.array([500, 3]), np.array([800, 4])) print(f"点[500,3]到[800,4]的曼哈顿距离: {d:.3f}")

这个类的关键设计哲学是：封装复杂性，暴露简单性。它把归一化、NaN处理、稀疏支持（可扩展）都封装在内部，对外只提供fit()、calculate_pairwise()、calculate_single()三个清晰接口。你在项目里只需pip install scikit-learn scipy，复制粘贴，5分钟就能获得一个企业级距离计算器。注意cityblock函数的调用——它比手写np.sum(np.abs(a-b))快3倍以上，因为它是C语言编译的。永远优先用库函数，除非你有压倒性的性能证据证明自己写的更快。

4.2 R语言深度实践：超越基础函数的生产级封装

R语言用户常陷入一个误区：以为dist(x, method="manhattan")就是全部。其实，这个函数在面对真实业务数据时，脆弱得像纸糊的。我用R做过一个城市物流路径优化项目，原始数据包含经纬度、道路等级、实时拥堵指数，维度不一致、有缺失、量纲混乱。直接调用dist()，结果全是Inf和NaN。以下是我在R中构建的健壮版曼哈顿距离模块：

#' @title 生产级曼哈顿距离计算器 #' @description 处理缺失值、量纲不一致、高维稀疏数据的曼哈顿距离计算 #' @param x numeric matrix, 数据矩阵，每行一个观测 #' @param y numeric matrix, 可选，第二组数据矩阵；若NULL，则计算x内部距离 #' @param normalize logical, 是否归一化 #' @param method character, 归一化方法: "minmax" or "zscore" #' @param handle_na character, 缺失值处理: "error", "impute_mean", "impute_zero" #' @return distance matrix or vector #' @export robust_manhattan_dist <- function(x, y = NULL, normalize = TRUE, method = "minmax", handle_na = "error") { # 输入验证 if (!is.matrix(x) || !is.numeric(x)) stop("x must be a numeric matrix") if (ncol(x) == 0) stop("x must have at least one column") # 处理缺失值 if (handle_na == "error" && any(is.na(x))) { stop("x contains NA values. Set handle_na to 'impute_mean' or 'impute_zero'") } else if (handle_na == "impute_mean") { x <- apply(x, 2, function(col) ifelse(is.na(col), mean(col, na.rm = TRUE), col)) } else if (handle_na == "impute_zero") { x <- apply(x, 2, function(col) ifelse(is.na(col), 0, col)) } # 归一化 if (normalize) { if (method == "minmax") { # 使用稳健的minmax：用P1/P99代替min/max quantiles <- apply(x, 2, function(col) quantile(col, c(0.01, 0.99), na.rm = TRUE)) min_vals <- quantiles[1, ] max_vals <- quantiles[2, ] # 防止max==min导致除零 range_vals <- pmax(max_vals - min_vals, 1e-8) x_norm <- sweep(sweep(x, 2, min_vals), 2, range_vals, "/") x_norm <- pmax(pmin(x_norm, 1), 0) # clamp to [0,1] } else { # zscore means <- apply(x, 2, mean, na.rm = TRUE) sds <- apply(x, 2, sd, na.rm = TRUE) sds[sds == 0] <- 1e-8 # avoid division by zero x_norm <- sweep(sweep(x, 2, means), 2, sds, "/") } } else { x_norm <- x } # 核心计算：使用stats::dist，但先确保数据干净 if (is.null(y)) { # 计算x内部距离 dist_mat <- stats::dist(x_norm, method = "manhattan") # 转换为矩阵以便后续操作 return(as.matrix(dist_mat)) } else { # 计算x到y的距离：手动实现，因为dist不支持两矩阵 if (!is.matrix(y) || ncol(y) != ncol(x_norm)) stop("y must be matrix with same number of columns as x") if (handle_na == "impute_mean") { y <- apply(y, 2, function(col) ifelse(is.na(col), mean(x[,2], na.rm = TRUE), col)) } else if (handle_na == "impute_zero") { y <- apply(y, 2, function(col) ifelse(is.na(col), 0, col)) } y_norm <- if (normalize) { if (method == "minmax") { y_norm_temp <- sweep(sweep(y, 2, min_vals), 2, range_vals, "/") pmax(pmin(y_norm_temp, 1), 0) } else { y_norm_temp <- sweep(sweep(y, 2, means), 2, sds, "/") } } else y # 手动计算：外积优化，避免双重循环 # dist[i,j] = sum_k |x_norm[i,k] - y_norm[j,k]| # 使用apply和rowSums向量化 n_x <- nrow(x_norm) n_y <- nrow(y_norm) dist_mat <- matrix(0, n_x, n_y) for (j in 1:n_y) { # 计算x_norm所有行到y_norm第j行的距离 diff_mat <- abs(x_norm - matrix(y_norm[j, ], n_x, ncol(x_norm), byrow = TRUE)) dist_mat[, j] <- rowSums(diff_mat) } return(dist_mat) } } # 使用示例 # 模拟带缺失值的城市数据：经度、纬度、拥堵指数 set.seed(123) city_data <- matrix(rnorm(200, mean = 0, sd = 1), 20, 10) # 20个城市，10个特征 city_data[sample(1:length(city_data), 15)] <- NA # 插入15个NA # 计算距离矩阵，稳健处理缺失值和量纲 dist_matrix <- robust_manhattan_dist( x = city_data, normalize = TRUE, method = "minmax", handle_na = "impute_mean" ) print("稳健曼哈顿距离矩阵前5x5:") print(round(dist_matrix[1:5, 1:5], 3))

这个R函数的精髓在于：用统计思维解决工程问题。它用P1/P99分位数替代min/max，用rowSums向量化替代双重循环，用apply优雅处理缺失值。它不是一个脚本，而是一个可以发布到公司内部R包里的生产组件。当你在R Markdown报告里展示物流路径优化结果时，背后驱动的正是这段代码——它让“距离计算”从一个易错步骤，变成了一个可审计、可复现、可配置的确定性过程。

4.3 可视化对比实验：亲手验证曼哈顿距离的“抗噪性”

理论再强，不如亲眼所见。下面这个Jupyter Notebook风格的实验，会让你彻底信服为什么曼哈顿距离在异常检测中更可靠。我们生成一个二维数据集，然后人为注入一个强异常点，对比两种距离的表现：

import numpy as np import matplotlib.pyplot as plt from scipy.spatial.distance import cityblock, euclidean # 1. 生成正常数据：一个紧凑的簇 np.random.seed(42) normal_points = np.random.multivariate_normal( mean=[0, 0], cov=[[1, 0.3], [0.3, 1]], size=50 ) # 2. 添加一个强异常点 outlier_point = np.array([[0, 10]]) # y坐标突增到10，远离主簇 # 3. 合并数据 all_points = np.vstack([normal_points, outlier_point]) # 4. 计算每个点到原点(0,0)的距离（作为参考点） origin = np.array([0, 0]) manhattan_dists = np.array([cityblock(p, origin) for p in all_points]) euclidean_dists = np.array([euclidean(p, origin) for p in all_points]) # 5. 绘制对比图 fig, axes = plt.subplots(1, 2, figsize=(14, 6)) # 左图：散点图 + 距离标注 axes[0].scatter(all_points[:-1, 0], all_points[:-1, 1], c='blue', alpha=0.6, label='Normal points') axes[0].scatter(outlier_point[0, 0], outlier_point[0, 1], c='red', s=100, marker='x', label='Outlier') axes[0].scatter(origin[0], origin[1], c='black', s=50, marker='o', label='Origin (0,0)') axes[0].set_title('Data Points and Origin') axes[0].legend() axes[0].grid(True, alpha=0.3) # 右图：距离对比条形图 x_pos = np.arange(len(all_points)) bars1 = axes[1].bar(x_pos[:-1], manhattan_dists[:-1], alpha=0.7, label='Manhattan (normal)', color='skyblue') bars2 = axes[1].bar(x_pos[-1:], manhattan_dists[-1:], alpha=0.7, label='Manhattan (outlier)', color='red') bars3 = axes[1].bar(x_pos[:-1] + 0.2, euclidean_dists[:-1], alpha=0.4, label='Euclidean (normal)', color='lightgreen') bars4 = axes[1].bar(x_pos[-1:] + 0.2, euclidean_dists[-1:], alpha=0.4, label='Euclidean (outlier)', color='darkred') axes[1].set_xlabel('Point Index') axes[1].set_ylabel('Distance to Origin') axes[1].set_title('Manhattan vs Euclidean Distance Comparison') axes[1].legend() axes[1].set_xticks(x_pos) axes[1].set_xticklabels([f'P{i}' for i in range(len(all_points))]) axes[1].grid(True, alpha=0.3) # 在条形图上添加数值标签 for i, (bar1, bar3) in enumerate(zip(bars1, bars3)): if i < len(bars1): axes[1].text(bar1.get_x() + bar1.get_width()/2, bar1.get_height() + 0.1, f'{manhattan_dists[i]:.1f}', ha='center', va='bottom') axes[1].text(bar3.get_x() + bar3.get_width()/2, bar3.get_height() + 0.1, f'{euclidean_dists[i]:.1f}', ha='center', va='bottom') # 为异常点添加标签 axes[1].text(bars2[0].get_x() + bars2[0].get_width()/2, bars2[0].get_height() + 0.1, f'{manhattan_dists[-1]:.1f}', ha='center', va='bottom', color='red') axes[1].text(bars4[0].get_x() + bars4[0].get_width()/2, bars4[0].get_height() + 0.1, f'{euclidean_dists[-1]:.1f}', ha='center', va='bottom', color='darkred') plt.tight_layout() plt.show() # 打印关键数字 print("=== 关键对比 ===") print(f"正常点平均曼哈顿距离: {np.mean(manhattan_dists[:-1]):.2f}") print(f"异常点曼哈顿距离: {manhattan_dists[-1]:.2

查看全文

http://www.zskr.cn/news/1404479.html