Linux 内核性能调优：从 CPU 调度到内存管理的系统级优化实战-尧图网络科技

Linux 内核性能调优：从 CPU 调度到内存管理的系统级优化实战

一、性能瓶颈的"冰山模型"：为什么应用层优化总有天花板

一次线上性能优化的经历：业务团队报告 API 响应变慢，应用层排查发现 GC 频率正常、数据库查询耗时稳定、缓存命中率 99%。问题出在哪里？最终定位到是 Linux 内核的 TCP 连接跟踪表（conntrack）满了，新连接被丢弃，导致部分请求超时。这个问题在应用层完全看不到，只有在内核层面才能发现。

这就是性能问题的"冰山模型"——应用层可见的问题只是冰山一角，真正的瓶颈往往隐藏在内核参数、内存管理、I/O 调度等系统层面。应用层的优化（如代码逻辑优化、缓存策略）总有天花板，当应用层已经优化到极致，性能提升的空间只能从内核层面挖掘。本文将从 CPU 调度、内存管理、网络栈和 I/O 子系统四个维度，深入分析 Linux 内核性能调优的技术路径。

二、Linux 内核性能调优全景图：四大子系统的关键参数

flowchart TD subgraph CPU["CPU 调度子系统"] C1[调度策略<br/>CFS / Realtime] C2[CPU 亲和性<br/>numactl / taskset] C3[中断均衡<br/>IRQ affinity] C4[频率调节<br/>performance / powersave] end subgraph MEM["内存管理子系统"] M1[透明大页<br/>THP: always / madvise / never] M2[内存回收策略<br/>swappiness / vfs_cache_pressure] M3[OOM 策略<br/>oom_score_adj / early_kill] M4[内存区域<br/>vm.min_free_kbytes] end subgraph NET["网络栈子系统"] N1[TCP 缓冲区<br/>rmem / wmem] N2[连接跟踪<br/>conntrack_max] N3[积压队列<br/>somaxconn / tcp_max_syn_backlog] N4[TIME_WAIT<br/>tcp_tw_reuse / tcp_max_tw_buckets] end subgraph IO["I/O 子系统"] I1[I/O 调度器<br/>none / mq-deadline / bfq] I2[脏页回写<br/>dirty_ratio / dirty_background_ratio] I3[文件描述符<br/>fs.file-max / nr_open] I4[AIO 参数<br/>aio-max-nr] end CPU --> |影响| APP[应用性能] MEM --> APP NET --> APP IO --> APP APP --> |反馈| MON[性能监控<br/>perf / eBPF / vmstat] MON --> |指导| TUNE[调优决策] TUNE --> CPU TUNE --> MEM TUNE --> NET TUNE --> IO

上图展示了 Linux 内核性能调优的四大子系统及其关键参数。调优不是盲目修改参数，而是基于性能监控数据定位瓶颈，然后有针对性地调整。核心流程是"监控 → 定位 → 调优 → 验证"的闭环。

CPU 调度子系统：CFS（完全公平调度器）是 Linux 默认的进程调度器，对大多数工作负载表现良好。但在高并发低延迟场景下，需要调整调度策略和 CPU 亲和性。NUMA 架构下，跨 NUMA 节点的内存访问延迟是同节点的 1.5-2 倍，必须通过numactl绑定进程到正确的 NUMA 节点。

内存管理子系统：透明大页（THP）可以减少 TLB Miss，对大内存工作负载（如数据库）有显著性能提升。但 THP 的内存整理（compaction）会引入不可预测的延迟抖动，对延迟敏感的应用（如交易系统）应关闭 THP 或设为madvise模式。

网络栈子系统：TCP 缓冲区大小直接影响网络吞吐量。默认值（4KB-6KB）适合低带宽场景，高带宽高延迟网络（如跨机房通信）需要增大到 16KB-64KB。conntrack 表大小限制了并发连接数，高并发场景必须调大。

I/O 子系统：I/O 调度器的选择取决于存储介质。NVMe SSD 使用none（无调度器）性能最好，因为 NVMe 本身有硬件队列；SATA SSD 使用mq-deadline；机械硬盘使用bfq保证公平性。

三、生产级内核调优脚本与配置

3.1 系统级内核参数优化

#!/bin/bash # linux-kernel-tuning.sh # Linux 内核性能调优脚本 # 适用场景：高并发 Web 服务 / 数据库服务器 # 注意：所有参数修改均为运行时生效，需同步写入 /etc/sysctl.conf 持久化 set -euo pipefail echo "=== Linux 内核性能调优 ===" # ========================================== # 一、网络栈调优 # ========================================== # TCP 缓冲区：最小值 / 默认值 / 最大值（单位：字节） # 适用于高带宽高延迟网络（跨机房通信） # 计算公式：BDP = bandwidth * RTT，如 1Gbps * 1ms = 125KB sysctl -w net.core.rmem_max=16777216 # 16MB 接收缓冲区上限 sysctl -w net.core.wmem_max=16777216 # 16MB 发送缓冲区上限 sysctl -w net.ipv4.tcp_rmem="4096 131072 16777216" # min/default/max sysctl -w net.ipv4.tcp_wmem="4096 65536 16777216" # min/default/max # 连接跟踪表：高并发场景必须调大 # 默认值 65536，高并发场景建议 1048576（1M） # 查看当前使用量：cat /proc/sys/net/netfilter/nf_conntrack_count sysctl -w net.netfilter.nf_conntrack_max=1048576 sysctl -w net.netfilter.nf_conntrack_tcp_timeout_established=7200 # TCP 积压队列：增加半连接和全连接队列大小 # 适用于高并发短连接场景（如 HTTP 服务） sysctl -w net.core.somaxconn=65535 sysctl -w net.ipv4.tcp_max_syn_backlog=65535 # TIME_WAIT 处理：允许复用 TIME_WAIT 连接 # 注意：仅在客户端（发起连接方）启用，服务端不建议开启 sysctl -w net.ipv4.tcp_tw_reuse=1 sysctl -w net.ipv4.tcp_max_tw_buckets=65535 # TCP 快速打开：减少连接建立延迟 sysctl -w net.ipv4.tcp_fastopen=3 # 1=客户端 2=服务端 3=双向 # ========================================== # 二、内存管理调优 # ========================================== # Swappiness：控制内核交换内存的倾向 # 0 = 尽量不交换，100 = 积极交换 # 数据库服务器建议 1-10，Web 服务器建议 10-30 sysctl -w vm.swappiness=10 # 最小空闲内存：确保内核始终保留一定量空闲内存 # 用于原子性内存分配（如中断处理），避免内存不足时触发直接回收 # 建议值：总内存的 0.5%-1%，如 128GB 内存设为 655360（640MB） TOTAL_MEM_KB=$(grep MemTotal /proc/meminfo | awk '{print $2}') MIN_FREE=$((TOTAL_MEM_KB / 200)) # 0.5% sysctl -w vm.min_free_kbytes=${MIN_FREE} # 脏页回写策略：控制脏页在内存中的停留时间 # dirty_ratio：脏页占总内存的比例，超过此值阻塞写入 # dirty_background_ratio：后台回写触发的比例 # 数据库服务器建议降低，减少突发 I/O sysctl -w vm.dirty_ratio=10 sysctl -w vm.dirty_background_ratio=5 sysctl -w vm.dirty_expire_centisecs=3000 # 30 秒后过期 sysctl -w vm.dirty_writeback_centisecs=500 # 5 秒回写一次 # VFS 缓存压力：控制内核回收 dentry/inode 缓存的倾向 # 默认 100，增大值会更积极回收缓存，适合缓存不重要的大内存场景 sysctl -w vm.vfs_cache_pressure=100 # ========================================== # 三、文件描述符与 I/O 调优 # ========================================== # 文件描述符上限 sysctl -w fs.file-max=1048576 sysctl -w fs.nr_open=1048576 # AIO 上限（数据库常用） sysctl -w fs.aio-max-nr=1048576 # ========================================== # 四、CPU 调度调优 # ========================================== # 设置 CPU 频率调节策略为 performance # 确保CPU始终运行在最高频率，避免节能模式引入延迟抖动 for cpu in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do if [ -f "$cpu" ]; then echo "performance" > "$cpu" 2>/dev/null || true fi done # IRQ 亲和性：将网络中断分散到多个 CPU # 避免单个 CPU 处理所有网络中断成为瓶颈 # 启用 irqbalance 服务自动均衡 if command -v systemctl &>/dev/null; then systemctl enable irqbalance 2>/dev/null || true systemctl start irqbalance 2>/dev/null || true fi echo "=== 内核参数调优完成 ===" echo "请执行 sysctl -p 持久化配置"

3.2 透明大页与 NUMA 调优

#!/bin/bash # thp-numa-tuning.sh # 透明大页与 NUMA 调优 # 不同工作负载需要不同的 THP 和 NUMA 策略 WORKLOAD_TYPE="${1:?用法: $0 <database|web|latency>}" case "$WORKLOAD_TYPE" in database) # 数据库工作负载：启用 THP，禁用 defrag 减少延迟抖动 echo "数据库模式：THP 启用 + defrag 禁用" echo always > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag # 数据库建议绑定 NUMA 节点，避免跨节点内存访问 # 使用 numactl --interleave=all 启动数据库进程 echo "建议启动命令: numactl --interleave=all mysqld" ;; web) # Web 工作负载：THP 设为 madvise，仅对显式请求的内存区域启用 echo "Web 模式：THP madvise" echo madvise > /sys/kernel/mm/transparent_hugepage/enabled echo madvise > /sys/kernel/mm/transparent_hugepage/defrag ;; latency) # 延迟敏感工作负载：完全禁用 THP # THP 的内存整理会引入不可预测的延迟抖动 echo "低延迟模式：THP 禁用" echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag # 绑定 CPU 亲和性，避免进程在 NUMA 节点间迁移 echo "建议使用 taskset 或 cgroups cpuset 绑定 CPU" ;; *) echo "未知工作负载类型: $WORKLOAD_TYPE" echo "可选: database / web / latency" exit 1 ;; esac

3.3 性能监控与瓶颈定位脚本

#!/bin/bash # perf-bottleneck-detect.sh # 快速定位系统性能瓶颈 # 基于 vmstat / iostat / mpstat / ss 的综合分析 echo "=== 性能瓶颈快速检测 ===" echo "采集时间: $(date)" echo "" # 一、CPU 瓶颈检测 echo "--- CPU 瓶颈 ---" # 检查 CPU steal time（虚拟化环境特有） STEAL=$(vmstat 1 3 | tail -1 | awk '{print $18}') if [ "$STEAL" -gt 5 ]; then echo "[警告] CPU steal time = ${STEAL}%，宿主机 CPU 资源争抢严重" echo " 建议：联系云服务商迁移实例或升级规格" else echo "[正常] CPU steal time = ${STEAL}%" fi # 检查 CPU iowait IOWAIT=$(vmstat 1 3 | tail -1 | awk '{print $16}') if [ "$IOWAIT" -gt 10 ]; then echo "[警告] CPU iowait = ${IOWAIT}%，磁盘 I/O 是瓶颈" echo " 建议：检查磁盘 I/O 调度器和队列深度" else echo "[正常] CPU iowait = ${IOWAIT}%" fi # 检查上下文切换频率 CS=$(vmstat 1 3 | tail -1 | awk '{print $12}') CPU_COUNT=$(nproc) CS_PER_CPU=$((CS / CPU_COUNT)) if [ "$CS_PER_CPU" -gt 50000 ]; then echo "[警告] 每CPU上下文切换 = ${CS_PER_CPU}/s，过高" echo " 建议：检查线程数是否过多，考虑减少锁竞争" else echo "[正常] 每CPU上下文切换 = ${CS_PER_CPU}/s" fi # 二、内存瓶颈检测 echo "" echo "--- 内存瓶颈 ---" MEM_AVAILABLE=$(grep MemAvailable /proc/meminfo | awk '{print $2}') MEM_TOTAL=$(grep MemTotal /proc/meminfo | awk '{print $2}') MEM_USAGE_PCT=$(( (MEM_TOTAL - MEM_AVAILABLE) * 100 / MEM_TOTAL )) if [ "$MEM_USAGE_PCT" -gt 90 ]; then echo "[警告] 内存使用率 = ${MEM_USAGE_PCT}%，接近耗尽" echo " 建议：检查内存泄漏或增加物理内存" else echo "[正常] 内存使用率 = ${MEM_USAGE_PCT}%" fi # 检查 Swap 使用量 SWAP_USED=$(grep SwapCached /proc/meminfo | awk '{print $2}') if [ "$SWAP_USED" -gt 1048576 ]; then echo "[警告] Swap 缓存 = $((SWAP_USED / 1024))MB，内存压力较大" echo " 建议：降低 vm.swappiness 或增加物理内存" else echo "[正常] Swap 缓存 = $((SWAP_USED / 1024))MB" fi # 三、网络瓶颈检测 echo "" echo "--- 网络瓶颈 ---" # 检查 conntrack 使用率 if [ -f /proc/sys/net/netfilter/nf_conntrack_count ]; then CT_COUNT=$(cat /proc/sys/net/netfilter/nf_conntrack_count) CT_MAX=$(cat /proc/sys/net/netfilter/nf_conntrack_max) CT_PCT=$((CT_COUNT * 100 / CT_MAX)) if [ "$CT_PCT" -gt 80 ]; then echo "[警告] conntrack 使用率 = ${CT_PCT}%（${CT_COUNT}/${CT_MAX}）" echo " 建议：增大 net.netfilter.nf_conntrack_max" else echo "[正常] conntrack 使用率 = ${CT_PCT}%" fi fi # 检查 TCP 全连接队列溢出 LISTEN_OVERFLOW=$(netstat -s | grep "times the listen queue" | awk '{print $1}') if [ -n "$LISTEN_OVERFLOW" ] && [ "$LISTEN_OVERFLOW" -gt 0 ]; then echo "[警告] TCP 全连接队列溢出 ${LISTEN_OVERFLOW} 次" echo " 建议：增大 net.core.somaxconn 和应用 listen backlog" else echo "[正常] TCP 全连接队列无溢出" fi # 四、磁盘 I/O 瓶颈检测 echo "" echo "--- 磁盘 I/O 瓶颈 ---" # 检查 I/O 等待时间 IO_AWAIT=$(iostat -x 1 3 | grep -E "^sd|^nvme|^vd" | tail -1 | awk '{print $10}') if [ -n "$IO_AWAIT" ]; then IO_AWAIT_INT=$(echo "$IO_AWAIT" | awk '{printf "%.0f", $1}') if [ "$IO_AWAIT_INT" -gt 20 ]; then echo "[警告] 磁盘平均 I/O 等待 = ${IO_AWAIT}ms，偏高" echo " 建议：检查 I/O 调度器或升级到 SSD" else echo "[正常] 磁盘平均 I/O 等待 = ${IO_AWAIT}ms" fi fi echo "" echo "=== 检测完成 ==="

四、内核调优的边界：参数优化的"天花板"与"副作用"

Swappiness 不是越低越好：将vm.swappiness设为 0 或 1 可以最大程度避免交换，但在内存紧张时，内核会直接触发 OOM Killer 而非交换，可能导致关键进程被杀。生产环境建议设为 10-30，允许少量交换作为内存压力的缓冲。

透明大页的延迟抖动：THP 的 defrag 操作会在内存碎片化时触发同步内存整理，导致进程被阻塞数毫秒到数十毫秒。对于延迟敏感的应用（如金融交易、实时音视频），这种抖动不可接受。解决方案是关闭 THP 或设为madvise模式，由应用显式控制哪些内存区域使用大页。

TCP 缓冲区不是越大越好：过大的 TCP 缓冲区会占用更多内存，在并发连接数高时可能导致内存耗尽。计算公式：总内存占用 = 并发连接数 * 缓冲区大小。10 万并发连接 * 16MB 缓冲区 = 1.6TB 内存，显然不可行。生产环境应根据实际带宽和 RTT 计算 BDP（带宽延迟积），将缓冲区设为 BDP 的 2-3 倍即可。

I/O 调度器的选择不可逆：none调度器在 NVMe SSD 上性能最好，但如果 SSD 出现性能退化（如磨损均衡导致的延迟抖动），mq-deadline可以提供更稳定的延迟上限。选择调度器时不仅要考虑正常情况下的性能，还要考虑异常情况下的可预测性。