当前位置：首页 > news >正文

asyncio底层原理与生产级避坑指南

news 2026/6/16 11:02:00

1. 为什么今天还必须亲手写一个 asyncio 入门？不是直接抄 FastAPI 文档就完事了？

asyncio 这个词，现在听上去有点老派——毕竟连初中生写爬虫都知道用requests+concurrent.futures，搞后端的早把 FastAPI 当默认模板，连uvicorn启动命令都背得比自己生日还熟。但你有没有遇到过这些场景：

写了个监控脚本，要同时轮询 20 台设备的 SNMP 端口，用threading开 20 个线程，内存飙到 800MB，CPU 却只跑 15%；
做个本地文件批量重命名工具，想加个“预览”功能，结果一点击就卡死 UI，连取消按钮都点不动；
调用公司内部三个微服务接口做数据聚合，串行调用耗时 3.2 秒，改成ThreadPoolExecutor后降到 1.4 秒，但日志里开始频繁报OSError: [Errno 24] Too many open files；
甚至只是想让一个time.sleep(5)不阻塞整个程序，却翻遍教程发现所有示例都在教你怎么搭 Web 服务器……

这些问题，表面是性能或体验问题，根子上全是对 asyncio 的底层契约理解错位。不是它过时了，而是太多人把它当成了“更快的多线程替代品”，或者干脆当成 FastAPI 的隐藏依赖——直到某天async def函数里不小心写了time.sleep()，程序静默卡死，连Ctrl+C都没反应，才意识到：原来await不是魔法糖衣，而是一份需要双方签字的运行时协议。

我从 Python 3.4 刚出 asyncio 就在生产环境用它做金融行情网关，后来带团队重构过 7 个遗留系统。踩过的坑里，80% 都源于同一个误解：以为async/await是语法糖，其实它是运行时调度权的移交凭证。你写await func()，不是在“等结果”，而是在说：“我现在主动交出 CPU，把控制权还给事件循环，请在我指定的条件（比如 socket 可读、定时器到期）满足时，再把我唤醒”。这个动作本身不耗时，但一旦你写的func()里藏着任何同步阻塞操作（time.sleep、urllib.request.urlopen、open().read()），整条链就断了——事件循环被锁死，其他所有协程全部停摆。

所以这篇不是“又一篇 asyncio 教程”，而是我过去十年在真实业务中反复验证的一套最小可行认知框架：不讲 PEP 492 的设计哲学，不堆砌ProactorEventLoop和SelectorEventLoop的源码路径，只聚焦三件事：

什么时候必须用 asyncio（而不是threading或multiprocessing）；
怎么一眼识别你的代码正在偷偷破坏异步契约（90% 的“async 不生效”问题都出在这里）；
如何用最朴素的asyncio.run()+asyncio.create_task()搭出可调试、可监控、可中断的真实工作流。

如果你正被某个具体任务卡住——比如“怎么让 50 个 HTTP 请求并发跑还不崩”、“怎么在 GUI 程序里安全地 await 数据库查询”、“为什么asyncio.wait_for()总是超时失败”——那接下来的内容，就是你该逐行抄进笔记本的部分。

2. 核心设计逻辑：为什么 asyncio 不是“多线程的轻量版”，而是一套全新的执行模型？

2.1 事件循环不是调度器，而是单线程的“时间银行”

先破除一个致命幻觉：很多人以为 asyncio 的事件循环（event loop）像操作系统的进程调度器一样，在多个协程间“切换”执行。错。它根本不切换，它只做一件事：守着一个队列，等 IO 就绪通知，然后按顺序执行回调。

想象你开了一家小面馆，只有你一个厨师（单线程）。顾客（协程）来点单，你不立刻下面（不执行耗时操作），而是记下订单（注册回调），告诉顾客：“面汤烧开要 3 分钟，您先去隔壁茶馆坐会儿，水开了我喊您”。然后你转身去处理下一个顾客的订单。等灶台传感器（操作系统内核）检测到水温达到 100℃，它发个信号给你（IO 就绪事件），你立刻暂停手头活儿，冲到第一个顾客桌前，把面端给他（执行回调）。整个过程，你没“切换”过任何状态，只是在响应外部事件。

这就是事件循环的本质：它不管理协程的“状态”，只管理“事件注册表”。asyncio.sleep(3)的底层实现，其实是向事件循环提交一个“3 秒后触发”的定时器事件；await response.text()的本质，是向事件循环注册“当 socket 缓冲区有数据可读时，调用我的解析函数”。

提示：asyncio.get_event_loop()返回的对象，其核心是一个selectors.DefaultSelector实例（Linux/macOS 下）或Proactor（Windows 下）。它不“轮询”，而是调用epoll_wait()或GetQueuedCompletionStatus()这类系统调用，让内核帮你监听文件描述符状态变化。这意味着 asyncio 的并发能力，本质上取决于操作系统能高效管理多少个 socket，而不是 Python 能开多少个线程。

2.2 协程不是线程，而是可挂起的函数状态机

Python 的async def函数编译后，生成的是一个coroutine对象，它底层继承自collections.abc.Coroutine，而后者是Generator的子类。但关键区别在于：协程不能用yield手动控制挂起点，它的挂起点由await关键字硬性规定。

看这段代码：

import asyncio async def fetch_data(): print("Step 1: Start fetching") await asyncio.sleep(1) # ← 必须在此处挂起！ print("Step 2: Data received") return "real_data" # 错误示范：试图用 yield 混淆概念 async def bad_example(): yield "this will cause SyntaxError" # ← 语法错误！

await不是“等待”，而是显式声明挂起点。当你写await asyncio.sleep(1)，Python 解释器会：

保存当前函数的所有局部变量（__code__,__locals__）到协程对象的cr_frame属性中；
把控制权交还给事件循环；
事件循环记录下“1 秒后唤醒这个协程”；
继续执行队列里的下一个任务。

1 秒后，事件循环找到这个协程，恢复其cr_frame，从await下一行继续执行。整个过程，没有新线程创建，没有栈帧复制，内存开销仅为一个对象实例（约 120 字节），而一个threading.Thread启动至少消耗 8MB 栈空间。

注意：asyncio.sleep()之所以能“不阻塞”，是因为它底层调用的是loop.call_later()，把“唤醒我”这个动作注册为一个定时器事件。如果你自己写一个def my_sleep(n): time.sleep(n)，然后在协程里await my_sleep(1)，会直接报错——因为my_sleep返回的是None，不是Awaitable对象。await只接受实现了__await__方法的对象（如asyncio.Future,asyncio.Task, 或其他协程）。

2.3 Future 和 Task：为什么你需要区分“承诺”和“执行者”

初学者常混淆Future和Task。简单说：

Future是一个空容器，代表“未来某个时刻会有值”，但它不负责产生这个值；
Task是一个执行单元，它把协程包装起来，交给事件循环去调度，并自动把结果填进关联的Future里。

用快递类比：

Future就像一张快递单号（123456），你拿着它就知道“东西到了我会通知你”，但它自己不会去取件；
Task就是快递员本人，他拿着单号去仓库取货（执行协程），装车（处理 IO），最后把包裹（结果）放进你家信箱（Future.set_result()）。

所以asyncio.create_task(coro)的本质，是：

创建一个Task对象（继承自Future）；
把coro注册到事件循环的“待执行队列”；
Task对象的result()方法，会一直阻塞直到Future.set_result()被调用。

这解释了为什么asyncio.wait()的返回值是(done, pending)两个集合：done里是已完成的Task对象（它们的Future已set_result()），pending是还在路上的Task。你调用task.result()时，如果Task还没完成，会抛InvalidStateError——就像问快递员“我的包裹到了吗”，而他还没出发。

3. 实操避坑指南：从“能跑”到“稳跑”的 7 个关键细节

3.1 第一个坑：永远别在协程里调用同步阻塞函数

这是新手 90% 的崩溃源头。看这个经典反例：

import asyncio import time async def bad_fetch(): print("Start") time.sleep(3) # ← 大忌！同步阻塞，事件循环被锁死 print("Done") return "data" # 运行结果：整个程序卡死 3 秒，其他协程完全无法执行 async def main(): task1 = asyncio.create_task(bad_fetch()) task2 = asyncio.create_task(bad_fetch()) await asyncio.gather(task1, task2)

time.sleep()会直接让当前线程休眠，而 asyncio 的事件循环就跑在这个线程里。解决方法只有两个：

用asyncio.sleep()替代（适用于纯延时）；
用loop.run_in_executor()把阻塞操作扔进线程池（适用于必须调用的同步库）。

正确写法：

import asyncio from concurrent.futures import ThreadPoolExecutor # 方案1：纯延时用 asyncio.sleep async def good_delay(): await asyncio.sleep(3) # ← 事件循环正常运转 return "delayed" # 方案2：调用同步库（如 requests）必须进线程池 executor = ThreadPoolExecutor(max_workers=4) async def good_fetch(url): loop = asyncio.get_running_loop() # 把 requests.get 丢进线程池执行，不阻塞事件循环 result = await loop.run_in_executor(executor, requests.get, url) return result.text # 方案3：终极方案——换异步库（如 aiohttp） async def best_fetch(url): async with aiohttp.ClientSession() as session: async with session.get(url) as response: return await response.text()

实操心得：我在金融系统里处理行情推送时，曾用requests同步调用交易所 API，峰值并发 200+ 时线程池耗尽，OSError: can't start new thread频发。换成aiohttp后，同样负载下内存从 2.1GB 降到 320MB，延迟 P99 从 850ms 降到 42ms。关键不是“快”，而是资源可控——你可以精确设置aiohttp.TCPConnector(limit=100)来限制最大连接数，而线程池的max_workers只能粗粒度控制。

3.2 第二个坑：`asyncio.run()`不是万能启动器，它会默默杀死未完成的 Task

很多教程教你这样写：

async def main(): task = asyncio.create_task(long_running_job()) await asyncio.sleep(10) # 主协程结束，task 被取消 # ↓ 这里 task 还在跑，但 main 结束后会被强制 cancel if __name__ == "__main__": asyncio.run(main()) # ← 问题在这里！

asyncio.run()的行为是：

创建新事件循环；
运行main()直到它返回或抛异常；
自动调用loop.shutdown_asyncgens()并取消所有未完成的Task。

这意味着long_running_job()会被静默中断，且CancelledError异常可能被吞掉。生产环境必须显式管理生命周期：

import asyncio async def long_running_job(): try: while True: print("Working...") await asyncio.sleep(1) except asyncio.CancelledError: print("Job was cancelled gracefully") raise # 重新抛出，确保 cleanup 逻辑执行 async def main(): task = asyncio.create_task(long_running_job()) await asyncio.sleep(5) task.cancel() # 显式取消 try: await task # 等待它处理完 CancelledError except asyncio.CancelledError: pass # 正常流程 # 更健壮的写法：用 asyncio.create_task() + asyncio.gather() async def robust_main(): task = asyncio.create_task(long_running_job()) await asyncio.sleep(5) task.cancel() await asyncio.gather(task, return_exceptions=True) # 容忍 CancelledError

3.3 第三个坑：文件 IO 必须异步化，否则磁盘成瓶颈

原教程里用aiofiles的提示非常关键，但很多人忽略其严重性。看这个例子：

import asyncio import aiofiles async def download_and_save(url, filename): async with aiohttp.ClientSession() as session: async with session.get(url) as response: content = await response.read() # ← 内存友好，但仍是同步写入！ # ❌ 错误：同步写入阻塞事件循环 with open(filename, "wb") as f: f.write(content) # ← 这里卡住整个 loop！ # ✅ 正确：用 aiofiles 异步写入 async with aiofiles.open(filename, "wb") as f: await f.write(content)

aiofiles的原理是：在内部创建一个ThreadPoolExecutor，把os.write()这类系统调用扔进线程池执行。虽然不如纯内存操作快，但避免了事件循环被磁盘 IO 锁死。实测数据：下载 100 个 5MB 文件，同步写入版本平均耗时 42.3 秒（P95 128s），异步写入版本 18.7 秒（P95 23s），且内存波动稳定在 150MB 以内。

注意：aiofiles不是银弹。对于高频小文件（如日志），频繁open()/close()反而增加系统调用开销。此时应改用缓冲写入：先用io.BytesIO在内存拼接，累积到 1MB 再await f.write(buffer.getvalue())。

3.4 第四个坑：HTTP 超时必须分层设置，否则请求永无止境

aiohttp的超时机制有三层，漏设任何一层都会导致“假死”：

import aiohttp import asyncio # ❌ 只设 client_timeout，不够！ timeout = aiohttp.ClientTimeout(total=30) async with aiohttp.ClientSession(timeout=timeout) as session: async with session.get("http://slow-server.com") as response: # 如果服务器 TCP 握手成功但迟迟不发数据，这里会无限等待！ # ✅ 正确：分层超时（推荐） timeout = aiohttp.ClientTimeout( total=30, # 整个请求生命周期上限 connect=10, # DNS 解析 + TCP 连接建立上限 sock_read=15, # socket 读取单次数据块上限（防大文件卡住） sock_connect=10 # 同 connect，但更细粒度 ) # ✅ 更进一步：用 async_timeout 包裹，双重保险 import async_timeout async with async_timeout.timeout(30): async with session.get(url) as response: data = await response.text()

我在监控系统里吃过亏：某第三方 API 响应极不稳定，total=30设了，但sock_read没设，结果遇到一个返回 200MB 日志文件的接口，response.text()卡住 12 分钟，拖垮整个采集周期。后来强制sock_read=5，配合response.content.iter_chunked(8192)流式处理，问题彻底解决。

3.5 第五个坑：`asyncio.wait()`的`return_when`参数决定生死

asyncio.wait()的return_when有三个选项，选错会导致逻辑灾难：

选项	行为	适用场景	风险
`FIRST_COMPLETED`	任一 Task 完成就返回	竞速请求（如查多个 DNS 服务器）	其他 Task 继续运行，可能泄漏资源
`FIRST_EXCEPTION`	任一 Task 抛异常就返回	容错型任务（如备份到多个存储）	未完成 Task 需手动 cancel
`ALL_COMPLETED`	所有 Task 完成才返回	严格依赖所有结果（如聚合计算）	某个 Task 卡死，整个流程阻塞

生产环境强烈推荐asyncio.gather()替代wait()：

# gather 自动处理异常传播和结果收集 results = await asyncio.gather( fetch_user(1), fetch_user(2), fetch_user(3), return_exceptions=True # ← 关键！防止一个失败导致全军覆没 ) # results = [user1, user2, Exception, user3]

3.6 第六个坑：信号处理在 asyncio 中必须显式注册

Linux 信号（如SIGINT）默认无法中断 asyncio 协程。按下Ctrl+C时，事件循环可能仍在处理 IO，导致程序无法退出：

import asyncio import signal # ❌ 默认行为：Ctrl+C 可能被忽略 async def main(): while True: await asyncio.sleep(1) print("Running...") # ✅ 正确：显式注册信号处理器 def signal_handler(): print("Received SIGINT, shutting down...") # 获取当前运行的 loop 并停止 loop = asyncio.get_running_loop() loop.stop() if __name__ == "__main__": loop = asyncio.new_event_loop() asyncio.set_event_loop(loop) # 注册信号 loop.add_signal_handler(signal.SIGINT, signal_handler) try: loop.run_until_complete(main()) finally: loop.close()

3.7 第七个坑：调试时`print()`会乱序，必须用`asyncio.create_task()`包装

在协程里直接print()，输出顺序可能与执行顺序不符，因为print()是同步 IO，会短暂阻塞当前协程：

async def messy_print(): print("A") # 可能被其他协程的 print 插入 await asyncio.sleep(0) print("B") # ✅ 调试专用：用 task 包装，保证原子性 async def safe_print(msg): await asyncio.to_thread(print, msg) # Python 3.9+ # 或兼容旧版： # loop = asyncio.get_running_loop() # await loop.run_in_executor(None, print, msg)

4. 完整实操案例：构建一个可中断、可监控、可重试的批量下载器

4.1 需求拆解：为什么不能直接抄教程代码？

原教程的下载示例有三大缺陷：

无重试机制：网络抖动时直接失败；
无进度监控：不知道 100 个文件下了几个；
无优雅退出：Ctrl+C会留下半截文件。

我们来构建一个生产级版本，支持：

✅ 并发数可控（避免压垮目标服务器）；
✅ 每个请求独立超时 + 全局超时；
✅ 失败自动重试（指数退避）；
✅ 实时打印进度（已下载/总数/速率）；
✅Ctrl+C时保存已下载文件，清理临时资源。

4.2 核心代码实现（含详细注释）

import asyncio import aiohttp import aiofiles import time import signal from pathlib import Path from urllib.parse import urlparse from typing import List, Tuple, Optional class DownloadManager: def __init__( self, concurrency: int = 5, # 并发连接数 timeout: float = 30.0, # 单请求总超时 max_retries: int = 3, # 最大重试次数 retry_delay: float = 1.0 # 初始重试延迟（秒） ): self.concurrency = concurrency self.timeout = aiohttp.ClientTimeout(total=timeout) self.max_retries = max_retries self.retry_delay = retry_delay self.semaphore = asyncio.Semaphore(concurrency) # 控制并发 self.progress = {"completed": 0, "failed": 0, "total": 0} self.start_time = 0 self._shutdown_requested = False async def _download_single( self, session: aiohttp.ClientSession, url: str, save_path: Path ) -> Tuple[bool, str]: """下载单个文件，带重试和错误处理""" for attempt in range(self.max_retries + 1): try: # 使用信号量控制并发 async with self.semaphore: # 设置 per-request 超时（比全局 timeout 更激进） async with async_timeout.timeout(self.timeout.total * 0.8): async with session.get(url) as response: if response.status != 200: raise aiohttp.ClientResponseError( request_info=response.request_info, history=response.history, status=response.status, message=f"HTTP {response.status}" ) # 流式下载，避免内存爆炸 total_size = int(response.headers.get('content-length', 0)) downloaded = 0 start_time = time.time() async with aiofiles.open(save_path, 'wb') as f: async for chunk in response.content.iter_chunked(8192): await f.write(chunk) downloaded += len(chunk) # 实时更新进度（每秒最多更新一次） if time.time() - start_time > 1.0: start_time = time.time() speed = downloaded / (time.time() - start_time) / 1024 print(f"\rDownloading {urlparse(url).path.split('/')[-1]}: " f"{downloaded}/{total_size} bytes ({speed:.1f} KB/s)", end="") print(f"\r✓ {urlparse(url).path.split('/')[-1]} ({downloaded} bytes)") return True, "" except (asyncio.TimeoutError, aiohttp.ClientError, OSError) as e: if attempt < self.max_retries: # 指数退避：1s, 2s, 4s... delay = self.retry_delay * (2 ** attempt) print(f"\r⚠ {urlparse(url).path.split('/')[-1]} failed (attempt {attempt+1}), retrying in {delay}s...", end="") await asyncio.sleep(delay) else: return False, str(e) return False, "Max retries exceeded" async def download_all( self, urls: List[str], output_dir: Path = Path("./downloads") ) -> List[Tuple[str, bool, str]]: """主下载方法，返回每个 URL 的结果""" output_dir.mkdir(exist_ok=True) self.progress["total"] = len(urls) self.start_time = time.time() # 创建 session，复用连接 connector = aiohttp.TCPConnector( limit=self.concurrency, limit_per_host=self.concurrency, keepalive_timeout=30 ) results = [] tasks = [] async with aiohttp.ClientSession(connector=connector, timeout=self.timeout) as session: # 为每个 URL 创建下载任务 for url in urls: filename = urlparse(url).path.split('/')[-1] or "index.html" save_path = output_dir / filename # 用 create_task 确保即使 main 抛异常也能清理 task = asyncio.create_task( self._download_single(session, url, save_path) ) tasks.append((url, task)) # 并发执行所有任务 for url, task in tasks: try: success, error = await task if success: self.progress["completed"] += 1 else: self.progress["failed"] += 1 results.append((url, success, error)) except Exception as e: self.progress["failed"] += 1 results.append((url, False, str(e))) # 实时打印总体进度 elapsed = time.time() - self.start_time rate = self.progress["completed"] / elapsed if elapsed > 0 else 0 print(f"\rProgress: {self.progress['completed']}/{self.progress['total']} " f"({self.progress['failed']} failed) | Rate: {rate:.1f}/s", end="") return results def print_summary(self, results: List[Tuple[str, bool, str]]): """打印最终摘要""" print(f"\n{'='*50}") print("DOWNLOAD SUMMARY") print(f"{'='*50}") print(f"Total URLs: {len(results)}") print(f"Successful: {self.progress['completed']}") print(f"Failed: {self.progress['failed']}") print(f"Duration: {time.time() - self.start_time:.1f}s") if self.progress["failed"] > 0: print("\nFailed URLs:") for url, success, error in results: if not success: print(f" - {url}: {error}") # 信号处理：支持 Ctrl+C 优雅退出 def setup_signal_handlers(manager: DownloadManager): loop = asyncio.get_running_loop() def signal_handler(): print("\n🛑 Shutdown requested. Waiting for current downloads to finish...") manager._shutdown_requested = True loop.add_signal_handler(signal.SIGINT, signal_handler) loop.add_signal_handler(signal.SIGTERM, signal_handler) # 使用示例 async def main(): urls = [ "https://httpbin.org/delay/1", "https://httpbin.org/delay/2", "https://httpbin.org/delay/3", "https://httpbin.org/status/500", # 故意失败 "https://httpbin.org/bytes/1000000", # 1MB 文件 ] manager = DownloadManager(concurrency=3, timeout=10.0, max_retries=2) setup_signal_handlers(manager) try: results = await manager.download_all(urls) manager.print_summary(results) except KeyboardInterrupt: print("\n🛑 Manual interrupt received.") except Exception as e: print(f"\n❌ Unexpected error: {e}") if __name__ == "__main__": asyncio.run(main())

4.3 关键设计说明

并发控制：asyncio.Semaphore确保同时只有concurrency个请求在跑，避免aiohttp连接池溢出；
超时分层：ClientTimeout控制整体，async_timeout.timeout()控制单次下载，双重保险；
重试策略：指数退避（1s→2s→4s），避免雪崩；
进度反馈：print()加\r实现覆盖式刷新，time.time()控制刷新频率；
信号处理：add_signal_handler()让Ctrl+C触发优雅退出，而非暴力终止；
资源清理：aiohttp.TCPConnector自动管理连接复用，aiofiles.open()确保文件句柄及时释放。

实测效果：下载 50 个 1MB 文件，concurrency=10时耗时 5.2 秒（P95 6.8s），内存峰值 180MB；同等条件下threading版本耗时 7.1 秒，内存峰值 1.2GB。

5. 常见问题排查手册：从报错信息直击根源

5.1 “RuntimeWarning: coroutine ‘xxx’ was never awaited”

现象：代码能跑，但控制台刷屏警告，且异步逻辑没执行。
原因：调用了协程函数但没await或asyncio.create_task()。
排查：

检查所有async def函数调用处，是否漏了await；
检查asyncio.create_task()是否被赋值给变量（task = asyncio.create_task(...)），否则 task 会被垃圾回收；
检查是否在非 async 函数里调用了协程（如def sync_func(): return async_func()）。

修复：

# ❌ 错误 result = my_coroutine() # 返回 coroutine 对象，未执行 # ✅ 正确 result = await my_coroutine() # 在 async 函数内 # 或 task = asyncio.create_task(my_coroutine()) # 在 async 函数内 # 或 result = asyncio.run(my_coroutine()) # 在顶层

5.2 “RuntimeError: This event loop is already running”

现象：在 Jupyter Notebook 或某些 GUI 框架（如 Tkinter）里调用asyncio.run()报错。
原因：Jupyter 已启动自己的事件循环（nest_asyncio），asyncio.run()尝试新建 loop 失败。
修复：

安装nest_asyncio：pip install nest_asyncio；
在 notebook 顶部运行：

import nest_asyncio nest_asyncio.apply() # 允许嵌套事件循环

或改用asyncio.create_task()：

# 在 notebook cell 中 task = asyncio.create_task(my_coroutine()) # 然后 await task

5.3 “CancelledError” 频繁出现

现象：程序随机中断，日志里满屏CancelledError。
原因：

asyncio.run()结束时自动取消未完成 Task；
asyncio.wait()的return_when=FIRST_COMPLETED后，未完成 Task 未被 cancel；
信号处理中未正确 await Task。

修复：

所有create_task()后，用asyncio.gather(..., return_exceptions=True)收集结果；
在finally块中显式await task或task.cancel()；
使用asyncio.shield()包装关键 Task（防意外取消）：

# shield 确保 critical_task 不会被外部 cancel critical_task = asyncio.shield(asyncio.create_task(long_cleanup())) await critical_task

5.4 “OSError: [Errno 24] Too many open files”

现象：并发高时大量报错，系统级文件描述符耗尽。
原因：aiohttp默认不限制连接数，每个请求占用一个 socket。
修复：

严格设置TCPConnector(limit=100, limit_per_host=30)；
降低concurrency参数；
Linux 下调高系统限制：ulimit -n 65536。

5.5 “SSL handshake failed” 或 “Certificate verify failed”

现象：HTTPS 请求失败，尤其在企业内网或旧系统。
原因：aiohttp默认校验 SSL 证书，而某些环境证书链不完整。
修复（仅测试环境）：

connector = aiohttp.TCPConnector(ssl=False) # 禁用 SSL 校验 # 或指定证书路径 connector = aiohttp.TCPConnector(ssl=aiohttp.Fingerprint(your_fingerprint))

5.6 性能瓶颈诊断表

现象	可能原因	检测命令	修复方向
CPU 使用率低，但延迟高	IO 等待（网络/磁盘）	`strace -p $(pgrep python)`查看`epoll_wait`调用	检查网络质量、目标服务器限速、DNS 解析慢
内存持续增长	协程对象未被 GC（如循环引用）	`tracemalloc.start(); ...; tracemalloc.get_top_locations(10)`	避免在协程中创建长生命周期对象，用`weakref`
并发数上不去	连接池/信号量限制	`lsof -p $(pgrep python) \| wc -l`	调大`TCPConnector.limit`，检查`semaphore`初始化
响应时间波动大	事件循环被阻塞	`asyncio.current_task().get_coro()`查看当前协程	检查是否有同步阻塞调用（`time.sleep`,`requests.get`）

实操心得：我在做电商价格监控时，发现 P95 延迟突增到 12s。用strace发现大量epoll_wait(3, [], 1000)调用，说明事件循环在等 IO。进一步用tcpdump抓包，发现目标网站对同一 IP 每分钟只允许 60 次请求。解决方案：aiohttp.TCPConnector(limit_per_host=1)+ `

查看全文

http://www.zskr.cn/news/1534740.html