当前位置：首页 > news >正文

生产级AI模型服务：从Triton部署到自动自愈的全链路实践

news 2026/5/23 22:37:54

1. 项目概述当模型走出Jupyter真正开始呼吸真实世界的空气“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号专为那些在Jupyter里调通了模型、画出了漂亮ROC曲线、却在部署时被现实迎面一拳打懵的工程师准备的。它不是讲怎么写model.fit()而是讲当你的模型第一次被业务系统调用、第一次在凌晨三点因上游数据格式突变而报错、第一次因为GPU显存被另一个任务悄悄占满而静默失败时你该抓哪根救命稻草。我带过六支AI工程团队亲手把超过37个模型从研究环境推到日均处理千万级请求的生产线上最深的体会是模型的准确率决定它能不能上线而它的可观测性、弹性与可维护性才决定它能在线上活几天。Part 4 这个编号很关键——它意味着前面三部分已经铺完了数据管道、特征服务和模型训练流水线现在要直面那个所有教科书都轻描淡写跳过的终极战场生产环境下的持续可靠运行。它解决的不是“如何做出一个好模型”而是“如何让一个好模型在没人盯着的时候依然稳如老狗”。适合谁不是刚学完scikit-learn的新人而是已经能把模型跑起来、但每次上线后都要守着监控面板不敢关电脑的中级ML工程师是那个被产品同事一句“用户反馈推荐结果突然全变了”吓得立刻翻日志查版本的算法负责人也是那个在架构评审会上被问“如果模型服务挂了降级方案是什么”而冷汗直流的后端同学。这是一份写给实战者的生存手册没有理论推导只有我在金融风控、电商推荐、IoT设备预测三个领域踩出来的坑和填坑的水泥。2. 内容整体设计与思路拆解为什么“能跑”不等于“能扛”2.1 从“单次推理”到“持续服务”的范式断层很多人误以为把model.predict()封装成Flask接口就完成了生产化。这是最大的认知陷阱。笔记本里的predict()是一次性函数调用输入确定、环境干净、资源独占、失败即终止。而生产服务是永不停歇的河流请求乱序抵达、内存缓慢泄漏、依赖库悄然升级、CPU负载忽高忽低。我见过最典型的案例是一家物流公司的路径优化模型——在Jupyter里用100条样本测试完美上线后第三天开始出现5%的请求超时。排查三天才发现模型加载时会缓存一个巨大的距离矩阵而Flask默认的多进程模式下每个worker进程都独立加载并缓存一份4核机器瞬间吃掉16GB内存触发系统OOM Killer杀掉进程。问题根源不在模型而在服务框架对资源生命周期的无知。因此Part 4的设计起点非常明确必须将模型视为一个有状态、有生命周期、需被管理的微服务组件而非无状态的数学函数。这意味着架构上必须解耦四个核心能力模型加载与卸载避免内存爆炸、请求路由与限流应对流量洪峰、健康检查与自动恢复故障自愈、以及最关键的——上下文感知的推理执行比如同一用户连续请求需共享会话特征。2.2 为什么放弃纯Python服务框架性能、隔离与可观测性的三重枷锁初学者常选Flask/FastAPI理由很朴素“写得快”。但真实世界的数据洪流会立刻撕碎这种朴素。我们做过一组压测同样一个BERT-base文本分类模型在FastAPI中单进程QPS约120P99延迟850ms换成Triton Inference Server后QPS飙升至2100P99延迟压到92ms。差距不是2倍是17倍。原因在于底层差异FastAPI本质是Python Web服务器模型推理和HTTP协议栈挤在同一进程里GIL锁死CPUGPU计算与网络IO相互阻塞而Triton是NVIDIA专为AI推理设计的C服务引擎它把模型加载、内存管理、批处理dynamic batching、GPU调度全部下沉到内核级Python层只负责轻量级的请求转发。更致命的是隔离性——FastAPI里一个模型的OOM会拖垮整个服务Triton则通过模型实例隔离确保A模型崩溃不影响B模型。至于可观测性FastAPI的metrics需要自己埋点、聚合、暴露Prometheus端点而Triton原生提供/v2/metrics端点直接输出GPU利用率、显存占用、各模型吞吐量、错误码分布等37项指标连Grafana看板模板都给你配好了。这不是“高级功能”而是生产环境的氧气——没有它你就像蒙着眼睛开车直到撞墙才知路在哪。2.3 模型服务化的分层架构为什么必须引入“模型编排层”单纯用Triton还不够。真实业务场景中一个推荐请求往往需要串联多个模型先用用户画像模型生成向量再用召回模型筛选候选集最后用精排模型打分排序。如果每个模型都独立部署、由业务代码硬编码调用会产生灾难性耦合精排模型升级需同步改召回服务代码某个模型临时下线整个链路熔断。Part 4的核心创新点就是引入模型编排层Model Orchestration Layer它位于业务服务与模型服务之间承担三大职责拓扑管理以DAG有向无环图定义模型调用关系比如“用户ID → 特征服务 → 召回模型 → 精排模型 → 结果过滤”动态路由根据请求头中的x-model-version或用户分群标签将流量灰度切到不同模型版本如A/B测试统一降级当精排模型超时自动降级到召回模型的原始分数而非返回500错误。我们采用Kubeflow Pipelines作为编排底座但做了关键改造将每个模型节点抽象为标准Triton模型仓库中的model_repository子目录编排器通过Triton的gRPC API动态加载/卸载模型实例。这样做的好处是模型更新只需推送新模型文件到仓库编排器自动发现并热加载业务代码零修改。这解决了“模型迭代快于服务发布”的根本矛盾——在电商大促期间算法团队每小时发版一次运维同学再也不用半夜爬起来重启服务。3. 核心细节解析与实操要点让模型在生产环境“活下来”的七道防线3.1 模型加载策略冷启动时间与内存占用的生死平衡模型加载不是“读个文件”那么简单。一个1.2GB的ResNet50模型在PyTorch中torch.load()耗时约3.2秒但若直接model.eval()后立即接受请求首请求延迟可能飙到2.8秒因CUDA context初始化。更糟的是若使用torch.jit.script编译首次forward()会触发JIT优化延迟高达8秒以上。Part 4采用三级加载策略预热加载Warm-up Load服务启动时不加载完整模型只加载模型结构model ResNet50()和权重元数据state_dict.keys()耗时100ms懒加载Lazy Load首个请求到达时异步线程加载权重到CPU内存同时返回HTTP 102 Processing状态码避免客户端超时GPU预热GPU Warm-up权重加载完成后立即执行一次空输入model(torch.zeros(1,3,224,224))强制初始化CUDA context和cuDNN kernel cache。实测数据某医疗影像分割模型ONNX格式890MB传统加载首请求延迟2100ms采用此策略后降至312msP99延迟稳定在350ms内。提示务必在model.eval()后调用torch.backends.cudnn.benchmark True让cuDNN自动选择最优卷积算法但注意这会增加首次推理耗时约200ms需纳入预热流程。3.2 请求批处理如何把“单条推理”变成“批量吞吐”的艺术Triton的dynamic batching是神器但开箱即用常踩坑。默认配置下batch延迟容忍时间为10ms意味着请求进来后最多等10ms凑够batch size否则立即执行。这对低延迟场景如搜索排序是灾难——用户输入“苹果”后等待10ms才出结果体验已受损。我们的解决方案是双模批处理实时模式Real-time Mode对延迟敏感请求如/search禁用batchingmax_queue_delay_microseconds0确保单请求零等待吞吐模式Throughput Mode对后台任务如/batch-predict启用batchingpreferred_batch_size[8,16,32]并设置max_queue_delay_microseconds50005ms在延迟与吞吐间找黄金点。关键技巧在请求头中加入x-batch-mode: realtime或throughputTriton的ensemble模型可根据header动态切换执行策略。我们曾用此方案将广告点击率预测服务的GPU利用率从32%提升至89%而P95延迟仅增加1.2ms——因为GPU的并行计算效率远高于串行处理。3.3 模型版本热切换零停机更新的底层实现原理业务要求“模型更新不能影响线上请求”但Triton默认reload模型会中断正在处理的请求。Part 4的破解之道是利用Triton的模型版本控制与流量镜像机制。Triton规定每个模型目录下必须有config.pbtxt其中version_policy字段支持三种策略latest { num_versions: 1 }只加载最新版reload时旧版立即失效specific { versions: [1,2] }固定加载指定版本all加载所有版本但需手动路由。我们采用all策略配合自研的流量镜像代理Traffic Mirror Proxy代理层监听所有请求将100%流量转发到当前主力版本如v1同时将1%采样流量复制并发送到待上线版本v2。当v2的准确率、延迟、错误率连续15分钟达标代理层将x-model-versionheader从v1切到v2整个过程毫秒级完成。注意务必在config.pbtxt中为每个版本设置priority参数Triton会按优先级调度GPU资源避免v2抢走v1的显存。3.4 GPU资源隔离防止“一个模型吃饱全家饿死”的显存争夺战多模型共用GPU时显存争抢是隐形杀手。Triton虽支持instance_group配置但默认Kind: KIND_CPU即所有模型实例共享GPU。我们强制所有GPU模型配置instance_group [ [ { kind: KIND_GPU, gpus: [0], count: 2 } ] ]这里count: 2表示为该模型分配2个GPU实例每个实例独占显存池。更关键的是gpus: [0]——将模型绑定到特定GPU卡避免跨卡通信开销。实测某NLP模型在单卡部署时显存占用1.8GB若不绑定Triton可能将其分散到两卡导致每卡显存碎片化最终因无法分配连续显存而OOM。我们还设置了dynamic_batching的max_queue_delay_microseconds1000严格限制排队时间防止小请求长期占位阻塞大batch。3.5 健康检查与自愈让服务学会“自己看病、自己吃药”Kubernetes的liveness probe若只检查HTTP 200会漏掉“服务活着但模型死了”的情况。Part 4的健康检查是三维的基础设施层/healthz检查进程存活、端口可连服务层/v2/health/ready调用Triton原生健康端点验证gRPC服务可用业务层/v2/health/model发送一个预置的golden request如{input: [[0.1,0.2,0.3]]}比对返回output是否匹配预期值如[0.87]。当业务层检查失败K8s不会直接kill pod而是触发自愈工作流步骤1调用Triton APIunload model卸载故障模型步骤2从模型仓库拉取上一稳定版本v-1的模型文件步骤3调用load model重新加载步骤4执行golden request验证成功则恢复服务失败则告警并保留pod供人工诊断。这套机制让我们将模型服务的MTTR平均修复时间从小时级压缩到23秒以内。某次因CUDA驱动升级导致模型core dump自愈系统在17秒内完成回滚用户无感知。3.6 日志与追踪在百万级请求中定位“那个异常请求”的侦探技术生产环境日志不是“print”能解决的。我们采用OpenTelemetry标准构建追踪链路每个HTTP请求生成唯一trace_id注入到所有下游调用特征服务、模型服务、缓存在Triton的custom backend中用opentelemetry-instrumentation-tensorflow钩住inference_request事件记录输入shape、输出概率、GPU耗时所有日志结构化为JSON包含trace_id,span_id,model_name,version,input_hashSHA256摘要通过input_hash可在ELK中秒级检索“所有输入相同但输出异常的请求”。曾定位到一个诡异bug某推荐模型对特定用户ID如user_7890总是返回空列表。通过input_hash检索发现该用户特征向量中有一个字段last_login_days_ago值为-1逻辑错误而模型训练时未覆盖此边界值导致embedding lookup越界。没有结构化日志和input_hash这种问题要在TB级日志中人工grep至少耗时半天。3.7 安全加固模型服务不是裸奔的API而是需要门禁的金库模型服务常被忽视安全。我们强制实施四层防护网络层K8s NetworkPolicy禁止Pod间直连所有流量经Ingress Controller认证层Triton集成Keycloak业务服务需携带JWT tokentoken中声明allowed_models: [recommender-v2]授权层Triton custom backend校验token scope拒绝未授权模型访问输入净化层在Ingress层部署WAF规则拦截含script、SELECT *等恶意payload的请求防止模型被注入攻击如Prompt Injection。特别提醒绝不要在模型服务中执行eval()或pickle.loads()——我们曾发现某团队为“方便调试”在custom backend中留了exec(request.body)后门被扫描工具轻易捕获。安全不是加功能而是砍掉所有不必要的可能性。4. 实操过程与核心环节实现从零搭建高可用模型服务的完整流水线4.1 环境准备K8s集群与GPU节点的硬性配置清单一切始于基础设施。我们要求生产K8s集群满足以下硬性条件低于此配置后续所有优化都是空中楼阁组件最低要求说明K8s版本v1.24支持GPU device plugin v0.12GPU驱动NVIDIA 515.65.01兼容CUDA 11.7避免Triton 23.03的兼容问题GPU节点OSUbuntu 20.04 LTS内核5.4避免nvidia-uvm模块加载失败容器运行时containerd 1.6.8需启用systemd_cgroup trueGPU插件NVIDIA GPU Operator v1.13.0自动部署device plugin、dcgm-exporter、nvidia-container-toolkit安装GPU Operator后必须验证# 检查GPU资源是否被K8s识别 kubectl get nodes -o wide | grep nvidia # 应显示类似node-gpu-01 Ready none 12d v1.24.15 ... nvidia.com/gpu2 # 检查DCGM指标是否上报 kubectl port-forward svc/dcgm-exporter 9400:9400 curl http://localhost:9400/metrics | grep DCGM_FI_DEV_GPU_UTIL # 应返回GPU利用率指标警告若nvidia-smi在pod内不可用90%概率是GPU Operator未正确安装或驱动版本不匹配。此时不要折腾直接重装Operator——我们统计过73%的GPU服务故障源于此。4.2 Triton服务部署YAML配置的魔鬼细节Triton的K8s部署不是简单kubectl apply。以下是生产级triton-deployment.yaml的核心片段已脱敏apiVersion: apps/v1 kind: Deployment metadata: name: triton-server spec: replicas: 3 # 至少3副本防止单点故障 selector: matchLabels: app: triton-server template: metadata: labels: app: triton-server annotations: # 启用DCGM指标采集 nvidia.com/gpu.product: A100-PCIE-40GB spec: # 强制GPU亲和性 affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: nvidia.com/gpu.present operator: Exists containers: - name: triton image: nvcr.io/nvidia/tritonserver:23.03-py3 # 关键GPU资源请求必须等于limit避免调度器误判 resources: limits: nvidia.com/gpu: 2 requests: nvidia.com/gpu: 2 # 挂载模型仓库NFS或S3 volumeMounts: - name: model-repo mountPath: /models # Triton启动参数 args: - --model-repository/models - --strict-model-configfalse # 允许动态配置 - --log-verbose1 # 生产环境设为0调试时开 - --http-port8000 - --grpc-port8001 - --metrics-port8002 - --allow-metricstrue - --allow-gpu-metricstrue - --cuda-memory-pool-byte-size0:268435456 # 为GPU0预分配256MB显存池 # 健康检查 livenessProbe: httpGet: path: /v2/health/live port: 8000 initialDelaySeconds: 60 periodSeconds: 30 readinessProbe: httpGet: path: /v2/health/ready port: 8000 initialDelaySeconds: 90 # 给足模型加载时间 periodSeconds: 10 volumes: - name: model-repo nfs: server: nfs-model-store.company.com path: /exports/models关键点解析cuda-memory-pool-byte-size0:268435456为GPU0预分配256MB显存池避免模型加载时因显存碎片化失败initialDelaySeconds: 90Triton加载大型模型如Llama2-13B可能耗时70秒readiness probe必须等够--strict-model-configfalse允许模型目录下无config.pbtxtTriton自动推断便于快速试错。4.3 模型仓库结构让Triton“一眼看懂”你的模型Triton的模型仓库不是文件夹而是有严格语义的结构。以推荐模型为例/models/ ├── recommender/ │ ├── 1/ # 版本1 │ │ ├── model.onnx # ONNX模型文件 │ │ └── config.pbtxt # 必须定义输入输出、batching等 │ ├── 2/ # 版本2灰度中 │ │ ├── model.onnx │ │ └── config.pbtxt │ └── config.pbtxt # 模型级配置可选 └── feature-encoder/ # 特征编码模型 └── 1/ ├── model.pt └── config.pbtxtconfig.pbtxt是灵魂以下是生产级配置以ONNX模型为例name: recommender platform: onnxruntime_onnx max_batch_size: 128 input [ { name: user_features data_type: TYPE_FP32 dims: [ 128 ] # 用户特征向量维度 }, { name: item_features data_type: TYPE_FP32 dims: [ 64 ] # 商品特征向量维度 } ] output [ { name: scores data_type: TYPE_FP32 dims: [ 1 ] } ] instance_group [ [ { kind: KIND_GPU, gpus: [0], count: 2 } ] ] dynamic_batching [ { max_queue_delay_microseconds: 5000, preferred_batch_size: [ 8, 16, 32, 64 ] } ]注意dims必须与模型实际输入shape完全一致Triton会做严格校验。曾因dims: [128]写成dims: [1,128]导致所有请求返回INVALID_ARG错误排查耗时4小时。4.4 流量镜像代理用Envoy实现零侵入的灰度发布我们不修改业务代码而是用Envoy作为智能网关。envoy.yaml核心配置static_resources: listeners: - name: main-listener address: socket_address: { address: 0.0.0.0, port_value: 8000 } filter_chains: - filters: - name: envoy.filters.network.http_connection_manager typed_config: stat_prefix: ingress_http route_config: name: local_route virtual_hosts: - name: local_service domains: [*] routes: - match: { prefix: / } route: cluster: triton-main # 1%流量镜像到v2 request_mirror_policy: cluster: triton-v2 runtime_fraction: default_value: numerator: 1 denominator: HUNDRED http_filters: - name: envoy.filters.http.router clusters: - name: triton-main connect_timeout: 0.25s type: STRICT_DNS lb_policy: ROUND_ROBIN load_assignment: cluster_name: triton-main endpoints: - lb_endpoints: - endpoint: address: socket_address: address: triton-main-svc port_value: 8000 - name: triton-v2 connect_timeout: 0.25s type: STRICT_DNS lb_policy: ROUND_ROBIN load_assignment: cluster_name: triton-v2 endpoints: - lb_endpoints: - endpoint: address: socket_address: address: triton-v2-svc port_value: 8000当triton-v2服务返回非2xx状态码Envoy自动丢弃镜像请求不影响主链路。我们通过Prometheus监控envoy_cluster_upstream_rq_xx{clustertriton-v2}指标当5xx错误率0.1%时自动触发告警并暂停镜像。4.5 自愈工作流用Argo Workflows实现模型回滚自动化健康检查失败后自愈不是脚本而是K8s原生Workflow。rollback-workflow.yamlapiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: generateName: model-rollback- spec: entrypoint: rollback templates: - name: rollback steps: - - name: unload-model template: triton-api arguments: parameters: - name: action value: unload - name: model-name value: {{workflow.parameters.model-name}} - - name: download-stable template: download-model arguments: parameters: - name: model-version value: stable-{{workflow.parameters.model-name}} - - name: load-model template: triton-api arguments: parameters: - name: action value: load - name: model-name value: {{workflow.parameters.model-name}} - - name: verify template: verify-model arguments: parameters: - name: model-name value: {{workflow.parameters.model-name}} - name: triton-api inputs: parameters: - name: action - name: model-name container: image: curlimages/curl command: [sh, -c] args: - | curl -X POST http://triton-svc:8000/v2/models/{{inputs.parameters.model-name}}/{{inputs.parameters.action}} \ -H Content-Type: application/json \ -d {} # 其他template省略...当健康检查失败K8s Event触发此Workflow全程无需人工干预。我们设定超时为90秒超时则告警升级。5. 常见问题与排查技巧实录那些让你凌晨三点爬起来的“经典瞬间”5.1 “模型加载成功但所有请求都返回503 Service Unavailable”现象Triton日志显示Loaded model recommender但curl http://triton:8000/v2/models/recommender/versions/1/ready返回503。根因Triton的/ready端点检查的是模型实例是否处于READY状态而状态转换需满足两个条件1) 模型文件加载完成2)模型首次推理成功。若模型输入shape与config.pbtxt不符首次推理会失败状态卡在LOADING。排查步骤查triton-server日志搜索failed to run inference若看到invalid shape for input user_features立即检查config.pbtxt中dims是否与ONNX模型实际输入一致用onnxruntime本地验证import onnxruntime as ort sess ort.InferenceSession(model.onnx) print(sess.get_inputs()[0].shape) # 输出应为 [None, 128]对应 config.pbtxt 的 [128]速修方案修改config.pbtxt将dims: [128]改为dims: [-1, 128]-1表示batch维度然后kubectl rollout restart deployment/triton-server。5.2 “GPU利用率100%但QPS只有理论值的1/5”现象nvidia-smi显示GPU 100% Util但dcgm-exporter指标DCGM_FI_DEV_GPU_UTIL仅35%且Triton metrics中nv_inference_request_success增长缓慢。根因GPU被其他进程抢占。常见于1) K8s节点上运行了非GPU调度的CPU密集型任务2) Triton未绑定GPU多个模型实例争抢同一GPU。排查命令# 查看GPU进程占用 nvidia-smi pmon -i 0 -d 1 # -i 0 指定GPU0-d 1 每秒刷新 # 查看K8s pod GPU分配 kubectl get pods -o wide | grep gpu # 检查pod是否被正确调度到GPU节点 kubectl describe pod triton-xxxx | grep -A 5 Events速修方案在Tritondeployment.yaml中强制GPU绑定args: - --gpus0 # 显式指定使用GPU0 # 并在container resources中精确声明 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 15.3 “模型服务稳定但业务方说结果不准且波动很大”现象Triton metrics一切正常但业务侧A/B测试显示新模型转化率下降12%。根因特征漂移Feature Drift。模型训练时用的特征是离线批处理生成的而线上服务调用的是实时特征服务两者存在数据不一致。例如用户最近30天购买金额离线计算为sum(purchase_amt)而实时服务因延迟只计算到T-2小时导致特征值系统性偏低。排查技巧在Triton custom backend中对每个请求记录原始输入特征采样1%到S3每日用Spark对比线上输入特征分布 vs 训练集特征分布计算KS统计量当user_purchase_30d的KS值0.2触发告警。速修方案在特征服务中增加feature_version字段强制线上服务与训练时使用同版本特征计算逻辑并在Triton中校验x-feature-versionheader。5.4 “服务启动后内存持续增长24小时后OOM”现象kubectl top pod显示内存从2GB涨到16GB最终被OOM Killer杀死。根因Python内存泄漏。Triton的Python backend用于custom logic若在initialize()中创建全局对象如requests.Session且未在finalize()中关闭会导致连接池累积。排查命令# 进入pod查看Python内存对象 kubectl exec -it triton-xxxx -- bash pip install pympler python -c from pympler import tracker tr tracker.SummaryTracker() tr.print_diff() 速修方案在custom backend的finalize()方法中显式释放资源def finalize(self): if hasattr(self, session) and self.session: self.session.close() # 关闭requests session if hasattr(self, cache) and self.cache: self.cache.clear() # 清空LRU cache5.5 “模型更新后部分请求延迟突增300%但P99未报警”现象Grafana看板显示P99延迟稳定在120ms但业务方反馈“偶尔卡顿严重”。根因长尾延迟Tail Latency。P99掩盖了P99.99的问题。某次更新引入了一个未缓存的数据库查询99%请求走缓存10ms但1%请求穿透到DB3200msP99仍为120msP99.99却达3200ms。排查技巧在Triton metrics中启用nv_inference_request_duration_us直方图查询Prometheushistogram_quantile(0.9999, sum(rate(nv_inference_request_duration_us_bucket[1h])) by (le, model_name))若P99.99 P99 * 10即存在严重长尾。速修方案在custom backend中添加熔断器如tenacity库对慢SQL设置stopstop_after_delay(100)超时则返回缓存值或默认值。5.6 “Triton日志疯狂刷‘Failed to acquire CUDA context’”现象日志高频报错服务不可用。根因CUDA context初始化失败99%是GPU驱动与CUDA Toolkit版本不匹配。Triton 23.03要求CUDA 11.8但节点驱动为515.65.01仅支持CUDA 11.7。验证命令# 查看驱动支持的CUDA版本 cat /usr/lib/nvidia-515/version # 输出应含 CUDA Version: 11.7 # 查看Triton镜像CUDA版本 docker run --rm -it nvcr.io/nvidia/tritonserver:23.03-py3 nvcc --version # 输出应为 Cuda compilation tools, release 11.8速修方案方案A推荐升级GPU驱动

查看全文

http://www.zskr.cn/news/1360941.html