当前位置：首页 > news >正文

LLaVA视觉语言模型原理与工业落地实战指南

news 2026/5/23 22:34:34

1. 这不是又一个“多模态玩具”而是真正能干活的视觉语言AI起点LLaVA——全称Large Language and Vision Assistant——这个名字刚出来时很多人第一反应是“哦又是把CLIP和LLM拼在一起的项目”我第一次看到论文标题《Visual Instruction Tuning》时也这么想。但真正跑通它的第一个demo、用它识别一张模糊的电路板照片并准确指出“C12电容虚焊”、再让它根据截图生成可执行的Python调试脚本时我才意识到这不是一次技术缝合而是一次范式迁移的起点。LLaVA的核心价值不在于它“能看图说话”而在于它首次把视觉理解能力嵌入到通用语言模型的推理链条中让图像不再是独立输入而是像文字token一样参与上下文建模、逻辑推导与指令响应。它解决的不是“能不能识别猫”的问题而是“工程师能否对着产线故障截图直接问‘怎么修’并得到带操作步骤的回复”这类真实场景。适合三类人深度跟进一线算法工程师需掌握其轻量化微调路径、产品技术负责人要评估其在智能客服/工业质检/教育辅助中的落地水位、以及有工程落地经验的AI应用开发者它提供了目前最干净、最易复现的视觉-语言对齐基线。它不依赖百亿参数大模型不强制要求A100集群一台309032G内存的机器就能完成全流程复现——这恰恰是它能快速从实验室走向产线的关键。2. 为什么是LLaVA拆解它成为“首个通用视觉语言AI”的底层设计逻辑2.1 不是堆叠而是重构视觉编码器如何被“降维”进语言空间传统多模态方案如Flamingo、KOSMOS常采用双塔结构图像走ViT文本走LLM最后在cross-attention层强行对齐。这种设计导致两个致命问题一是视觉特征维度高ViT输出常为14×14×768与语言模型的token序列长度通常2k-4k严重不匹配二是跨模态对齐缺乏细粒度监督模型容易学会“看图说话”的表面关联却无法建立像素级语义与指令意图的映射。LLaVA的破局点在于用语言模型的token空间反向约束视觉编码器的表达。它没有让ViT输出原始patch embedding而是引入一个可学习的Projection MLP两层全连接中间加GELU激活将ViT最后一层的全局平均池化特征768维压缩至4096维——这个数字不是随便选的它等于LLaVA所用的Vicuna-7B模型的词表大小4096个token ID。这意味着每个图像最终被编码为一个长度为1的“伪token”其数值落在0-4095之间可直接插入语言模型的输入序列。你可能会问把整张图压缩成一个数字信息不就全丢了实测发现恰恰相反——当这个投影层在大量图文指令数据上联合微调后它学到的是一种任务导向的语义蒸馏比如对“电路板故障诊断”类指令投影层会自动强化与焊点、元件轮廓、颜色异常相关的视觉敏感度对“菜谱生成”类指令则聚焦食材纹理、切割状态、火候色泽。这就像给视觉编码器装了一个“任务滤镜”滤掉无关噪声只保留与当前指令强相关的语义信号。我们做过对比实验用同一张PCB板图片分别输入原始ViT和LLaVA的投影层前者输出的embedding在t-SNE可视化中呈弥散分布后者则紧密聚类在“缺陷检测”语义区。这不是信息损失而是信息提纯。2.2 指令微调让模型真正“听懂人话”而非背诵图文对LLaVA的训练数据构造是另一个关键创新。它没有使用LAION这类海量但弱标注的图文对而是构建了高质量视觉指令数据集LLaVA-Instruct包含158k条数据每条都严格遵循“图像指令精准响应”三元组。这里的“指令”不是简单的问题而是真实场景中的用户意图表达例如“这张手机屏幕截图里微信聊天窗口的发送按钮被遮挡了怎么把它调出来”、“对比这两张显微镜照片指出第二张中细胞核形态异常的具体位置和特征”。响应则由人工撰写要求包含明确的操作步骤、空间定位如“左上角第三个图标”、以及可验证的判断依据如“核仁数量超过3个且边界模糊”。这种数据构造方式迫使模型学习视觉-语言-动作的端到端映射而非静态识别。我们在复现时发现如果用传统caption数据如COCO Captions替代LLaVA-Instruct进行微调模型在VQA视觉问答任务上准确率仅提升2.3%但在需要操作指导的“故障排除”类指令上准确率暴跌至11%。这证明LLaVA的能力上限由指令数据的质量决定而非模型参数量。它本质上是一个“视觉版的Alpaca”把语言模型的指令遵循能力精准迁移到了视觉领域。2.3 轻量化设计为什么它能在单卡3090上跑起来很多团队看到“多模态AI”就默认要A100×8起配LLaVA打破了这个迷思。它的轻量化体现在三个层面第一视觉编码器冻结。LLaVA全程不更新ViT的参数只训练Projection MLP和LLM的LoRA适配器。ViT用的是开源的CLIP-ViT-L/14参数量约300M但冻结后显存占用仅为1.2GBFP16。第二语言模型选择精悍。基础模型选用Vicuna-7B基于Llama-2而非Llama-2-70B或Qwen-VL这类超大模型。7B模型在309024G显存上加载FP16权重LoRA适配器梯度计算峰值显存占用稳定在21.8GB留有2GB余量处理图像预处理。第三图像分辨率动态裁剪。LLaVA不强制输入高分辨率图如1024×1024而是将原始图像缩放到336×336ViT-L/14的标准输入尺寸再通过中心裁剪保留关键区域。我们测试过不同尺寸输入512×512时显存暴涨至28GBOOM而336×336在保持92%识别精度的同时将单图推理延迟从1.8s压至0.6s。这个尺寸不是理论最优而是工程权衡的结果——它刚好让ViT的patch数336/1424即24×24576个patch与LLM的上下文窗口形成友好比例避免因padding过多导致的注意力计算浪费。提示很多初学者试图用ResNet-50替换ViT结果发现效果断崖下跌。这是因为ResNet的全局池化特征缺乏空间局部性无法支撑Projection MLP学习细粒度语义。ViT的patch结构天然适配“图像→伪token”的降维逻辑这是架构层面的硬性约束不可妥协。3. 从零开始复现LLaVA一份可直接抄作业的实操指南3.1 环境准备与依赖安装避开那些坑了我三天的版本陷阱LLaVA的官方代码库https://github.com/haotian-liu/LLaVA更新频繁但文档对环境依赖描述极其简略。我在Ubuntu 22.04 CUDA 11.8环境下踩过所有坑以下是经过100%验证的安装清单# 创建conda环境必须避免与系统包冲突 conda create -n llava python3.10 conda activate llava # 安装PyTorch关键必须指定CUDA版本否则后续编译失败 pip3 install torch2.0.1cu118 torchvision0.15.2cu118 --extra-index-url https://download.pytorch.org/whl/cu118 # 安装核心依赖注意transformers版本v4.31.0是LLaVA训练时的基准 pip install accelerate0.21.0 bitsandbytes0.40.2 einops0.6.1 pillow9.5.0 scikit-image0.20.0 # 安装transformers必须锁定版本v4.32会破坏LoRA加载逻辑 pip install transformers4.31.0 # 安装LLaVA从源码安装确保获取最新修复 git clone https://github.com/haotian-liu/LLaVA.git cd LLaVA pip install -e .致命陷阱预警如果你用pip install transformers不加版本号大概率会装到v4.35此时运行llava_train会报错AttributeError: LoraModel object has no attribute merge_and_unload。这是因为HuggingFace在v4.32中重构了LoRA API而LLaVA的训练脚本尚未适配。bitsandbytes0.40.2是唯一兼容CUDA 11.8的版本升级到0.41会导致bnb.nn.Linear4bit初始化失败。不要用conda install pytorch它默认安装CPU版本必须用pip3 install torch2.0.1cu118指定CUDA后缀。注意所有操作必须在conda activate llava环境下执行。我曾因在base环境装了torch导致后续import torch始终报No module named torch.cuda重装系统两次才定位到根源。3.2 模型权重下载与校验别让损坏的文件毁掉你一整天LLaVA提供两种权重Base Modelllava-v1.5-7b约13GB这是微调前的初始检查点用于继续训练或作为baseline。Finetuned Modelllava-v1.5-7b-lora约15GB这是官方在LLaVA-Instruct上微调后的成品开箱即用。下载地址https://huggingface.co/liuhaotian/llava-v1.5-7b 注意必须登录Hugging Face账号且接受模型许可协议校验步骤必须执行# 下载后进入模型目录 cd ~/.cache/huggingface/hub/models--liuhaotian--llava-v1.5-7b/snapshots/xxxxxx/ # 校验关键文件完整性 md5sum pytorch_model.bin # 正确值a1f2c3d4e5...官方README末尾有完整MD5列表 md5sum config.json # 正确值b2c3d4e5f6... ls -la | grep -E (pytorch|config|tokenizer) # 确保存在这三类文件缺一不可常见问题如果pytorch_model.bin只有几百MB说明下载中断需删除后重新git lfs pull。如果config.json中_name_or_path字段显示liuhaotian/llava-v1.5-7b而非本地路径需手动修改为./否则llava_eval会尝试联网下载。tokenizer文件夹内必须包含tokenizer.modelSentencePiece模型和tokenizer_config.json缺少任一都会在推理时报KeyError: tokenizer_type。3.3 图像预处理为什么你的图片总被识别成“一团模糊的色块”LLaVA对输入图像的预处理有严格规范官方代码中隐藏着一个关键参数image_aspect_ratio。很多用户直接用PIL打开图片送入模型结果发现模型对长图如手机截图识别极差反复提问“图中有什么”回答总是“无法确定”。根源在于ViT-L/14要求输入为正方形而LLaVA的预处理器默认采用pad模式四周补黑边这对含文字的截图极其不友好——黑边会污染ViT的全局平均池化导致特征偏移。正确做法必须修改源码编辑llava/model/multimodal_projector/builder.py找到expand2square函数在if image_aspect_ratio pad:分支下将补边颜色从Image.BLACK改为Image.WHITE# 原始代码错误 pad_color Image.BLACK # 修改后正确 pad_color Image.WHITE原理白色背景与大多数UI截图微信、钉钉、网页的底色一致能最大限度保留原始图像的亮度和对比度分布。我们对比测试了100张手机截图补黑边VQA准确率63.2%文字识别错误率41%常把白色文字误判为“灰色噪点”补白边VQA准确率89.7%文字识别错误率降至8.3%额外技巧对于超长截图如网页滚动图不要直接resize先用OpenCV做自适应分割import cv2 def split_long_image(img_path, max_height1000): img cv2.imread(img_path) h, w img.shape[:2] if h max_height: return [img] # 按max_height切分重叠100px避免截断文字 chunks [] for i in range(0, h, max_height-100): end min(i max_height, h) chunk img[i:end, :] chunks.append(chunk) return chunks然后对每个chunk单独推理最后用LLM做结果聚合。这比强行缩放整图精度提升27%。3.4 推理与交互如何让LLaVA真正“听懂”你的需求LLaVA的推理接口看似简单但几个参数直接影响效果from llava.eval.run_llava import eval_model # 关键参数解析 eval_model( model_pathliuhaotian/llava-v1.5-7b-lora, # 必须用lora版本 model_baseliuhaotian/llava-v1.5-7b, # base模型路径用于加载tokenizer image_filetest.jpg, # 支持jpg/png不支持webp question这张图里右下角的红色按钮功能是什么请用一句话说明并给出点击后的预期界面变化。, # 指令必须具体避免“描述一下” conv_modevicuna_v1, # 对应Vicuna-7B的对话模板错用会乱码 temperature0.2, # 低温更确定高温更多样0.2是工业场景最佳平衡点 top_p0.9, # 避免采样到低概率垃圾token num_beams1 # beam search设为1保证实时性设为3会提升质量但延迟翻倍 )指令编写黄金法则实测有效必须包含空间锚点用“左上角”、“第二行第三个图标”、“进度条末端”等代替“那个按钮”、“上面的东西”。LLaVA的视觉编码器对空间关系敏感度远高于物体类别。明确输出格式要求在问题末尾加上“请用中文回答不超过50字”能显著降低模型幻觉。我们测试发现无格式约束时32%的回答会添加不存在的细节如虚构按钮颜色。避免抽象形容词不要问“这张图给人什么感觉”而要问“图中人物的手势是否表示拒绝依据是什么”。LLaVA擅长事实推理不擅长主观判断。实操案例对一张工厂设备报警截图错误提问“这台机器怎么了” → 回答“可能有故障”。正确提问“截图中红色报警灯亮起对应设备编号是D-782请说明该报警代码E102的含义、可能原因及标准处置流程前三步。” → 回答“E102表示冷却液压力不足可能原因为管道堵塞或泵故障处置流程1. 检查冷却液液位传感器读数2. 手动启动备用泵3. 记录压力表数值并上报维修组。” —— 这才是产线工人需要的答案。4. 工业场景落地实战在电子制造产线部署LLaVA的完整记录4.1 需求定义为什么产线经理坚持要“看图说话”而不是上OCR规则引擎我们合作的SMT贴片产线每天产生2000张AOI自动光学检测设备截图传统方案是AOI软件识别出“焊点虚焊”后生成带坐标的XML报告 → 工程师手动打开报告对照坐标在图片上定位 → 查阅《SMT缺陷代码手册》第37页 → 判断是“锡膏不足”还是“钢网堵塞” → 再去MES系统录入维修工单。整个过程平均耗时8.2分钟/张。产线经理提出的需求很朴素“我只想把AOI截图拖进一个窗口打字问‘这个红框是什么问题怎么修’然后直接得到维修步骤。”他拒绝OCR规则引擎方案理由很现实AOI截图分辨率不一640×480到1920×1080OCR在低分辨率下漏字率超40%《缺陷代码手册》每年更新3次规则引擎维护成本极高工程师习惯用自然语言描述问题如“焊点发暗像没烤熟”而非查代码表。LLaVA的价值正在于它用统一的视觉语言接口消除了这些碎片化环节。4.2 数据准备如何用100张图撬动产线级效果产线只提供了100张带人工标注的AOI截图远低于LLaVA-Instruct的158k规模。但我们用三个技巧实现了效果跃升技巧1指令增强Instruction Augmentation对每张图人工编写3条不同角度的指令诊断类“红框区域焊点形态异常请分析具体缺陷类型及可能工艺原因。”操作类“请生成一条可直接粘贴到MES系统的维修工单包含设备编号、缺陷代码、处置建议。”验证类“根据IPC-A-610标准该焊点是否符合二级验收标准请逐条说明判断依据。”100张图 × 3指令 300条高质量数据足够微调。技巧2视觉扰动Visual Perturbation用OpenCV对原始图做低成本增强# 模拟产线相机抖动 def add_jitter(img): rows, cols img.shape[:2] M np.float32([[1,0,np.random.randint(-5,5)],[0,1,np.random.randint(-5,5)]]) return cv2.warpAffine(img, M, (cols,rows)) # 模拟不同光照 def adjust_light(img): hsv cv2.cvtColor(img, cv2.COLOR_BGR2HSV) hsv[:,:,2] cv2.multiply(hsv[:,:,2], np.random.uniform(0.7,1.3)) return cv2.cvtColor(hsv, cv2.COLOR_HSV2BGR)每张图生成5个扰动版本数据量扩大至1500条模型对产线实际拍摄的模糊、反光、色偏图像鲁棒性提升35%。技巧3知识注入Knowledge Injection在微调时将《IPC-A-610标准》关键条款作为system prompt注入你是一名资深SMT工艺工程师严格遵循IPC-A-610标准。当分析焊点时必须检查1. 润湿角是否90°2. 是否存在空洞且面积25%3. 引脚覆盖是否75%。任何结论必须引用标准条款。这使模型输出从“可能是虚焊”变为“润湿角约110°IPC-A-610 8.3.2.1条款判定为不润湿缺陷”。4.3 微调实录在3090上用12小时完成产线定制化微调命令已优化torchrun --nproc_per_node1 \ llava/train/train_mem.py \ --model_name_or_path liuhaotian/llava-v1.5-7b \ --version vicuna_v1 \ --data_path /path/to/aoi_data.json \ --image_folder /path/to/aoi_images \ --vision_tower openai/clip-vit-large-patch14 \ --mm_projector_type mlp2x_gelu \ --tune_mm_mlp_adapter True \ --mm_vision_select_layer -2 \ --pretrain_mm_mlp_adapter /path/to/llava-v1.5-7b-pretrain/mm_projector.bin \ --mm_use_im_start_end False \ --bf16 True \ --output_dir /path/to/llava-aoi-finetuned \ --num_train_epochs 3 \ --per_device_train_batch_size 8 \ --per_device_eval_batch_size 4 \ --gradient_accumulation_steps 2 \ --evaluation_strategy no \ --save_strategy steps \ --save_steps 500 \ --save_total_limit 1 \ --learning_rate 2e-5 \ --weight_decay 0. \ --warmup_ratio 0.03 \ --lr_scheduler_type cosine \ --logging_steps 1 \ --tf32 True \ --model_max_length 2048 \ --gradient_checkpointing True \ --dataloader_num_workers 4 \ --lazy_preprocess True关键参数解读--per_device_train_batch_size 83090显存极限设为16会OOM。--num_train_epochs 3产线数据少3轮足够再多会过拟合。--mm_vision_select_layer -2取ViT倒数第二层特征比最后一层保留更多空间细节对焊点边缘识别至关重要。--lazy_preprocess True避免一次性加载所有图像到内存否则1500张图会爆掉32G内存。训练监控要点观察loss曲线正常应在300步内从2.1降至0.8若1000步后仍1.5检查数据标注质量。每500步用10张图做人工验证重点看“焊点润湿角”、“空洞面积占比”等数值型判断是否合理。我们发现第2轮训练后模型开始出现“幻觉空洞”把阴影说成空洞立即停训并清洗了5张标注错误的图。效果对比微调前后指标微调前通用LLaVA微调后产线定制缺陷类型识别准确率68.3%94.1%维修步骤可执行率52%需工程师二次加工89%可直接下发工单平均响应时间1.2s0.8sLoRA减少计算量工程师满意度NPS-12674.4 部署与集成如何让LLaVA融入现有MES系统产线已有MES系统用Java开发不能推倒重来。我们采用轻量API网关模式架构MES前端Web → Nginx反向代理 → Python FastAPI服务LLaVA推理 → Redis缓存存储历史问答FastAPI核心代码from fastapi import FastAPI, UploadFile, Form from llava.eval.run_llava import eval_model import redis app FastAPI() r redis.Redis(hostlocalhost, port6379, db0) app.post(/analyze) async def analyze_defect( image: UploadFile File(...), instruction: str Form(...) ): # 1. 保存上传图片到临时目录 img_path f/tmp/{uuid.uuid4()}.jpg with open(img_path, wb) as f: f.write(await image.read()) # 2. 调用LLaVA推理关键设置timeout10s防卡死 try: result eval_model( model_path/path/to/llava-aoi-finetuned, model_baseliuhaotian/llava-v1.5-7b, image_fileimg_path, questioninstruction, conv_modevicuna_v1, temperature0.1, # 产线要求确定性 num_beams1 ) except Exception as e: return {error: f推理失败: {str(e)}} # 3. 缓存结果key图片MD5指令hashttl1小时 cache_key hashlib.md5((img_path instruction).encode()).hexdigest() r.setex(cache_key, 3600, result) return {result: result, cache_hit: False}与MES集成要点MES前端用input typefile上传AOI截图AJAX调用/analyze接口。在MES工单创建页面增加“AI诊断”按钮点击后自动填充instruction为预设模板“请分析此AOI截图中的缺陷生成符合IPC-A-610标准的维修建议。”所有请求加X-Device-ID头便于追踪哪台AOI设备的截图方便后续模型迭代。稳定性保障用supervisord管理FastAPI进程崩溃自动重启。Nginx配置proxy_read_timeout 15避免长请求超时。每日凌晨用crontab清理Redis缓存防止内存溢出。上线3个月API平均可用率99.97%单日最高请求量4200次未发生一次OOM。5. 常见问题与排查技巧那些官方文档不会告诉你的真相5.1 “CUDA out of memory”不是显存不够而是batch size和图像尺寸的组合陷阱这是新手最高频的报错。你以为调小batch_size就行错。根本原因是LLaVA的图像预处理在GPU上进行而torchvision.transforms的Resize操作会为每张图分配临时显存缓冲区。当batch_size8且图像为1024×1024时缓冲区峰值显存达26GB远超3090的24GB。终极解决方案强制CPU预处理修改llava/dataset/dataset.py在__getitem__中将self.transform(image)改为# 先在CPU转PIL再resize最后to_tensor image image.convert(RGB) image transforms.Resize((336, 336))(image) # CPU resize image transforms.ToTensor()(image) # CPU to_tensor image image.to(device) # 最后才to GPU启用梯度检查点在训练脚本中加入--gradient_checkpointing True可降低30%显存占用。禁用混合精度如果用--fp16仍OOM改用--bf16BFloat16它在3090上更稳定。实测以上三步组合让3090成功运行batch_size8的微调显存占用稳定在23.1GB。5.2 “No module named deepspeed”当你只想单卡训练却被迫装DeepspeedLLaVA的训练脚本默认启用Deepspeed但单卡根本不需要。强行安装deepspeed会引发CUDA版本冲突。绕过方案删除训练命令中的--deepspeed参数在train_mem.py开头注释掉所有import deepspeed和deepspeed.init_distributed()相关代码将Trainer初始化中的deepspeedds_config参数删掉。更优雅的方案用accelerate配置accelerate launch --config_file ./llava/accelerate_config.yaml \ llava/train/train_mem.py \ --your_other_args...其中accelerate_config.yaml内容为compute_environment: LOCAL_MACHINE deepspeed_config: {} distributed_type: MULTI_GPU mixed_precision: bf16 use_cpu: false5.3 “Question is too long”为什么你的50字指令被截断LLaVA的model_max_length默认为2048但这是token总数包含图像token1个指令token响应token。一张336×336图经ViT编码后会生成576个patch但Projection MLP将其压缩为1个伪token所以图像只占1个token。问题出在指令本身中文token化后1个汉字≈1.2个token因SentencePiece子词切分。所以50个汉字指令实际占60token看似不多但加上系统prompt约120token和预留响应空间512token很容易超限。解决方法在eval_model中手动截断指令from transformers import AutoTokenizer tokenizer AutoTokenizer.from_pretrained(liuhaotian/llava-v1.5-7b) tokens tokenizer.encode(instruction) if len(tokens) 512: # 留足空间给响应 instruction tokenizer.decode(tokens[:512])或者修改llava/conversation.py缩短system prompt把默认的120字精简到60字以内。5.4 “Response is repetitive”模型开始胡言乱语怎么办这是LoRA微调过拟合的典型症状模型记住了训练数据的句式而非学到了推理能力。比如对所有问题都回答“根据IPC-A-610标准...”即使问题与标准无关。三步急救法降低学习率将--learning_rate 2e-5改为1e-5用更小步伐更新增加dropout在llava/model/multimodal_projector/builder.py的MLP层后插入nn.Dropout(0.1)早停Early Stopping在train_mem.py中添加验证集监控当验证loss连续2轮不降时自动终止训练。我们曾在一个客户项目中因未设早停模型在第5轮训练后开始重复输出“请参考手册第37页”回退到第3轮检查点后问题消失。5.5 “Image not found”路径明明对却报找不到文件LLaVA的image_file参数不接受相对路径或URL必须是绝对路径且路径中不能有中文或空格。安全写法import os abs_path os.path.abspath(test.jpg) # 自动转绝对路径 # 然后确保路径中无非法字符 abs_path abs_path.replace( , _).encode(unicode_escape).decode() eval_model(image_fileabs_path, ...)终极保险在调用前用os.path.exists(abs_path)校验否则报错信息极其晦涩。6. 向前一步LLaVA之后视觉语言AI的演进方向在哪里LLaVA的伟大在于它用极简设计证明了通用视觉语言AI的可行性但它绝非终点。我在实际落地中观察到三个清晰的演进方向方向一从“单图单指令”到“多图时序理解”产线工程师常问“对比这三张连续截图设备状态是如何变化的”当前LLaVA只能处理单图而真实工业场景需要理解图像序列。我们正在测试的方案是用TimeSformer提取多图时序特征再通过一个轻量Transformer将其压缩为1个“时序伪token”接入LLaVA的Projection MLP。初步结果显示对“设备温度爬升趋势”类问题准确率从单图的58%提升至82%。方向二从“被动响应”到“主动感知”LLaVA是“你问它答”但产线需要“它看出来告诉你”。我们给LLaVA加了一个前置模块用YOLOv8做实时目标检测当检测到“报警灯”、“压力表指针”、“异常烟雾”时自动触发LLaVA分析。这相当于给它装上了“视觉警报器”让AI从工具变成协作者。方向三从“模型即服务”到“模型即产线员工”最激进的尝试是把LLaVA封装成一个“数字员工”它有自己的MES账号能读取设备实时数据PLC寄存器、查看历史维修记录、甚至调用Python脚本控制测试

查看全文

http://www.zskr.cn/news/1360900.html