当前位置：首页 > news >正文

Prodigy标注全流程实战包：本地二分类起步，Wikipedia数据接入，EC2服务部署+Dropbox自动备份

news 2026/6/12 0:35:25

本文还有配套的精品资源，点击获取

简介：包含三个完整可运行的Prodigy标注场景：1_MWE文件夹提供暴力/非暴力文本二分类示例，含原始文本、预处理脚本text_to_l.py和标注指令HTML；2_Wiki文件夹支持从Wikipedia页面提取内容并生成交互式标注任务，附带wiki_to_task.py转换工具和wiki_tasks.l样本；3_Server文件夹涵盖AWS EC2服务器上部署Prodigy服务的全部配置，包括prodigy.、端口设置说明（EC2_ports.png）、SSH连接截图（ssh.png）及定时备份脚本backup_to_drobox.sh，实现标注数据自动同步至Dropbox。所有任务均自带JSONL标注数据、requirements.txt依赖清单、多版本README说明文档、界面与认证截图（authentication.png、screenshot.png等），以及LICENSE授权文件。无需修改即可通过命令行直接启动Prodigy服务，适配标准CLI用法，适用于教学演示、快速复现或研究型标注项目搭建。

1. 项目概述：这不是一个“教程”，而是一套能直接跑起来的标注生产线

我做文本标注工具链落地已经有七年了，从最早手写Flask标注界面、到用Label Studio搭集群、再到后来深度参与多个Prodigy定制化部署项目，踩过的坑比标过的样本还多。今天这个“Prodigy标注全流程实战包”，不是那种教你从pip install prodigy开始、然后卡在许可证激活就戛然而止的半成品文档；它是我去年帮一个社会语言学团队搭建暴力话语识别系统时，把所有临时脚本、调试记录、服务器配置和备份逻辑全部沉淀下来的可交付物（deliverable）——换句话说，你解压后打开终端，敲三行命令，就能看到一个带登录页、有Wikipedia实时加载、数据每6小时自动飞进Dropbox的标注服务在你本地或云上跑起来。

核心关键词我得先点明：Prodigy标注、二分类、Wikipedia集成、EC2部署、Dropbox备份。这五个词不是并列标签，而是环环相扣的生产动线：你得先有干净的二分类任务定义（比如“这段话是否含暴力意图”），才能设计标注指令；指令要生效，就得把原始材料——比如维基百科某条目下的段落——变成Prodigy能吃的JSONL格式；格式对了，还得有人来标，所以得搭服务；服务不能只跑在你笔记本上，得上EC2保证7×24可用；最后，标完的数据是命根子，必须自动、可靠、可追溯地存到Dropbox，而不是靠人手动拖拽。这整条链路上，任何一个环节断掉，整个标注项目就从“进行中”变成“搁置中”。

这个包之所以敢叫“实战包”，是因为它完全绕开了Prodigy官方文档里那些理想化假设。比如官方说“确保你的JSONL每行是一个合法对象”，但真实场景里，你从Wikipedia API拉下来的数据可能含非法Unicode控制字符、嵌套HTML标签没清理干净、甚至同一页面里混着不同语言的段落——这些都会让prodigy train直接报错退出，而错误信息只显示“JSON decode error at line 1234”，根本看不出是哪个字段坏了。我们包里每个.py脚本都内置了防御性清洗：wiki_to_task.py会自动剥离<sup>、<ref>这类维基特有标签，把 转成空格，对超长段落按句子切分并打上"source": "en.wikipedia.org/wiki/Assault"这样的溯源标记；text_to_jsonl.py则强制校验"text"字段长度在5–500字符之间，短于5的跳过（避免标“the”“and”这种无意义词），长于500的按标点切分并加"split_id"索引。这不是炫技，是我在三个项目里被凌晨三点的JSONDecodeError叫醒后，亲手加上的保命逻辑。

它适合谁？第一类是高校研究者——尤其社科、法学、传播学方向，需要快速构建小规模高质量标注集用于模型探针或人工分析，但没专职工程师支持；第二类是AI初创公司的算法同学，想绕过采购商业标注平台的流程，用两周时间搭出一个能给实习生用、能给客户演示、还能导出标准JSONL喂给Hugging Face Trainer的轻量级闭环；第三类是教学场景，比如NLP课程设计大作业，学生分组跑1_MWE练二分类指令设计，跑2_Wiki理解非结构化文本预处理，跑3_Server实操云服务部署——所有截图、配置、报错示例都给你备好了，连SSH连接时该填哪个端口、安全组怎么开（见EC2_ports.png）、Dropbox App Key怎么生成（见instructions.png里的红框标注）都截了图。它不教你怎么写正则，但告诉你为什么第7行正则里必须加re.DOTALL；它不讲AWS IAM策略原理，但给你贴出实际生效的backup_policy.json内容。一句话：你要的不是知识，是结果；这个包交付的，就是能立刻产生标注数据的结果。

2. 整体架构与设计逻辑：为什么是这三个文件夹，而不是一个大脚本？

这套工作流拆成1_MWE、2_Wiki、3_Server三个独立文件夹，表面看是目录组织习惯，实则是按数据生命周期阶段做的硬性隔离。我见过太多团队把所有东西塞进一个prodigy_project/目录，结果改个备份脚本不小心删了标注数据，或者更新Wikipedia爬虫时把prodigy.json覆盖成旧版导致服务起不来。这三个文件夹的设计，本质是用文件系统边界模拟生产环境的权限边界。

2.1 1_MWE：最小可行标注单元（Minimal Working Example）

1_MWE代表的是整个链条的起点——标注任务定义本身。这里命名用MWE而非assault，是有意为之。assault_not_assault.jsonl确实是暴力/非暴力二分类样本，但它的价值不在主题，而在结构范式：每行JSON对象严格包含"text"（待标文本）、"meta"（含"source"和"timestamp"）、"options"（空数组，因是二分类无需选项）、"accept"（布尔值，标注结果）。你看assault_instructions.html里的指令文案：“请判断以下段落是否明确表达了物理暴力行为（如殴打、持械攻击、致伤等），若仅含威胁、辱骂或比喻性表达，请选‘否’”，这句话背后是经过三次伦理委员会审核的定义共识。我们没把它写死在代码里，而是放在HTML里——因为Prodigy的--instructions参数支持直接挂载静态HTML，这样后续换法律文本标注时，只需替换这个HTML文件，不用动任何Python逻辑。

text_to_jsonl.py这个脚本，很多人会忽略它的--min-length和--max-length参数。实测发现，当文本短于8字符（如“打他！”），标注员误标率高达37%——他们下意识认为短句更可能是暴力；而超过420字符的段落，平均标注耗时增加2.3倍且一致性下降。所以脚本默认切掉头尾5%的极端样本，并在日志里打印[FILTERED] 12 lines < 8 chars, 7 lines > 420 chars。这不是拍脑袋，是我们在200人标注实验中统计出来的拐点数据。

提示：1_MWE文件夹里有两个prodigy.json文件？别慌。一个是prodigy.json（主配置），另一个是prodigy.json.bak（备份）。主配置里"db"设为"sqlite"，"host"是"localhost"，"port"是8080——这是为本地快速验证准备的。它和3_Server里的prodigy.json内容不同，后者"db"是"postgresql"，"host"是"127.0.0.1"，"port"是8000。这种差异不是疏漏，而是刻意为之：本地开发用SQLite零依赖，生产环境用PostgreSQL防并发写冲突。两个配置共存，让你一键切换环境。

2.2 2_Wiki：动态数据源接入层（Wikipedia as Data Pipeline）

2_Wiki解决的是“数据从哪来”的问题。很多团队卡在这一步：他们知道要标维基百科内容，但直接用requests.get("https://en.wikipedia.org/wiki/...")拿到的是带大量HTML标签的原始响应，Prodigy根本没法解析。wiki_to_task.py就是这个环节的翻译官。它不调用维基API，而是用wikipedia-api库（已列入requirements.txt）获取纯净的页面摘要（page.summary）和章节内容（page.section('History')），再用bs4做二次清洗——重点剥离<table>（维基表格在标注中毫无意义）、<img>（纯文本任务不需要图）、<sup class="reference">（参考文献角标）。清洗后，它把每个有效段落封装成标准JSONL行，并注入"wiki_url"、"section_title"、"paragraph_index"三个关键元字段。

你可能会问：为什么不用wikipedia库而用wikipedia-api？因为前者在Python 3.11+环境下有SSL证书验证bug，后者底层用httpx，稳定性高。这个细节在wiki_to_task.py第42行有注释：# Use wikipedia-api instead of wikipedia lib due to SSL issue in Py3.11+。我们没写在README里，但代码里留着，因为这就是真实世界——工具链的选型永远受制于运行时环境的毛刺。

wiki_tasks.jsonl样本里有一行特别值得注意：

{"text": "The assault occurred outside the courthouse after the verdict was read.", "meta": {"wiki_url": "https://en.wikipedia.org/wiki/Assault", "section_title": "Legal definition", "paragraph_index": 3, "source_language": "en"}}

这个"source_language": "en"字段，是为后续多语言扩展埋的伏笔。虽然当前包只做英文，但字段结构已预留，未来加西班牙语维基页面时，只需改wiki_to_task.py里lang参数，不用动Prodigy配置或标注前端。

2.3 3_Server：生产环境交付层（Production-Ready Deployment）

3_Server是整套方案的“临门一脚”。它不追求炫酷的Docker Compose或Kubernetes，而是用最朴实的EC2+systemd+crontab组合，原因很现实：学术团队和小公司最缺的不是技术，是运维精力。Docker镜像更新、K8s权限配置、网络策略调试——这些都会吃掉本该用于标注分析的时间。所以我们选择AWS EC2的t3.micro实例（月费约$5），用systemd管理Prodigy进程（崩溃自动重启），用crontab调度备份（0 */6 * * * /home/ubuntu/backup_to_dropbox.sh），所有操作都固化在setup_ec2.sh脚本里。

backup_to_dropbox.sh这个脚本，核心逻辑只有四步：
1. 用pg_dump导出PostgreSQL数据库到/tmp/prodigy_backup_$(date +%Y%m%d_%H%M%S).sql；
2. 用jq从Prodigy的SQLite数据库（如果用了SQLite模式）提取examples表最新1000条，转成JSONL；
3. 把SQL备份、JSONL快照、prodigy.json配置文件打包成prodigy_snapshot_$(date +%Y%m%d_%H%M%S).tar.gz；
4. 调用Dropbox Uploader（已预装）上传到/prodigy_backups/目录。

关键在于第2步：为什么既要SQL又要JSONL？因为SQL备份恢复的是完整状态（含用户、会话、标注历史），JSONL备份恢复的是即时可用的标注数据（可直接喂给模型）。两者互补，缺一不可。脚本里还藏着一个细节：jq命令加了--compact-output参数，避免JSONL里出现换行符——Prodigy读取时会把换行当成行分隔符，导致解析失败。这个坑，是我第一次备份后发现标注数据少了一半才补上的。

注意：EC2_ports.png截图里标红的端口是8000（Prodigy服务）和22（SSH），但安全组实际还需开放80端口——因为prodigy.json里启用了"cors_origins": ["*"]和"auth": true，前端需通过Nginx反向代理（已预装）提供HTTPS访问。setup_ec2.sh会自动配置Nginx，把https://your-domain.com代理到http://127.0.0.1:8000。所以EC2_ports.png只标了必要端口，完整访问链是：浏览器→HTTPS 443→Nginx→HTTP 8000→Prodigy。

3. 核心环节实操详解：从零启动到数据入仓的每一步

现在我们进入真正的“抄作业”环节。我会带你走一遍从解压到看到标注界面的全过程，不跳过任何一个终端命令和配置细节。所有路径、参数、预期输出都基于真实执行记录，不是理论推演。

3.1 本地二分类启动：三分钟跑通`1_MWE`

假设你已安装Prodigy（pip install prodigy --no-deps，注意--no-deps避免与系统已有包冲突），且获得合法许可证（许可证文件prodigy_license.txt需放在~/.prodigy/目录）。第一步，进入1_MWE文件夹：

cd 1_MWE

检查依赖：cat requirements.txt应输出spacy==3.7.4和jinja2==3.1.3。这两个版本是经过Prodigy 3.12.3严格测试的，高版本SpaCy会导致prodigy train报AttributeError: 'Doc' object has no attribute 'is_parsed'。如果你系统里已有其他SpaCy版本，建议用pip install -r requirements.txt --force-reinstall强刷。

接着，预处理原始文本。assault_not_assault.txt是未格式化的纯文本，每行一个样本，含[ASSAULT]和[NOT_ASSAULT]标签。运行：

python text_to_jsonl.py --input assault_not_assault.txt --output assault_not_assault.jsonl --min-length 8 --max-length 420

你会看到终端输出：

[INFO] Processing assault_not_assault.txt... [INFO] Loaded 1274 lines from input file. [INFO] Filtered 89 lines < 8 chars, 42 lines > 420 chars. [INFO] Generated 1143 valid JSONL lines. [INFO] Output saved to assault_not_assault.jsonl.

现在启动标注服务：

prodigy textcat.manual assault_dataset en_core_web_sm assault_not_assault.jsonl --label ASSAULT,NOT_ASSAULT --instructions assault_instructions.html --port 8080

关键参数解读：
-assault_dataset是数据集名，将存入Prodigy数据库；
-en_core_web_sm是spaCy模型，用于基础分词（即使不用模型预测，Prodigy也需要它解析文本）；
---label后跟逗号分隔的标签名，顺序即标注界面按钮顺序；
---instructions挂载HTML指引；
---port 8080指定端口，避免与本地其他服务冲突。

服务启动后，终端会打印类似：

Starting the web server at http://localhost:8080 ... Using database: sqlite Loaded 1143 examples

打开浏览器访问http://localhost:8080，你应该看到一个简洁界面：左侧是assault_instructions.html渲染的指引，右侧是首条文本“Police responded to reports of an assault near the park.”，下方两个大按钮：“ASSAULT”和“NOT_ASSAULT”。点击任一按钮，页面自动刷新下一条。这就是最小可行标注单元——没有用户管理、没有进度追踪、没有模型辅助，纯粹的人工判断。但它足够让你在10分钟内产出50条高质量标注，验证任务定义是否合理。

实操心得：首次启动时，Prodigy会自动生成~/.prodigy/prodigy.json配置文件。如果你之前配置过全局设置，建议先备份原文件，再复制1_MWE/prodigy.json覆盖，确保"db": "sqlite"生效。否则可能因数据库类型不匹配导致服务无法写入。

3.2 Wikipedia动态任务生成：把维基页面变成标注流水线

进入2_Wiki文件夹：

cd ../2_Wiki

先安装依赖（wikipedia-api和beautifulsoup4）：

pip install -r requirements.txt

wiki_to_task.py支持两种模式：单页面模式和批量模式。我们先试单页面，抓取“Assault”词条的“Legal definition”章节：

python wiki_to_task.py --page "Assault" --section "Legal definition" --lang en --output wiki_tasks.jsonl --max-paragraphs 5

参数说明：
---page是维基页面标题（URL中/wiki/后的部分）；
---section指定章节名，精确匹配（大小写敏感）；
---lang设为en，避免重定向到其他语言版本；
---max-paragraphs 5限制最多提取5段，防止一次拉太多卡住。

执行后，终端输出：

[INFO] Fetching page 'Assault' in language 'en'... [INFO] Found section 'Legal definition' with 12 paragraphs. [INFO] Extracting first 5 paragraphs... [INFO] Cleaned and validated 5 paragraphs. [INFO] Saved to wiki_tasks.jsonl (5 lines).

打开wiki_tasks.jsonl，你会看到5行标准JSONL，每行"text"都是维基原文清洗后的段落，"meta"里含完整的溯源信息。现在用它启动标注：

prodigy textcat.manual wiki_assault_dataset en_core_web_sm wiki_tasks.jsonl --label ASSAULT,NOT_ASSAULT --instructions assault_instructions.html --port 8081

注意端口换成了8081，避免与1_MWE冲突。访问http://localhost:8081，第一条文本可能是：“In criminal law, assault is usually defined as an attempt to commit a battery or the intentional creation of a reasonable apprehension of imminent harmful or offensive contact.” 这正是维基“Legal definition”章节的首段。标注员看到这段，结合HTML里的定义，能清晰判断是否属于暴力行为。

批量模式更实用。假设你有个pages.txt文件，每行一个页面名：

Assault Battery_(tort) Manslaughter

运行：

python wiki_to_task.py --batch pages.txt --lang en --output batch_tasks.jsonl --min-length 20 --max-length 300

脚本会逐行读取pages.txt，对每个页面调用API，清洗后合并到batch_tasks.jsonl。实测10个页面约耗时47秒，期间自动处理了3次API限流（time.sleep(1)），并在日志里标记[RATE_LIMIT] Paused 1s for page 'Manslaughter'。

3.3 EC2生产部署与自动备份：让标注服务永不掉线

这是最体现工程价值的一环。我们以AWS EC2t3.micro（Ubuntu 22.04 LTS）为例，全程使用ubuntu用户操作。

步骤1：基础环境配置

登录EC2实例后，先更新系统并安装必要工具：

sudo apt update && sudo apt upgrade -y sudo apt install -y python3-pip python3-dev postgresql postgresql-contrib nginx curl wget unzip

创建Prodigy专用用户（提升安全性）：

sudo adduser --disabled-password --gecos "" prodigy sudo usermod -aG sudo prodigy

切换到prodigy用户，下载并解压实战包：

sudo su - prodigy wget https://your-bucket.s3.amazonaws.com/prodigy_full_package.zip unzip prodigy_full_package.zip cd 3_Server

步骤2：数据库初始化

Prodigy推荐PostgreSQL用于生产环境。启动服务并创建数据库：

sudo systemctl start postgresql sudo -u postgres psql -c "CREATE DATABASE prodigy_db;" sudo -u postgres psql -c "CREATE USER prodigy_user WITH PASSWORD 'strong_password_here';" sudo -u postgres psql -c "GRANT ALL PRIVILEGES ON DATABASE prodigy_db TO prodigy_user;"

编辑prodigy.json，修改数据库配置：

{ "db": "postgresql", "db_settings": { "database": "prodigy_db", "user": "prodigy_user", "password": "strong_password_here", "host": "127.0.0.1", "port": "5432" } }

步骤3：Prodigy服务注册为systemd单元

创建服务文件/etc/systemd/system/prodigy.service：

[Unit] Description=Prodigy Annotation Service After=network.target [Service] Type=simple User=prodigy WorkingDirectory=/home/prodigy/3_Server ExecStart=/usr/bin/python3 -m prodigy textcat.manual assault_dataset en_core_web_sm /home/prodigy/1_MWE/assault_not_assault.jsonl --label ASSAULT,NOT_ASSAULT --instructions /home/prodigy/1_MWE/assault_instructions.html --port 8000 --host 127.0.0.1 Restart=always RestartSec=10 Environment=PRODIGY_HOME=/home/prodigy/.prodigy [Install] WantedBy=multi-user.target

启用并启动服务：

sudo systemctl daemon-reload sudo systemctl enable prodigy.service sudo systemctl start prodigy.service

检查状态：

sudo systemctl status prodigy.service # 应显示 active (running)

步骤4：Nginx反向代理与HTTPS

编辑/etc/nginx/sites-available/prodigy：

server { listen 80; server_name your-domain.com; return 301 https://$server_name$request_uri; } server { listen 443 ssl; server_name your-domain.com; ssl_certificate /etc/letsencrypt/live/your-domain.com/fullchain.pem; ssl_certificate_key /etc/letsencrypt/live/your-domain.com/privkey.pem; location / { proxy_pass http://127.0.0.1:8000; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection 'upgrade'; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; } }

启用站点并重启Nginx：

sudo ln -sf /etc/nginx/sites-available/prodigy /etc/nginx/sites-enabled/ sudo nginx -t && sudo systemctl restart nginx

步骤5：Dropbox自动备份配置

首先，获取Dropbox Access Token。访问 Dropbox App Console，创建App，选择“Scoped access”，权限勾选files.content.write和account_info.read。生成Token后，保存到/home/prodigy/.dropbox_token。

安装Dropbox Uploader：

cd ~ wget https://raw.githubusercontent.com/andreafabrizi/Dropbox-Uploader/master/dropbox_uploader.sh chmod +x dropbox_uploader.sh ./dropbox_uploader.sh -f ~/.dropbox_token info # 应返回账户信息，确认Token有效

编辑backup_to_dropbox.sh，确保TOKEN_FILE路径正确：

TOKEN_FILE="/home/prodigy/.dropbox_token" BACKUP_DIR="/home/prodigy/backups"

添加定时任务：

(crontab -l 2>/dev/null; echo "0 */6 * * * /home/prodigy/3_Server/backup_to_dropbox.sh >> /home/prodigy/3_Server/backup.log 2>&1") | crontab -

现在，每6小时，脚本会自动执行：导出数据库、打包快照、上传Dropbox。你可以在Dropbox的/prodigy_backups/目录下看到类似prodigy_snapshot_20240520_140000.tar.gz的文件，解压后包含prodigy_backup_20240520_140000.sql、prodigy_examples_20240520_140000.jsonl和prodigy_config_20240520_140000.json三个文件，实现全链路可追溯。

4. 常见问题与排查技巧实录：那些文档里不会写的坑

在交付给12个不同团队后，我整理出这份高频问题清单。每个问题都附带真实报错、定位方法和一行修复命令，不是泛泛而谈的“检查网络”“重启服务”。

4.1 Prodigy启动报错：`OSError: [Errno 98] Address already in use`

现象：执行prodigy textcat.manual ... --port 8080时，终端报错OSError: [Errno 98] Address already in use，即使netstat -tuln | grep 8080没看到占用进程。

根因：Prodigy在异常退出时，有时会遗留/tmp/prodigy-*临时目录，其中的socket文件未清理，导致端口被占。这不是端口真被占，而是Prodigy自己的锁机制失效。

排查：

ls -la /tmp/ | grep prodigy # 查看是否有类似 /tmp/prodigy-123456789 的目录

修复（一行命令）：

rm -rf /tmp/prodigy-*

提示：此问题在MacOS上更常见，因macOS的/tmp清理策略与Linux不同。3_Server/setup_ec2.sh脚本里已加入rm -rf /tmp/prodigy-*作为启动前清理步骤。

4.2 Wikipedia爬取失败：`wikipedia.exceptions.PageError: Page id "Assault" does not match any pages.`

现象：wiki_to_task.py运行时报PageError或DisambiguationError，尤其对多义词如“Assault”。

根因：维基百科存在消歧义页（Disambiguation Page），wikipedia-api默认返回第一个结果，但“Assault”首页是消歧义页，不含正文。

排查：

python -c "import wikipediaapi; w = wikipediaapi.Wikipedia('en'); p = w.page('Assault'); print(p.title, p.exists())" # 输出 'Assault' False，说明是消歧义页

修复（指定确切页面）：

python wiki_to_task.py --page "Assault_(criminal_law)" --section "Definition" --lang en --output assault_law.jsonl

或用wikipedia-api的pageid参数（需先查ID）：

python -c "import wikipediaapi; w = wikipediaapi.Wikipedia('en'); p = w.page('Assault_(criminal_law)'); print(p.pageid)" # 得到pageid，如 1234567，则： python wiki_to_task.py --pageid 1234567 --section "Definition" --lang en --output assault_law.jsonl

4.3 Dropbox备份失败：`Error: Unable to get account info. Check your token.`

现象：backup_to_dropbox.sh执行后，日志显示Error: Unable to get account info.，但Token在Dropbox官网测试正常。

根因：Dropbox Uploader的Token文件权限过于宽松（如644），脚本出于安全考虑拒绝读取。

排查：

ls -l ~/.dropbox_token # 如果显示 -rw-rw-rw-，即权限666，就是问题

修复（一行命令）：

chmod 600 ~/.dropbox_token

4.4 标注界面空白：浏览器打开`http://localhost:8080`只显示白屏，控制台报`Failed to load resource: net::ERR_CONNECTION_REFUSED`

现象：Prodigy服务终端显示Starting the web server...，但浏览器打不开。

根因：Prodigy默认绑定127.0.0.1（localhost），而你在远程服务器（如EC2）上运行，需绑定0.0.0.0才能被外部访问。

排查：

netstat -tuln | grep :8080 # 如果只显示 127.0.0.1:8080，说明绑定本地

修复：在启动命令中加--host 0.0.0.0：

prodigy textcat.manual ... --host 0.0.0.0 --port 8080

注意：生产环境（EC2）务必配合Nginx反向代理和HTTPS，直接暴露0.0.0.0有安全风险。3_Server/prodigy.json里"host"设为"127.0.0.1"，正是为配合Nginx的proxy_pass。

4.5 JSONL解析失败：`ValueError: Expecting property name enclosed in double quotes`

现象：prodigy train时报此错，指向某行JSONL。

根因：JSONL文件里存在单引号（'）代替双引号（"），或中文引号（“”），或BOM头（Windows记事本保存的UTF-8-BOM格式）。

排查：

head -n 1 assault_not_assault.jsonl | hexdump -C | head -5 # 查看前几字节，如果有 ef bb bf，就是BOM头

修复（移除BOM）：

sed -i '1s/^\xEF\xBB\xBF//' assault_not_assault.jsonl

通用修复（确保双引号）：

# 用python脚本标准化 python -c " import json with open('assault_not_assault.jsonl') as f: for line in f: obj = json.loads(line.strip()) print(json.dumps(obj, ensure_ascii=False)) " > assault_not_assault_fixed.jsonl

4.6 备份脚本不执行：`crontab`添加后，`backup_to_dropbox.sh`从未运行

现象：crontab -l能看到任务，但/home/prodigy/3_Server/backup.log为空。

根因：crontab环境变量缺失，PATH不包含/usr/local/bin（Dropbox Uploader安装路径），或HOME未设。

排查：

# 在crontab里加环境变量测试 (crontab -l 2>/dev/null; echo "*/1 * * * * env > /tmp/cron_env.log") | crontab - # 等1分钟，查看 /tmp/cron_env.log，对比手动执行env

修复（在crontab中显式声明）：

(crontab -l 2>/dev/null; echo "0 */6 * * * PATH=/usr/local/bin:/usr/bin:/bin HOME=/home/prodigy /home/prodigy/3_Server/backup_to_dropbox.sh >> /home/prodigy/3_Server/backup.log 2>&1") | crontab -

5. 进阶扩展与定制建议：让这个包为你所用

这个实战包不是终点，而是你个性化标注系统的起点。基于我帮客户做定制的经验，分享几个高价值扩展方向，每个都附带实施要点。

5.1 多标签分类（Multi-label）支持

当前包是严格的二分类（ASSAULT/NOT_ASSAULT），但真实场景常需多标签，如一段文本同时含“暴力”、“性别歧视”、“地域攻击”。Prodigy原生支持choice接口，但需调整数据结构。

改造步骤：
1. 修改text_to_jsonl.py，让"options"字段不再是空数组，而是包含多个选项的对象数组：
json "options": [ {"id": "violence", "text": "含物理暴力行为"}, {"id": "sexism", "text": "含性别歧视言论"}, {"id": "regional", "text": "含地域攻击表述"} ]
2. 启动命令改为：
bash prodigy choice.multi_labels violence_sexism_dataset en_core_web_sm multi_label_tasks.jsonl --options violence,sexism,regional --instructions multi_label_instructions.html
3.multi_label_instructions.html需明确说明：“可多选，至少选一项”。

关键点：choice.multi_labels模式下，标注结果存为"accept"数组（如["violence", "sexism"]），而非布尔值。训练时用prodigy train会自动适配。

5.2 模型辅助标注（Active Learning）

Prodigy的ner.teach或textcat.teach支持用模型预筛样本，大幅提升标注效率。例如，先用少量标注数据训一个初始模型，再让它对新文本打分，优先让人工标模型最不确定的样本。

实施要点：
- 在1_MWE中，用assault_not_assault.jsonl训一个初始模型：
bash prodigy train assault_model en_core_web_sm assault_dataset --output ./models/assault_v1
- 启动主动学习：
bash prodigy textcat.teach assault_active_dataset ./models/assault_v1 new_wiki_tasks.jsonl --label ASSAULT,NOT_ASSAULT --exclude assault_dataset
---exclude assault_dataset确保不重复标注已有的1143条。

注意：主动学习要求模型输出"score"字段，en_core_web_sm默认不输出，需在模型训练时加--eval-split 0.2并用--optimize参数优化。详细参数见Prodigy文档train命令章节。

5.3 标注质量监控仪表盘

标注一致性是生命线。可在3_Server中加入一个轻量仪表盘，实时显示：
- 当前标注总量、完成率；
- 每个标注员的每日标注数、平均耗时；
- 标签分布热力图（如“ASSAULT”占比是否稳定在15%-25%）；
- 模型预测与人工标注的差异率（用于主动学习反馈）。

技术栈建议：用Flask+Plotly+SQLite（读Prodigy数据库），部署在同一EC2上，Nginx反向代理到/dashboard路径。3_Server目录下已预留dashboard/文件夹，含app.py骨架和requirements-dashboard.txt，只需填充SQL查询逻辑。

5.4 与Hugging Face Datasets无缝对接

最终目标是把标注数据喂给模型。Prodigy导出的JSONL可直接转HF Dataset：

from datasets import Dataset import json def jsonl_to_dataset(jsonl_path): data = [] with open(jsonl_path) as f: for line in f: obj = json.loads(line.strip()) data.append({ "text": obj["text"], "label": 1 if "ASSAULT" in obj.get("accept", []) else 0, "source": obj["meta"]["source"] }) return Dataset.from_list(data) ds = jsonl_to_dataset("assault_not_assault.jsonl") ds.push_to_hub("your-username/assault-dataset", token="hf_...")

3_Server/export_hf.py脚本已实现此功能，一行命令导出：

python export_hf.py --input /home/prodigy/1_MWE/assault_not_assault.jsonl --dataset-name assault-dataset --token hf_your_token

我个人在实际使用中发现，最省时间的不是追求功能多，而是把每个环节的失败反馈压缩到秒级。比如wiki_to_task.py里加了实时进度条（tqdm），100个页面爬取时，你能看到“67/100 done, ETA 2m14s”，而不是干等；backup_to_dropbox.sh里每步都有echo "[STEP] Dumping DB..."，出错时一眼定位到哪步挂了。这些细节，才是让标注项目真正“跑起来”的关键。这个包交付的，不是代码，是经过12次真实项目淬炼的、带着温度的工程直觉。

本文还有配套的精品资源，点击获取

查看全文

http://www.zskr.cn/news/1507210.html