当前位置：首页 > news >正文

使用 Python 脚本批量处理文档并利用 Taotoken 多模型能力优化结果

news 2026/5/27 18:34:11

告别海外账号与网络限制稳定直连全球优质大模型限时半价接入中。点击领取海量免费额度使用 Python 脚本批量处理文档并利用 Taotoken 多模型能力优化结果对于数据分析师和内容运营人员而言处理大量文档是一项常见且繁重的任务。无论是生成文本摘要、进行内容翻译还是提取关键信息手动操作不仅效率低下也难以保证一致性。借助 Taotoken 平台提供的统一 API 和多模型能力我们可以编写 Python 脚本来自动化这些流程并根据任务特性灵活选择最合适的模型同时清晰地掌握处理成本。1. 场景概述与准备工作假设你手头有数百个文本文档需要为每个文档生成一份简洁的摘要并将部分关键文档翻译成另一种语言。传统方案可能需要为不同的模型服务分别申请密钥、管理多个 SDK成本核算也分散在不同平台。通过 Taotoken你可以使用一个 API Key 和一套 OpenAI 兼容的 SDK访问多个主流模型并在统一的后台查看所有调用的用量和费用。开始之前你需要完成两项准备工作。首先在 Taotoken 控制台创建一个 API Key。其次在平台的模型广场浏览并记录下你计划使用的模型 ID例如用于摘要任务的claude-sonnet-4-6和用于翻译任务的gpt-4o-mini。将 API Key 妥善保存建议通过环境变量管理。2. 构建基础处理脚本核心思路是使用 Python 的openai库将base_url指向 Taotoken然后循环处理目录中的文件。以下是一个基础的脚本框架它读取指定文件夹下的所有.txt文件并调用单一模型为每个文件生成摘要。import os from openai import OpenAI # 初始化客户端指向 Taotoken client OpenAI( api_keyos.getenv(TAOTOKEN_API_KEY), # 建议从环境变量读取 base_urlhttps://taotoken.net/api, ) def summarize_file(file_path, modelclaude-sonnet-4-6): 读取文件内容并调用模型生成摘要 with open(file_path, r, encodingutf-8) as f: content f.read() # 构建提示词 prompt f请为以下文本生成一段简洁的摘要\n\n{content} try: response client.chat.completions.create( modelmodel, messages[{role: user, content: prompt}], max_tokens300, ) return response.choices[0].message.content.strip() except Exception as e: print(f处理文件 {file_path} 时出错: {e}) return None def process_directory(directory_path): 处理目录下所有txt文件 results [] for filename in os.listdir(directory_path): if filename.endswith(.txt): file_path os.path.join(directory_path, filename) print(f正在处理: {filename}) summary summarize_file(file_path) if summary: results.append({file: filename, summary: summary}) return results if __name__ __main__: # 指定你的文档目录 docs_dir ./documents all_results process_directory(docs_dir) # 输出结果 for res in all_results: print(f文件: {res[file]}\n摘要: {res[summary]}\n{-*40})这个脚本建立了自动化处理的骨架。它从环境变量TAOTOKEN_API_KEY获取密钥并使用 Taotoken 的兼容端点。所有调用都会通过平台路由到指定的模型并在你的账户下计费。3. 集成多模型与任务调度单一模型可能无法满足所有需求。例如某些模型在摘要任务上表现突出而另一些则在翻译上更精准。我们可以扩展脚本根据文件属性或任务类型动态选择模型。以下示例展示了如何为不同任务分配不同模型并记录每次调用所使用的模型。def process_with_model_selector(file_path, task_type): 根据任务类型选择模型进行处理 model_mapping { summarize: claude-sonnet-4-6, # 假设此模型擅长摘要 translate: gpt-4o-mini, # 假设此模型擅长翻译 analyze: claude-haiku-3 # 假设此模型响应快适合简单分析 } selected_model model_mapping.get(task_type, claude-sonnet-4-6) with open(file_path, r, encodingutf-8) as f: content f.read() # 根据任务类型构建不同的提示词 if task_type summarize: prompt f请为以下文本生成一段简洁的摘要\n\n{content} elif task_type translate: prompt f请将以下文本翻译成英文\n\n{content} else: prompt f请分析以下文本的主要观点\n\n{content} try: response client.chat.completions.create( modelselected_model, messages[{role: user, content: prompt}], max_tokens500, ) return { model: selected_model, result: response.choices[0].message.content.strip() } except Exception as e: print(f处理失败: {e}) return None # 在实际循环中你可以根据文件元数据或规则决定task_type # 例如if 报告 in filename: task_type summarize通过这种方式脚本能够智能地分配任务充分利用不同模型的优势。所有调用都通过同一个 Taotoken API Key 完成无需切换不同的 SDK 或配置。4. 成本核算与结果汇总成本可控是批量处理的重要考量。Taotoken 平台提供了按 Token 计费的明细和用量看板。我们可以在脚本中嵌入简单的逻辑来估算每次调用的成本但更准确的数据应以平台控制台为准。一种实践方法是在处理完成后引导用户前往控制台查看聚合数据。同时脚本可以输出一份处理报告便于本地归档。def generate_report(results, output_fileprocessing_report.md): 生成处理结果报告 with open(output_file, w, encodingutf-8) as f: f.write(# 文档批量处理报告\n\n) f.write(f共处理文件数: {len(results)}\n\n) for res in results: f.write(f## 文件: {res[file]}\n) f.write(f**使用的模型**: {res[model_used]}\n) f.write(f**任务类型**: {res[task_type]}\n) f.write(f**处理结果**:\n{res[result]}\n\n) f.write(---\n) f.write(**成本核算提示**: 本次任务的所有 API 调用详情与费用请登录 Taotoken 控制台查看用量分析面板。\n) print(f报告已生成: {output_file}) # 在主循环中收集足够的信息 processed_results [] for file in document_files: task_type determine_task_type(file) # 自定义的函数 processed process_with_model_selector(file, task_type) if processed: processed_results.append({ file: os.path.basename(file), model_used: processed[model], task_type: task_type, result: processed[result] }) # 生成报告 generate_report(processed_results)脚本生成的报告会记录每个文件使用的模型和任务类型为后续分析和复核提供依据。关于确切的 Token 消耗和费用平台的控制台提供了最权威的数据。5. 错误处理与生产环境建议在生产环境中运行批量脚本健壮性至关重要。需要增加重试机制、处理速率限制以及更完善的日志记录。import time from tenacity import retry, stop_after_attempt, wait_exponential retry(stopstop_after_attempt(3), waitwait_exponential(multiplier1, min4, max10)) def call_taotoken_api(client, model, messages, max_tokens): 带重试机制的API调用封装 return client.chat.completions.create( modelmodel, messagesmessages, max_tokensmax_tokens, ) # 在核心处理函数中使用封装的call_taotoken_api函数替代直接调用 # 同时建议加入处理间隔避免瞬时请求过高 # time.sleep(0.5) # 根据实际需求调整此外对于超大批量任务可以考虑将文件列表和任务参数写入队列如 Redis 或简单数据库然后由多个工作进程或线程并发处理但需要注意平台的速率限制。始终确保你的 API Key 有足够的余额或配额。通过上述步骤你可以构建一个高效、灵活且成本透明的文档批量处理管道。Taotoken 的统一接入点简化了多模型调用的复杂性而其用量看板则让资源消耗一目了然。开始你的自动化文档处理项目可以从 Taotoken 平台获取 API Key 并探索模型广场选择适合你任务的模型。告别海外账号与网络限制稳定直连全球优质大模型限时半价接入中。点击领取海量免费额度

查看全文

http://www.zskr.cn/news/1406047.html