当前位置：首页 > news >正文

基于RAG与LangChain构建防幻觉股票研究智能体：从数据管道到工程实践

news 2026/5/27 5:49:48

1. 项目概述当AI研究员开始“胡说八道”在金融投资领域信息就是金钱而信息的准确度更是生命线。最近几年随着大语言模型LLM的爆火一个诱人的想法出现了能不能让AI来帮我们做股票研究想象一下你只需要输入一个股票代码或公司名称一个智能体就能自动帮你爬取最新的财报、新闻、研报然后生成一份逻辑清晰、数据详实的研究摘要。这听起来简直是个人投资者的“圣杯”。但现实很快给了我们一记重拳。当你兴致勃勃地部署了第一个基于ChatGPT API的“股票研究助手”并让它分析一家公司时它可能会信誓旦旦地告诉你“根据2023年第四季度财报XX公司净利润同比增长了惊人的250%。” 而你一查发现这家公司那个季度实际是亏损的。更糟糕的是它可能会“引用”一份根本不存在的券商报告或者捏造一些关键财务数据。这种现象在AI领域被称为“幻觉”——模型会生成看似合理但完全错误或虚构的内容。对于股票研究而言这种幻觉是致命的。基于错误信息做出的投资决策后果不堪设想。因此构建一个“不胡说八道”的股票研究智能体其核心挑战不在于让AI变得多“聪明”而在于如何用工程化的方法为AI套上“缰绳”将它天马行空的生成能力严格约束在真实、可靠的数据轨道上。这个项目就是一场在“自动化”与“准确性”之间寻找精妙平衡的实践。2. 核心架构设计用“管道”与“护栏”取代“黑箱”一个可靠的股票研究智能体绝不能是一个直接向大模型提问的聊天机器人。我们需要的是一个结构化的、可验证的数据处理管道。整个系统的设计思路是从“端到端的魔法黑箱”转向“模块化、可审计的流水线”。2.1 智能体的核心工作流拆解一个不幻觉的智能体其工作流应该像一位严谨的分析师遵循“收集-验证-分析-呈现”的步骤需求解析与任务规划智能体首先需要理解用户的查询例如“分析一下宁德时代最新的竞争格局和财务风险”。它不能直接开始编答案而是要将这个模糊的问题分解成一系列具体的、可执行的数据检索任务比如任务1获取宁德时代最新发布的年度报告和最近一期季度报告。任务2搜索过去三个月内关于“宁德时代”、“锂电池”、“竞争”关键词的权威财经新闻。任务3查找头部券商如中金、中信近期对宁德时代出具的深度研究报告。任务4从数据库中获取宁德时代近五个季度的关键财务指标营收、净利润、毛利率等历史序列。可信数据源的采集与提取这是对抗幻觉的第一道也是最重要的防线。智能体必须被明确告知“可以去哪里找信息”以及“如何提取关键信息”。官方信源优先交易所公告、公司官网投资者关系栏目、美国SEC的EDGAR数据库、中国巨潮资讯网这些是获取财报、公告的一手、法律背书的信息源。权威媒体与机构彭博、路透、华尔街见闻、财新等专业财经媒体以及知名券商研究所的公开报告可以作为新闻和行业分析的二手信源但需注意其观点可能带有倾向性。结构化数据接口对于股价、历史财务数据、宏观指标应优先使用如雅虎财经API、Alpha Vantage、Tushare国内等提供结构化数据的金融数据API避免从非结构化文本中二次提取数字减少误差。信息验证与冲突解决当从不同来源获取的信息出现矛盾时例如一家媒体报道“营收增长30%”而财报显示是25%智能体需要有解决冲突的机制。最简单的规则是一手信源优先级高于二手信源数据源优先级高于文本描述源。系统应能标记出冲突点并在最终报告中提示用户注意核查。基于上下文的受限生成这是最关键的一步。大模型如GPT-4、Claude 3的角色不再是“全知全能的回答者”而是“基于给定材料的分析师助理”。我们将前几步收集、验证过的信息作为“上下文”或“知识库”提供给大模型。给模型的指令Prompt应该是“请严格根据以下提供的材料总结宁德时代的竞争格局和财务风险。材料包括1. 2023年年报第X-Y页关于竞争的描述2. 某券商研报中关于行业产能的分析3. 近五个季度的财务数据表格。如果你的回答中需要引用任何数据或事实必须明确指出它来源于以上哪一份材料的哪个部分。如果材料中没有涉及的内容请明确说明‘根据所提供材料无法得出此结论’或‘该信息未被提及’。”输出结构化与引用标注最终输出不应是一段散文而应是一份带有清晰引用标记的结构化报告。例如在提到“动力电池毛利率从2022年的18.9%下降至2023年的16.5%”时后面应紧跟一个上标[1]并在报告末尾的参考文献中注明[1] 来源宁德时代2023年年度报告第XX页。这允许用户进行回溯验证是建立信任的核心。2.2 技术栈选型与考量大模型层大脑选择主流、性能强大的商用或开源大模型。商用API如OpenAI的GPT-4 Turbo、Anthropic的Claude 3 Opus它们在遵循指令、长上下文和理解复杂任务方面表现优异。如果考虑数据隐私和成本可以选用开源模型如Llama 3 70B、Qwen 72B等并在自有服务器上部署。选择的关键不在于模型是否“最聪明”而在于它是否能够稳定地“遵循指令”尤其是“不胡编乱造”的指令。框架层骨架使用智能体Agent开发框架来高效构建工作流。LangChain和LlamaIndex是当前最流行的选择。LangChain更像一个“乐高工具箱”提供了连接大模型、工具、内存的标准化组件灵活性极高适合构建复杂、自定义程度高的智能体。你需要自己设计任务分解、工具调用的逻辑。LlamaIndex更专注于“数据连接”它擅长将外部数据源文档、数据库、API构建成易于大模型查询的索引对于“检索增强生成RAG”场景开箱即用更友好。如果你的智能体核心是“先检索后回答”LlamaIndex可能更简洁。新兴框架CrewAI强调多智能体协作你可以设计一个“搜索专员”、一个“数据分析师”、一个“报告撰写员”智能体让他们各司其职协同完成任务这非常贴合股票研究的多步骤特性。数据获取层手脚爬虫与解析对于没有API的网站需要BeautifulSoup、Playwright/Selenium等工具进行爬取和HTML解析。特别注意网站的Robots协议和反爬机制商业用途务必谨慎。金融数据API如前所述优先使用yfinance、akshare、tushare等库获取结构化数据。文档处理PDF财报PyPDF2,pdfplumber、Word/PPT研报python-docx,pptx的文本提取是基础更进阶的是需要解析其中的表格。向量数据库记忆外挂为了能让智能体快速从海量历史资料如过去几年的所有财报中查找相关信息需要将文本切片并转换为向量嵌入存储到如Chroma、Pinecone、Weaviate或Qdrant等向量数据库中。当用户提问时先将问题转换为向量在数据库中快速找到最相关的文本片段再将它们作为上下文喂给大模型。这是实现高效、精准“检索增强生成RAG”的核心。注意工具的选择不是炫技而是匹配需求。对于一个初期验证项目完全可以从“LangChain OpenAI API 手动整理几份PDF资料”开始。复杂框架和分布式向量数据库是在你明确遇到性能瓶颈或需要管理万份以上文档时才需要的。3. 构建实战从零搭建一个基础版研究智能体让我们抛开理论动手搭建一个能分析上市公司最新财报情况的基础智能体。我们将使用Python、LangChain和OpenAI API也可以用其他模型替代来演示核心流程。3.1 环境准备与依赖安装首先创建一个新的Python环境并安装核心库。# 创建并激活虚拟环境可选但推荐 python -m venv stock_agent_env source stock_agent_env/bin/activate # Linux/Mac # stock_agent_env\Scripts\activate # Windows # 安装核心依赖 pip install langchain langchain-openai langchain-community # LangChain核心及OpenAI集成 pip install python-dotenv # 用于管理API密钥 pip install pypdf2 # 用于解析PDF财报 pip install chromadb # 轻量级向量数据库 pip install tiktoken # 用于计算Token控制成本你需要准备一个.env文件来安全地存储你的OpenAI API密钥# .env OPENAI_API_KEY你的-sk-xxx密钥3.2 第一步构建可信知识库假设我们要分析“贵州茅台”。我们手动从上海证券交易所官网下载其最新的年度报告PDF例如“贵州茅台2023年年度报告.pdf”并放在项目目录的data/文件夹下。接下来我们编写一个脚本来加载、分割这份PDF并将其存入向量数据库。# build_knowledge_base.py import os from dotenv import load_dotenv from langchain_community.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain_openai import OpenAIEmbeddings from langchain_community.vectorstores import Chroma # 加载环境变量 load_dotenv() # 1. 加载PDF文档 pdf_path ./data/贵州茅台2023年年度报告.pdf loader PyPDFLoader(pdf_path) documents loader.load() # 2. 分割文本 # 财报内容长需要切分成小块以便后续检索。分割时尽量保持段落/句子的完整性。 text_splitter RecursiveCharacterTextSplitter( chunk_size1000, # 每个块约1000字符 chunk_overlap200, # 块之间重叠200字符避免上下文断裂 separators[\n\n, \n, 。, , , , ] # 分割符优先级 ) chunks text_splitter.split_documents(documents) print(f将文档切分成了 {len(chunks)} 个文本块。) # 3. 初始化嵌入模型和向量数据库 embeddings OpenAIEmbeddings(modeltext-embedding-3-small) # 使用OpenAI的嵌入模型 persist_directory ./chroma_db # 向量数据库持久化目录 # 将文本块转换为向量并存储 vectorstore Chroma.from_documents( documentschunks, embeddingembeddings, persist_directorypersist_directory ) vectorstore.persist() # 持久化到磁盘 print(知识库构建完成已保存至, persist_directory)这段代码完成了知识库的初始化。chunk_size和chunk_overlap是需要调优的参数太小会丢失上下文太大会降低检索精度并增加成本。3.3 第二步创建检索增强生成RAG链现在我们创建一个链它能够根据用户问题从知识库中检索最相关的信息然后让大模型基于这些信息作答。# create_rag_chain.py from langchain.chains import RetrievalQA from langchain_openai import ChatOpenAI from langchain_community.vectorstores import Chroma from langchain_openai import OpenAIEmbeddings from dotenv import load_dotenv import os load_dotenv() # 1. 加载已构建的向量数据库 persist_directory ./chroma_db embeddings OpenAIEmbeddings(modeltext-embedding-3-small) vectorstore Chroma( persist_directorypersist_directory, embedding_functionembeddings ) # 2. 将向量数据库转换为检索器可以控制返回的结果数量 retriever vectorstore.as_retriever(search_kwargs{k: 4}) # 返回最相关的4个文本块 # 3. 初始化大语言模型 llm ChatOpenAI( modelgpt-4-turbo-preview, # 使用GPT-4遵循指令能力更强 temperature0, # 温度设为0使输出更确定、更少随机性 max_tokens2000 ) # 4. 构建RetrievalQA链 qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, # “stuff”模式将检索到的所有文档内容都塞入上下文 retrieverretriever, return_source_documentsTrue, # 关键返回源文档用于引用 chain_type_kwargs{ prompt: ... # 这里可以传入自定义的Prompt是防幻觉的关键下一步详解 } ) # 测试链 # query 贵州茅台2023年的营业收入是多少同比增长了多少 # result qa_chain.invoke({query: query}) # print(result[result]) # print(\n--- 来源文档 ---) # for doc in result[source_documents]: # print(doc.metadata[page], doc.page_content[:200])3.4 第三步设计防幻觉的Prompt模板上面的链中chain_type_kwargs里的prompt参数是灵魂所在。我们需要一个强约束性的提示词模板。from langchain.prompts import PromptTemplate # 防幻觉提示词模板 template 你是一个严谨的股票分析师助理。请严格根据以下提供的上下文信息来回答问题。如果上下文中的信息不足以回答这个问题请直接说“根据所提供的资料我无法回答这个问题”不要试图编造答案。在回答中如果引用了数据或事实请使用【引用】标记指明出处格式为【页码原文摘要】。请确保你的回答清晰、简洁并且完全基于给定上下文。上下文信息 {context} 问题{question} 基于上下文的分析与回答 PROMPT PromptTemplate( templatetemplate, input_variables[context, question] ) # 将自定义Prompt传入之前的QA链 qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, retrieverretriever, return_source_documentsTrue, chain_type_kwargs{prompt: PROMPT} # 使用我们的防幻觉Prompt )这个Prompt做了几件关键事1) 明确角色和任务2) 强调严格依赖上下文3) 规定了无法回答时的输出4) 要求引用格式。这极大地约束了模型的“自由发挥”倾向。3.5 第四步测试与迭代现在让我们进行测试并观察输出。# test_agent.py from create_rag_chain import qa_chain # 假设上面的链保存在这个模块里 queries [ 贵州茅台2023年的营业收入是多少同比增长了多少, 茅台酒和系列酒的毛利率分别是多少, 公司2023年的研发投入是多少和腾讯相比如何, # 这是一个“越界”问题上下文没有腾讯信息根据报告公司面临的主要风险是什么 ] for query in queries: print(f\n 问题{query} ) result qa_chain.invoke({query: query}) print(f回答{result[result]}) print(f\n检索到的源文档数量{len(result[source_documents])}) # 可以查看前一个源文档的片段和页码验证引用 if result[source_documents]: doc result[source_documents][0] print(f示例来源页码 {doc.metadata.get(page, N/A)}, 内容片段{doc.page_content[:150]}...)对于一个设计良好的系统前两个问题应该能给出准确数字和引用。第三个问题理想的回答应该是“根据所提供的资料我无法回答这个问题因为上下文未包含腾讯公司的相关信息。”第四个问题应能总结出报告中的风险点。实操心得Prompt工程是持续的过程。你可能会发现模型偶尔还是会“偷懒”不写引用或者对“信息不足”的判断过于保守/激进。你需要根据测试结果反复调整Prompt的措辞。例如可以增加“你必须为回答中的每一个关键数据点提供引用”这样的强硬指令或者举例说明什么是合格的引用。4. 进阶优化从“基础可靠”到“专业好用”上面的基础版本实现了防幻觉的核心机制。但要成为一个真正可用的股票研究智能体还需要在以下几个维度进行深度优化。4.1 多源数据融合与冲突校验单一财报的信息是有限的。我们需要接入更多数据源。# multi_source_agent.py from langchain.agents import Tool, AgentExecutor, create_react_agent from langchain import hub from langchain.tools import BaseTool from pydantic import BaseModel, Field import yfinance as yf import akshare as ak from typing import Type # 1. 定义工具获取实时股价 class StockPriceInput(BaseModel): symbol: str Field(description股票代码例如‘600519.SS’代表贵州茅台A股) class StockPriceTool(BaseTool): name get_stock_price description 获取指定股票代码的实时股价和基本信息 args_schema: Type[BaseModel] StockPriceInput def _run(self, symbol: str): try: ticker yf.Ticker(symbol) info ticker.info price info.get(regularMarketPrice, N/A) change info.get(regularMarketChangePercent, N/A) return f股票 {symbol} 当前股价{price}今日涨跌幅{change}%。公司名称{info.get(longName)} except Exception as e: return f获取股价失败{e} # 2. 定义工具获取新闻摘要模拟 def get_news_summary(company: str): # 这里可以集成新闻API如百度财经、新浪财经的RSS或使用爬虫 # 此处为模拟数据 return f关于{company}的最新新闻摘要1. 公司发布新品市场反响热烈。2. 行业政策利好板块普涨。 # 3. 将RAG链也包装成工具 from langchain.chains import RetrievalQA # ... 初始化之前的qa_chain ... qa_tool Tool( namequery_annual_report, funclambda q: qa_chain.invoke({query: q})[result], description查询公司年度报告中的详细信息。输入是一个具体问题。 ) # 4. 创建工具列表 tools [ StockPriceTool(), Tool(nameget_news, funcget_news_summary, description获取公司相关新闻摘要), qa_tool ] # 5. 创建智能体 prompt hub.pull(hwchase17/react) # 使用ReAct推理框架的Prompt llm ChatOpenAI(modelgpt-4-turbo-preview, temperature0) agent create_react_agent(llm, tools, prompt) agent_executor AgentExecutor(agentagent, toolstools, verboseTrue, handle_parsing_errorsTrue) # 6. 执行复杂查询 result agent_executor.invoke({ input: 请综合分析贵州茅台600519.SS的近期表现。先看下当前股价然后从2023年年报里找一下它的营收增长和毛利率情况最后看看有没有什么最新的市场新闻。 }) print(result[output])这个智能体会先思考Reason然后决定调用哪个工具Act。它会先调用get_stock_price再调用query_annual_report最后调用get_news并将所有结果整合成一个综合回答。多源信息可能冲突例如新闻说“业绩超预期”但财报显示增速放缓。高级的智能体需要在Prompt中加入冲突解决逻辑比如“如果不同来源的信息存在差异请优先采用年度报告中的数据并指出新闻观点可能与实际数据存在出入。”4.2 表格数据处理与结构化输出财报中的核心是表格利润表、资产负债表。简单的文本分割会破坏表格结构。我们需要专门的表格提取和处理能力。工具使用camelot、tabula-py或pdfplumber的extract_tables方法能更好地提取PDF中的表格数据。处理将提取的表格转换为pandas DataFrame或Markdown格式再存入向量库。或者可以设计专门的“表格查询工具”让模型学会调用pandas来回答如“过去三年销售费用占营收比例的变化趋势”这类需要计算的问题。输出要求模型以Markdown表格的形式输出财务数据对比使报告更直观。4.3 记忆与持续学习一个研究智能体不应该每次对话都从零开始。对话记忆使用ConversationBufferMemory或ConversationSummaryMemory让智能体记住之前的问答历史使对话连贯。知识库更新当公司发布新季报时需要有一个自动化流程如定时任务将新PDF加载、分割、嵌入并更新向量数据库。同时可以考虑建立版本管理以便查询历史某个时间点的信息。5. 常见陷阱、排查与未来展望即使架构完善在实际运行中你仍会遇到各种问题。5.1 典型问题与解决方案问题现象可能原因排查与解决方案模型依然编造数字1. 检索到的上下文不相关或不足。2. Prompt约束力不够。3. 模型温度temperature参数过高。1. 检查检索器retriever返回的文档是否真的包含答案。可以增加search_kwargs中的k值如从4调到6或优化文本分割策略。2. 强化Prompt使用更严厉的措辞如“严禁推断”、“必须逐字引用”。3. 将temperature设为0或接近0如0.1。引用格式混乱或缺失模型未能严格遵循Prompt中的输出格式指令。1. 在Prompt中提供清晰的引用格式示例。2. 使用LangChain的OutputFixingParser或StructuredOutputParser来强制模型输出结构化数据如JSON然后在后处理中格式化成报告。处理长文档时丢失关键信息“stuff”链有上下文长度限制可能塞不进所有检索到的块。1. 换用map_reduce或refine链类型它们能处理更长的文档但速度更慢、成本更高。2. 优化检索确保返回的k个块是最精炼、最相关的。可以使用MultiQueryRetriever生成多个问题变体来检索提高召回率。回答“根据资料无法回答”过于频繁模型对“信息不足”的判断过于保守或者检索完全失败。1. 检查向量数据库是否成功构建并包含了相关数据。2. 在Prompt中细化“无法回答”的边界例如“如果上下文提供了部分相关信息但不足以给出完整精确的数字你可以基于已有信息进行概括性描述并指出数据的局限性。”多步骤任务执行混乱智能体Agent在规划工具调用顺序时出错。1. 使用更强大的规划模型如GPT-4。2. 简化任务或使用CrewAI这类框架通过预定义的角色和工作流来替代完全自主的Agent规划。5.2 安全、合规与成本考量数据合规公开爬取数据需遵守相关网站条款。使用金融数据API时注意其许可协议。绝对不要将未公开的、内幕的信息喂给AI模型。决策责任必须明确这个智能体是研究辅助工具而非投资决策工具。所有输出都应带有“仅供参考不构成投资建议”的免责声明。最终的判断和责任必须由人类投资者承担。成本控制大模型API调用、嵌入模型调用均按Token计费。需要监控使用量对长文档进行智能分割对缓存频繁查询的结果。开源模型可以节省API费用但需要自备算力。构建一个“不胡说八道”的股票研究智能体本质是将人类研究员的严谨方法论程序化。它不是一个取代人类的“天才”而是一个不知疲倦、极其严谨的“初级分析师”。通过可信的数据管道、严格的Prompt约束、可验证的引用输出我们能够极大限度地抑制幻觉让AI真正成为投资研究中的可靠助力。这条路没有终点随着多模态模型能直接理解图表、更强大的推理框架和更丰富的金融数据接口的出现这类智能体的能力和可靠性还将不断提升。但核心原则不变让AI在事实的轨道上运行用工程化的确定性去约束概率模型的模糊性。从我自己的实践来看最大的收获不是做出了一个多炫酷的工具而是通过这个过程反向逼迫自己更深入地理解了股票研究本身所需要的严谨数据流程和批判性思维。

查看全文

http://www.zskr.cn/news/1399517.html