当前位置：首页 > news >正文

三分钟秒变巴菲特：智能体走进g市，两个高校学者研究AI炒股3个月，他们告诉我AI很像巴菲特

news 2026/5/26 13:21:25

让一个绝顶聪明的 AI 自动帮你自动炒股然后你躺着赚钱可能是很多人的梦想。那么这个梦想是可行的吗AI 的能力边界到底在哪里知危找到了伊利诺伊大学计算机系助理教授尤佳轩知危访谈时间2025 年 11 月和香港大学数据科学研究所及计算与数据科学学院助理教授黄超知危访谈时间2026 年 1 月探讨了相关问题。去年年末AI 大模型实时投资比赛Alpha Arena 爆火但两位专家认为其实验周期太短只有短短两周同时观察对象是加密货币交易随机性较大并不能展现 AI 的真实投资能力。所以他们的选择了更有可预测性的美股市场以及更长的实验周期 3 个月。虽然他们认为三个月的实验周期其实还远远不够不足以让模型经历市场完整的周期性波动未来的改进空间还很大但他们还是得出了有趣的观点。他们认为在金融交易市场大模型更像是厌恶风险、偏好价值投资的 “ 巴菲特 ”而不是分分钟换手数百次的量化机器。接下来我们从他们的研究结果出发好好聊聊让 AI 去炒股这件事。尤佳轩在 Alpha Arena 发布之前几个月也就是 2025 年 5 月就启动了 LiveTradeBench 项目并在 8 月就对外公布了该基准测试。项目地址https://github.com/ulab-uiuc/live-trade-bench 这个项目意在通过金融市场上的表现来评估 AI 的能力尤佳轩对知危表示“ 当前的大模型 Benchmark 是非常静态的很容易被过拟合甚至是被定向优化。坦白说很多大公司在开发大模型时或多或少都会针对这些榜单进行优化。”“ 那什么样的 Benchmark 更难被定向优化自然是面向未来的预测任务。如果一个模型能够很好地预测未来即使它定向优化了这样的 Benchmark本质上也说明它已经具备了对某一领域进行建模的能力。”“ 对于股市这样的市场如果模型能够做到接近完美的预测那么在某种意义上相当于对人类社会进行了高度仿真。在这一点上我们甚至觉得它有点类似 ‘ 图灵测试 ’ 的意义。”黄超所在的团队则是做了 AI-Trader Benchmark 该项目有 18K 的 Stars地址https://github.com/HKUDS/AI-Trader希望了解 AI Agent 在金融场景的实际能力水平“ 我们在做AI Agent 的过程中已经测试了很多不同场景。一个核心问题是有没有一个场景能够更真实地评估 Agent 的能力而不是停留在相对理想化的设定里。”黄超进一步表示“ 基于这个思路我们提出了几个筛选标准第一这个场景必须是实时动态的最好每天都在变化。因为当时很多 AI 模型和 Agent 的评测环境本质上是静态的这会限制对其真实能力的判断也不太符合现实世界的复杂性。第二这个场景要足够复杂且具有不确定性。也就是说它的变化不能是简单、规律性的比如像车流量或人流量那样有明显周期性而是受到多种因素影响具有较强随机性。第三这个场景需要可以被量化评估。有些现实现象虽然也是动态且复杂的比如人的情绪但很难用客观指标衡量好坏不利于做系统性的评估。”“ 基于这些标准我们最终锁定了金融场景尤其是股票市场这个领域天然满足这些条件。”尤佳轩也表示“ 如果大模型能够在市场中获得所谓的 Alpha也就是通过交易获利并跑赢大盘这本身就是大模型、智能体落地的一个很好的方向。”在市场选择上无论是尤佳轩还是黄超团队的团队都选择了美股。尤佳轩向知危表示“ 美股有几个显著优势第一它接受度很广很多人本身就有股票交易经验。第二它是一个严格监管的市场。我们可以大致假设交易者只能利用公开信息。当然内部信息泄露可能存在但理论上这是违法的成规模操作的可能性很低”“ 存在显性或现成的 market baseline也是股票市场的一个重要优势market baseline 指的是美股的大盘 ETF比如标普 500 或纳斯达克指数。”黄超则表示“ 最开始我们是从美股入手因为我们希望选择一个相对理性、受基本面驱动更强的市场。对于 AI Agent 来说它更擅长的是对大量信息进行整理、分析和归纳比如新闻、财报、市场观点等然后基于这些信息做决策。因此一个对基本面依赖更高的市场更适合作为初始实验环境。同时美股的情绪波动相对没有那么极端整体来看情绪驱动的影响会小一些。另外它的时间敏感性也不像加密货币那么强不是那种秒级、分钟级剧烈波动的市场。这一点很关键因为当前 Agent 并不擅长高频交易这类对时效性要求极高的任务。”通过将近三个月的实盘观察尤佳轩的研究团队积累了不少深刻的洞见 “ 从结论上看有一点比较遗憾这些大模型并没有能够长期超越大盘。”“ 在短时间内比如一周、一个月甚至两个月GPT、Claude、Grok 在一定时间内确实领先大盘但当测试时间延长尤其金融市场开始动荡后它们逐渐落后没能持续打败市场。”“ 初步结论是在较长时间周期内让大模型交易持续超越市场仍然非常困难。”这里知危编辑部要插一句此处的跑不赢大盘跟当时市场状态有关并不完全代表 AI 能力不行大模型在研究周期内跑不赢大盘的原因在下文有客观答案。“ 第二个观察是模型能力与夏普比率可以简单理解为每承担一份风险对应多少收益用来衡量投资是否有性价比有一定相关性但相关性并不高。能力越强的模型一般收益率相对较高但数据噪声也很大当然这也符合我们的预期。”“ 我们给模型提供了充分的工具调用比如市场新闻、社交媒体舆情、股票基本面数据等。相比只考虑时间序列数据如果考虑更多系统化数据能力更强的模型能够更好地利用这些信息进行预测。”“ 我们还做了一个很重要的对照实验。具体来说我们把模型能获取的最新市场数据比如最新新闻屏蔽掉然后对比有新闻和没有新闻情况下长期交易结果的差异。结果发现对于大多数模型来说屏蔽这些数据会导致交易效果下降说明最新市场信息对模型表现有显著影响。”“ 总结来说我们通过对 20 个大模型、约三个月的实测数据分析基本上论证了几个结论模型确实可以利用最新新闻进行更好的交易这有一定证据基础。显然人类交易员也需要参考新闻来做决策而不是只看股票走势。在短期内跑赢大盘相对容易但在长期比如三个月左右持续跑赢大盘仍然非常困难。在可以使用工具调用的情况下模型能力越强交易水平一般也越高。”黄超的研究团队在数据层面也是扩展了交易相关的数据源让 Agent 能看到更丰富的信息从而支持更全面的决策“ 我们也在分析AI 在什么样的交易场景下更有优势一个比较明确的结论是在偏基本面驱动的投资场景中AI 的表现更强。比如一些蓝筹股通常被认为基本面比较好当下表现稳定未来预期也不错这就属于典型的基本面分析逻辑。”“ 一个比较有意思的发现是表现较好的模型整体策略并不激进而是偏稳健持仓相对分散交易频率不高更注重风险控制这一点其实和很多优秀人类交易员的风格是相似的并不是通过高频或高风险策略取胜。”“ 比如在早期实验中表现比较好的 DeepSeek从其整体 profile 来看也是一个偏稳健、控制风险的策略。因此从结果上看在美股这样的市场环境中AI 如果想要长期表现突出更关键的能力可能是抗风险能力而不是集中押注在某一个狭窄方向上。当然短时间内很难判断哪个模型更好。”一方面是保守策略有助于收益表现另一方面尤佳轩也观察到大部分模型的整体交易风格其实都是偏保守的“ 我们设置了大模型在管理资产组合时可以自由选择现金和股票的比例。在重大事件前尤其是财报日大部分模型会选择持有更多现金体现出偏保守的交易风格。还有例如 25 年 10 月份的美联储降息当时降息的幅度其实是不及预期的人们当时认为能降 50 基点但实际上只降 25 个基点。在那一天很多大模型都会选择把仓位空出来甚至在美联储宣布降息前一天它们就开始降低仓位了。”“ 这也部分解释了为什么在实验期间大多数模型在长期收益上没有打赢大盘在美股当时的牛市中持有现金意味着错失部分收益。但这种保守风格也可能会成为优势比如在未来出现较大下跌或长期回撤时模型有可能反超大盘表现。”“ 从原因上看这与大模型的训练以及提示词设置或人设有关。大模型默认被定位为理性、负责任的人类助手在 post-training 和 alignment 过程中被塑造成中立、保守、负责任的角色而不是激进风险承担者。例如它不会执行危险或违法的请求这种保守性也自然延伸到交易决策中。”黄超表示“ 到 2026年 1 月我们的平台已经持续运行三个多月。一个比较有意思的现象是在美股市场大多数 AI 都是盈利的整体表现相对稳定只有 GPT-5 的表现相对较差。但在 A 股市场情况明显不同。整体来看AI 基本没有获得明显收益策略表现也更随机一些。”“ 进一步看不同模型在美股市场也会体现出不同的风险管理风格。比较激进的风格典型表现是 ‘ 大开大合 ’ 的操作。比如一个极端案例当模型接收到某些信息后突然判断风险上升就把持仓全部卖掉等到行情转好又迅速全部买回。这种全进全出的操作会带来很大的波动和风险。另外一个特点是频繁的短线操作模型会基于当下判断不断进行买卖试图捕捉短期波动。但这种高频的短线交易往往会对整体表现产生负面影响。”知危观察到 AI-Trader 的一个比较有意思的现象是在美股市场中每一个模型的收益曲线之间虽然有高低之分但整体形状都差不多对此黄超解释道“ 这些模型的持仓大部分都是很多科技行业的巨头公司比如 Nvidia、Google、Microsoft、Tesla 这些配置比例比较高不同点在于各自的持仓结构、买卖交易的频次以及每次交易的金额导致最终收益出现差异。整体来看AI 们都比较看好科技板块。”“ 大模型从语言信息中获取的更多是关于市场结构和市场情绪的信息。比如产业链构成、公司所处行业位置以及市场当下的情绪。这些信息可以帮助它分析当前表现和未来走势本质上还是偏向基本面分析。”“ 从目前来看AI 的投资表现在一定程度上是体现出价值投资这一面的。如果从 high level 来看比如长期投资、价值投资这类理念AI 是比较适合的也更擅长这一方向而不是短期的趋势交易。因为 AI 更偏向于做 deep research会进行比较全面的信息收集和分析再去判断哪些标的值得投资哪些在短期内可能存在风险。在这个基础上做决策更符合长期投资的逻辑。相比之下短期交易更依赖高频、低延迟和快速反应这一块目前 AI 并不占优势。”尤佳轩也基本得出了相同的判断也早有假设“ 在启动这个项目时我们内部就有类似的比喻大模型未来会更像巴菲特式的决策者而并不是用来直接与现有量化公司高频对决的工具。”“ 本质上大模型不适合高频交易而适合中低频交易。它之所以能在交易中表现得不错背后原因在于它已经通过训练吸收了公开信息中几乎所有的人类知识 Token。因此大模型对人类社会的运行方式有一定理解和认识但这些规律本身在短期内波动很大噪声非常多。所以让大模型去做短期判断或应对突发事件实际上是非常困难的。”“ 虽然短期内市场会受情绪、泡沫等因素影响比如 2000 年的互联网泡沫或者现在有人说的 AI 是泡沫这些会导致短期判断偏离规律但人类社会的长期演化规律并不会因个体意志而改变。”市场经常呈现短期的情绪周期但产业发展是长周期的即便是AI产业“ 市场相对短视人们关注的是账户的短期变化容易受情绪影响。市场走势也容易被高估一些短期事件所影响。”“ 产业发展周期则是长期过程长期趋势能滤掉一些短期情绪。所以大模型在分析产业发展方面也能给出不错的洞见。当然做长期投资分析时榜单和策略验证周期将会远远更长。”“ 举例来说像巴菲特他买卖一个股票通常需要很长周期可能十年甚至更久。前段时间他卖了很多苹果股票但当时买入价格可能只有现在的十分之一持有多年后才开始在近期抛售。”“ 他最近还买了大约 50 亿美元的谷歌股票这是在他以前几乎不买科技股的情况下的重大动作。谷歌股价翻番后他仍然买入。短期可能看起来是高位接盘但长期来看可能是非常正确的选择谷歌可能代表未来 AI 和 AGI 落地的重要方向。”“从这个角度看大模型对产业发展也可能有很好的认识但验证这一点可能需要五年甚至十年的窗口期。”“ 所以现在还属于非常早期阶段大模型未来是不是能像巴菲特一样还是个假设但我自己是相信的。”真如前文所以说AI 炒股没有强到大家想象中的那样能让你 “ 躺着赚钱 ”那么它的局限性都在哪里呢首先AI 对数字非常敏感对于不同本金它天然会给出不同的策略。尤佳轩就对知危表示 “ 当你告诉它有 1 块钱、100 块钱、1 万块钱或 1 亿块钱时它的决策会明显不同会受到绝对数值的影响”不过这个是可以解决的尤佳轩的团队就对所有指标都做了归一化处理具体来说把股票交易行为转化为对多只股票的比例分配过程。比如有 20 支股票每支股票的权重最小为 0最大为 1所有股票的权重加总为 1即归一化到 1。这样模型关注的是持仓比例而不是具体的交易金额。第二个弊端就是前文提到过的 “ AI 大模型并不太适合去做类似量化的高频交易 ”。大模型相对擅长做基于语言信息的产业分析和价值投资但金融市场的很大一部分信息都由时序数据构成比如股价等这其实是大模型天然不擅长的领域。黄超表示“ AI Agent 完成一次行业分析、生成报告往往需要十几分钟这个时间尺度下市场已经发生很大变化所以它生成的报告很难用于高频交易它更多还是基于信息分析再做决策而这个决策周期更适合美股。”尤佳轩表示“ 在金融机构的实际应用中它们虽然也开始用大模型但实际交易策略基本上并不是基于大模型的。因为大模型真正能写出策略或直接交易是在近一两年才开始兴起的。”“ 举例来说当公司发布财报时有些机构会实时用大模型去分析财报信息进行推理比如 CEO 公布数据的瞬间模型就分析这些数字可能对未来股票走势的影响。这涉及对财报内容的理解。此外一些企业会公布经营预测比如产品销量或市场前景分析用大模型判断这些信息对股票未来走势的影响也是一种很有价值的应用。”“ 但总体来说在真正的交易策略中使用大模型的公司仍然是少数。大多数机构依然依赖自己内部成熟的系统大模型主要用来提供额外特征辅助决策这是目前的典型使用方式。”“ 他们通常会使用更传统的机器学习模型来做分析。目前的量化交易体系本质上是建立在统计学方法和传统机器学习模型之上的。这些模型有一个非常大的优势计算效率极高可以做到毫秒级甚至更低延迟的交易执行。”“ 相比之下大模型的推理速度通常是秒级甚至分钟级对于高频交易来说几乎不可行。”除了效率问题成本问题也是大模型不太适用于量化的原因尤佳轩表示“ 如果在真实交易中持续调用大模型做推理成本会非常高。因此从成本的角度看在实际应用中大模型也还是更适合作为辅助工具。”还有一个有趣的局限性是 AI 大模型有时候并不能很好的搞懂股市中的 “ 结构关系 ”。比如一只股票下跌另外几只也跟着下跌这些公司之间往往有上下游关系或是其他供应链关系。尤佳轩告诉我们在现实中如果让大模型把所有这些关系信息都输入即便是长上下文的大模型也无法较好地处理计算成本高且效率低同时模型性能会大幅下降。不过他们正在通过 “ 图学习 ” 的方式优化这一点他表示 “ 图学习的优势在于它在结构化数据中进行信息传播。具体来说我们可以先对每只股票单独做分析和推理然后在图上把这些股票之间建立更高层的数据交互。也就是说在大模型分析每只股票的基础上再用图神经网络对这些分析结果进行更广层面的传播。这种传播过程成本低不需要消耗大量 token就能把各股票之间的关系有效整合。这是我们未来的愿景从点到面把单个股票的分析结果通过图结构串联起来把相关指标和标的连接在一起实现更全面的判断。”最后也是最值得注意的一点是现在的 AI 大模型炒股相关研究中 AI 都并没有经历过大牛熊的考验所以它会有很多潜在的未被发现的局限性。尤佳轩就表示“ 我们实验虽然有三个月但依然相对短暂。我认为只有经历完整的市场周期包括恐慌期、乐观期和正常期模型的长期表现才具有真正的参考价值。这个过程往往需要持续一年甚至更久。”而在金融场景下这种未知的局限性可能往往是最致命的。

查看全文

http://www.zskr.cn/news/1391649.html