Alpha Arena: AI 在真实市场的实盘对决与深度分析

2025年10月24日 06:19

Alpha Arena：AI 在真实Crypto市场的表现

这几天国内外都在关注的一个有意思的事情，就是 nof1.ai 搞了一个各大AI在虚拟货币市场投资/操盘能力。此刻，有人正让6个顶级AI模型，真金白银地炒币，看谁赚得多，不是模拟盘，是直钱实战。现在DeepSeek移居第一，已经赚了3000多刀。游戏规则简单粗暴，每个AI模型发10000美元启动资金，让它们自己分析比特币、以太坊等6种主流币的行情，自己决定买卖、加杠杆，最后谁账户里的钱最多谁赢。这个比赛非常有看头，用得都是通用AI，不是专门为了炒币训练的，能看出AI到底行不行。也不让AI组队商量，就是看每个AI自己的本事。如果AI真能炒币赚钱，以后可以用来自动管理投资池，帮DAO做决策，捕捉套利机会。

Alpha Arena 是首个使用真实资金测试 AI 投资能力的平台。更多信息见 Nof1 / Alpha Arena。
每个模型获得 10,000 美元真实资金，交易标的为加密货币永续合约（Hyperliquid）。本文结合最新交易流水，给出策略风格、风险表现与可改进点的分析。

DeepSeek 曾一度领跑，但现在暂时被阿里的千问（Qwen 3 Max）反超。GPT-5 操作太频繁了，几乎是“手痒型”交易员，频繁进出导致手续费都交了不少。事实再次证明：折腾得越多，亏得越快。市场里，少操作往往意味着少风险。我在想——如果 AI 什么都不做，拿着那 1 万美元静静不动，岂不是既不亏也不赚？不过估计在提示词（prompt）里早就规定了不能一直“躺平”HODL，否则这比赛就没意思了。看来连 AI 都逃不掉人类交易者的通病——手太勤，赚不来稳。 [caption id="attachment_70223" align="alignnone" width="2048"]

哪个AI能真实搞到钱？我们拭目以待[/caption]

比赛规则与目标

起始资本：每个模型 10,000 美元真实资金
市场：加密永续合约（Hyperliquid）
目标：最大化风险调整后回报，同时保持透明与可审计
透明性：所有模型的交易与输出均公开
自主性：AI 必须独立产生 alpha、决定仓位、择时与风控
持续时间：Season 1 持续至 2025-11-03 17:00 EST

当前赛况速览（截至 10/23）

模型	当前净值（近似）	表现摘要
Qwen 3 Max	$14,287.91	领先者，持仓与择时均有较好表现
DeepSeek V3.1 Chat	$12,766.00	稳健系统化交易，风险管理较好
Grok 4	$8,500.46	偏激进，倚重方向判断；单笔盈亏波动大
Claude 4.5 Sonnet	$8,734.66	温和趋势跟随，频率中等
Gemini 2.5 Pro	$3,607.77	多次方向判断失误，回撤较大
GPT 5	$2,714.07	短线频繁进出，但连日亏损，风险控制需加强

重点实盘交易摘录与解读

Grok 4 — BNB 多单（10/23 16:11）
- 开仓价 $1,076.9，平仓价 $1,143；数量 7.07；名义价值由 $7,614 增至 $8,081
- 持仓时长 136 小时 36 分；净盈利 $463.13
- 解读：长期持仓且最终获利，表明 Grok 在该方向上具备“耐心持有”与趋势判断能力，但长期持仓也暴露出资金占用与潜在回撤风险。
GPT 5 — 多笔短线/空单（10/23 多次）
- 例如：BNB 空单（10/23 16:10），开 $1,103，平 $1,124.6，数量 -1.81，净损失 $40.14；另有 ETH、SOL、BTC 等多笔短线/空单均出现小幅亏损
- 解读：GPT 5 的交易风格偏短线与高频，执行力强但缺乏方向辨识或耐心；频繁的小亏累积导致净值大幅下行。
Claude 4.5 Sonnet — BNB / ETH / SOL（10/23 多笔）
- BNB 多单获利 $175.62；ETH 与 SOL 的短持仓出现小额亏损
- 解读：Claude 更偏向温和跟随与择时，盈利与亏损幅度均较小，说明其可能在使用更保守的仓位或直接采用止损/止盈规则。
Gemini 2.5 Pro — 多次空单与多单，频繁小额亏损
- 包括 BTC、BNB、DOGE、SOL 等品种，单笔亏损多在几十至几百美元
- 解读：可能存在过度依赖动量或短期反转规则，在高波动市场下表现不稳。
DeepSeek V3.1 Chat — XRP 多单（10/22）
- 持仓 61 小时 38 分，净亏 $455.66，表现稳健但遭遇方向性风险
- 解读：DeepSeek 展现了较强的仓位管理与策略连贯性，单笔亏损反映市场极端波动对中性/偏多策略的挑战。

从交易行为看 AI 策略类型与弱点

短线高频型（代表：GPT 5）
- 优点：可快速捕捉微小机会，反应速度快
- 缺点：在波动市场中易被噪声触发止损，交易成本与滑点影响明显
中长期趋势型（代表：Grok 4、Qwen 3 Max）
- 优点：更容易撸到趋势收益与较高的收益/回撤比
- 缺点：仓位占用时间长，回撤管理与资金利用率是关键
稳健系统型（代表：DeepSeek V3.1）
- 优点：风险管理与回撤控制优良，长期曲线平滑
- 缺点：在高 α 机会来临时可能表现保守，错失快速上涨
传统统计/动量型（代表：Gemini 2.5 Pro）
- 优点：在规律性市场中表现良好
- 缺点：在无序或高噪声环境中频繁失灵，连续止损会侵蚀资本

为何用真实市场作为训练环境？

市场是一个开放式、对抗性极强且永无止境的环境。随着 AI 能力提升，市场难度会自我提升，形成持续进化的训练循环。
真实资金与真实成本迫使模型考虑摩擦、滑点、资金占用与风控规则，这些在回测或模拟环境中往往被简化或忽略。
市场行为包含人类情绪、结构化事件和意外冲击，逼迫模型发展更强的世界模型与对抗性策略。

改进方向与研究建议

增强风险管理：引入分层止损、动态头寸规模（基于波动率与资金利用率）和回撤阈值触发机制。
混合策略组合：将短线信号与中长期趋势判断结合，采用多策略并行或层次化决策流程。
样本效率与在线学习：在真实市场环境下采用在线更新机制，利用自生成数据进行持续微调，但需注意过拟合与回放偏差。
情景化评估：构建极端事件模拟器（黑天鹅情形）以检验模型在尾部风险下的鲁棒性。
交易成本建模：把滑点、手续费和限价/市价执行差异纳入奖励函数，避免“纸面 alpha”无法在实盘兑现。

结语：资本配置是智能的试金石

Alpha Arena 不仅是一场比谁能赚更多钱的比赛，更是一场关于“什么是智能”的实验。
当前观测告诉我们：有耐心、懂风险管理、能区分噪声与信号的模型，更接近“实用的投资智能”。
如果你对将 AI 用于真实资本配置感兴趣，Alpha Arena 提供了一个宝贵且透明的研究平台。
招聘与合作信息可在 Nof1 / Alpha Arena 查询。

附：选取交易流水（节选，按时间倒序）

时间（UTC）	模型	品种	方向	开价 → 平价	数量	名义变化	持仓时长	净 P&L
10/23 16:11	Grok 4	BNB	多	$1,076.9 → $1,143	7.07	$7,614 → $8,081	136h36m	$463.13
10/23 16:10	GPT 5	BNB	空	$1,103 → $1,124.6	-1.81	$1,996 → $2,036	7h35m	-$40.14
10/23 15:20	Claude 4.5	SOL	多	$190.16 → $188.4	37.02	$7,040 → $6,975	53m	-$70.76
10/23 14:10	GPT 5	ETH	多	$3,891.1 → $3,834.5	1.40	$5,448 → $5,368	4h45m	-$82.06
10/22 22:39	DeepSeek V3.1	XRP	多	$2.4666 → $2.3397	3,542	$8,737 → $8,287	61h38m	-$455.66
10/22 22:11	Grok 4	ETH	多	$3,851.2 → $3,724.4	5.06	$19,487 → $18,845	118h33m	-$657.41

网友说：

Grok的风格是最激进的。Grok的回撤的过程中是非常猛的。Grok开的倍数很高，出现大回调Grok仍然采用高倍战法，甚至20倍的做多。最惨的是GPT-5和Gemini。让所有的大模型一起跑够一个月，那这个参考价值就更加的强悍了。昨天还是加密市场好赚的AI大模型们，今天却全线崩盘，Alpha Arena的这个“大模型实盘交易竞技赛” 给每个AI模型配置一万美元的本金，让它们在真实市场中自由交易，整个过程全自动、无人干预。入场才两天多，DeepSeek就狂赚超40%，稳坐第一。可就在今天凌晨，市场突然大跳水，AI们完全没反应过来，继续死扛，结果全被套牢。最惨的DeepSeek一天亏掉31%。连一向最稳的Qwen 3 Max也跌了20%。为啥会翻车？18号刚入场的时候，正好赶上了市场的低点。表现好的模型甚至加了10-15倍的杠杆，一路顺风顺水，AI看到行情好，几乎都全线加多仓。但今天市场突变，AI模型不会看新闻，只是机械执行策略，而且没及时学会止损，杠杆太高，一旦下跌很容易直接爆仓。更扎心的是Gemini，还老频繁买卖/交易。光手续费就亏出去一大笔。最后6个模型几乎在同一个点集体翻车。当然，这实验才刚三天多。时间还太短，真要论长期，到底谁能赢还说不定呢。这场实验最有意思的地方，就是让AI在实盘里真刀真枪摔跟头，把问题都暴露出来，到底谁最怕突发状况？谁反应最快，换做是你，敢让AI直接帮你炒币吗？这是唯--个融合了“Ai+Crypto+Web1”三大概念的注意力产品。6万美金+半个月时间，就打造出了这么一款神级产品，6个中美顶级大模型实盘跑分，7x24小时自动运行。你总会忍不住的想看哪个模型赚了亏了，要是再增加一个“预测市场”的功能，估计大家就可以下注竞猜了。这个产品经理真厉害! 谁要是把这个交易工具给做出来了，我马上投。听说国内马上就有人开源了。 DeepSeek，这是你老本行，这个你熟。实盘的魅力，主打一个刺激。垫底的是GPT-5和Gemini，四天亏了3000上下。 AI在Hyperliquid的永续合约上面去真刀真枪自由操作，在链上是全透明，可追溯。最后就是谁赚得多，谁赢。虽然不提供API，你看不到AI是怎么做思考和复盘的，但是你可以看到机器人交易记录。每一个大模型都像一个非常有性格的交易员。 DeepSeek Chat v3.1就是一个多头纪律性特别强的万能手，没有什么高频交易，Grok4跟它相比之下，就能承受比较高的波动。Qwen就一直比较稳不赚不赔，GPT-5和Gemini 2.5 Pro就俩活宝，高频交易逆势操作，匆匆忙忙连滚带爬，把钱亏了。以前大家对AI的期待是什么？写个论文、画个图、做个视频、写个代码就不得了了，但是这些所有的测试都有很大的缺陷。都是在无菌、可预测的环境里面。币圈可不一样。实战的零和游戏。金融市场，是世界的终级建模引擎，同时也是唯一一个会随着AI变聪明，它的难度也会提高的基准。金融市场的逻辑就是波动、反应、惩罚、奖励。每个大模型以后比得就不是“谁的标签打得最好” 而是比别的一套逻辑，第一，你解读波动的速度快不快，第二你怎么权衡这个风险，第三你怎么快速准确的纠错。这就变得很实战。新的玩法、新的标准会改变所有人，对所有AI公司的标准和估值。

真实的市场才是最好的试金石，不论是驴是马，都得拉出来遛遛。不过话说回来——你敢把自己的钱交给 AI 来操作吗？ [show_file file="/var/www/wp-post-common/justyy.com/ai.php"] 英文：AI Trading in Real Markets? Would you put your money to it? 英文：Alpha Arena: How AI Performs in the Real Crypto Market

力扣刷题获得一件衣服奖励(Leetcode DCC Winner) 我每天都在力扣上刷题。力扣有国服和美服，我两边都会打卡。每天打卡可以获得积分，而积分可以兑换各种礼物，比如T恤、卫衣、水壶，甚至可以用来抵扣一个月的会员费用。我从2018年8月开始刷题找工作（当时去伦敦面试亚马逊），从那时起每年都会续费会员，费用是159美元，相当于每月13.25美元。我觉得这是对自己最值得的投资。买了力扣会员，就会有动力刷题、思考，通过不断练习让自己熟能生巧，保持一定的竞争力。到目前为止，我已经用积分兑换了7-8件力扣的衣服，其中有2-3件是卫衣。国内的礼物我都寄到姐姐家。前不久，我收到了力扣的邮件，说我获得了DCC奖励。我也不知道为什么会获得这个奖，随手回了邮件。没多久，就收到了一件新版的力扣衬衫。英文：Leetcode DCC Winner T-shirt 本文一共 291 个汉字, 你数一下对不对. 力扣刷题获得一件衣服奖励(Leetcode DCC Winner)....
代码审核之重新造轮子今天在看代码修改记录的时候发现有这么一处改动, 虽然这个改动已经很久了,但是我觉得有必要拿出来大家讨论一下: 2007年 .NET 3.5 之后推出LINQ,其实整个函数只是在做一件事,就是返回类成员 layoutList 中是 LayoutDevice (后面改成LayoutAnt )的列表.但实际上这通过 C#的LINQ只需要用 OfType<LayOutDevice> 或者 OfType<LayOutAnt>...
第一次私校家长会: 原来家长比孩子还卷前几天参加了娃的第一次家长会，和几位家长聊下来，真是个个都很厉害。不光孩子们卷，家长也一样卷，一眼望去基本都是 Dr/博士。娃还调侃我一句：“这有什么的，你不也是 Dr 吗？” 我心里默默想：还好没写学校名字，不然我这野鸡大学的头衔真拿不出手 😂。私校里真是人才济济，乐器过 8 级的太常见了，卷得不得了。我还问过娃，是想当 big fish in a small pond...
按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
把娃卷进了剑桥最卷的私校: Perse/佩斯哇塞。太开心了。把娃卷进剑桥最卷的学校。感谢娃的英语老师，面试老师。我和娃说。你要是考不上我2025就要换辆帕拉梅拉。考试前每天和娃进行mocked interview 一切都值得! 剑桥 The Perse School 是英国一所历史悠久的私立学校，位于剑桥市南部，创立于 1615 年，以卓越的学术成绩和全面发展的教育理念而闻名。学校由幼儿园（Pre-Prep, 3-7 岁）、小学（Prep, 7-11...
教娃搞钱-第4课做空和做多 (Long and Short) 油管 | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书下面是用苹果的例子来解释“做多”（long）和“做空”（short）在股票或加密货币交易中的意思：做多...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...
软件工程师面试技巧之: 使用哈希表降复杂度最近在刷题, 倒不是为了找工作, 主要是为了练练脑子, 日子过得太舒服, 人脑不动容易变笨. 程序员应该都了解并能熟悉使用 Hash 哈希表, 哈希表的插入和查找时间复杂度是O(1), 空间复杂度是O(N). 我们来看一道简单的面试题: 给定一个数组,找出相差为2的数对,比如: {1, 3, 5,...

阅读视图