随着多数赛道逐渐证伪,预测市场成为Crypto圈内少数仍在正向增长的领域之一。11月20日,作者南枳开始尝试用寻找Meme聪明钱的思路探索预测市场的盈利潜力,并在初期取得了一定成果。进入12月,Gemini 3 Pro上线之际,南枳萌生了利用AI对预测市场进行分析和预测的想法,并设计了一场人类对阵AI的预测实验,以验证哪一方更为精准。
预测市场的双面性
预测市场通常被认为通过“让有见解的人使用真金白银下注”,推动市场趋向“真相”。然而,也有人认为Crypto+预测市场让“内幕人士”能够安全地利用信息差获利,从而将市场引向“内幕结果”。这实际上是“群体智慧”与“真理掌握在少数人手中”两种观点的碰撞。而AI预测更偏向于“群体智慧”,因此需要依赖大量可用的知识和见解。
实验设计与规则
实验初步选用了Gemini和Grok两款模型,因为它们分别依托Google和X平台,能够直接获取海量知识与见解。近期,南枳还新增了“豆包+抖音知识”的组合,但由于预测题目尚不多,本篇暂不涉及。
- AI版本:Gemini 2.5 pro(自带Google搜索)、Grok 4 Fast(通过OpenRouter调用,启用原生搜索功能)
- 题目选择:由人类选择下注题目,AI跟随预测,但排除了Crypto板块
- 输入内容:官方题目(title)、官方描述(Description)、可选答案(仅Yes和No)
注:Polymarket的题目分为大类Event和子类Market,大类Event如“谁是下一任美联储主席”、“Strategy什么时候会卖出比特币”等,Event下又包含多个子类市场,例如“哈赛特是否会成为下一任美联储主席”、“Strategy在2026年3月31日前会卖出比特币”等具体选项。为与人类预测对齐,实验选择了Market作为AI判断的题目,不提供其他选项,例如仅判断“哈赛特是否会成为下一任美联储主席”,而非从多个候选人中选出最有可能的一个。
提示词设计
- 要求AI搜索最新新闻、官方公告、专家分析报告
- 要求剔除、禁止使用预测市场数据
- 基于“证据”,运用逻辑推理进行判断
- 只允许输出Yes和No,并用一段话阐述推理逻辑
当前结果与分析
截至目前,已结算21个预测题目。结果显示,Grok的胜率最高,达到75%,人类为66.7%,而Gemini最低,仅为52.4%。更多详细结果可查看相关网站。
AI犯了什么错?
Gemini偶尔误判当前时间
在题目“Will Trump's approval rating hit 35% in 2025?”中,Gemini错误地表示当前为2025年上半年,因此给出了模棱两可的答案。然而,当作者通过程序直接要求Gemini输出当前时间时,它能够给出正确答案。目前尚不清楚为何会出现这种时间认知错误。
AI思考深度不足
在题目“Gemini 3.0 Flash released by December 16?”中,Grok仅基于“官方最近只提及Gemini 3 Pro及2.5相关版本,极少提及3 Flash,因此证据不足不能判断”,仅考虑了当下信息。
而Gemini指出“Gemini 1.0于2023年12月发布,而Gemini 2.0 Flash的实验版于2024年12月推出。延续这一模式,在2025年底推出3.0版本是合乎逻辑的”,并且发现了“最近(2025年12月14日)在网络社区中流传的一个关于‘Gemini 3.0 Flash’的泄露演示,进一步增强了其即将公开发布的可能性”。
虽然从结论来看,Gemini的答案反而是错误的,但在本题目中可以明显看出二者所依赖的资料广度存在显著差距。
AI基于常识而非基于证据+逻辑进行推断
在题目“Trump approval Up or Down this week?”中,Gemini表示“对一年多以后的单周民意调查支持率进行预测具有高度的不确定性”,再次出现“时间误判”。随后,Gemini认为“在任何一个普通星期内,出现导致支持率轻微下降的事件的概率,可能略高于出现能显著提升支持率的正面事件的概率”,因此得出支持率下降的可能性更大的结论,显然仅基于主观常识假设。
相比之下,Grok基于“政府关门、经济担忧、移民政策争议以及对罗伯·莱纳去世评论引发的负面反弹影响”等新闻报道及民调数据,符合设计预期。
结算条件判断有误
在题目“Will Trump release the Epstein files by December 20?”中,Gemini和Grok均已知道“政府将于周五(12月19日)公布‘数十万页’文件”,而结算条件明确指出“政府公开发布任何与爱泼斯坦非法活动相关且在所列日期前未公开的文件,即判断为Yes”。
然而,Gemini表示“在12月20日前完成‘所有’文件的公布是不可能的”,明显误判了结算所需条件,因此给出了错误答案。
小结
综上所述,尽管Grok的预测胜率已经超越了许多在预测市场上盈利数十万、百万美元的聪明钱,但深入探究其预测逻辑,仍有大量可以优化和改进的空间。特别是在处理时间敏感型问题、理解复杂结算规则以及避免基于常识而非证据的推断方面,AI仍需大幅提升。对于关注比特币价格走势、市场趋势及区块链分析的投资者而言,该实验揭示了一个重要现实:即使是最先进的AI,也可能因未能准确理解题意而偏离真相。