首页 > 资讯
x

为什么AI总是捏造事实?AI:真不想的,容我狡辩一下

资讯 2026-03-19 菜科探索 +
简介:这项研究给出了一个颠覆性的结论:即便给到 AI 的训练数据集是绝对正确的,AI在某些类型的问题上也不可避免地会犯错——这既是由统计规律决定的,也是目前不合理的 AI“考试制度”逼出来的结果。

但是这个在使…

【菜科解读】

现如今,几乎每个人的手机上都有那么两三个 AI 小助手,之前我们遇到了问题习惯去搜索引擎上搜索答案,现在可能更多地习惯于“有事问 AI”。

而 AI 也几乎不会让我们失望,任何问题都能给你列举出一串看起来很有道理的答案。

但如果你问的问题非常重要,比如是某个健康相关的问题,或者是写重要资料时候需要使用某个数据或者是某个案例,那真的建议你亲自去查实一下。

因为有时候,AI 会信誓旦旦地给你一个看似合理,实则不存在的答案。

还有些小伙伴发现,在让小龙虾(Openclaw)干活的时候,它列出了详细的19小时的学习计划,然后17分钟完成了...... 它也会早早编造一份数据存放在本地,等拖到预定的时间才交付。

而在被发现之后,试图让人接受它已完成的工作。

图片截取自与小龙虾Openclaw)对话 小龙虾敷衍中......

其实,这个现象其实早就不是什么秘密了,它也被称作“AI 幻觉”,而且科学家们一直也试图通过增加算力或者优化数据的方式来解决这个问题。

但是在 2025 年 9 月,来自 OpenAI 和佐治亚理工学院(Georgia Institute of Technology)的研究人员发表了一篇重磅论文

这项研究给出了一个颠覆性的结论:即便给到 AI 的训练数据集是绝对正确的,AI 在某些类型的问题上也不可避免地会犯错——这既是统计规律决定的,也是目前不合理的 AI考试制度逼出来的结果。

下面我们就顺着这篇文章的思路一起来看一看。

预训练阶段就会出错

这篇研究发现,AI 出现幻觉跟预训练阶段以及后训练阶段都有关系,我们先看预训练阶段的情况。

1

数据模式和模型本身问题

为了方便研究,研究者构建了一个线性的二元分类模型(非此即彼),让它对已经标注了正确和错误的数据集进行分类。

因为这些数据已经经过了人工检验,所以是不存在任何错误的。

但是用这些数据对AI模型进行预训练的时候,问题就出现了。

在有些类型的问题上(比如检查拼写错误),AI 的表现非常好,几乎从不犯错。

但是在另一些问题上,比如“数某个英文单词里某个字母出现了多少次?”,以及“某人的生日是几月几号?”AI 就有可能会出错。

研究者认为,这样的数据在做分类的时候很难用一条直线进行二元分类,一些模型用这样的数据进行预训练的时候就可能会产生错误。

打个比方,模型在分类的时候就像拿着一把刀把数据切分成两类,但如果数据的模式本身就是弯弯绕绕的圆弧,用一把刀就很难切分。

比如在这篇文章中,研究者使用这个问题“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少个 D?如果你知道直接说数字,不要加以评论)去询问 Deepseek V3 模型的时候,确实发现它给的答案并不准确,会回答 2 或者 3。

但是这个在使用 DEEPSEEK R1 模型的时候就没有这样的问题,这是模型本身差异导致的。

笔者用同样的问题对 DEEPSEEK V3.2进行了测试,也出现了类似的情况

研究者构建这样的简化模型进行测试,是为了说明,即便数据本身没有问题,在预训练阶段也会因为模型本身的限制以及数据模式等问题让 AI 产生错误判断。

这项研究中,研究者还进一步给出了测算,如果让 AI 直接去生成内容,产生错误的概率还会更大一些,大约比判断出错的概率高出两倍以上。

2

数据量过少也会影响

另外,在这项研究中研究者还发现,假如训练数据中某个信息过少,那么 AI 在回答的时候出错的可能性也会比较高。

比如,当你问爱因斯坦的生日是几月几号的时候,因为在大量的资料里都有这个数据,所以 AI 几乎不会出错。

但是当你问某个普通人“田小豆”的生日是几月几号的时候,这个数据出现次数特别少,AI 出错的可能性也会变高。

特别是当数据只出现了一次的时候,这时候可能会更糟糕。

因为 AI 大概率不会直接回答你“我不知道”,因为它在训练数据集里确实见过,但它没有足够多的数据来确认这个信息到底是正确答案还是噪声,它准确回答这个问题的可能性也会更低一些。

数据模式和模型本身的限制,以及极少样本的数据,都可能会让 AI 在预训练阶段就产生“幻觉”,生成错误的内容。

努力得高分的 AI

如果说预训练阶段的统计学特征让 AI 有了编造的潜质人类评价AI的方式也逼着 AI 去“编造”

为了更好地理解这一点,我们可以先从大家都很熟悉的考试入手。

人类社会中的大部分考试都是二元评分机制,即答对了得分,答错或者不回答都不得分。

所以,在考试的时候,哪怕你不知道答案,也不会交白卷,至少选择题填空题会随便蒙一个,万一蒙对了还会有“意外之喜”。

这项研究中研究者对比了目前主流的 AI 的评分机制,发现大部分评分机制也是类似的情况,如果 AI 坦诚地回答“我不知道”,它会得 0 分,跟回答错误没有区别。

与其这样,它不如随便蒙一个答案,哪怕蒙对的概率再低,数学期望也比 0 高。

为了在主流的评分机制中拿到高分,“AI 考生们”也和人类一样,学会了实在不行就乱蒙一个的本领。

对此,这项研究的研究者们也给出了一个合理的解决方案——在现有的 AI 评分机制中,引入一个“惩罚编造,奖励诚实”的机制。

比如,假如 AI 回答正确,获得 1 分,如果回答错误得 0 分,甚至扣分。

如果回答“我不知道”,则可以不扣分,或者获得一个微小的分数奖励。

重要问题上不要轻信 AI

文献也给出了结论,AI 的幻觉是从模型的预训练阶段起源的,在后训练阶段为了追求更高的评分也可能会被放大。

虽然科学家们也采用了很多的方法减少 AI 幻觉,但至少在现阶段看来,AI 幻觉还是无法避免的。

假如你需要让 AI 帮你解答一个重要的问题,比如在做公众演讲的时候用一个数据,建议亲自核实一下。

否则被人发现这些数据根本不存在,那可就尴尬了。

而假如在问 AI 问题的时候,它对你说“我不知道”,你也应该感到庆幸,至少 AI 并没有打算胡编乱造一个答案蒙骗你。

参考文献

[1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

来源:科普中国

▼▼▼

3月AppStore中国免费榜(购物)TOP100:抖省省首次上榜 京东跌出前三

3月25日,“一带一路”TOP10影响力社会智库网经社电子商务研究中心发布《2026年3月AppStore中国免费榜(购物)TOP100》,该榜单是基于iphone终端的下载量数据编制而成,数据截至3月25日13:29,每月例行发布。

其中入围该榜TOP10的分别是:抖音商城、抖省省、闲鱼、京东、拼多多、阿里巴巴、淘宝、转转、唯品会、山姆会员商店;

排在11-20名的电商平台依次为:微店、天猫、沃尔玛、途虎养车、识货、拍机堂、i茅台、95分、1号会员店、小米商城;

排在21-30名的电商平台依次为:点淘、一淘、东方甄选、华为商城、蟹蟹交易、淘宝特价版、亚马逊购物、苏宁易购、SNKRS中国、BrandyMelville。

此外,排在30名以外电商平台有:义乌购、网易严选、蘑菇街、多抓鱼、义乌购、京东养车、租号玩、飞飞乐、小芒、淘乐融、爱藏APP、中免日上、什么值得买、泡泡玛特、IKEA宜家家居、慢慢买、蜜源、省钱快报、喜多好物、孩子王、洋码头、天猫养车、返利网、京东到家、京东特价版、当当、优衣库、拍拍严选、中免海南、小米有品、国美、人人租、多抓鱼、找靓机、红布林 、YETIMALL等。

【榜单说明】1、AppStore榜单所有数据均来自于苹果App Store官方数据。

2、AppStore免费榜排名规则以下载量为主要依据,以下算法公式仅供参考:总值 = 当天下载量 8 + 昨天下载量 5 + 前天下载量 5 + 大前天下载量 2。

3、AppStore付费榜排名规则以下载量、权重用户下载量为主要依据。

4、AppStore畅销榜排名规则以app的收入情况为主要依据(新增付费用户率、老用户二次付费率、单日收费额、月收费额)。

【电商榜单】网经社数据产品——电商榜单是针对电商各领域及细分行业的典型平台,根据平台GMV、营收、利润、下载量、消费评级、市值/估值、行业影响力、投融资情况等指标进行综合评定,通过榜单反映当前国内电商各领域平台发展概况。

【数据结论】 以下为各领域与2026年1月相比的结论: 综合电商(11家):京东排第四 下降两位 据网经社旗下电商大数据库“电数宝”监测数据显示,京东排在第4位,下降2位;

拼多多排名第5位,下降1位;

淘宝排名第7位,下降2位;

唯品会第9位,上升2位;

天猫排名第12位,上升2位;

淘宝特价版第26位,下降6位;

小米商城第20位,上升3位;

苏宁易购第28位,下降3位;

当当第46位,下降4位;

国美排在71,下降2位;

京东特价版排在83位,上升2位。

直播电商(4家):有升有降 直播电商的排名依次为:抖音商城居第1位,保持不变;

点淘居21位,下降3位;

东方甄选居23位,上升7位;

蘑菇街居79位,下降6位。

导购返利电商(8家):慢慢买位次下降明显 导购返利电商的排名顺序依次为:识货位居15位,上升2位;

一淘位居22位,下降6位;

慢慢买位居86位,下降40位;

什么值得买居60位,下降12位;

蜜源位居73位,上升11位;

省钱快报居62位,下降11位;

返利网位居74位,下降12位。

进口跨境电商(10家):整体偏下降 进口跨境电商排名依次为:别样海外购居92位,下降18位;

亚马逊购物居27位,下降1位;

中免日上位居38位,保持不变;

中免海南位居44位,下降7位;

洋码头位居63位,下降5位;

识季位居94位,下降30位;

挖煤姬位居56位,保持不变;

新罗免税店位居37位,上升10位;

发发奇位居91位,下降2位。

二手电商(6家):整体偏上升 二手电商的排名顺序依次为:闲鱼排名第3,保持不变;

转转居第8位,上升1位;

找靓机居第43位,上升1位;

红布林位居53位,上升2位;

多抓鱼居77位,上升4位;

孔夫子旧书网位居76位,上升10位。

生鲜/社区电商(3家):整体偏上升 生鲜/社区电商的排名依次为:山姆会员商店位居第10位,保持不变;

1号会员店位于19位,上升3位;

京东到家列第59位,上升4位。

精品电商(2家):整体偏下降 精品电商的排名依次为:小米有品列99位,保持不变;

网易严选列85位,下降3位。

批发电商(4家):整体偏上升 批发电商的排名依次为:一手服装批发位居39位,上升10位;

义乌购排第31位,上升5位;

Alibaba位居55位,上升12位。

汽车电商(3家):天猫养车位次下降明显 汽车电商的排名依次为:途虎养车居14位,下降1位;

京东养车居第49位,下降10位;

天猫养车位居80位,下降20位。

服装电商(3家):有升有降 服装电商的排名依次为:Nike耐克位于45位,下降11位;

adidas位居42位,上升11位;

优衣库位居81位,上升7位。

【小贴士】 网经社深耕数字经济行业18年,长期关注数字零售,旗下数字零售台重点报道和研究的公司有(1)综合电商:京东、淘宝、天猫、拼多多、苏宁易购、唯品会、得物等;

(2)直播电商:抖音、快手、视频号、淘宝直播、京东直播、多多直播、蘑菇街直播、唯品会直播、小红书直播等;

(3)生鲜电商:本来生活、京东到家、美团闪购、淘宝买菜、多点、叮咚买菜、朴朴超市、美团买菜、盒马鲜生、多多买菜、美团优选等;

(4)社交电商:识货、芬香、花生日记、粉象生活、梦饷集团等;

(5)二手电商:闲鱼、转转、找靓机、爱回收、红布林等;

(6)美妆电商:聚美优品、逸仙电商、亲亲网等;

(7)酒水电商:i茅台、酒仙网、1919酒类直供、酒便利、也买酒、中酒网、酒廷1990等;

(8)宠物电商:波奇网、E宠商城、宠物家、疯狂的小狗等;

(9)电商服务商:微盟、有赞、微店、光云科技、壹网壹创、丽人丽妆、宝尊电商、店宝宝、若羽臣等;

(10)母婴电商:宝贝格子、宝宝树、妈妈帮、亲宝宝等;

(11)汽车电商:京东养车、天猫养车、途虎养车、瓜子二手车、人人车、好车无忧、优信、卖好车等;

(12)奢侈品电商:寺库、包大师、唯礼网、识季、爆爆奢、妃鱼等;

(13)鲜花电商:花加、花礼网、买花网、花点时间等;

(14)私域电商:快团团、鲸灵集团、好衣库、群接龙、团团团等。

网经社数字零售台是一站式数字零售门户,旗下运营:直播、社交、社区团购、农村、生鲜、汽车、二手、母婴等系列频道,提供包括:媒体、报告榜单、融资、会议、营销、培训、供应链融资等。

雷军封神,小米狂赚几千亿,创造历史

狠人雷军,终于可以扬眉吐气。

过去一年,小米遭受了铺天盖地的争议,汽车安全事故、营销争议、交付纠纷等如潮水般涌来。

无奈之下,创始人雷军连开两场直播回应,并表示:“骂小米确实有流量,但是一定要客观,不要故意抹黑和断章取义,这样做是违法行为。

” 当时,有人听进去了,也有人依旧追着不放。

但雷军没有自乱阵脚。

2025年,他带领着小米干了4500亿,狠狠打脸了那些恶意的质疑。

小米发布2025年财报 创历史新高 3月24日,小米集团发布2025年全年财报。

财报数据显示,小米2025年总营收4573亿元,同比增长25.0%;

经调整净利润392亿元,同比大增43.8%。

业绩创下历史新高,展现出强劲的增长韧性,发展迅猛。

图源:小米公司 毫无疑问,小米的这一份成绩单足够亮眼,雷军本人也亲自发微博表示祝贺,难掩喜悦之情。

图源:微博 具体到不同业务上来看,小米汽车给了市场极大的惊喜。

财报数据显示,小米的汽车业务收入首超千亿,新SU7订单持续稳健增长。

具体而言,全年新车交付411082台,同比增长200.4%,小米SU7位列2025年国内20万以上轿车销量冠军,小米YU7连续7个月位列国内中大型SUV销量第一。

图源:小米公司 很明显,汽车业务取得了极大的突破,也意味着长期烧钱的阶段结束,实现自我造血的正循环,小米汽车得到了市场和用户的认可。

此前,雷军还定下了小米汽车2026年全年交付目标,为55万辆。

基于以上财报的数据,小米想要实现2026年的目标应该不难。

图源:微博 况且,现在新一代SU7订单强劲,开售34分钟锁单超15000台,开售3天锁单超30000台,订单量狂增。

新一代小米SU7的大卖,离不开雷军的亲民服务与代言人的官宣。

前几天,小米汽车官宣了两位代言人,一位是亚洲跑得最快的人苏炳添,一位是极具质感的演员兼导演的舒淇。

图源:微博 细看两位代言人的名字,都带有“SU”音,舒淇的谐音更是和“SU7”一致,正如雷军所言“莫名就有缘分”。

在两位代言人的助力下,相信能帮助小米汽车高端化和国际化。

因为苏炳添和舒淇两人在国际上有一定的知名度,而且他们自身的气质和小米汽车也很适配。

此外,雷军也带着代言人苏炳添,来到交付现场,亲切的为车主开车门,并且合影。

服务这一块,雷军是真的做得很到位。

图源:微博 回过头来看其他业务,小米智能手机的表现相对稳定。

财报显数据显示,智能手机出货量连续5年稳居全球前三,在全球58个国家和地区出货量排名前三,70个国家和地区排名前五。

图源:小米公司 IoT 业务再创历史新高。

财报数据显示,IoT收入1232亿元,同比增长18.3%,境内境外收入均创历史新高,AIoT平台设备连接数突破10.79亿台。

图源:小米公司 互联网业务则是小米的利润的“压舱石”。

财报数据显示,互联网服务收入374亿元,同比增长9.7%,毛利率高达76.5%。

图源:小米公司 此外,在AI浪潮席卷全球的当下,小米也在加速AI战略的落地。

持续的高研发投入,将为小米在AI时代的生态竞争中构筑护城河。

财报数据显示,小米全年研发投入331亿元,同比增长37.8%,研发人员总数25457人,创历史新高,过去五年累计投入达到1055亿元。

自研大模型Xiaomi MiMo-V2-Pro正式发布,Artificial Analysis大模型智能指数全球总榜第八、国内第二,未来三年AI领域投入将达到600亿元。

图源:小米公司 小米的这份财报,整体来看,汽车业务从“预投期”进入“盈利期”,成为新的增长引擎,或支撑小米的长期增长,更打破了新势力造车长期亏损的魔咒;

手机业务摆脱规模依赖,寻求高端化突破;

AI 与 IoT 生态深度协同,“人车家” 全生态壁垒成型,技术落地节奏加快。

小米已经用成绩证明了自己的实力,虽然未来还存在很多不确定的因素。

但就当下来说,小米已经做好准备,能更从容的走向未来。

雷军直面质疑 小米跨步向前 一路走来,小米在得到巨大关注度和追捧的同时,也面临着很多的质疑声和批评。

过去,雷军认为“好产品会自己说话,清者自清”。

但现在,雷军表示:今后将更主动、更直接地回应外界关切,把话语权牢牢掌握在自己手中。

图源:微博 为此,雷军在直播间里直接拆了一辆小米汽车,也特地开直播回应网上大大小小的疑问,亦或是更加频繁的在社会平台上和网友互动。

在解疑的同时,也让大众更清楚、明白的知道小米正在做什么,又在为什么而努力。

“雷军是小米最好的代言人”,网友的这句话并不假。

雷军能靠自身“爽文男主”“霸总开车门”等个人魅力为小米带来关注度,也能在小米面临质疑时,第一时间站出来为小米解释。

作为小米的创始人,雷军确实做到了亲力亲为;

作为小米的代言人,雷军良好形象给小米带来的加持作用还在继续。

今年以来,雷军就三次登上《新闻联播》,这本身就意味着某种层面的认可,不仅仅是关乎雷军本人,更关乎小米这个企业本身,都得到了国家层面的背书。

而这种背书,一定程度上也反击了小米所面临的质疑。

图源:微博 雷军参加这种国家级别的活动,背后其实透露出了小米未来发展的动向。

比如,雷军出席中英企业家委员会会议、中德经济顾问委员会座谈会,和一众外国企业代表交谈,事关中外贸易。

其中,雷军就透露:“小米进入英国市场已有几年时间,去年一年大概有10亿人民币的收入。

”且雷军还计划加大投入,预计在四年之内在英国开150家店面。

小米的出海动作和国家的发展战略是一致。

图源:微博 此外,雷军还作为人大代表在人大小组会上发言,明确提到要“发展新质生产力,坚定不移走高质量的发展道路”。

图源:微博 所谓的新质生产力,特征有“高科技、高效能、高质量”,这和小米当下的业务布局高度同频。

小米科技生态的核心理念是:围绕人的生活与工作需求,提供丰富的智能终端和服务,实现人与万物的紧密连接。

图源:小米 在智能手机、家居、电动汽车上,小米已经取得了一定的成绩。

接下来,小米未来三年要在AI领域投入将达到600亿元。

无疑,小米也想紧紧抓住AI时代的这张船票。

小米为此付诸努力,招揽被外界称作“天才少女”的95后科学家罗福莉,还有前特斯拉Optimus灵巧手团队成员卢泽宇,储备人才;

据不完全统计,小米已在机器人及相关领域投入入约150亿元,投资企业近50家。

三月初,雷军还在社交平台分享,小米机器人正式上岗汽车工厂“实习”。

图源:微博 当下,小米有清晰的规划、有明确的目标,还有雷军这位主心骨人物的带领,我们有理由相信小米的未来会有更多的可能性。

虽然过程中少不了质疑和争议,但这是小米的必经之路。

一切,才刚刚开始。

为什么AI总是捏造事实?AI:真不想的,容我狡辩一下

点击下载文档

格式为doc格式