行业分类:
加载中...
头条分类:
加载中...
韩国电解液龙头,拿下“宁王”万亿韩元大单
雷达财经出品 文|彭程 编|孟帅 近日,动力电池龙头宁德时代与韩国锂电池电解液制造商Enchem签订为期五年的电解液供应合同,合同规模约1.5万亿韩元(折合人民币超70亿元)。 据韩媒报道,双方于12月24日签署协议。根据协议内容,Enchem将在2026年至2030年期间为宁德时代供应总计35万吨电解液,这份合同一举创下了Enchem自成立以来单一客户订单规模的最大纪录。 据公开报道,近两年,宁德时代在国内签订的两笔电解液订单(已公开的)即将陆续到期。而此次与Enchem签订的这份长期供应合同,或将接续上前述即将到期的供应缺口。 值得一提的是,在这笔合作达成前,宁德时代在今年前三季度交出了一份颇为亮眼的答卷。前三季度,公司营收增长9.28%至2830.72亿元,归母净利润增长36.2%至490.34亿元。 不过,今年前11个月,尽管宁德时代动力电池的累计装车量在国内一众企业中依旧稳居榜首,展现出领先的市场地位,但其装车量占比同比却下降2.1个百分点。 有分析认为,从目前的情况来看,宁德时代并不缺订单,公司整体市场需求依然保持着较为旺盛的态势,但产能问题却成为制约其进一步发展的关键因素。为了应对这一挑战,宁德时代正在海内外市场加速推进产能布局。 韩国电解液龙头Enchem,拿下“宁王”超70亿大单 据韩媒报道,韩国电解液行业翘楚Enchem于23日宣布,其董事会已批准与宁德时代签订电解液供应合同,计划在2026年至2030年间交付总计35万吨电解液。 据悉,此份合同针对宁德时代中国市场,合同规模约1.5万亿韩元,折合人民币超70亿元。 这一合同金额,相当于Enchem 2024年合并销售额的四倍以上,成为该公司成立以来最大规模的单一客户订单。 按当前价格计算,这份合同中电解液的单价超过2万元/吨。而该合同年均7万吨的供应量,也超过Enchem 2023年电解液出货总量。 那么,此次成功拿下宁德时代巨额大单的Enchem,到底是何来头?公开信息显示,Enchem成立于2012年,是韩国主要的电解液生产商之一。 雷达财经从官网获悉,目前,Enchem已成为韩国最大、全球位列第四的电解液制造商,代表着韩国电解液制造的顶尖水平,并且具备与国际知名企业同台竞技的实力。 2013年,Enchem成为全球率先实现第二代电动汽车电解液的商业化企业。在过去的十年间,Enchem更是实现了令人瞩目的“双10”目标,并且保持着行业领先的增速。 据悉,自成立以来,Enchem先后赢得了韩国LG化学、SKI、Nesscap、Kokam(柯卡姆)、EIG等众多知名企业的青睐,成为它们的主要供应商。 目前,Enchem拥有700多名职员,并通过在韩国、中国、波兰、美国等国家建立工厂,成功构建起了一个覆盖亚洲、欧洲和北美的全球化供应体系。 其中,在中国市场,Enchem早已进行深度布局,目前已在山东和江苏建立了25万吨核心生产基地,并正在规划华南和西部生产基地以及上游材料。 同时,Enchem还通过合资、入股等方式保障供应链稳定,例如2022年以2.76亿元投资取得多氟多阳福新材料有限公司16%的股权,以及与石大胜华合资布局10万吨液态锂盐工厂。 在北美市场,Enchem同样表现出色,凭借其优质的产品和服务,在当地电解液市场的占有率超过50%,位居第一,客户涵盖行业头部企业。 而在欧洲市场,Enchem也积极拓展业务,正不断扩大与Verkor等主要电池企业的合作。 即便已是全球唯一在三大洲以及四个国家建成生产基地的电解液企业,Enchem仍在快马加鞭地以世界化和本地化为目标,努力实现其他电解液生产企业从未经历过的创新式发展。 Enchem在华深耕多年,借力“宁王”拓展全球布局 早在本月初,韩媒就曾报道这一合同事宜。当时,报道中仅提及合作对象为“全球头部电池制造商”,却并未明确指出具体的合作方身份。 彼时,这一消息引发市场的广泛猜测与解读,外界普遍认为,这家神秘的“全球头部电池制造商”极有可能就是宁德时代。 如今,随着更多信息的披露,这笔交易的对象终于揭开神秘面纱,正如市场此前所猜测的那样是宁德时代。 据韩媒报道,Enchem在中国市场已向前20大企业中的6家供应电解液。而宁德时代此次选择与Enchem合作,其中一个关键因素或许正是看中了Enchem在华的深厚布局。 据维科网锂电,就已公开的消息来看,近两年,宁德时代主要在国内签订了两笔电解液订单。 其一是与天赐材料全资子公司宁德凯欣的固体六氟磷酸锂用量5.86万吨的电解液产品供货协议,其二则是与石大胜华控股子公司胜华连江签订的采购10万吨电解液的战略合作框架协议。 值得注意的是,这两笔订单都将于2025年年底到期。而宁德时代此次与Enchem的合同,或正好接续这两笔即将到期的订单。 值得一提的是,目前,宁德时代加速推进全球产能布局。在国内,宁德时代在在山东济宁、广东瑞庆、江西宜春、福建厦门、青海、福建宁德等基地均进行扩产,其中仅山东济宁基地预计2026年新增储能产能就超过100GWh。 在海外,宁德时代的德国工厂已于2024年实现投产;匈牙利工厂一期项目首条产线设备已进场调试,预计2025年底建成并完成安装调试。 此外,宁德时代的西班牙工厂已完成前期审批手续,并正式成立合资公司,即将启动工厂筹建工作;印尼电池产业链项目预计2026年上半年投产,其产能规划15GWh。 随着宁德时代全球产能布局的加速推进,其对电解液等关键材料的需求也在快速增长。而在此次合作背后,Enchem的“野心”也逐渐浮出水面。 Enchem相关负责人表示,“此次合作,证明了我们的技术实力和全球生产能力获得世界最大电池企业认可。我们将以与宁德时代的战略合作为基础,在包括中国在内的全球市场扩大供应机会,持续加强竞争力,实现可持续增长。” Enchem透露,公司计划在供应中国业务的基础上,进一步将供应范围扩大至宁德时代在欧洲、美国、东南亚等全球新增产基地。 市场份额有所下滑,“宁王”加速产能布局 天眼查显示,宁德时代已先后登陆A股、港股资本市场。而在此次与Enchem签订合作不久前,宁德时代交出了一份颇为亮眼的成绩单。 财报显示,今年前三季度,宁德时代实现营收2830.72亿元,同比增长9.28%;归母净利润为490.34亿元,同比增长36.2%。 其中,第三季度,宁德时代的归母净利润为185.49亿元,同比增长41.21%,日均盈利超2亿元,创下单季度历史新高。 不过,尽管宁德时代的营收重回正向增长轨道,但9.28%的营收增速,较过往动辄两位数甚至三位数的迅猛增长态势有所放缓。 与此同时,宁德时代的毛利率指标也从上年同期的28.19%下滑至今年前三季度的25.31%。 从财务负债状况来看,截至第三季度末,宁德时代的资产负债率为61.27%。 市场份额方面,尽管宁德时代仍是行业龙头,但其仍面临一定的挑战。 据中国汽车动力电池产业创新联盟数据,今年1-11月,宁德时代动力电池装车量达287.68GWh,装车量占比为42.92%。但与去年同期相比,这一占比下降了2.1个百分点。 与之形成对比的是,第二梯队的多家电池企业市场份额呈现出上升态势。 例如,中创新航、国轩高科、亿纬锂能、欣旺达同期动力电池的装车量分别为46.61GWh、37.74GWh、27.46GWh、21.8GWh,装车量占比较上年分别提升0.09、1.2、0.72、0.25个百分点。 事实上,从订单情况来看,宁德时代似乎并不缺订单。截至第三季度末,公司合同负债达到406.78亿元,较上年度末增加46.14%,主要系报告期内预收货款增加所致。 另据半年报,今年上半年,宁德时代的产能利用率达到89.96%。在半年报业绩说明会上,宁德时代表示,目前市场需求依然比较旺盛,公司根据市场需求情况扩建产能。 有分析认为,宁德时代面临的问题不是产品卖不出去,而是产能不足。作为行业领军企业,其产量无法满足暴涨的市场需求,外溢的订单被同行拿走,此消彼长,呈现的结果就是市场份额下滑。 面对市场份额下滑的严峻挑战,宁德时代加速扩产步伐。 今年10月20日,《华夏时报》从宁德时代方面了解到,“基于对需求的预判,公司已率先进行大规模产能扩建,2026年山东济宁基地预计新增储能产能超100GWh,印尼15GWh动力及储能项目明年上半年投产。” 关于宁德时代的后续发展,雷达财经将持续关注。
老黄200亿“钞能力”回应谷歌:联手Groq,补上推理短板
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 老黄稳准狠,谷歌的TPU威胁刚至,就钞能力回应了。 200亿美元说砸就砸,只为拉拢一家炙手可热的「铲子新工厂」——Groq。 这无疑也标志这家芯片巨头,面向AI新时代的一次重大布局。但在某种程度上,也的确反映出老黄对包括TPU在内等一众新芯片范式的担忧。 所以,Groq究竟能为英伟达带来什么? 针对这个问题,知名科技投资人Gavin Baker发表了自己的观点。 而他的这一连串技术剖析,纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。 推理方面,Groq LPU的速度远超GPU、TPU,以及目前所见的任何ASIC。 这一观点得到大量网友点赞: GPU架构根本无法满足推理市场对低延迟的需求,片外HBM显存速度实在太慢了。 但也有网友指出,LPU所采用的SRAM,或许并不能胜任长下文decode。 对此,Gavin认为英伟达可以通过产品「混搭」的方式解决。 下面具体来看—— Groq:英伟达斥200亿美元购入的一剂疫苗 Gavin认为,GPU在新时代水土不服的根本原因在于——推理过程的两个阶段,prefill和decode,对芯片能力有截然不同的要求。 先看prefill: 这一步,简单来说就是让模型「读题」,把用户提供的关键信息在脑子里记好,用于后续调用。 读题过程中,模型会一次性吃下用户所给的上下文,所有输入token都可以同时计算。 这正是GPU最擅长的舞台,其为图形处理而生,可以一次性计算数千个像素,天生适合处理并行任务。 在这个准备阶段,模型不用急着响应用户问题。即便有延迟,模型也完全可以通过显示「思考中」来掩盖等待时间。 因此,相比「速度」,prefiil需要芯片有更大的上下文容量。 但到了decode,这套逻辑不再适用。 decode是串行任务,必须得一个一个token挨着算。更重要的是,用户还会亲眼看到token被一个个「打」出来的过程。这种情况下,延迟对用户体验来说是致命的。 然而,GPU的数据主要存放在HBM,而不是紧贴算力核心的片上存储。这意味着,每生成一个token,GPU都需要重新从内存中读取数据。 这时候,GPU的问题就暴露出来了——大部分算力都处于闲置,FLOPs根本用不满,常常在等内存把数据搬过来,实际计算量远小于prefill。 相比之下,Groq有更好的解决方案——LPU。 比起HBM,LPU使用直接集成在芯片硅片中的SRAM。这种片上存储的模式不需要读取数据,这让其速度比GPU快100倍。即使只处理单个用户,它也能跑出每秒300–500个token的速度,并能始终保持满负荷运转。 事实证明,在速度这一块,LPU几乎打遍天下无敌手——不仅是GPU,就连TPU,以及市面上绝大多数ASIC都难以望其项背。 但这并非没有代价的。 相比GPU,LPU的内存容量小的多。单颗Groq的LPU芯片,片上SRAM只有230MB。 作为对比,即便是英伟达的H200 GPU,也配备了高达141GB的HBM3e显存。 结果就是:你必须把成百上千颗LPU芯片连在一起,才能跑起一个模型。 以Llama-3 70B为例,用英伟达GPU的话,只需要两到四张卡,塞进一个小型服务器盒子里就能搞定。而同样的模型,需要数百颗LPU,占地面积也将远大于使用GPU的数据中心。 这意味着,即便单颗LPU价格更低,整体硬件投资依然会非常巨大。 因此,AI公司在考虑LPU时,最重要的问题是—— 用户是否愿意为「速度」付费? 对于这个问题,一年前的市场还不无法给出答案。但从Groq如今的业绩情况来看已经非常明确:「速度」是个真实存在的巨大需求,并且仍在高速成长。 而对英伟达而言,这不仅是一个新的业务盘,更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口,英伟达在AI时代的机会可能会被新玩家颠覆,就像英伟达当年通过游戏业务颠覆其他竞争对手一样。 为了抵抗这些竞争者蚕食自己的护城河,英伟达选择注射名为Groq的疫苗。希望通过人才收购引入新血液,补齐这块低延迟场景的推理短板,帮助英伟达这艘巨舰摆脱创新者窘境。 「铲子」进入新时代 TPU的崛起,给英伟达的金钟罩撕开了一道裂缝。 通过自研芯片,谷歌成功摆脱了对英伟达天价GPU的依赖,这在很大程度上帮助谷歌削薄了训练和推理成本,这让谷歌在服务大量免费用户的情况下,依然能维持相当健康的财务账面。 谷歌通过Gemini 3 Pro的绝地翻盘,证明了GPU并非AI时代的唯一解。在技术周期高速迭代的背景下,作为AI「心脏」的芯片,也需要根据不同的发展阶段做出相应的调整。 随着基础模型的进展放缓,AI竞争的重点开始从训练层转向应用层。而在AI应用市场,「速度」对用户体验而言至关重要。 而这次人才收购Groq,虽然也是变相承认了公司在推理赛道的不足,但同样标志着英伟达帝国的又一次扩张。 称霸预训练的英伟达,这次要借Groq的东风,入局竞争对手喷涌而出的「推理大陆」。 而在这个新市场,英伟达或许不再能像如今这样风光。 正如Groq CEO所言,推理芯片是项高销量、低利润的苦活。这与即便炒到天价也有客户抢着要,毛利率高达70-80%的GPU截然不同。
内存压力传导至手机厂商:终端再不涨价 明年必定亏损
快科技12月27日消息,2025年,AI热潮引发需求爆发,叠加国际大厂产能调整,内存、存储芯片价格一路飞涨。今年以来,DRAM与NAND Flash等主要存储器经历了几轮“共振式涨价”。 面对存储芯片涨价这一敏感问题,多数手机厂商都选择沉默应对,不愿意公开谈论存储芯片涨价给公司带来的影响。 一位手机行业人士表示,按照目前存储芯片的涨价幅度,终端价格又不涨的话,明年肯定会亏损,这是行业性难题,不是哪一家的问题,即便之前有长合约,也总有到期的时候,新合约将会执行新价格政策。 分析师表示,今年9月-10月各大厂商的旗舰产品已经普遍上调了价格,预计明年还会继续上调。随着价格的持续上涨,安卓旗舰与苹果之间的差价逐渐缩小,一部分消费者可能会转向苹果。与此同时,华为Mate 80比上代价格更便宜,给了其它安卓旗舰更大的压力。 据悉,今年11月发布的华为Mate 80标准版起售价是4699元(12GB+256GB),上代旗舰Mate 70标准版首发起售价是5499元,也就是说,Mate 80在加量的同时还比上代便宜了800元。 展望明年,内存和存储芯片价格有望继续上涨,基于此,TrendForce集邦咨询下修2026年全球智能手机及笔记本电脑的生产出货预测。 从原先的年增0.1%及1.7%,分别调降至年减2%及2.4%,若存储器供需失衡加剧或者终端售价上调幅度超出预期,生产出货预测仍有进一步下修的风险。
华尔街日报:AI聊天机器人或与精神疾病存在关联
OpenAI正改进ChatGPT以应对心理健康问题 凤凰网科技讯 北京时间12月28日,据《华尔街日报》报道,顶尖精神科医生越来越一致地认为,AI聊天机器人的使用可能与精神病病例存在关联。 过去九个月里,这些专家已接诊或查阅了数十名患者的病历。这些患者在与AI工具进行长时间、充满妄想的对话后出现了相关症状。 “这项技术可能不会让人产生妄想,但当患者把幻想当作自己的现实告诉计算机时,计算机会将其当成事实接受并进行反馈,因此在妄想的循环中起了推波助澜的作用。”加州大学旧金山分校的精神科医生基思·坂田(Keith Sakata)表示。坂田已治疗了12名因AI诱发精神病而住院的患者,另有3名在门诊接受治疗。 自今年春季以来,已出现数十例可能与AI存在关联的病例。这些患者在与OpenAI的ChatGPT和其他聊天机器人进行长时间的AI对话后出现妄想性精神病。有多人死于自杀,而且至少发生了一起谋杀案。 这些事件引发了一系列非正常死亡诉讼。随着《华尔街日报》持续报道这些悲剧, 医生和学者一直在记录和研究导致这些悲剧的现象。 OpenAI发言人对此表示:“我们持续改进ChatGPT的训练,使其能够识别并回应心理或情绪困扰的迹象,缓和对话并引导人们寻求现实世界的支持。我们也在不断强化ChatGPT在敏感时刻的回应,并与心理健康临床医生紧密合作。” 包括Character.AI在内的其他聊天机器人制造商也已承认,他们的产品会加剧心理健康问题。这家角色扮演聊天机器人开发商去年曾被一名自杀未成年用户的家属起诉,近日已禁止青少年使用其聊天机器人。 虽然大多数使用聊天机器人的人并不会出现心理健康问题,但这些AI伴侣的广泛使用已足以引起医生的担忧。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
研究:YouTube向新用户展示的视频中超20%是“AI垃圾内容”
IT之家 12 月 28 日消息,研究发现,在 YouTube 算法推荐给新用户的视频中,超过 20% 都属于“AI 垃圾内容(AI slop)”—— 这类由人工智能生成的低质内容,创作目的纯粹是为了获取浏览量。 视频编辑公司 Kapwing 对全球 1.5 万个热门 YouTube 频道(涵盖各国排名前 100 的频道)展开调研,结果显示其中 278 个频道只发布 AI 垃圾内容。 据估算,这些 AI 垃圾内容频道累计收获超 630 亿次播放量和 2.21 亿名订阅者,每年的收入约达 1.17 亿美元(IT之家注:现汇率约合 8.22 亿元人民币)。 研究人员还专门注册了一个全新的 YouTube 账号,发现该账号首页推荐的前 500 条视频中,有 104 条都属于 AI 垃圾内容。而这 500 条视频里,有三分之一可归为“无脑内容(brainrot)”—— 这类内容包含 AI 垃圾内容及其他以流量变现为目的的低质内容。 这些研究结果揭示了一个行业现状:如今各大社交媒体平台正被这类内容充斥,而一种“脱离语境、极易成瘾、面向全球”的全新内容时代也随之到来。 《卫报》今年的一项分析指出,在 YouTube 增长最快的频道中,近 10% 都主打 AI 垃圾内容。尽管平台一直试图遏制“虚假内容”,这类频道依然能斩获数百万次播放量。 Kapwing 所发现的这些 AI 垃圾内容频道遍布全球,其受众也来自世界各地,订阅量均达到数百万量级:在西班牙,有 2000 万人(接近全国人口的一半)关注这类热门 AI 频道;埃及的 AI 频道订阅量达 1800 万,美国为 1450 万,巴西则有 1350 万。 本次研究中播放量最高的频道“Bandar Apna Dost”总部位于印度,目前累计播放量已突破 24 亿次。该频道主打一只拟人化恒河猴,以及一个以“绿巨人”为原型的肌肉角色的冒险故事 —— 这个角色会与恶魔搏斗,还会驾驶番茄造型的直升机出行。Kapwing 估算,该频道的年收入最高可达 425 万美元(现汇率约合 2984.7 万元人民币)。 科技与数字权益研究员罗希尼・拉克沙内表示,“Bandar Apna Dost”的走红,很可能源于其剧情的荒诞感、充斥的极度男性化套路,以及完全没有连贯情节的特点 —— 这让新观众可以轻松看懂,无需了解前情。 总部位于新加坡的频道“Pouty Frenchie”累计播放量达 20 亿次,其目标受众显然是儿童。频道内容围绕一只法国斗牛犬的冒险展开,比如开车前往糖果森林、品尝水晶寿司等,视频的背景音乐大多是孩童的欢笑声。Kapwing 估算,该频道年收入近 400 万美元(现汇率约合 2809.2 万元人民币)。而总部位于美国的“Cuentos Facinantes”同样以儿童为目标受众,主打卡通故事内容,目前拥有 665 万名订阅者,是本次研究中订阅量最高的频道。 与此同时,总部位于巴基斯坦的频道“The AI World”则发布了大量由 AI 生成的巴基斯坦特大洪灾短视频,标题多为《穷苦人家》《贫困家庭》《洪水厨房》等。许多视频都配上了名为《助眠舒缓雨声、雷声与闪电氛围音》的背景音乐,该频道目前累计播放量达 13 亿次。 考虑到 YouTube 平台上本就海量的内容,很难精准判断这些 AI 垃圾内容频道的实际影响力。平台从未公开过年度总播放量数据,也未披露过其中 AI 内容的占比。 但在这些糖果森林与灾难场景交织的怪异视频背后,一个半结构化、规模持续扩大的产业正在悄然崛起 —— 无数从业者正试图借助 AI 工具,挖掘全球头部社交媒体平台的流量变现潜力。 长期关注 AI 垃圾内容领域的记者马克斯・里德表示:“在电报、WhatsApp、Discord 等社交平台及各类论坛上,有大批从业者在交流经验技巧、兜售相关课程,教人们如何制作足以吸引流量、实现变现的垃圾内容。他们会划分所谓的‘细分领域’。我最近就注意到一个:专门制作高压锅在炉灶上爆炸的 AI 视频。” 里德指出,尽管 AI 垃圾内容创作者遍布全球,但其中许多人都来自英语国家 —— 这些国家的互联网普及率较高,且人均收入水平低于他们在 YouTube 上的预期收益,“这类创作者大多来自中等收入国家,比如乌克兰、印度、肯尼亚、尼日利亚,巴西也有不少,越南同样榜上有名。这些地区的网络环境相对自由,人们可以便捷地访问各类社交媒体平台。” 不过,成为一名 AI 垃圾内容创作者并非易事。里德称,一方面,YouTube 和 Meta 的创作者计划从未明确公开过内容变现的支付对象及具体分成标准;另一方面,AI 垃圾内容行业的“骗局”层出不穷 —— 很多人打着“传授爆款内容制作秘籍”的旗号售卖课程,其赚得的利润甚至远超 AI 垃圾内容的创作者本身。 但至少对一部分人而言,这是一份赖以谋生的工作。此外,尽管高压锅爆炸这类博眼球的新题材层出不穷,但在 AI 垃圾内容的赛道上,决定成败的关键并非人类的创意,而是 Meta 和 YouTube 平台上负责内容分发的算法。 里德说:“从本质上来说,这些平台就是巨型的 A/B 测试机器。几乎所有你能想到的内容题材,在 Facebook 上都能找到先例。因此,问题的核心在于:如何找到那些已经被验证可行的内容方向,然后将其规模化复制?如何批量产出 10 条同类型的爆款视频?” 一位 YouTube 发言人表示:“生成式人工智能只是一种工具,和其他工具一样,它既可以用来创作优质内容,也可能催生低质内容。我们始终致力于为用户推荐高质量内容,无论这些内容的创作方式如何。所有上传至 YouTube 的内容都必须遵守我们的社区准则,一旦发现违规内容,我们会立即予以移除。”
华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神
新智元报道 编辑:元宇 好困 编程界的AlphaZero时刻,终于来了? 当年,AlphaZero抛弃人类棋谱,仅凭「左右互搏」便参透了超越千年的棋道。 而今天,AI程序员的致命伤,恰恰就在于它们太像「人」了—— 靠学习人类代码长大的AI,注定无法突破人类的平庸。 就在最近,来自Meta、UIUC和CMU的研究团队,凭借最新成果Self-play SWE-RL(SSR),正在试图复刻AlphaZero的神话—— 抛弃人类教师,拒绝模仿。 论文地址:https://arxiv.org/pdf/2512.18552 只要给AI一个代码库,让它分饰「破坏者」与「修复者」进行死斗。 在这场无需人类插手的自我博弈中,一种真正的、超越人类经验的编程奇迹,正在诞生。 被「喂养」的AI与人类数据的天花板 从Devin到OpenDevin,再到各大厂内部的代码助手,它们确实能帮程序员干不少脏活累活。 但这里有一个隐形的瓶颈。 目前主流的训练方法,无论是SWE-RL还是DeepSWE,本质上都是在教AI「模仿」。 这种依赖人类知识的模式有三个致命伤: 数据不够用:高质量的、带测试用例、带详细描述的Bug修复数据,其实非常稀缺。 质量不可靠:人类写的issue经常含糊不清,测试用例也不一定完美,这导致训练信号充满了噪声。 天花板太低:如果AI只是模仿人类,它顶多变成一个平庸的初级程序员。 这也是为什么论文把它称作通向超级智能的一道根本性障碍: 一旦训练信号必须由人类提供,你就很难想象它能无限扩展到「开放式、自我进化」的层级。 核心玩法 代码沙盒里的「搏击俱乐部」 SSR的核心理念非常简单,却又极其精妙:自博弈(Self-Play)。 在这个系统中,同一个LLM被赋予了两个截然不同、相互对抗的角色。 角色一 破坏者(Bug注入智能体) 它的任务不是写代码,而是搞破坏。 给它一个正常的开源项目(比如一个Python库),它需要潜入进去,研究代码逻辑,然后制造一个Bug。 但这个破坏者不能随便乱来(比如删掉所有文件),它需要生成一套完整的「作案工具包」(Artifacts): bug_inject.diff :这是真正的破坏补丁,把代码改坏。 test_script.sh :一个能运行测试的脚本,证明Bug确实存在。 test_files.txt :指定哪些测试文件是用来验证这个Bug的。 test_parser.py :一个解析器,用来把测试结果翻译成机器能读懂的JSON格式。 test_weaken.diff :它会修改或删除现有的测试用例,让Bug在当前的测试套件下不报错。 在SSR中,缺陷生成是一项由破坏者智能体执行的任务,该智能体利用工具与执行环境交互以生成缺陷工件,并进一步验证其一致性后提供给修复者智能体。 一个优秀的破坏者智能体的关键特性在于其能够生成多样化的缺陷,以捕捉真实软件开发中的复杂性,从而在广泛的软件调试与工程场景中训练修复者智能体。 角色二 修复者(Bug解决智能体) 当破坏者完成工作后,轮到修复者登场了。 修复者面对的是一个被注入了Bug,且测试被「弱化」了的代码库。 修复者拿到的任务非常具有挑战性,它看不到那个原始的Bug是怎么注入的,它必须像一个侦探一样,通过阅读代码、运行测试、分析报错,最终写出一个修复补丁(Fix Patch)。 通过破坏者和修复者两种模型角色的对抗,可以让模型实现闭环进化。 让魔法打败魔法 如何保证AI不「瞎编」? 如果你让AI随便生成Bug,它大概率会产生幻觉,为此SSR设计了一套如同安检般严格的一致性验证(Consistency Verification)流程。 一个合格的Bug工件,必须通过以下所有关卡: 存在性检查:引用的测试文件,原仓库要有; 解析器检查:Python解析器要能读懂测试输出; 脚本有效性:在没改坏代码之前,测试脚本要跑得通; Bug范围控制:改动的文件数量要适当,符合设定的难度。 Bug有效性(关键):注入Bug后,原本通过的测试必须变失败。如果注入了Bug测试还通过,说明Bug根本没生效。 掩盖有效性:应用了「掩盖补丁」后,原本失败的测试必须变通过,证明成功欺骗了测试套件。 最精彩的一招 逆向变异测试 逆向变异测试(Inverse Mutation Testing),是一个为了验证Bug质量而发明的新概念。 传统的变异测试是改乱代码看测试能不能发现。 而逆向变异测试刚好反过来,把Bug涉及的文件逐个恢复成原样。 如果恢复某个文件后,失败的测试变通过了,说明这个文件确实是Bug的起因。 如果恢复了文件测试还是有问题,说明这个文件跟Bug没关系。 这一步确保了AI生成的每一个改动都是必要的。 如何制造一个「完美」的Bug? 如果「破坏者」只是简单地把x=1改成x=0,那「修复者」学不到任何东西。 为了让AI变得更聪明,研究团队探索了几种极具创意的Bug注入策略。 策略A 直接注入(Direct Injection) 告诉AI:「去,搞个Bug出来」,这是最笨的方法。 结果不出所料,AI经常就在代码里随便改个数字或符号。 这种Bug太肤浅,修复者一眼就能看穿,训练效果最差。 策略B 暴力删除(Removal-only) 告诉AI:「把这块核心功能的代码删了!」 这逼迫修复者必须根据上下文和剩余的测试代码,重新实现这部分功能。 如此一来,能极大地锻炼AI的代码重构和理解能力。 策略C 历史回滚(History Rollback) 告诉AI:「去翻翻以前的提交记录,把代码回滚到某个旧版本。」 因为代码库的历史往往充满了真实的Bug和功能的演进。 让AI面对过去的代码状态,相当于让它重新经历一次项目演化的过程。这种生成的Bug最自然,最具实战意义。 实验证明,「删除策略」和「历史回滚」混合使用,效果最好。这既保证了难度,又保证了真实性。 终极杀招 高阶Bug 如果修复者尝试修复Bug但失败了,SSR认为这也可以「废物再回收利用」。 修复者失败的代码,往往是一个半成品——它可能修好了一部分,但引入了新问题。这不就是一个更复杂、更隐蔽的Bug吗? 系统会将这个「失败的修复」作为新的Bug状态,再次扔给修复者。 这种多轮次、分层级的故障模式,极大地丰富了训练数据的维度。 残酷的奖励机制与对抗博弈 在强化学习中,奖励函数是指挥棒。 SSR的奖励设计充满了一种「微妙的平衡感」。 对于修复者,奖励很简单:全对得+1分,否则-1分。成王败寇。 但对于破坏者,这就很有趣了。 如果破坏者生成的Bug太简单,修复者每次都能修好(解决率s=1),破坏者得不到高分。 如果Bug太难,根本修不好(解决率s=0),破坏者会被惩罚(因为它可能生成了逻辑矛盾的死局)。 SSR采用了一个基于解决率s的公式: 其中,s∈[0,1]是解决率(solver成功修复bug的比例),α∈(0,1)是一个超参数,用于控制对退化解决率的惩罚强度,在实验中设置为0.8。 它的意思是:最好的Bug,是那些让修复者感到棘手、通过率不高不低、处于「能力边界」上的Bug。 这迫使破坏者不断提升难度,正好卡在修复者「跳一跳够得着」的地方,从而推动双方共同进化。 战果揭晓 AI真的变强了吗? 研究团队使用了Code World Model(CWM)的32B模型作为底座,在512个H100 GPU上进行了训练。 他们在两个权威榜单上进行了测试: SWE-bench Verified:经过人工验证的真实GitHub issue集合。 SWE-Bench Pro:更复杂、更企业级的问题集合。 竞争对手是基于同样模型架构、同样环境镜像,但使用「人类数据」(Human Data)训练出来的基准模型。 所谓人类数据基准,就是用传统的「Issue描述+测试用例」方式训练的。 结果令人振奋: SSR完胜:在整个训练轨迹中,SSR的表现始终高于「人类数据」基准。 分数提升:在SWE-bench Verified上提升了10.4%,在SWE-Bench Pro上提升了7.8%。 零样本泛化:SSR在训练时从未见过任何自然语言描述的Issue,它只看过代码和测试。但在测试时,它却能完美处理带有Issue描述的任务。这说明它学到的不是「做题技巧」,而是真正的「编程内功」。 测试结果显示,随着训练步数的增加,SSR的能力稳步上升,而没有出现过拟合或崩溃,证明了自博弈产生的「课程」是持续有效的。 通向超级智能的最后一块拼图 SSR的出现,意味着我们终于找到了一条摆脱「数据饥渴」的路径。 以前我们认为,要想AI写好代码,必须有无数的人类程序员贡献代码和修Bug的记录。 现在SSR告诉我们:只要有代码库(Raw Code)就够了。 当然,SSR还只是第一步。 它目前的验证还主要依赖单元测试,还没法处理那种跨越数月的大型重构任务。 但它指明了方向: 超智能软件系统的诞生,可能不需要人类作为老师,只需要人类的代码作为战场。 作者简介 Yuxiang Wei Yuxiang Wei Yuxiang Wei是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的博士生,由Lingming Zhang教授指导。 他同时在Meta FAIR担任兼职研究员,与Sida Wang、Daniel Fried等人合作,致力于推进大型语言模型(LLM)在代码智能方面的应用。 Zhiqing Sun Zhiqing Sun Zhiqing Sun是Meta超级智能实验室(MSL)TBD Lab的AI研究科学家,专注于训练大型语言模型(LLM)用于深度研究、代理开发和复杂任务。 此前,他在OpenAI的后训练团队担任研究科学家,并曾在AllenNLP和MIT-IBM Watson AI Lab实习。 Zhiqing Sun于2025年2月在卡内基梅隆大学语言技术研究所获得计算机科学博士学位,并在北京大学获得计算机科学专业荣誉学士学位。 David Zhang David Zhang David Zhang是Meta基础AI研究(FAIR)巴黎实验室的研究科学家,专攻使用LLM的代码生成机器学习和深度学习技术。 David Zhang拥有阿姆斯特丹大学机器学习博士学位、慕尼黑工业大学计算机科学硕士和学士学位。 Lingming Zhang Lingming Zhang Lingming Zhang是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的副教授,隶属于Grainger工程学院。 他的研究融合软件工程、编程语言、形式方法和机器学习,重点关注基于LLM的软件测试、分析、修复和合成。 Sida Wang Sida Wang Sida Wang是Meta基础AI研究(FAIR)西雅图实验室的研究科学家,专注于自然语言处理、机器学习和代码大型语言模型(LLM)。 此前,他在普林斯顿大学和高等研究院(IAS)担任研究讲师,并于2017年在斯坦福大学获得计算机科学博士学位(由Chris Manning和Percy Liang联合指导)。 他持有多伦多大学应用科学学士学位,曾在Geoffrey Hinton指导下研究胶囊网络。
国足缺席世界杯,但中国大模型们集体参赛
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 咱就是说啊,这届世界杯,真的太有看头了。 虽然国足是无缘了,但咱们中国大模型们竟然要集体参赛! 参赛要干什么? 进行全球首次人机预测大战。 这就是联想集团,这个FIFA(国际足联)的官方技术合作伙伴,在2025联想天禧AI生态伙伴大会上突然宣布要搞的事情——AlphaGoal预测杯。 这一次,国产大模型集体站在同一个擂台上不再是关起门来做奥数题、在沙箱里跑代码,而是让这些拥有千亿、万亿参数的大脑,去预测那个充满了汗水、草皮、误判、绝杀,以及无数个“这球都能进?!”的真实足球世界。 而且,不光是大模型在玩。 根据赛制,普通球迷和开发者的AI Agent也能下场,直接跟这些顶尖大模型同台竞技预测。 正如资深足球评论员刘建宏给出的评价: 这可能会是历史上第一次全民参与的AI预测大赛。它不仅是技术的较量,更有可能触发一场将足球从观看变为参与的体验革命。 AlphaGoal,或许将是继AlphaGo下围棋之后,AI从做题家走向预言家的关键一步。 8家中国大模型,争夺下一个“章鱼保罗” 对于资深球迷来说,2010年南非世界杯的记忆,除了呜呜祖拉的噪音,大概就是那条神准的德国章鱼保罗。 哪怕你平时不看球,大概也知道这只软体动物当年的统治力:8猜8中,胜率100%。 但在AI时代,我们还要靠章鱼的直觉吗? 这正是本次AlphaGoal预测杯最核心的看点: 中国AI八大金刚,试图用硅基智能的算力,挑战碳基生物(包括人类专家、老球迷和章鱼)的直觉。 咱们先来看看首发阵容。 联想这次攒的局,含金量极高。首批加入的这8家,名单里的每一家,单拎出来都是能在各大榜单上霸榜的存在: 百度文心一言:国内最早布局、知识图谱最厚实的老大哥; 腾讯混元:背靠庞大的社交与游戏生态,对人的数据理解独步天下; 商汤:视觉起家,在多模态处理方面有着夯实的基本功; 科大讯飞:逻辑思维缜密,擅长从纷繁复杂的语音和文本中提取关键信息; Kimi(月之暗面)、MiniMax、阶跃星辰:AI时代的新贵,在多模态和拟人交互上各有绝活。 据说,还有海外大模型也在打探这个比赛的消息。这些国内外主流AI大模型平时在跑分榜上你追我赶,现在直接被联想天禧拉到了绿茵场的场边。 阵容看罢,接下来的问题是,怎么预测? 这可不是简单的“我猜A队赢”。虽然具体的赛制细节还在打磨,但我们可以预见的是,大模型预测足球,本质上是一场全维度的信息战。 传统的球迷预测,靠的是经验(这队我有感情)、玄学(这队球衣颜色克对手)或者简单的历史战绩。 而到了大模型这里,靠的是全知视角。 过去50年两队的所有交手记录; 每位首发球员近期的跑动距离、传球成功率、甚至伤病恢复情况; 当天的天气湿度对草皮摩擦力的影响; 主裁判的判罚习惯数据(是爱掏黄牌,还是鼓励对抗?); 甚至社交媒体上两队球迷的士气值分析…… 这8家模型,各有各的性格。 也许逻辑性强的模型会告诉你:“根据贝叶斯概率,A队胜率55%”; 而擅长拟人交互的模型可能会说:“虽然数据看好A队,但我‘感觉’B队的当家球星今天这股复仇的劲头,能创造奇迹。” 分歧,本身就是最大的看点。 就像人类专家争得面红耳赤一样,AI之间的意见不合,恰恰体现了AI认知的多样性。这不再是标准答案的填鸭,而是不同算法权重、不同数据理解下的百家争鸣。 如果说章鱼保罗靠的是不可知的天赋,那么中国大模型军团,靠的是数据与逻辑的暴力美学。 为什么要pick世界杯? 为什么各大模型厂商,甚至联想这样的巨头,都要死磕世界杯这个场景? 说实话,之前的百模大战,大家看腻了。 过去这两年,AI圈的主旋律就是卷:卷参数规模,从百亿卷到万亿;卷榜单跑分,刷爆MMLU、C-Eval;卷谁的奥数题做得好,谁的代码写得溜。 技术确实在进步,但这种竞争,本质上是小圈子里的封闭测试。 就像一群高智商的学霸关在屋子里做卷子,分考得再高,大家也只知道它是个好的做题家。 这正是联想发起天禧AlphaGoal预测杯这一波反向操作的精髓所在。 联想集团没有选择继续在那个封闭的屋子里出题,而是直接把门踹开,指着外面那个充满不确定性、荷尔蒙与混乱的真实世界说:“来,预测这个。” 这不仅仅是一个趣味活动,而是在举办一场属于AI的模型世界杯。 它的核心野心在于,推动AI从单纯处理文本、生成图像,甚至是只能在特定环境里动的具身智能,走向一个真正能够感知、理解并预测真实世界的世界模型。 足球比赛,就是一个微缩的真实世界。 它是一个典型的高熵、非线性系统。蝴蝶效应在这里时刻上演:一个后卫早餐吃坏了肚子,可能导致他在第89分钟的一个解围失误,进而导致丢球,最后改变冠军归属。 如果AI能在这个系统中,通过学习历史数据、实时变量(天气、伤病、士气)以及复杂的博弈关系,准确预测出未来的走向,那就证明它不仅懂语言,更懂因果;不仅有逻辑,更有对物理世界的洞察。 足球评论员刘建宏说,这会是足球历史上第一次全民AI竞猜,未来会彻底改变足球这项运动从单纯的球迷“观看”,变成全民“参与”,意义重大。 对AI发展来说,意义同样重大。我们知道,人类历史上有三次著名的人机对决。 第一战:1997年,深蓝 vs 卡斯帕罗夫。 这是逻辑计算的胜利。国际象棋规则明确,棋盘有限。IBM的深蓝靠的是恐怖的穷举能力,它没有思考,它只是算得快。它证明了在规则明确的封闭系统里,机器能战胜人类。 第二战:2016年,AlphaGo vs 李世石。 这是深度学习的奇迹。围棋的变化数超过了宇宙原子总数,穷举失效了。AlphaGo学会了直觉和大局观。但请注意,围棋依然是一个信息完全公开、规则绝对死板的封闭系统。棋盘之外,没有风,没有雨,没有裁判的情绪波动。 第三战:2024年,AlphaFold颠覆生物学。 这是科学发现的加速器,AI开始预测蛋白质结构,它开始解决自然界的难题。 所以,当联想把这8家大模型拉上这个舞台时,出的题目其实是: AI,你准备好走出温室,面对这个脏乱差、充满噪音、毫无逻辑可讲的真实世界了吗? 这次,面对全球几十亿人关注的体育赛事,面对每一个不可预知的进球,大模型们必须证明: 我不光会做题,我还能理解这个复杂的世界。 或许从联想天禧AlphaGoal预测杯开始,AI的世界杯,来了! 如果中国的AI模型,能在这个高噪声环境下,准确率哪怕比章鱼保罗高那么一点点,或者给出的预测逻辑能让人类专家拍案叫绝,那都是AI从弱人工智能向通用人工智能迈进的一大步。 因为它开始尝试理解因果,而不仅仅是相关。 联想的反向操作 在这场热闹的人机大战背后,还有一个角色的站位非常有意思。 那就是组局者——联想集团。 在当前的AI圈子里,大家都在忙着找钉子。 大模型厂商在卷基座,恨不得把参数堆到天上去; 手机厂商在卷系统,把AI塞进每一个语音助手里。 而联想,做了一个反向操作。 作为FIFA的官方技术合作伙伴,联想这次不仅提供了服务器、工作站等硬家伙来支持赛事运营,更重要的是,它把自己变成了一个生态组织者。 怎么理解? 联想不想再做一个大模型去跟这8家卷,而是说:你们模型都很好,但你们需要触达用户,需要落地场景。 来,我这有场子。 这个场子,正是联想天禧AI平台。 联想天禧AI生态目前的月活跃用户已经突破2.8亿。其中,70%是18-34岁的年轻群体(大学生和职场人)。 这意味着,这里有最爱尝鲜、最爱互动的核心用户。 在此次大会上,天禧AI升级到了3.5版本,并且提出了一个更科幻的概念——AI Twin(智能双胞胎)。 它不再是一个简单的助手,而是“思你所想,行你所愿”的队友。 在这个平台上,你的AI Agent不仅能帮你工作,还能帮你看球。 PC全球第一、平板全球第三……联想手里握着通往真实世界的钥匙。 它横跨了Windows、Android等多个生态,覆盖了从办公桌到客厅,从口袋到数据中心的全部场景。 当其他厂商试图用一个豆包手机或者AI Pin来统合世界时,联想选择用天禧智能体系统把这些顶尖的大模型能力,无缝地接入到每一个联想设备中。 或许,AlphaGoal预测杯的模式,才是“AI+”的正确打开方式。 AI不应该高高在上地指导我们生活,它应该变成像世界杯一样,全民参与、全民狂欢的基础设施。 联想大舞台,有AI你就来。
陶哲轩亲自曝光:AI破解数学难题,竟全是“抄”的?
新智元报道 编辑:YHluck 【新智元导读】数学大神陶哲轩近期发现,AI声称破解的Erdos难题,实则是多年前已被人类解决但被遗忘的「旧闻」。这揭示了AI当前的核心能力并非从0创新,而是利用超强算力扫描人类文献的「长尾黑洞」,摘取那些被我们忽视的「低垂果实」。 最近几周,数学界就发生了几起这样让人「哭笑不得」但又极具深意的事件。 几个大名鼎鼎的Erdos 问题(数学怪才保罗·厄尔多斯提出的悬赏问题,解决它们是数学家的荣耀),被最新的人工智能工具「自主」解决了。 全网本来准备欢呼AI又一次超越人类,结果反转来了。 不对啊!这些问题,早在几年前、甚至十几年前的冷门文献里,就已经被人解决过了! 这事儿就有意思了。 AI 以为自己搞了原创新发,结果是在搞「考古」。 但这事绝不仅仅是一个「AI闹乌龙」的笑话。 陶哲轩在Mastodon上对此事发表了看法。 他透过这个看似「翻车」的现象,精准地指出了当下AI进化的真正逻辑。 今天,我们就来扒一扒陶哲轩眼中的AI真相:它到底是在思考,还是在作弊? 陶哲轩的质疑: 是「偷看答案」还是「捡软柿子」? 事情发生后,大部分人的第一反应是:数据污染。 这很好理解。 现在的AI模型(比如GPT-4、Claude等)都是吃着海量互联网数据长大的。 大家觉得,这AI肯定是「作弊」了。 它可能在训练数据里偷偷看过那些冷门论文的答案,把它编码在权重里。 等到你问它的时候,它不是「推导」出来的,而是像背课文一样「背」出来的。 但在陶哲轩看来,事情没那么简单。 他敏锐地指出一个疑点:其他的深度研究类AI工具,并没有发现这些联系。 如果仅仅是数据污染,仅仅是死记硬背,那应该是所有看过这份数据的模型都能答上来。 但事实是,有的行,有的不行。 于是,陶哲轩抛出了一个极具洞察力的理论:「低垂果实」)。 他在文中写道: 我的理论是,人工智能工具现在变得足够强大,可以解决 Erdos 问题数据库中列为开放问题的「最易摘取的果实」。 什么叫「最易摘取的果实」? 陶哲轩解释得很清楚:「那些使用相当标准的技术、通过简单证明就能解决的问题」。 重点来了!这里有一个巨大的认知反差: 这类「简单问题」,恰恰也是人类数学文献中的「盲区」。 因为证明过程相对简单,当年的数学家可能觉得「这也没啥了不起的」,就没有大张旗鼓地宣传,或者随手发在了一个不知名的期刊角落里。 这就导致了一个极其尴尬的现状: 这些问题在著名的「Erdos问题数据库」里,依然显示为「Open(未解决)」状态。 但实际上,它们在几十年前就已经被某位无名学者解决了。 这就是陶哲轩看穿的真相: AI 并没有像数学家那样发明了全新的数学大厦,它做的事情更像是「捡漏」。 它利用强大的算力与模式识别能力,把那些「名义上未解决,实际上已被解决,但被人类遗忘在角落」的问题,重新挖掘了出来。 这就完美解释了为什么AI能解决这些问题,且这些问题恰好都已经在文献里有了答案。 不是因为AI偷看了答案,而是因为这些题目本身就是「易碎品」,AI现在的智商刚好够得着它们。 AI的「超强扫雷」能力 陶哲轩的这个发现,实际上给全人类的知识管理体系一记耳光。 我们以为科学大厦是层层累进的,实际上,科学文献里充满了「长尾」。 成千上万的论文躺在数据库里吃灰,无数的微小进展因为没有大佬站台而被淹没。 这就是陶哲轩所说的「未被充分研究的问题」。 在相关讨论中,有一位网友提出了一个玄幻且精准假设,甚至被陶哲轩的读者们热议:「信息黑洞」。 这些解决方案的信息,其实早已被编码在旧的神经网络权重里,或者存在于浩瀚的互联网数据中。 但是,它们不是以「教科书」那样结构化的方式存在的,而是「非局域化」的。 就像黑洞吞噬了信息,信息还在那,但已经乱码了。 对于人类来说,想要从这堆乱码里找到「这个问题在1998年被解决过」的线索,计算成本太高了,根本做不到。 你不可能为了解决一个问题,去读完过去50年的所有论文。 但AI能做到。 陶哲轩在文中极其乐观地预测: 「这种工具能力的进步是不可小觑的,这为自动扫描数学文献中那些未被充分研究的长尾问题带来了良好的前景。」 这正是AI目前的核心价值:它不是一个无中生有的「创作者」,它是一个拥有超强算力的「超级图书管理员」。 短期内,我们将看到大量此类事件发生: AI宣称解决了问题,然后人类发现这只是把旧知识重新打包。 但千万别嘲笑它! 这恰恰证明了AI填补了人类知识体系中最大的漏洞——遗忘。 AI正在把那些散落在历史尘埃里的珍珠,一颗颗捡回来。 陶哲轩引发的思考 看到这里,你可能会问: 这跟我们普通人有什么关系?我又不做数学题。 在陶哲轩这篇内容的评论区里,有一个网友留言: 以前,想要发现「黎曼猜想」和「物理学」之间的联系,你需要是顶级高校数学博士,需要读遍过去50年的顶级期刊,外加极好的运气。 但现在,因为AI能够处理那些「被扰乱的信息」,能够扫描那些「长尾知识」。 就有发现「金矿」的机会。 还有网友评论道:「AI到底是在推理,还是在产生幻觉?」 有人回答得一针见血:「它在逼近理性,但方式非常低效且容易产生幻觉,因为它没有基于逻辑推理形式。」 陶哲轩通过这次事件其实在暗示我们: AI负责在「垃圾堆」里找线索,人类负责验证这些线索是否正确。 陶哲轩的这次「打假」行动,表面看是AI的尴尬,实则是AI的军功章。 他让我们看清了AI现阶段最强大的能力,不是「写诗作画」,而是「知识考古」。 正如陶哲轩所预测的:这种趋势在短期内会持续。 AI将继续在没有专家监督的情况下,横扫那些名义上的「开放问题」。 这是一个「捡漏」的时代。 以前,捡漏靠运气,靠家学渊源; 现在,捡漏靠AI,靠谁能更早地理解「长尾扫描」的价值。
奥特曼摊牌:别再比模型跑分了,苹果才是真宿敌
新智元报道 编辑:倾倾 【新智元导读】别被 2025 年的模型乱战骗了!这可能是一个巨大的误判。 LifeArchitect在上帝视角复盘:当下的喧嚣不过是爆发前的「基建期」。 到2026年,从6T规模的Grok-5到消失在后台的GPT-6,全行业正迎来一场蓄谋已久的「集体解锁」。 真正的换代不再是变聪明,而是像iPhone焊死iOS那样,让AI彻底成为文明的基础设施。 AI圈最不缺的就是「尖叫声」。 模型发布的频率越来越密,名字一个比一个响,参数一个比一个吓人。 每隔几周,就会有人跳出来宣布:「下一代来了,世界又要变了!」 这种信息轰炸,带来一种错觉,仿佛AI革命的巨浪已经拍到了脑门上。 但,这种直觉,可能并不准确。 2025 年的所有喧嚣,像是一场蓄谋已久的「战前储备」。 巨头们在等,他们在等一个足以掀翻棋盘的「奇点」。 于是,全球所有的顶尖大脑,不约而同地盯着同一个年份——2026。 别被「平静」迷惑:AI正在进行代际蓄力 如果顺着LifeArchitect的时间线往回看,从Transformer架构横空出世,到GPT-3、ChatGPT、GPT-4,再到如今多模态模型的爆发,很容易发现AI的进步从来不是匀速直线运动。 2017年的Transformer是一次结构性的发明,像是在荒原上划燃了第一根火柴; 2020年的GPT-3震惊世界,那时的火光十分耀眼。 2022年底,ChatGPT彻底改变了人和机器的对话方式; 而2023年的GPT-4,则第一次让通用能力在专业测试和真实应用中显得足够可靠。 这些里程碑之间,根本不存在「平滑过渡」,而是典型的「突刺式跃迁」。 但也正因如此,过去的几年其实更像是一个疯狂的「炼金术时代」。 大厂在实验室里反复点燃火焰,向世界证明它能烧、能亮、能取暖。 但,他们还没解决那个最核心的难题: 如何让这团火,稳定地接入现实世界的大型生产系统? 如何让AI持续、低成本、高可靠地运转,而不只是发布会里的Demo? 从2020到2024年,全球AI巨头联手解决的只是「可不可以」的问题;而接下来的路,是要解决它「能不能长期运行」。 2025,异常密集却「没有终局」 如果说2020–2024年是突刺式的爆发,那么2025年反而显得有些反常。 这一年,模型发布异常密集。从年初引爆行业的DeepSeek R1,到年中定下基调的GPT-5,再到年底压轴的Claude 4.5和Gemini 3 Pro。 每一个名字单拎出来都足够响亮。但把它们摆在同一张时间轴上,会发现一个微妙的事实:方向高度一致,范式几乎没有分叉。 这是巨头间心照不宣的「集体补课」,每个玩家都在各自的赛道上,把AI迈向现实世界前的最后几块短板补齐: 在推理层面,OpenAI通过o1、o3系列到GPT-5.1的迭代,试图解决AI说话「不过脑子」的问题,让逻辑链路变得真正可控。 在可靠性上,Anthropic通过密集发布的Claude 3.7到4.5系列,所有动作都在强化「系统一致性」和「安全底线」,确立了AI助手的专业标准。 在感知层面,Google从Gemini 2.5到3 Pro,谷歌利用原生多模态优势,让AI彻底理解物理世界,而不仅仅是处理文本信息。 在工程效率上,DeepSeek用R1证明了同样的能力可以「更便宜」,让高阶智能不再是极少数人的奢侈品。 因此,用「谁赢了」来评价2025年并不准确。 这一年的真实主题,应该是「谁没有掉队」。在下一轮巨浪打来之前,谁都不能被甩下车。 从这个角度看,2025年更像是一场大规模的基础设施建设。 道路拓宽,护栏加固,信号统一,为之后「奇迹」的出现创造条件。 2026,一场蓄谋已久的「集体解锁」 翻开 LifeArchitect那张2026预测图,你会发现一个难以忽视的巧合:几乎所有主要玩家,都在这一年的窗口期标注了「Next」。 如果只是某一家这么写,还可以说是营销噱头;但当OpenAI、Meta、Anthropic甚至百度都不约而同地指向同一个终点时,这更像是一场集体共识的公开表达。 为什么大家都在等2026? 因为真正卡住的,是一批关键节点:推理结构要能长期稳定运行,模型要能在真实任务中自我纠错,多模型之间要开始深度协同而非互相打断。 这些条件少了一个,都不足以构成真正的「换代」。 从目前的路线预测来看,2026 年前半段将出现明显的分化信号: 一是体量的终极试探。xAI计划在年初祭出拥有6T参数规模的Grok-5,试图用绝对的体量继续挤压出能力的极限边界。 另一方面是叙事的感性化。Meta给出了Avocado这样更具生活感的代号。 焦点正在从「模型有多大」,转向「模型在系统里怎么用」。 而真正的碰撞,将集中在2026年的下半年。届时,推理不再是外挂模块,稳定性不再靠人工兜底。 像GPT-6、Claude 5.5和Gemini 4这样的选手,目标只有一个:在复杂、连续的真实任务中长期运行,而不是「你问我答」的智力游戏。 当底层条件同时满足,变化自然会发生。这与谁先冲过终点线无关,而是赛道本身,终于被铺到了可以全速奔跑的状态。 不是终局,而是「换代」的开始 当模型开始被当作系统底座,而不是一个需要频繁交互的产品时,升级本身反而会变得不显眼。 它不需要频繁发声,却在每一秒钟影响着决策的流向。 用户不再关心「我在用哪一代模型」,企业也不再关心参数是否刷新纪录。 所有人的注意力将转移到另一件事上:我用的模型是否足够稳定,是否足够便宜,是否能在不中断业务的情况下长期运行。 正因如此,模型升级将从「可感知的爆炸新闻」,变成「无感的静默更新」。 就像操作系统的版本,很少有人记得具体编号,但一旦它出问题,整个数字世界都会停摆。 这也是为什么,一些看起来并不急于「刷榜」的玩家,反而在这一阶段显得更有耐心。 他们更关心的,是模型能否在真实环境中承担「长期责任」,比如处理异常、跨系统协作、在没有人工干预的情况下维持逻辑的一致性。 这种判断,并不只是推测。 在《Fortune》的一篇报道中,Sam Altman已经非常明确地给出了自己的答案。 在他看来,OpenAI长期最大的对手并不是Google或Meta,而是Apple。 Altman关注的不只是模型本身,还有下一代AI消费设备。 未来的设备不应该像今天这样,将模型和操作系统拆分售卖,而是像iPhone与iOS那样,把核心模型直接「焊死」在系统里,成为默认存在的一部分。 也正是在这一逻辑下,OpenAI拉来了Jony Ive,并给出了一个清晰的时间限制:两年内,秘密设备就绪。 如果说2025以前的竞争决定的是「谁更像智能」,那么接下来的竞争,决定的将是—— 谁的系统,更像基础设施。
硅谷豪赌2万亿!DeepSeek登顶Nature,Meta却成2025最大输家?
新智元报道 编辑:KingHZ 【新智元导读】2025年,AI从幻想到现实,AGI祛魅而ASI初现端倪。科技巨头们竞相追逐超级智能,世界正被撕裂成两个平行宇宙:AI拥抱者与旁观者。投资热潮涌动,模型能力跃升……这不仅仅是技术革命,更是人类命运的转折点。 2025年,全球AI领域风起云涌。 通用人工智能(Artificial general intelligence,AGI)开始祛魅,超级人工智能(Artificial Super Intelligence,ASI)开始登上舞台。 Anthropic高管Jack Clark警告:巨变在即,而AI将把世界撕裂为两个平行宇宙。 这一切都是一个长期发展过程的产物,是AI技术、资本、就业和生活交织变革在一起的产物。 AI模型能力跃升,但距离AGI仍有争议:研究显示,2025年AI模型在推理、多模态处理和智能体上取得显著进步。 投资热潮推动基础设施扩张:全球AI投资激增,生成AI吸引339亿美元资金,科技巨头资本支出达4000亿美元,引发了泡沫担忧和能源消耗讨论。 劳动力变革加速,机遇与挑战并存:AI正重塑职场,使用AI工具可能成为求职关键。 应用扩展到日常生活,却未彻底颠覆:AI智能体和机器人进入生产、医疗等领域,似乎提升了效率,但许多人感受到变化有限。 通用人工智能不是终点,超级智能才是起点。 当真正的AI竞赛始于通用人工智能之后! AI一年,人类千年 至今,自然界的一切智能都是生物智能,都是碳基智能。 但今年的LLM可能是人类有史以来第一次创造出的全新智能形态。 在2025年度回顾中,Karpathy直言: 2025年是我(以及我认为整个行业)首次开始以更直观的方式内化理解LLM智能的「形态」。 在推理、多模态处理和智能体上,2025年AI模型取得了显著进步,如OpenAI的o3系列和Google的Gemini 3。 虽在实际应用中仍存局限性,但AGI曙光现已成为今年行业的共识。 在一系列技术任务中,从ChatGPT到Gemini,许多世界领先的AI模型正超越人类基准线。 据斯坦福大学《2025年AI指数报告》,AI已在7项测试中超越人类基准线,这些测试衡量的任务包括: 图像分类 视觉推理 中等阅读理解 英语语言理解 多任务语言理解 竞赛级数学 博士级科学问题 目前,AI系统唯一尚未赶上人类的领域是多模态理解与推理。这项任务涉及跨多种格式和学科(如图像、图表、图解)进行处理和推理。 然而,这一差距正在迅速缩小。 MMMU基准测试,评估模型在需要大学学科知识的跨学科任务上的表现。 MMMU数据集的四大特性:(1)全面性:涵盖六个广泛学科领域与30个大学科目,包含1.15万个大学难度级别的问题;(2)图像类型高度异质:包含极其多样化的图像类型;(3)图文并茂:文本与图像交错混合,需要跨模态理解;(4)专家级感知与推理:要求具备扎根于深厚学科知识的专家级感知与推理能力。 此基准测试日益饱和: 在2023年底,谷歌Gemini的得分仅为59.4%。 到2024年,OpenAI的o1模型取得了78.2%的分数。 今年,Gemini 3 Pro在增强版MMMU-Pro上取得了89.8%的得分。 斯坦福AI指数报告显示,生成AI投资达339亿美元,同比增长18.7%。 前沿实验室每8-12周发布新模型,OpenAI的o3系列(包括o3-mini)以「先思考后回答」的推理机制脱颖而出,使用10倍token提升智能,但成本也相应增加。 谷歌的Gemini 3被誉为多模态巅峰,能处理文本、图像、视频和音频,实现深度推理。 在Reddit上,年初,关于前沿AI模型开放获取的讨论十分热烈。 DeepSeek-R1及其开源蒸馏版本主导了相关话题。不过,用户指出本地可运行的版本是蒸馏模型(8B或32B参数)而非完整的671B版本,其性能大致相当于GPT-3.5水平。 更深层的讨论焦点在于DeepSeek的开源决策——尽管据报道其实现了45倍的训练效率提升。 随后,有研究者在3B参数模型上以低于30美元的成本复现了DeepSeek-R1-Zero的强化学习训练方案。 通用人工智能测试基准ARC-AGI-1,最佳成绩超过近90%;ARC-AGI-2上,AI超过了人类平均水平。 但Yann LeCun指出,自回归LLM有局限,需更多感官数据。 总体,2025年AI从「聊天机器人」转向「智能体」,如Agentic AI,能自主规划和执行任务。 AGI决赛在未来2-3年 如果说前几年是「把模型做大」,2025年更像是「把模型落地」。 围绕代码、推理、多模态、长上下文与企业可用性,国外几家AI巨头争分夺秒,寸土必争。 关于AI未来的讨论,变得越来越宏大而真实。科技领袖们越来越多地谈及追求通用人工智能(AGI)乃至最终的超人工智能。 AGI指能在广泛任务中匹敌人类智能的AI系统,而ASI则指超越人类能力的系统。 六月,扎克伯格成立Meta超人工智能实验室,瞄准「个人超级智能」。 九月,奥特曼表示社会需为2030年前可能出现的ASI做好准备。 Anthropic现任CEO坚信,到2027年,AI将在「几乎所有领域」超越人类。 而以乐观预测著称马斯克更是断言,明年AI的智力将超越最聪明的人类。 这些科技巨头不愿错过AI浪潮。 扎克伯格称,宁愿「冒险误投数千亿美元」,也不愿在超智能时代落后。 以6320亿美元净资产位居世界首富后,马斯克告诉xAI全体员工: 若能挺过未来两到三年,xAI则有望成为AI的胜利者。 Databricks CEO等领袖认为行业已实现AGI,而DeepMind联合创始人哈萨比斯等则更谨慎,称AGI可能「在未来五到十年内」到来。 尽管时间表存在分歧,科技领袖们普遍认同一点:AI进步正在加速叠加。 这种加速肉眼可见。 一年内,OpenAI发布了约30多项新产品和重大更新: 年初:高效模型和智能体(如Operator、o3-mini); 年中:多模态和智能体工具(如Sora 2、AgentKit);推出开放权重模型(如GPT-OSS)和GPT-5; 年末:优化专业任务(如GPT-5.2系列)和创意工具(如ChatGPT Images)。 谷歌、Anthropic和xAI也各领风骚: 在年初看来宛如魔术的功能,如今已习以为常。 中国开源AI崛起 DeepSeek年度最大黑马 2025年,开源社区也热闹非凡。 围绕LLaMA、DeepSeek、Mistral以及各类大模型方案,出现了大量工程化工具链:从微调(fine-tuning)框架、推理加速、到本地部署一体化方案,门槛持续下降。 中国开源模型崛起,Llama彻底出局。 DeepSeek成为年度最大黑马。DeepSeek-R1成为历史上第一个通过同行评议的大模型,喜登Nature封面;创始人梁文锋入选Nature年度10大人物。 Mamba在初期备受关注后,逐渐淡出视野,在研究之外缺乏实际应用。 Reddit网友指出,虽然Mamba在理论上展现出潜力,但 Transformer 模型已在硬件和软件层面深度优化,使得用未经验证的架构重新训练大型模型在经济上难以证明其合理性,特别是当结果与现有模型相当或更差时。 甚至Mamba的实际性能与优化后的Transformer模型相当或更差。 成熟的Transformer软件生态系统带来了巨大的转换成本,且Mamba的固定状态内存无法选择性地检索被忽略的 token。 在计算机视觉领域,Vision Transformer是否已取代CNN的问题仍存在争议。 Reddit讨论显示,Transformer在许多任务中越来越受青睐,并在大数据集上表现出色,但CNN和混合架构在小数据集、医学影像和特定领域仍具竞争力。 Reddit网友指出ConvNeXt是强有力的替代方案,Transformer需要更多内存且难以处理可变图像分辨率,数据集质量比架构选择更重要。 为未来做好准备 在过去一年中,记者Lee Chong Ming倾听了超过50位科技领袖关于人工智能的深度讨论。 从执掌万亿级企业的巨头到押注AI未来的年轻创业者,他们的洞见揭示了AI如何重塑工作生态与未来走向。 在董事会、行业峰会与播客访谈中,除了AI在加速,还有3大最常见的观点。 1. 善用AI,否则你可能被更懂AI的人取代 英伟达CEO黄仁勋今年已多次强调: 每份工作都会受到影响,而且是立刻受到影响。这是毋庸置疑的。你不会被AI取代,但你可能会被更善于使用AI的人取代。 其他科技领袖也呼应这一观点,有人指出年轻员工可能更具优势,因为他们已习惯使用AI工具。 OpenAI的奥特曼八月在YouTube节目「Huge Conversations」中表示,虽然AI将不可避免淘汰某些岗位,但大学毕业生更有能力适应变化。 如果我现在22岁刚毕业,我会觉得自己是史上最幸运的一代。 奥特曼补充道,他更担忧年长员工将如何适应AI重塑的工作环境。 「AI教母」、斯坦福大学教授李飞飞直言,相较于学位,掌握新工具的能力更重要。 她认为,抗拒AI是职业发展的致命伤。在她的初创公司World Labs中,她不会雇佣拒绝使用AI工具的工程师。 这种转变已在日常工作中显现。 2. 软技能在AI时代更具价值 科技领袖们达成的另一共识是:AI使软技能变得更为重要。 五月,Salesforce首席未来官 Peter Schwartz告诉媒体: 最重要的技能是同理心,是与人协作的能力,而非编程知识。 有家长问我孩子该学什么,是否该成为程序员?我说「学会如何与他人合作」。 领英亚太区首席经济学家Chua Pei Ying七月也表示,她观察到:对资深员工和应届毕业生,沟通协作等软技能都日益重要。 随着AI自动化部分工作、使团队更精干,工作中的人性化部分开始愈发关键。 3. 人类必须居于AI的核心地位 许多领袖在AI加速发展中反复强调人类掌控的必要性。 微软AI负责人苏莱曼表示,超人工智能必须支持而非压制人类自主性。 他在十一月表示,团队正「试图构建人道主义的超人工智能」,并警告比人类更聪明的系统将难以控制或与人类利益对齐。 Anthropic CEO阿莫代直言AI被误用的风险。 在二月,他表示,先进AI虽能降低知识工作门槛,但风险与回报同步增长。 我们的负责任扩展政策只关注三大风险领域:AI自主性、以及化学、生物、放射性与核威胁。 这涉及可能危及数百万人生命的AI自主性严重滥用。 被誉为「AI教父」的杰弗里·辛顿八月指出,当AI系统超越人类智能时,保护人类将成为核心挑战。 我们必须确保当它们比我们更强大、更聪明时,依然在乎人类。 2025年AI虽未「颠覆一切」,但奠定基础。 Karpathy称AI跨过「英语编程」门槛。 未来,需关注人文超级智能,确保AI服务人类。无论你是从业者还是普通人,学习AI工具是关键。 这一年,AI从炒作到现实,提醒我们:技术是工具,智慧在人。
苹果应用商店有App放高利贷 苹果客服:正核查处理
快科技12月28日消息,据媒体报道,河北承德市民宫先生近日反映,他在苹果应用商店下载的一款借款App,在未经审核的情况下被“强制放款”,且资金竟来自私人账户。随后他又被引导下载一款无法在应用商店检索到的软件联系客服,整个流程令其怀疑涉嫌高利贷。 “我只是想试试,填了一下资料,没想到20多分钟后银行卡就收到一笔转账。”12月25日,宫先生回忆称,2025年12月18日下午,他在苹果应用商店下载名为“臻有钱”的借款App,提交身份证、银行卡和手机号等信息后,并未经过任何人脸识别或电话审核,款项便直接到账。 当天16时许,宫先生的银行卡收到一笔3500元转账,转账方显示为私人账户,而非任何金融机构。打开App后,他发现借款信息标明:周期10天,到期应还4970元。 “还款额远高于本金,我想立刻取消借款,但在App里根本找不到客服电话或在线客服。”宫先生表示。 涉事App的开发公司已被市场监管部门列入经营异常名录。南京江北新区管理委员会市场监督管理局工作人员解释,这意味着该公司在注册地址无法被找到,且无法取得联系。 该工作人员指出,“借款3500元,10天要还4970元,明显涉嫌高利贷”,建议向金融管理部门举报。 南京市地方金融管理局随后也回应称,当事人可通过接诉渠道进行举报,相关职能部门将依法核查。 苹果公司客服表示,已收到宫先生对该借款App的举报,目前“相关职能部门正在核查调查中”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。