行业分类:
加载中...
头条分类:
加载中...
CTO不香了?百亿公司高管们为何集体转身,去Anthropic当工程师
一件看似「反常」的人才大迁徙,正在硅谷悄然发生…… 事情是这样的,前两天,一位博主 Henry Shi 在 X 上发文称,自己看到科技界正在发生奇怪的事情,「一些曾经管理着数十亿美元公司业务的 CTO,纷纷离职,转而加入 Anthropic,去做一名个人贡献者 (IC, Individual Contributor)。」 看到这一帖文,确实好奇:这些技术大拿集体从明星公司「降级」,去到 Anthropic 担任「技术团队成员」(MTS)的背后,究竟是理想主义的召唤,还是最聪明的人嗅到了某种权力版图的巨变? 该博主还列举了他所观察到的案例,我们结合新闻报道梳理了一下时间线: 2026 年 4 月,Workday CTO Peter Bailis(彼得・贝里斯)被爆出已离职,加入 Anthropic 担任技术团队成员; 2026 年 3 月,You.com 联合创始人、CTO Bryan McCann(布莱恩・麦肯)被爆出已离职,加入 Anthropic 担任技术团队成员; 2026 年 1 月,Instagram 联合创始人兼前 CTO Mike Krieger(他早于 2024 年 5 月加入 Anthropic 担任 CPO),宣布转入 Anthropic 公司内部的 Labs 团队,担任技术团队成员,彼时消息传出后,引起业界热议; 2025 年 12 月,Box CTO 加入 Anthropic 担任技术团队成员; 2025 年 7 月,Super・com 的 CTO 加入 Anthropic 担任技术团队成员; 2025 年 1 月,Adept AI CTO 加入 Anthropic 担任技术团队成员; …… 有意思的是,在梳理的过程中我们发现,其实这位 Henry Shi 正是 Super・com 的前 CTO,他曾把 Super.com 从 0 做到 2 亿美元的年收入,目前就职于 Anthropic。而在帖文下面,他也回应了这一点,并给出了当时离开 Super・com,加入 Anthropic 的心理路程博客(是的,这位与他互动的「网友」正是长期活跃在 X 一线的 Claude Code 工程师 Thariq)。 在博客中,Henry Shi 陈述了之所以加入 Anthropic 的理由很简单:「如果 AGI 在 2027 年或 2028 年到来,我将置身前沿实验室,坐在前排观看。如果不会发生,我也会明白为什么会这样,以及实际可能发生的事情。」 换句话说,他想用 1-2 年时间,换一个「参与人类级跃迁」的机会。而在 Anthropic 内部,他看到了这种正在发生的变化。 关于这一点,他在「领英」上发布的这一关于成功的 CTO 进入 Anthropic 一线「作战」的帖文中,进行了补充: 「你不会做出这样的选择,除非你真心相信 —— 眼前正在做的事情,比你能管理的一切都更重要。 这个使命,确实如此真实。 AGI 正在到来。 而那些最接近前沿的人,正在用自己的职业路径投票。」 该帖子一经发布,立即引起了大家的热议。 很多网友认为,是的,这些技术大拿是受到了AI技术、AGI的使命召唤,选择重新回归一线作战,继续发光、发热。 名为 Ammar A 的网友表示:「事实就是这样,一点也不奇怪。」 很多技术出身的人,包括他自己在内,后来都走上了管理岗位:职责变大、团队变多、scope 也不断扩展。但后来 AI 的浪潮出现,重新点燃了技术人对技术最初的热爱,选择重新全身心投入、亲自动手去做,反而有一种「回家」的感觉;而且还是在一个对社会影响可能最大的领域里。 「一个真正热爱技术的人,又怎么可能抗拒这一点呢?我敢打赌,这些 CTO 在做出这个决定之前,很早就已经在私下里折腾各种小项目、动手做东西了 —— 只是出于热爱。」 但大多数的声音似乎并没有被这一「来自理想主义的呼唤」理由说服。他们表示,这其实不仅仅是关于对 AGI 的信仰问题,更关乎「杠杆」在哪里最高。 在技术前沿,一个直接参与核心模型的个人贡献者,其影响力可以达到传统高管岗位无法比拟的规模。而在大多数大型组织中,影响力会在层层管理中被不断稀释;但在前沿实验室里,决策与产出之间的距离被大幅压缩。 「这也正是为什么一些资深高管选择『下沉』—— 不是为了做得更少,而是为了更接近那些真正发生技术突破的地方。在这个阶段,离模型越近,就越有权力。」 从这个角度来看,AI 时代正在彻底重塑「影响力」的定义,那些已经登顶职业生涯的高管来说,放弃几千万的年薪和显赫的头衔,绝不仅仅是为了所谓的「使命感」,更是为了寻找更高效的个人杠杆。 寻找「最长的杠杆」 一位名为阿绎 AYi 的网友也深有感触,他表示,自己在第一次看到这条消息的时候,震惊了很久。 「六位来自百亿美元公司的 CTO,集体放弃管理层身份,跑去 Anthropic 当『普通工程师』。原帖里说,他们离开的原因是:这个使命足够真实。但仔细想想,事情显然没那么简单。」 他认为,这些成功的 CTO 们不是傻子,不会为了一个模糊而抽象的「使命」放弃几千万年薪,以及管理几百人的权力。背后真正的原因是他们发现了一个大多数人还没意识到的秘密: 「在 AI 时代,你管理多少人已经不重要了,你离模型有多近,才重要。」 在传统的科技公司逻辑中,CTO 的权力来源于「规模」,要做的事情可能包括处理公司政治、偿还技术债、维护老系统、一半精力都花在「人」上 。 但如果是到 Anthropic 做技术人员,那么就可以直接参与最前沿的模型训练、用 AI 工具把产出放大上万倍。 在他看来,这其实是一种权力结构的根本反转:过去,管的人越多,影响力越大,而现在,能调用的模型能力越强,影响力越大。 一个顶级工程师 + 一个强模型,可以「干掉」过去一个百人团队的工作,当然,钱也不会少。 而根据 Anthropic 当前的估值和增长速度来看,即便只是技术团队人员,未来通过股权兑现的收益,可能超过大多数独角兽 CTO 一辈子的收入,而且流动性更好,不需要苦等一个遥远的 IPO。 这里插一句,根据最新消息来看,4 月底,Anthropic 正与投资者洽谈新一轮融资,目标估值高达 9000 亿美元。如果交易达成,Anthropic 将超过竞争对手 OpenAI(当前估值为 8520 亿美元),成为全球估值最高的 AI 初创公司。 阿绎 AYi 还表示,其实 Henry Shi 本身就是一个典型的例子,他把 Super.com 从 0 做到 2 亿美元年收入后,转身加入 Anthropic 去做一名「普通工程师」,他可能比任何人都更清楚,这个时代真正的杠杆在哪里。 而这件事情最有意思的地方在于:它正在重置传统的职业天花板,过去,所有人的终极目标是成为 CTO 或 CEO。但现在,最聪明的一批人,正在涌向一线实验室,做个人贡献者 (IC)。 「也许未来会有越来越多人意识到:成为一个可以直接操控基础模型的超级个体』,远比管理几百人的高管,更有力量,也更自由。 所以,这不是什么『被使命召唤』,而是这个时代最聪明的一群人,在用脚投票,他们正在走向杠杆最大的地方。 而这一点,值得我们每个人 —— 尤其是程序员 —— 认真思考。」 其实仔细围观了这些讨论后,发现大家说得各有道理,但有一点很明确的是,这场人才大迁移似乎释放了一个强烈的信号,那就是,在 AI 重构一切的今天,技术人才的职业天花板也在被彻底重置,基础模型实验室或正成为科技圈的「新心脏」。
梁文锋留住97%员工
作者/冯雨晨 报道/投资界PEdaily “确实在接触DeepSeek融资”,一位FA机构朋友告诉我们。 过去半个月,DeepSeek终于开启融资的消息发酵。而外界归结这次“反常”时几乎都不可避免提到:梁文锋要给内部核心员工一个确定的估值了。 毕竟这一年,大模型竞争日趋焦灼,DeepSeek核心人才流动沸沸扬扬,诸如罗福莉、王炳宣、郭达雅等人陆续跳至小米、腾讯和字节。 喧嚣之外,一组数据映射出更为平和的情况——DeepSeek V4在4月下旬终于发布,技术报告里一份长长的作者致谢名单显示,研究工程团队约270人中10人在研发期间离去。对应下来,技术研发人员离职率不到4%。 其实梁文锋留住了绝大多数人。 掀开DeepSeek跳槽风波 10名员工离开 2023年起,一种强烈的推背感袭来。 ChatGPT席卷之后,月之暗面、阶跃星辰、MiniMax等明星公司纷纷在这年或前后成立,豆包、通义千问、文心一言等大厂大模型产品密集涌现。 不早不晚地,梁文锋也在这一年将DeepSeek落地北京和杭州。 此时他罕见的一次对外分享中,聊到了人才观:DeepSeek大部分开发人员都是应届毕业生或AI从业时间不长,如果追求短期目标,招聘有经验的人当然没错,但从长远来看,基本技能、创造力和热情更为重要。 确实如此。2025年初,DeepSeek R1实力爆发,人们才开始真正关注到这个约150人规模的团队,许多都是国内TOP高校刚毕业或还没毕业的年轻人,清北含量极高。 几乎不可避免,此后一年里,人才流动的话题开始袭向DeepSeek。 2025年开始,DeepSeek传出罗福莉、王炳宣、魏浩然、阮翀等核心骨干离职,其中不少人跳槽他处成为核心业务负责人。坊间为此做了个通俗易懂的打趣:“当DeepSeek内部成员发现段位差不多的人跳槽出去能拿到那么多,那我为什么不可以?” 直到2026年初,随着郭达雅跳槽去字节seed团队,关于DeepSeek人才流失的讨论被推至高点,而当时配上迟迟不发布的DeepSeek V4,难免令人生出几分青黄不接隐忧。 但现实并没有这么沮丧。如今DeepSeek V4终于亮相,在同步发布的技术报告中披露了一份作者致谢名单。细细看下来,其Research & Engineering也就是研究工程团队约270人,这部分也被认为是一家AI公司最核心的研发团队,另有Business& Compliance即商业合规成员48人。 在DeepSeek V4研发期间,只有10名研究工程团队的成员离开。 也就是说,270人的研发团队10人选择离开,核心部门离职率仅不到4%——这已经足够低。一组数据显示,OpenAI 前两年流失了超过25%的关键研究人才,他们大多跳槽去了Meta等竞争对手或自行创业。 首次打开融资大门 稳定军心 眼下创投圈尤其期待:谁能参与DeepSeek的首次融资? 4月开始,DeepSeek最先被爆正以超100亿美元的估值启动首轮外部融资。随后不过一周,消息称DeepSeek与腾讯阿里就投资展开洽谈。后来业内流传,DeepSeek投前估值3000亿人民币。 截至目前,DeepSeek未对融资消息做出任何回应。 一位FA告诉我们,近日在和投资机构接触关于DeepSeek融资的合作方式,本轮融资中财务投资机构极少。另一点也得到证实:腾讯与DeepSeek在日常业务上有沟通,但并无融资的实质性接洽。 一切仍扑朔迷离。 4月27日,DeepSeek注册资本由1000万元增加至1500万元,其中梁文锋认缴的注册资本由10万元增加到510万元,直接持股比例由1%升至34%,同步地,梁文锋控制的宁波程恩企业管理咨询合伙企业持股比例由99%下降至66%。此次变化后,梁文锋以间接、直接方式持有DeepSeek约84.29%股权。 值得注意的是,此前梁文锋通过宁波程恩持有DeepSeek绝大多数股权,直接持股极少,而这次变化后,梁文锋直接持股比例上升到34%。如此一来,梁文锋的控股权摆在了更容易被看见的位置——如果开展融资尽调,DeepSeek股权结构会显得更加清晰。 “不是绝大多数人能参与的”,投资人们由衷感叹。诚然,中国大模型江湖经历一番鏖战后,DeepSeek依旧很吸引人。 正如DeepSeek V4预览版终于亮相,Pro版和Flash版百万上下文标配,Pro版高至1.6万亿参数,价格感人:Pro每百万token输入1元(缓存命中)或 12元(缓存未命中),输出24元,Flash分别为0.2元、1元、2元。 与此同时,传闻的国产芯片适配证实,DeepSeek V4技术报告中,虽然能看出模型训练部分依然大概率用的英伟达芯片,但华为昇腾和英伟达并列写在验证平台,“预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。” 这一举,意味着DeepSeek在英伟达坚固的CUDA生态敲开了一条裂缝。背后的想象力不言而喻。 梁文锋的笃定 国产AI时代真正开始 梁文锋和DeepSeek走在一条反共识的路上。 通常,一家明星科技公司的时钟是这样的:在崭露锋芒之际把握融资机会,伴随人才扩张和产品迭代加速,尽快占领市场并谋求上市。这个动作一旦串联起来,就很难停下来。 但DeepSeek的每个环节都出乎意料慢一些。 2025年初DeepSeek R1发布之际,梁文锋几乎没有对手,但锋芒毕露时他拒绝了所有前来叩门的投资人。偏偏是在竞争白热化、对手林立的今天,DeepSeek首次放出融资消息,外界讨论归因大多绕不开两点:研发需要资金,更深一层,DeepSeek需要给内部人才一个确定的估值。 产品迭代同样姗姗而来。DeepSeek V4发布距离上一版重大更新已经过去15个月,千呼万唤始出来,DeepSeek只先放出了V4预览版,一直视为缺憾的多模态也未同步更新。直到4月29日,DeepSeek才上线灰测识图模式,释放出多模态能力信号。 “不诱于誉,不恐于诽”,这是DeepSeek的姿态。而市场给出的反馈,似乎验证着某种事缓则圆。 DeepSeek V4发布当日,华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥真武、天数智芯等国产AI芯片就完成了适配。一时间,激起二级市场国产芯片上涨的“一池春水”。 与此同时,消息显示华为昇腾950系列AI芯片的市场需求大幅飙升,字节、腾讯、阿里三大国内头部互联网企业,已就新增芯片订单与华为展开接洽。 于是,一个反共识者,用慢节奏触发了产业共振——当底层芯片商与头部大厂开始围绕DeepSeek的标尺去咬合进化时,DeepSeek或许已经跃出了原本的竞争牌桌。 一如那句:慢就是快。只是,真正敢信的人并不多。
微信输入法测试隔空传送功能:支持跨设备秒传图片、文件
快科技5月3日消息,根据网友反馈,微信输入法iOS版及Windows版目前开始测试全新“隔空传送”功能,进一步强化跨设备文件传输能力。 据介绍,原有的跨设备粘贴同步功能已更名为“跨设备粘贴传送”,并在此基础上新增“隔空传送”。 更新前 新功能不仅支持在多设备之间快速传输图片和文件,还支持面对面秒传,使用方式更加灵活。 更新后 进入“隔空传送”界面后,用户既可以选择已关联的设备进行文件发送,也可以直接将文件传给其他用户,实现更便捷的跨端与近场分享体验。 回顾来看,微信输入法最早于2022年12月以“微信键盘1.0.0”形式在安卓和iOS平台上线,随后在2023年6月正式更名为微信输入法,并持续进行版本迭代。 2025年12月,微信输入法iOS版迎来3.0大版本更新,重点升级语音输入能力,引入更先进的大模型技术,在识别准确率与输入速度方面均有明显提升。 值得一提的是,腾讯高级副总裁、微信事业群总裁张小龙曾表示,团队推出微信输入法的目的并不是为了与其它输入法应用抢夺市场,而是为了更好地保护用户隐私。 整体来看,随着“隔空传送”等功能加入,微信输入法正在从单一输入工具,逐步向跨设备协同与轻量级文件传输工具延伸。
OpenAI参与,重卷ImageNet:终于把FID做成训练
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 统治AI图像生成近10年的黄金标准,第一次被拉下场当了教练。 我说的是FID(Frechet Inception Distance)。 这个指标从2017年沿用至今,一直无法无法投入日常训练使用。 现在有人打破了这个窘境—— 来自USC、CMU、CUHK和OpenAI的全华阵容研究团队,提出了一种叫FD-loss的方法,把“算统计的样本池”和“算梯度的batch”彻底解耦。 依靠数万张图像组成的大容量缓存队列或指数移动平均机制,稳定完成分布估算,仅针对当下小批量数据开展梯度回传。 仅凭这一个idea,长期受限的FID终于能够作为训练损失函数,参与模型的直接优化。 实验带来了多项出人意料的结果: 一个已有的单步生成器,后训练后直接刷出FID 0.72(ImageNet 256×256),而且推理成本零增加。 一个训练了50步的多步扩散模型,被他们直接repurposing成1步生成器,无需教师蒸馏、无需对抗训练,效果还能打。 其中最违背固有认知的发现在于,FID数值最优的模型,视觉观感未必出众。依托DINOv2、MAE、SigLIP等前沿视觉表征训练的模型,FID表现不如基于Inception架构优化的版本,但画面物体结构完整性与细节还原度都会明显更好。 业内长期扎堆优化FID分数,可这项沿用近十年的评价标准早已达到性能瓶颈,甚至会引导模型走入错误的优化方向。 对6种表征空间的归一化弗雷歇特距离(Fréchet Distance,FD)比值取平均,得到更鲁棒的综合指标FDrk。 按照这套新标准测算,真实验证集基准数值为1.0,现阶段顶尖生成模型的数值依旧高达1.89。 这足以说明ImageNet图像生成领域,距离技术成熟还有很远的距离。 解耦统计量与梯度计算 FID是所有生成模型性能测评的核心评判标准。 这个歌值越小,意味着生成图越真实、分布越接近真实。 它的计算方式是把真实图和生成图用Inception-v3提特征,各算一个高斯分布,再求两个分布之间的距离。 不过过去,FID只能当评测指标。 因为测算一次FID需要50000张图片的统计数据,而GPU每步训练能塞下的batch撑死也就1024张。 如果强行把5万样本全部参与反向传播,显存多半当场爆炸。 新研究的破局思路是“彻底解耦”。 简单来说,研究团队用数万张图组成的大窗口(队列或 EMA)稳定估算真实与生成分布的均值、协方差,保证FD计算准确;梯度只回传当前小批量数据,不增加训练算力负担。 研究者设计了两种工程实现。 第一种叫队列法(Queue)。 这种方法维护一个超大特征队列(比如5万条),每次生成新batch就enqueue,同时把最老的batch踢出去。 算FD时,用整个队列的均值和协方差;反向传播时,只给当前这1024条特征开梯度流,历史特征不参与梯度回传,保证统计稳健性的同时不增加训练开销。 第二种叫EMA法。 这种方法干脆不存储任何特征数据,仅通过指数移动平均实时更新生成样本特征的一阶矩与二阶矩,每一步使用当前批次的统计量平滑更新全局均值与协方差估计,梯度同样只作用于当前批次。 这种方式无需占用大量显存,统计结果更平滑稳定,还能轻松适配多表征空间联合优化,在实验中表现更优,也成为论文默认的实现方案。 为了验证这套解耦机制是否真的有效,研究者在最小的pMF-B/16(118M)上做了两组消融实验。 (注:论文在实验中使用了明确的模型规模分级,其中B代表Base小模型,参数规模约89M到131M。) 第一组对比队列长度。 不用队列(N=0)时,FID反而从3.31劣化到3.84。 队列加到5万时,FID骤降至0.89;但狂堆到50万后,因历史特征严重stale,FDr6直接崩回17.67。 第二组对比EMA衰减率。 β=0.999时,FID刷到0.81,比队列版更优,且显著好于过短的0.9(0.98)和过长的0.9999(0.98)。 因此后续所有实验——无论pixel/latent空间、多步转单步、还是2.5B参数的文本模型——均默认采用EMA方案。 三个“反常识”的实验发现 新提出的FD-loss本质上是一个后训练的分布对齐目标。 研究者从已经训练好的生成器出发,只用FD-loss做轻量微调。 真实图像只在离线阶段出现一次——预先把训练集的均值和协方差算好存盘,之后模型再也不见真图,只对着自己生成的样本做自我修正。 这意味着它不需要修改原有架构,不需要从头训练,也不需要教师蒸馏或对抗学习,像插件一样直接嵌入现有流程。 而且无论像素空间还是隐空间、单步还是多步模型,都能即插即用。 有了这个轻量框架,研究团队才得以系统性地测试当FID真的变成损失函数,生成模型会发生什么。 FD-loss带来了三个重要的实验发现。 发现一,FD-loss让单步生成模型首次实现画质与速度的新高度。 研究者拿了一个已经训练好的单步生成器 pMF-H,直接上FD-loss微调100轮。 结果在ImageNet 256×256上,FID从2.29干到了0.77,同时依然保持 1-NFE(单步生成)。 这一分数大幅超越过往多步扩散模型的最好水平,打破了 “高质量必须多步、单步只能低画质” 的固有枷锁。 换句话说,推理成本一分钱没多花,画质直接跃升。 同样的操作放到latent-space的iMF-XL上,FID也从1.82压到0.76。 更关键的是,这种提升不是刷分。在论文图4的定性对比里,后训练的鹦鹉羽毛更分明,雪豹的斑点也更清晰。 发现二,FD-loss可以直接将成熟的多步扩散模型改造为高性能单步生成器。 研究者把原本训练来跑50步的多步模型JiT-L,强行拉到单步模式,也就是直接输入纯噪声,模型只跑一次,输出就当最终图像。 结果就是FID直接崩到291.59,画面糊成一锅粥。 然后,他们什么都不改,就用FD-loss继续微调这个的单步模式。 整个过程无需教师蒸馏,无需对抗训练,无需逐样本监督信号。 50轮后,FID从291骤降到 0.77,生成质量与原多步模型相当甚至更优,而且推理速度提升数十倍。 发现三,FID最低的,未必是最好的。 这也是该试验最具行业反思价值的一点。 当研究者把FD-loss放到不同的表征空间里优化时,事情变得诡异起来(惊恐.jpg)。 实验清晰表明,FID最低的模型,在人眼主观评价中并非最优。 基于Inception特征优化的模型能获得最低FID,却在物体结构、细节纹理、整体感知上弱于使用DINOv2、MAE、SigLIP等现代视觉表征训练的模型。 后者FID数值更高,但人眼看更锐利、物体结构更完整,视觉质量显著更优。 这说明长期被奉为金标准的FID可能会误导研究方向…… 团队提出新标准 那么,如果FID已经靠不住了,我们拿什么来相信生成模型的进步? 研究团队提出跨6种表征空间的归一化平均指标FDrk。 该指标通过对Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6种不同维度的表征空间计算归一化FD比值并取平均,得到综合评估结果FDr6。 按照这一标准,真实验证集的基准值为1.0,而当前最强生成模型的FDr6仍高达1.89,直观揭示 ImageNet生成任务远未被解决。 此外,在人类盲选偏好实验中,即便最优的pMF-H模型,得票率也只有37.4%,真实图片依旧以62.6%的胜率占优。 值得一提的是,FD‑loss具备极低的使用门槛与极强的泛化能力,可作为轻量化后训练插件直接嵌入现有训练流程,无需从零搭建模型,也不依赖复杂的训练策略与工程调优。 该方法同时兼容像素空间与隐空间生成模型,适配单步生成器与多步扩散模型,支持类别条件生成与文生图等多种任务模式。 在整个优化过程中,FD‑loss无需修改原有主干网络结构,不引入复杂的架构改动和从头训练的巨大开销,依托队列或EMA统计更新即可稳定收敛,具备优秀的复现性与落地可行性。 凭借简洁通用的设计,它大幅降低了高质量极速生成模型的工程实现门槛,让各类生成架构都能快速获得显著的质量提升。 低成本、高回报,这正是FD-loss之于工业界的诱惑力所在。 团队介绍 公开信息显示,五位作者全部是华人背景。 一作Jiawei Yang,USC计算机系博士生,师从Yue Wang教授,目前的研究聚焦于以视觉为中心的多模态模型的统一生成与理解。 他硕士毕业于UCLA,曾获NVIDIA Graduate Fellowship。 Zhengyang Geng本科毕业于四川大学计算金融专业,现为CMU计算机科学博士生,导师为Zico Kolter。 他长期专注单步生成、动态系统与模型高效化,是MeanFlow、pMF等系列工作核心作者。 他的个人主页写道“与Kaiming He有紧密合作”,两人曾连续合作多篇单步生成领域核心论文。 Xuan Ju是香港中文大学博士生,师从徐强教授,主攻图像与视频生成、高效多模态模型。 她在ICCV、SIGGRAP 等顶会发表多篇成果。 Yonglong Tian博士毕业于MIT计算机科学专业,现为OpenAI研究员。 他是监督对比学习SupContrast等表征学习标志性工作的作者,曾任职于Google DeepMind。 通讯作者Yue Wang,USC助理教授,同时兼任英伟达研究科学家。 他本科毕业于浙江大学,硕士毕业于UCSD,博士毕业于MIT,研究横跨3D视觉、生成模型与机器人。
燃油车应加速禁售淘汰吗!李斌、何小鹏坚信纯电汽车是终局:增程混动只是过渡
快科技5月3日消息,小鹏汽车CEO何小鹏与蔚来汽车CEO李斌近期就新能源汽车的未来趋势表达了明确观点。 两位造车新势力的领军人物在公开对话中一致认为,纯电动汽车才是行业的终极形态。 何小鹏强调,纯电驱动无疑是代表未来的核心方向。 虽然当前市场上混动和增程等动力形式表现活跃,但在他看来,这些技术本质上都是向纯电时代跨越过程中的过渡方案。 李斌则从战略布局的角度审视了这一演变。他认为虽然在不同的时间点和区域,市场会选择合适的能源形式,但蔚来从品牌创立之初就锁定了纯电这条终极路径,坚持以终为始的思考方式。 在谈到对彼此创业十年的评价时,两位好友展现了惺惺相惜的一面。 李斌评价小鹏是一个实事求是的人,在经营中从来不会自欺欺人,这种性格让小鹏汽车在经历每次低谷后都能变得更加强大。 何小鹏则对李斌将用户体验做到极致的精神表示钦佩,并认可其在高端市场的长期专注。随后他话锋一转,幽默地调侃李斌花钱太厉害,这一直率的吐槽引发了全场大笑。 在轻松的氛围过后,何小鹏认真地补充道,他在过去一年中看到了蔚来发生的巨大变化。 他认为一家规模如此庞大的企业能够保持如此快速的变革节奏,确实令人感到欣慰和钦佩。 在这之前还有不少企业大佬曾喊话,应该加快禁售燃油车,让新能源车在全球加速推广。
高自由度人形机器人KaiBot发布:115个自由度 搭载全身触觉皮肤系统
快科技5月3日消息,据媒体报道,深圳南山具身智能公司超维动力正式发布首款全尺寸人形机器人“KAI”。 为了让机器人“理解世界”,超维动力构建了可预测环境变化的世界模型系统;为让机器人“学习世界”,公司自研了轻量化头戴式数采终端“KAI Halo”,以第一人称视角采集人类在真实场景中的动作与视觉数据,为机器人注入“人类经验”。通过三阶段训练体系,这些经验将被转化为可执行的技能。 拥有数据和大脑之后,还需要一具能够承载这些能力的身体。这便是高拟人机器人本体“KaiBot”,KaiBot身高173厘米,体重70公斤,头身比约为1:8.5,整体体型与质量分配接近成年人类。 KaiBot具备115个自由度,接近人体的全身运动空间。其单手配备36个自由度的灵巧手,包含22个主控自由度和14个柔顺自由度,不仅能完成抓握、捏取等精细操作,也能缓冲碰撞,带来更安全、更自然的交互体验。 此外,KaiBot搭载了全身触觉皮肤系统,拥有18000个触点;动力方面配备1.7千瓦时半固态电池,可支持约3小时的双臂操作任务。 值得一提的是,其定制化柔顺执行器不仅使机器人具备更接近人体的运动柔顺性,还实现了接近20公斤的双臂负载能力。
OpenAI复活了QQ宠物,网友直接玩疯,把奥特曼和他死对头都养在了电脑里
谁不想在自己的电脑上养一只小宠物,打开电脑,它就坐在那里看着你工作。 OpenAI 最近在 Codex 上的更新,引入了类似电子宠物 Tamagotchi 的桌面悬浮伴侣。 我们可以在摸鱼的时候,把鼠标悬浮到小宠物上逗它,还能拖着它在屏幕的各个位置游走;而在工作的时候,这只悬浮宠物还会实时显示 Codex 的工作状态。 和之前 Anthropic 在 Claude Code 终端里推出的像素宠物不太一样,Codex 的这只会全局地在我们的电脑上呈现。无论切换到哪个 App,它都在那个角落。 以前是人与人的聊天软件里,像是 QQ,需要一个 QQ 宠物从桌面右下角蹦出来,给它取一个名字,建立情感的联系,而它会告诉我们消息来了。 现在这件事,来到了人与 AI 的故事里。 从微软大眼夹到 Mac 访达笑脸,万物皆可宠物化 Codex 官方内置了 8 款像素风的基础宠物,包括默认原始的经典 Codex 形象,还有一只整洁的小鸭子 Dewey、适合快速迭代项目的火球 Fireball,以及一只小小的蓝屏捣蛋鬼 BAOD(Blue Screen of Death) 等。 我们可以在 Codex 设置>外观 最下面的宠物部分找到配置的相关信息。 ▲Codex:最初的 Codex 伙伴。|Dewey:一只整洁的小鸭,适合平静工作的日子。|Fireball:热路径能量,适合快速迭代。|Rocky:当 diff 变得很大时,它是一块稳稳的石头。|Seedy:为新想法冒出的小绿芽。|Stacky:一个平衡的堆叠,适合深度工作。|BSOD:一只小小的蓝屏捣蛋鬼。|Null Signal:来自虚空的安静信号。 但真正有意思的是,Codex 的自定义宠物功能。 通过使用 Codex 自带的 /hatch 指令,我们可以上传任何图片,Codex 会自动把它孵化成一个动画宠物,并保存在本地文件夹中,方便我们打包分享给其他人。 使用 /hatch 指令之前,我们还需要输入命名 $Skill Installer hatch-pet 来安装自定义宠物的 Skill。它会自动从 OpenAI 的官方 GitHub 仓库里面,下载对应的 Skill 文档。 ▲Skill 文档链接:https://github.com/openai/skills/tree/main/skills/.curated/hatch-pet 准备就绪,我们使用 hatch pet Skill 输入 $hatch-pet 做一个 labubu 的桌面宠物。 Codex 会自动按照 Skill 里的流程,先生成一张主图,根据这张主图再生成 idle、running-right、running-left、waving、jumping、failed、waiting、running、review 等多种不同状态图片。 每一种状态,Codex 都会生成 4-8 帧的图片。 等待它生成全部状态的图片,合成为动画,我们就能得到一个自定义的桌面电子宠物。 社交网络和开发者社区也利用这一功能,创作了大量能提升 vibe coding 幸福感的桌面宠物。 像是恶搞 Anthropic CEO,做了一个愤怒的达里奥,还有奥特曼,「一个有趣的像素风格 Sama 灵感宠物,带着焦虑的斜视眼睛,头上戴着太阳镜,穿着灰色T恤和牛仔裤,散发出混乱会议室的能量。」 ▲Codex 宠物大全,PetShare 平台:https://codex-pet-share.pages.dev/ 一些怀旧党立刻复刻了微软经典的大眼夹(Clippy),那个在我们新建文件、打开文件夹,都会跳出来,多两句嘴的桌面宠物,用 Codex 获得了新生。 苹果粉丝,就用 Codex 这套 Skill 做了一个相当生动的 Mac Finder(访达)笑脸小人 Lil Finder Guy,让它悬浮在程序坞上方,仿佛系统原生的一部分。 甚至还有人做出了乔布斯版本的宠物,以及像是 DeepSeek 的那只鲸鱼等。 ▲另一个宠物社区,Petdex:https://petdex.crafter.run/ ▲ 来源:https://x.com/GOROman/status/2050343893921923145 在极短的时间内,PetShare 和 PetDex 这样的社区驱动型宠物图鉴网站,如雨后春笋般涌现。 多邻国的那只猫头鹰、经典动漫角色龙珠里的悟空、神探福尔摩斯、旅行青蛙、哈利波特、哆啦 A 梦等等,都成了 Codex 的热门宠物选择。 ▲电影《拯救计划》里的 Rocky 为了给这波热潮添把火,OpenAI 甚至官方下场举办了比赛:只要你生成的宠物被官方选入「最喜爱的 Top 10」,就能获得 30 天的 ChatGPT Pro(200 美元/月)奖励。 我们也在 Codex 里生成了一些小宠物,都是通过简单的两三个字的提示词。像是「做一个原神里旅行者荧的桌面宠物」,不过需要注意的是,生成自定义宠物需要的时间较长,同时消耗的额度也比较大。 ▲ 在生成第二个桌面宠物时,直接提示 5 小时内额度用完了。 更多 Codex 桌面宠物案例: PetShare: https://codex-pet-share.pages.dev/#/?sort=popular PetDex: https://petdex.crafter.run/ 电子宠物是 AI 的灵动岛 把这些自定义的宠物放到 Codex 里面也非常简单,可以直接下载文件压缩包,复制到对应的文件夹,然后在设置里进行选择。 直接在 Codex 中输入简单的 /pet 指令,我们的桌面上也能快速召唤出一个活蹦乱跳的电子宠物。 这个电子宠物,除了可爱,还确实有一点用处。 它不写代码,不 debug,唯一的工作是偶尔弹出对话气泡,告诉我们 Codex 正在后台做什么——「思考中」「任务完成」「需要你来决定一件事」。 任务完成了,点它一下,直接回复,继续。 ▲ 一边刷 X,一边提醒我 Codex 进度 以往我们无论是用 Claude Code、OpenClaw,还是就在 DeepSeek 里面聊天,把一个任务交给他们,总是时不时需要切回对应的窗口,看看它是不是卡住了,是不是还在思考。 现在,这只悬浮在屏幕最顶层的宠物,会通过气泡和动作告诉我们 Codex 的后台状态。 基于生成的多种状态,这只桌面宠物,如果开始在挠头了,就说明它正在「思考」;它弹出气泡,就说明它完成了任务,或者需要我们提供进一步的输入。 更有意思的是,如果我们在它发消息时点击它,就可以直接开启一条回复 AI Agent 的双向通道。它就像是 macOS 桌面上的一个跨应用灵动岛,让我们在专注当前工作流的同时,对 AI 的进度了如指掌。 一直在更新的 Codex 电子宠物的功能在社交媒体上给 Codex 带来了又一波的好评,网友们都在说,这也太可爱了,情绪价值非常到位。 看着自己喜欢的小宠物在桌面上跳动,要比看着进度条转圈要心情好上不少。 但 Codex 这次在更新桌面宠物的同时,还悄悄放了两个新功能。 Codex 现在能够自动检测我们的电脑上,是否有其他 AI 编程工具,比如 Claude Code 留下的配置文件。 一旦检测到类似如 CLAUDE.md 的文档,它会主动建议并一键导入所有的插件、项目约定和自定义规则。 如果你也是为了避开不同平台的使用频率限制,让在多个 AI 之间反复横跳,这项更新降低了一定的切换成本。 另一项更新是在 Codex 内新增了「听写词典」,允许我们预先录入个人的常用缩略语和短语。 对于习惯用语音让 AI 写代码的用户来说,专有名词和缩写经常会被错误识别,导致反复修改。现在通过添加对应的条目,可以让减少我们纠错的麻烦。 OpenAI 也开始用最频繁的更新,把用户留在自己的生态里。 配置文件的跨端迁移、更懂用户的语音工具,加上那些在屏幕上挥手、打盹、偶尔还会抖动一下的悬浮宠物…… 奥特曼在 X 发文说,感觉 Codex 正在经历 ChatGPT 时刻。 虽然事后奥特曼解释是 Goblin 时刻,但是 Codex 这接二连三的更新,也能看到 Codex 确实正在向一个更完整的、具备极高粘性的桌面「超级应用」进化。 在 AI 能力逐渐同质化的今天,产品的魅力和情绪价值,变得和代码生成能力一样重要。 就像那位做出 Lil Finder Guy 宠物的网友,分享了一段 AI 发给他的话,宠物用乔布斯的腔调说: 致敬那些小小的存在,那些悬在 Dock 上摇摇晃晃、时不时打个盹的小帮手,它们让工作变得轻一点。致敬 Codex 宠物。 好了,看着桌面上那个正冲我挥手的像素小怪物,我可能也得出门去溜达一圈了。
马斯克和阿莫迪,当桌宠还怪可爱嘞
多年后,那颗时代的眼泪——微软“大眼睛回形针”桌面助手——最想成为的样子,居然被OpenAI做出来了。 当地时间5月1日,Codex上线“桌面宠物”功能,还支持自定义宠物外观! 这下,网友纷纷分享自己制作的Codex宠物。 大多数都是可爱风格的桌面宠物,萌萌的柴犬、呆呆的地鼠、热心的瓦力等等。 但是整活的也不少,比如大火的“愤怒的阿莫迪”,创建之后,一个皱着眉头、撇着嘴的“阿莫迪”小人就出现在屏幕上,会蹲会跑还会掉眼泪。 当然,还有人制作“迷你马斯克”和“迷你奥特曼”宠物。 (强烈建议奥特曼安装,“愤怒的阿莫迪”和“迷你马斯克”轮番奔跑在屏幕上,这工作动力不得拉满。) Codex桌面宠物火到什么程度呢?不到24小时,已经有多个“宠物合集站”出现了。这些网站提供海量做好的宠物可以直接使用。 其实这并不算一个很大的新功能,但是OpenAI就是有这样一种能力——用奇妙的切入点,做未必最难但最出圈的事。正如苹果当年的灵动岛,人们一边说着“也还好吧”,一边垂直入坑。 01 Codex宠物 整活之风刮起来,实属OpenAI自己带的头。 在OpenAI官方X账号之一宣布该消息的时候,举的例子是“创建一个哥布林宠物”。登时,一个绿油油的小怪物就出现在桌面上。 这个梗来源于ChatGPT最近的一个执念。越来越多的用户发现,ChatGPT迷上了“Goblin(哥布林)”,经常在回答里偷偷加入“哥布林”。最后OpenAI都专门发布博文讨论这个问题,承认在GPT-5.1之后,模型愈发频繁地提到这个词。 OpenAI对背后原理的解释不知道多少人听进去了,反正大家很痴迷ChatGPT痴迷哥布林这件事。一个是现代最先进的AI模型之一,一个是奇幻作品中的狡猾小怪物,缘,真是妙不可言。 官方玩梗最“致命”,OpenAI太懂得如何将一个“差错”内化成模因,再用作宣传,一通操作丝滑无比。 不要误会,光靠整活是不能让这个功能迅速出圈的,Codex桌面宠物确实好用而且非常容易上手。 用户在Codex Composer中输入/pet即可一键唤醒或关闭宠物;也可进入设置→外观→宠物,从8款官方内置像素风宠物中选择(如Dewy小鸭、Fireball火球、BSOD蓝屏小怪等)。 自定义宠物也很灵活。用户可以先通过Skills安装hatch-pet skill,随后输入/hatch make me a cute goblin pet或/hatch a fluffy blue dragon等描述,Codex便会生成专属动画桌宠。宠物全局悬浮于桌面最上层,支持拖动、不遮挡其他窗口,且可与任意应用共存。 不同于单纯娱乐的桌宠,Codex宠物深度集成Agent系统。 它会根据当前任务状态动态变换动作:代码运行中“跑来跑去”、等待用户输入时“乖乖待机”、任务完成待review时跳出提醒、失败时也会卖萌示意。 开发者在多窗口切换时,余光即可掌握后台进度,大幅减少反复切回Codex的麻烦。这可以算是一个“杀手级小功能”。 02 只要还有屏幕,人类永远爱“桌面宠物” 看到Codex桌面宠物迅速出圈,相信任何一个互联网“老人儿”都会感慨万千——人类,就这样多少年如一日地爱“桌面宠物”“桌面助手”这样的存在。 先不说AI,就连只是记录点击次数、有社交功能、可以换皮肤的桌面宠物小游戏Bongocat,都在上线后短短一个月冲到了Steam热玩榜前十,同时在线峰值19.45万,日常常年保持10万+在线,玩家总数轻松破几百万。 但要说真正帮人“排忧解难”的桌面宠物助手,那个名字是绕不过的。 这次Codex桌面宠物功能上线,就有人迅速搓了一个“微软大眼回形针(下称Clippy)”的桌面宠物。就连OpenAI的官方开发者账号都来点赞。 由Codex桌面宠物到Clippy是一个再自然不过的联想。甚至有人感慨:这就是Clippy应该有的样子!它终于圆满了! Clippy是微软历史上最著名,也最具争议的桌面助手,诞生于1997年,是Office 97的亮眼功能,定位办公助手。它迅速走红,却也被迅速嫌弃。原因很简单,当时的技术还跟不上对Clippy的期待,Clippy频繁打断用户、给出的建议鸡肋,而且反应迟钝。《时代》杂志甚至将其评为“史上最差50项发明”,之后,Clippy就迅速地退出舞台。 但人们从未停止怀念Clippy。或者说,Clippy点燃了大家一个“桌面助手”的美梦,其后数年,人们都在努力达成它。 不管是后来以苹果Siri、亚马逊Alexa为代表的语音助手出现,还是微软短暂地尝试Cortana这样的虚拟助手,都会拿来和Clippy对照。 Siri推出的次年,TechCrunch在一篇批评文章中指出Siri的若干问题,并直接在标题中称《Siri是新的Clippy》 ChatGPT横空出世后也不例外。2023年,微软把GPT-4接入Office全家桶推出Microsoft 365 Copilot,外界立刻敏锐地感知到,这是Clippy的一次别样复活。 也是在那一年,还曾经有开发者FireCube把经典Clippy像素形象做成Windows应用,上架Microsoft Store,直接接GPT-3.5(用户输入OpenAI Key就能用)。 第三方软件Clippy by FireCube曾上架Windows应用商店。 当Agent开始流行后,开发者开始打造“智能状态监视器+AI伙伴”,Codex桌面宠物这种形态早已有很多类似的开源项目。 比如像素风多Agent兼容桌宠clawd-on-desk,同时支持Claude Code、Codex、Cursor、Copilot CLI等多种编码Agent。宠物会“看着”后台Agent工作,思考时皱眉,跑subagent的时候耍杂技,context压缩时扫地……用户不用反复切窗口。像素动画+实时状态同步,是目前兼容性最广的项目之一。开发者来自中国,在GitHub上已经有2K颗星星。 可以说,Codex桌面宠物并非创新,也并不高深,但它精准地踩在了人们的需求上,而这种需求,是感性与理性参半的。 03 OpenAI要干啥? 人类对桌面宠物永恒的爱是感性,我们也来说说Codex桌面宠物满足的真实需求。 Codex宠物并不只是“卖萌”,它确实踩中了Agent产品里一个很现实的痛点:等待。 传统软件里,用户点击按钮,软件立刻给出反馈。哪怕只是一个加载圈、一个进度条、一个“正在处理”的提示,也能让人知道系统正在“努力干活”。 但Agent不一样。你把一个任务交给Codex,它可能要在后台读代码、改代码、跑测试、修bug。中间这段时间,用户体验常常是空白的。你不知道它现在是不是已经卡在哪里了,也不知道它到底是在认真工作呢,还是已经在悄悄摆烂、偷偷摸鱼。 这也是很多异步Agent产品共同面对的问题,它们越像一个“替你干活的人”,就越不能像传统工具那样完全沉默。 因为沉默会制造不确定感。 Codex宠物在这里的作用,就有点像一个更可爱的状态指示器。 它跑来跑去,不是为了真的提升代码能力;它待机、提醒、失败时做出反应,也不是为了证明它比进度条更高级。它让用户在视觉上感觉到后台那个Agent还在干活,任务还在进行。 这件事听起来很小,但对Agent产品来说并不小。 如果未来的软件越来越多地从“我操作它”变成“我委托它”,那么用户和软件之间的关系也会改变。人不再只是等待一个按钮响应,而是在等待一个代理完成任务。这个过程中,状态感、陪伴感、可预期感,都会变成产品体验的一部分。 当然,这只是比较善意的理解。 另一个角度是,将桌面宠物做得如此可爱、支持高度自定义,也暴露了OpenAI另一层更现实的商业考量。 在编码Agent赛道,GitHub Copilot、Cursor、Claude等对手主要靠技术能力和工作流集成竞争,而OpenAI这次选择了一条更“消费级”的路径——用低成本的游戏化机制提升用户黏性。 宠物创造了一个“即使没有具体任务也要打开Codex”的理由:它像电子宠物一样,始终在那里等你、回应你、让你产生情感联结。这种设计能有效拉高日活跃用户数,却也足以让部分开发者感到隐隐不安:在开发者工具这个本该“工具性、透明性”的领域,引入情感操纵机制,是否改变了用户与工具之间的隐含契约? 从Clippy的“时代眼泪”到Codex的“AI桌宠”,微软近三十年前没能圆的梦,OpenAI却用一个看似不起眼的小功能完成了闭环。 它提醒我们,AI工具的下一阶段竞争,将模糊“专业工具”和“消费应用”之间的边界。
AI大模型的“中文税”:中文比英文更费Token,为什么?
作者|汤一涛 编辑|靖宇 Opus 4.7 刚发布那几天,X 上怨声载道。有人说一次对话就把她的 session 额度用光了,有人说同一段代码跑完的成本比上周翻了一倍多;还有人晒出自己 200 美元 Max 订阅不到两小时就触顶的截图。 独立开发者 BridgeMind 承认 Claude 是世界上最好的模型,但同时也是最贵的模型。他的 Max 订阅用不到两小时就限额了,但幸好——他买了两份。|图片来源:X@bridgemindai Anthropic 官方价格没变,每百万输入 token 仍是 5 美元,输出 25 美元。但这个版本引入了新 tokenizer,同时 Claude Code 把默认 effort 从 high 提到了 xhigh。两件事叠加,同一份工作消耗的 token 变成了以前的 2 到 2.7 倍。 我在这些讨论里看到两个和中文有关的说法。一个是:中文在新 tokenizer 下几乎没涨,中文用户躲过了这次涨价。另一个更有意思:古文比现代汉语还省 token,用文言文跟 AI 对话可以节省成本。 第一个说法暗示 Claude 对中文做了某种优化,但 Anthropic 的发布文档里,没提过任何和中文相关的调整。 第二个说法则更难解释。古文对人类读者来说显然比现代汉语难懂,一个对人类更复杂的文本,怎么会对 AI 更容易? 于是我做了一次测试,用 22 段平行文本(包含商业新闻、技术文档、古文、日常对话等类型),同时送进 5 个 tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),读取每段文本在每个模型下的 token 数,做横向对比。 测试文本: 1、日常对话中英文(旅行、论坛求助、写作请求) 2、技术文档中英文(python 文档、Anthropic 文档) 3、新闻中英文(NYT 时政新闻、NYT 商业新闻、苹果公司官方声明) 4、文学选段中英古汉语(《出师表》《道德经》) 测完之后,两个说法都得到了部分验证,但事实会比传言更复杂一些。 01 中文税 先说结论: 1、在 Claude 和 GPT 上,中文一直比英文贵 2、在 Qwen 和 DeepSeek 上,中文反而比英文便宜 3、Opus 4.7 这次引发震荡的 tokenizer 升级,通胀几乎只发生在英文上,中文纹丝不动 看具体数字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一个 tokenizer。在这个 tokenizer 下,中文的 token 消耗全线高于等量英文内容,cn/en 比值范围在 1.11× 到 1.64× 之间。 最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token,等于多付 64% 的钱。 Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量显著高于其它模型(红框) 最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token(绿框) GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多数落在 1.0 到 1.35× 之间,部分场景低于 1。中文仍然整体偏贵,但差距比 Claude 小得多。 国产模型 Qwen 3.6 和 DeepSeek-V3 的数据则完全反了过来。两者的 cn/en 比值大面积低于 1,这意味着同样的内容,中文版反而比英文版省 token。DeepSeek 最低做到了 0.65×,同一段话中文版比英文版便宜三分之一。 Opus 4.7 的新 tokenizer 通胀几乎只发生在英文上。英文 token 数膨胀了 1.24× 到 1.63×,中文大量维持在 1.000×,几乎没有变化。开头那些英文开发者的账单震荡,中文用户确实没感受到。原因可能是中文在旧版上已经被切到了单字颗粒度,可拆分的空间极小。 Opus 4.7 对比 4.6,英文消耗的 token 更多了,中文反而没变 测试过程中我还注意到一件事。token 消耗的差异不只是账单问题,它直接影响工作空间的大小。同样 200k 上下文窗口,用旧版 Claude tokenizer 装中文资料,能塞进去的内容量比英文少 40% 到 70%。 同一类工作,比如让 AI 分析一份长文档或者是总结一组会议记录,中文用户能喂给模型的材料更少,模型能参考的上下文更短。结果就是付了更多的钱,但得到的是更小的工作空间。 四组数据放在一起看,一个问题自然浮出来: 为什么同一段内容换个语言,token 数就不一样?为什么 Claude 和 GPT 的中文贵,Qwen 和 DeepSeek 的中文反而便宜? 答案藏在上文多次提到的概念 tokenizer(分词器)上。 02 一个汉字,可以切成几块? 模型在读到任何文字之前,会通过 tokenizer 把输入切成一个个 token。你可以把 tokenizer 想象成 AI 的「积木切割机」。你输入一句话,它负责把这句话拆成一块块标准化的积木(也就是 token)。AI 模型不看文字,只认积木的编号。你用多少块积木,就付多少钱。 英文的切法比较符合直觉,比如「intelligence」大概率是一个 token,「information」也是一个 token,一个单词对应一个计费单位。 但中文到了这一步就出问题了。把同一句话「人工智能正在重塑全球的信息基础设施」分别送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出来的结果完全不同。 GPT-4 基本把每一个汉字都拆成了一个 token;Qwen 则会把词语识别成一个 token,例如「人工智能」这 4 个字在千问只算一个 token。 同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个。 为什么会切成这样?原因在一个叫 BPE(Byte Pair Encoding)的算法。 BPE 的工作方式,是统计训练语料里哪些字符组合出现频率最高,然后把高频组合合并成一个 token,纳入词表。 GPT-2 时代,训练语料的绝大多数是英文。英文字母组合(th、ing、tion)反复出现,很快就被合并成 token。中文字符在那个语料池里出现的频率太低,排不进词表,只能被当作原始字节来处理,一个汉字占 3 个字节,就变成了 3 个 token。 BPE 按训练语料中的字符频率决定合并。英文语料主导下,中文 UTF-8 字节无法合并为整字 后来 GPT-4 的 cl100k 词表扩大了,常用汉字开始被纳入,一个字通常缩到 1 到 2 个 token,但整体效率仍然不如英文。 到了 GPT-4o 的 o200k 词表,中文效率再进了一步。这也解释了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。 Qwen 和 DeepSeek 作为国产模型,从一开始就把大量常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token,效率直接翻倍甚至更多。 同一句话在不同 tokenizer 下的拆分结果示意图 这就是为什么它们的 cn/en 比值能低于 1,中文字均信息密度本来就高于英文单词,当 tokenizer 不再人为拆碎汉字,这个天然优势就显现出来了。 所以上一节那四组数据的差异,根源不在模型的能力,而在 tokenizer 的词表里,给中文留了多少位置。 Claude 和早期 GPT 的词表是以英文为默认值构建的,中文是后来被「塞进去」的;Qwen 和 DeepSeek 的词表从设计之初就把中文当作默认语言对待。这个起点的差异,一路传导到 token 数、账单、上下文窗口大小。 03 古文真的更便宜吗? 再看开头的第二个传言:古文比现代汉语更省 token。 数据确认了这个说法。在测试里,古文样本的 cn/en 比值全线低于 1,在所有五个 tokenizer 上都一致。同一段内容的古文版本,token 数比对应英文翻译还少。 在所有模型中,古文消耗的 token 数不但比现代中文少,甚至比英文还少 原因也不复杂,古文用字极度精炼。「学而不思则罔,思而不学则殆」是 12 个字。翻译成现代汉语就是「只是学习而不思考就会迷惑,只是思考而不学习就会陷入困境」,字数直接翻倍,token 数自然也跟着翻倍。 而且古文的常用字(之、也、者、而、不)都是高频字符,在任何 tokenizer 的词表里都有独立位置,不会被拆成字节。所以古文在编码层面确实是高效的。 但这里藏着一个陷阱。 古文的 token 省在编码端,但模型的推理负担没有减轻。「罔」一个字,模型需要判断它在这个语境里是「迷惑」「被蒙蔽」还是「没有」。现代汉语可以用 26 个字把这层意思说清楚,用古文等于把铺开的部分压了回去,把推理的活留给了模型。打个比方,一份压缩成 zip 的文件体积更小,但解压它需要更多计算。 token 省了,推理的消耗反而上升了,理解准确度还下降了。这笔账算不过来。 古文这个例子让我意识到,token 数量本身不能说明太多问题。但顺着这个方向想下去,还有一层我之前忽略了的东西。 上面说过,GPT-2 时代的 tokenizer 会把「人」这个字拆成三个 UTF-8 字节 token,后来 GPT-4 的词表扩大,常用汉字变成了一个字一个 token,Qwen 更进一步,把「人工智能」四个字合成一个 token。 直觉上这是一个不断改进的过程:合并得越多,效率越高,模型应该也理解得越好。 但真的是这样吗?我们不妨回忆一下,我们是如何认识汉字的。 汉字是表意文字,现代汉字里超过 80% 是形声字,由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体有关,「木」旁的字多和植物有关,「火」旁的字多和热量有关。偏旁部首就是人类识字时最基础的语义线索,一个不认识「焱」字的人,看到 3 个「火」也能猜到它和火有关。 因为偏旁部首是人类识字时最基础的语义线索,人会先从结构推断意义范畴,再结合语境理解具体含义。 火花、火焰、光焰,书面语与人名中多见,寓意光明、炽热。 但是在 tokenizer 的词表里,「焱」这个字对应的是一个编号。我们假设它是 38721 号,它代表的是词表里的一个索引位置,模型通过它查找到一组数字向量,用这组向量来表征「焱」这个字。 编号本身不携带任何关于这个字内部结构的信息。38721 和 38722 的关系,对模型来说和 1 和 10000 的关系没有区别。于是,「汉字的结构」这一层信息,就被封装起来了。三个「火」叠在一起这件事,在编号里不存在。 模型当然可以通过大量训练数据间接学到「焱」「炎」「灼」经常出现在相似的语境里,但这条路比直接利用偏旁信息要更间接一些。 所以模型能不能从拆开的字节里,「看到」某些类似偏旁的结构线索,然后在后续的计算层里重新组合呢?这条路虽然 token 数多、成本高,但有没有可能在语义理解上,反而比直接吞下一个不透明的编号更有效? 2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了这个问题。 04 碎片里长出偏旁 论文作者 David Haslett 注意到一个历史巧合。 1990 年代,Unicode 联盟在给汉字分配 UTF-8 编码时,排列顺序是按部首归类排的。同一个部首下的汉字,UTF-8 编码是相邻的。「茶」和「茎」都含有「艹」部(草字头),它们的 UTF-8 字节序列以相同的字节开头。「河」和「海」都含有「氵」部,字节序列同样共享开头。 UTF-8 按照部分部首顺序给中文排序,部首相同的字,编码相近|图片来源:Github 这意味着,当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时候,共享部首的汉字会共享第一个 token。模型在训练过程中反复看到这些共享的字节模式,有可能从中学到「第一个 token 相同的字,往往属于同一个意义范畴」。这在功能上就接近于人类通过偏旁判断语义的过程。 Haslett 设计了三个实验来验证这件事。 第一个实验询问 GPT-4、GPT-4o 和 Llama 3:「茶」和「茎」是否含有相同的语义部首? 第二个实验让模型给两个汉字的语义相似度评分。 第三个实验让模型做「找出不同类」的排除任务。 每个实验都控制了两个变量:两个汉字是否真的共享部首、两个汉字在 tokenizer 下是否共享第一个 token。这个 2×2 的设计,让她能分离出部首效应和 token 效应各自的影响。 三个实验的结论一致:当汉字被切成多个 token 时(比如 GPT-4 的旧 tokenizer 下,89% 的汉字被切成了多 token),模型识别共享部首的准确率更高;当汉字被编码为单个 token 时(GPT-4o 的新 tokenizer 下,只有 57% 的汉字还是多 token),准确率下降了。 换句话说,上一段的那个猜想成立了。把汉字切碎,成本确实更高,但切碎后的字节序列里保留了部首的痕迹,模型真的从中学到了一些东西。而把汉字编码为整字 token,成本降下来了,但部首信息被封装在一个不透明的编号里,模型无法再通过字节序列获取这一线索。 需要特别说明的是,这一结论仅局限于字形相关的细分语义任务,不能等同于模型整体的中文理解、逻辑推理、长文本生成能力下降。同时,实验对比的 GPT-4 与 GPT-4o,除了分词器差异外,模型架构、训练语料、参数量均有显著变化,无法将准确率变化 100% 归因于分词粒度的调整。 这个发现还得到了工程侧的验证。2024 年一项针对 GPT-4o 的研究发现,GPT-4o 的新 tokenizer 把某些中文字符组合合成了一个长 token 之后,模型反而出现了理解错误。当研究者用专业的中文分词器,把这些长 token 重新拆开再喂给模型,理解准确度恢复了。 目前全球大模型行业的主流共识,依然是针对目标语言优化的整词 / 整字分词器,能显著提升模型的整体性能。整字 / 整词编码不仅能大幅降低 token 成本、提升上下文窗口的有效信息量,还能缩短序列长度、降低推理延迟、提升长文本处理的稳定性。论文中发现的细分任务优势,无法覆盖绝大多数中文 NLP 场景的性能收益。 但这件事依然戳中了大型系统里最难处理的一类问题:你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。Unicode 联盟按部首排列编码,是为了人类检索的方便。BPE 把汉字拆成字节,是因为中文在语料里的频率太低。两个不相关的工程决策碰巧叠在一起,产生了一条谁都没规划过的语义通道。 然后,当新一代工程师「改进」tokenizer、把汉字合并为整字 token 的时候,他们同时抹掉了一条自己不知道存在的路。效率提升了,成本降低了,某些东西也安静地消失了,而你甚至不会收到一条报错信息。 所以事情比「中文在 AI 里多付钱」这个判断更复杂。每一种 tokenizer 都在为某个默认值优化,代价藏在了别处。 05 林语堂 中文适配西方技术基础设施的代价,不是 AI 时代才开始付的。 2025 年 1 月,纽约居民 Nelson Felix 在 Facebook 一个打字机爱好者小组里发了几张照片。他在妻子祖父的遗物里发现了一台刻满中文的打字机,不知道是什么来历。很快数百条评论涌入。 Nelson Felix 的问题:明快打字机值钱吗?|图片来源:Facebook 斯坦福大学汉学家墨磊宁(Thomas S. Mullaney)看到照片后立刻认出来了,这是林语堂 1947 年发明的「明快打字机」的唯一原型机,失踪了将近 80 年。同年 4 月,Felix 夫妇将打字机卖给斯坦福大学图书馆。 明快打字机要解决的问题,和今天 tokenizer 面对的问题在结构上是同一个:怎么把中文高效地嵌入一套为西方语言设计的技术基础设施。 1940 年代的英文打字机有 26 个字母键,一键一字,简单直接。中文有几千个常用字,不可能一键一字。当时的中文打字机是一个巨大的字盘,排着几千个铅字,打字员用手逐个捡字,每分钟只能打十几个字。 1899年,美国传教士谢卫楼(Devello Z. Sheffield)所发明的中文打字机,是中文打字机最早的纪录|图片来源:Wikipedia 林语堂耗资 12 万美元研发经费,几乎倾家荡产,委托纽约的 Carl E. Krum 公司做出了一台只有 72 个键的中文打字机。工作原理是把汉字按字形结构拆开,上形键选字根上半部、下形键选字根下半部,候选字显示在一个叫「魔术眼」的小窗里,按数字键选中。每分钟 40 到 50 字,支持 8000 余常用字符。 (左)透明玻璃小窗即位「魔术眼」;(右)明快打字机内部结构|图片来源:Facebook 赵元任评价:「不论中国人还是美国人,只要稍加学习,便能熟悉这一键盘。我认为这就是我们所需要的打字机了。」 技术上明快打字机是一种突破,但商业上它失败了。 林语堂向雷明顿公司高管演示时机器出了故障,投资者随之失去兴趣,而造价高昂加上他个人资金链断裂,量产再无可能。1948 年,林语堂将原型机和商业权,卖给默根特勒铸排机公司(Mergenthaler Linotype)。该公司最终放弃量产,原型机在 1950 年代公司搬迁时被一位员工带回长岛家中,之后下落不明,直到 2025 年重见天日。 墨磊宁在《中文打字机》一书里有一个判断,他认为明快打字机「并不失败」。作为一款 1940 年代的产品,它确实失败了。但作为一种人机交互范式,它胜利了。 林语堂第一次把中文「打字」变成了「检索加选择」。三排按键组合定位字根,从候选字里挑选。这正是所有现代中文输入法的底层逻辑。从仓颉、五笔到搜狗拼音,都可以说是明快打字机的后裔。 《中文打字机》,作者:墨磊宁|图片来源:豆瓣 这台跨越了近八十年的打字机,和今天我们反复讨论的分词器,暗藏着某种的历史规律。中文始终面对着一个问题: 如何接入一套罗马字母形成的基础设施。 有趣的是,在这个寻找的过程中,充满了非人为规划的巧合。Unicode 联盟为了人类检索方便制定的排序,跟 BPE 算法的无心拆解叠在一起,竟然在神经网络的黑盒里,重现了人类识字的过程。而当工程师们为了消除「中文税」,主动把汉字拼好、把成本打下来时,那条意外诞生的语义通道也闭合了。 历史并不是一条直线进化的轨道,而是在各种约束条件的挤压下,不断发生变形的流体。 有些能力是设计出来的,有些只是碰巧没有被删掉。
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练
作者|樊雅婷 邮箱|fanyating@pingwest.com GPT Image 2 凭什么这么强? 是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据? 这些答案都对,但都不够。 以下是我们与多位从业者交流后,提炼出的几个值得关注的技术方向,并尝试做出更清晰的解释。 先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。 而这个LLM,极大可能是GPT-4o。 支撑这个推论的,首先是两条直接线索。 1. 模型自述 2. C2PA溯源验证 C2PA 是一种内容溯源标准,相当于给每张 AI 生成的图打上一个数字身份证。任何人拿到这张图,都能查到它是由 GPT Image 2 生成的、生成时间是什么、经过了哪些修改。 有专业人士在metadata2go.com上对image 2生成的图片进行元数据提取。发现在actions_software_agent_name一栏上记录着GPT-4o。 这也能理解为什么这次image 2的表现惊人了。 图片源于: 【深入调查:OAI最新图像模型底层是GPT-4o - 祈星函 | 小红书 - 你的生活兴趣社区】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share 单凭这两条当然不足以拆解全部秘密。但当我们带着“LLM 主导”的假定回头审视它的每一项能力跃迁时,这些变化,忽然有了统一的解释。 一、图像语义,从像素到token 1.1 过去两年,AI 生图领域有一条不成文的鄙视链:Midjourney 负责美学,Stable Diffusion 负责可控性,DALL·E 负责……嗯,负责被 OpenAI 发布。但不管你站哪一队,有一件事是所有人的共识——文字是 AI 的鬼门关。 你能让 AI 画出逆光下缅因猫毛发的半透明质感,却无法让它写对招牌上的“Coffee”六个字母。一个能理解顶级光影描述的模型,在文字上给出的结果仿佛楔形文字。这件事的荒诞与根源,就藏在扩散模型的工作原理里。 先说扩散模型为什么写不好字? 因为它的核心是一个从噪声中还原图像的“雕塑家”: 训练时,向清晰照片逐步撒噪声,直到变成纯电视雪花,模型学习逆向去噪。 生成时,从一片随机噪声开始,每步都靠 U-Net 预测并擦除噪声,几十步迭代后“雕”出毛发、虹膜和光影。 这个过程本质上在还原连续的、可以用概率无限逼近的纹理。毛发可以稍微硬一点或软一点,颜色可以偏暖 5%,无伤大雅。 但文字是离散符号,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能给它加 15% 的 B 和 8% 的 C 还指望它依然是 A。扩散模型的每一步去噪都是一个微小“估计”,用在纹理上是风格,用在文字上就是 O 变 0,或是拼出 WElcOm e。 最终就成了外行眼中的“楔形文字”。 不仅如此,扩散模型天然缺乏跨轮编辑的稳定一致性。你让它改一个局部,它本质上是整张图重新画一遍,没改动的地方也会悄悄漂移。 但GPT Image 2现在不仅能“写对字”,还能保持“有记忆”的一致性例如:你修改一个字之后,周围的文字会自动调整间距;当你把“咖啡”改成“红茶”,它不只是替换那个词,而是连带把杯子的颜色从深棕调成了琥珀色。 这说明文字在它的系统里不是图层标注,而是画面语义的一部分。文字内容的改动会像语言中的主语替换一样,连锁驱动画面其他元素的合理变化。 GPT Image 2 与其他模型对比图 1.2 它不再把图像当图像看,而是把图像当语言看。 这听起来像玄学,但其实是个很具体的工程选择。要理解这件事,得先搞明白一个概念:Tokenizer。 Tokenizer 的作用是把一种东西“翻译”成另一种东西。GPT 处理文字前,会先把“你好”这个词切碎编号,变成一个数字 ID,比如 [11892]。这是文本 token 化。 图像能不能也这么干?当然能。你把一张图切成 16×16 的网格,每个格子编个号,也是一种 token 化。但这种做法太笨重——一张 1024×1024 的图会变成几千个 token,LLM 还没开始画就先被淹死了。 所以过去两年,各家大模型公司在拼一件事:怎么把一张图压成尽量少的 token,同时还不丢关键信息。 这事有多难呢?想象你是一个情报员,要把《蒙娜丽莎》用一封电报发出去。电报局规定你最多只能发 256 个字。你怎么办?你不能说“一个女人在笑”,因为对方画不出来;你也不能逐个像素描述,因为字数不够。你必须发明一套只有你和对方懂的密语——“52号微笑、3号背景、17号手势”——对方收到后能八九不离十地还原出来。 这就是 OpenAI 在 tokenizer 上干的 事。从 CLIP 到 DALL·E 再到 GPT-4o,他们逐渐构建了一种能够在视觉与语言之间进行映射的语义表示体系。 这意味着:图像和文本被投影到了同一个对齐后的语义 embedding 空间。 现在在 LLM 眼里,“一只逆光的缅因猫”这行字,和一张逆光缅因猫的照片,是同一个语义空间里的两套坐标。它能像理解文字一样理解图像,也能像生成文字一样生成图像。 所以当你说“把第三行公司名改成团伙名”,它不是在修图软件里找那个图层,而是在改写一段描述这个画面的密文。改完后,解码器再把密文翻译回像素。 这就是为什么文字突然能写对了。因为对 LLM 来说,写一个W和写一个我,没有任何本质区别——都是它在密语系统里调整几个 token 的事。 1.3 既然 GPT Image 2 很可能把图像变成了语义密文,那这串密文怎么变回一张能看的图? 如果直接把 token 映射成像素,画质必然一塌糊涂,这是自回归模型的通病:它极度擅长决定画什么,却不太擅长画得好看——就像建筑系教授徒手画效果图,空间关系全对,笔触就是不及美院学生。 而扩散模型正好相反,纹理光影以假乱真,却经常不知道自己在画啥。因此,一个高度自洽的推测浮现:让两款模型打配合。 自回归负责定调:根据你的 prompt 生成那几百个语义 token,敲定画面里有什么、它们的位置关系、整体构图逻辑。这一步决定了“听得懂”,也保证了多轮编辑时对修改对象的记忆与一致性。 扩散负责润色:拿到这串语义 token 后,不再负责理解内容,只负责填充高保真像素,把既定框架变成光影自然的成图。这一步决定了“画得好”。 这不是理论空想。Google 发过一篇叫 Transfusion 的论文,Meta 搞过 Chameleon,走的都是类似路线。 当然,这一切都是基于公开信息和模型表现的推断。 OpenAI 有没有在用?2026 年 4 月的媒体会上,OpenAI 拒绝回答任何关于模型架构的问题。拒绝本身就是一个信号。 如果这个假设成立,那就解释了一切——文字写对是因为自回归天然懂离散符号;多轮编辑一致是因为自回归记住了那一串 token;画质没崩是因为扩散在最后一关做了精细渲染。 二、数据飞轮,GPT-4o 自己教自己生图 2.1 但上文那个能把图像压成几百个 token 的“密语系统”,到底是怎么训出来的?为什么不是别的模型,偏偏是GPT-4o? 答案藏在一件看起来最没有技术含量的事里:数据标注。 在 AI 圈,数据标注长期处于鄙视链底端。研究员聊架构可以聊一晚上,聊数据标注三句话就冷场。但 GPT Image 2 这次的表现,甚至表明OpenAI 可能已经不需要人工标注了。 而GPT-4o 本身就是全世界最强的图像理解模型之一。你给它一张图,它能写出一段比真人标注师还细腻的描述。所以OpenAI 可以把过去几年积累的几十亿张图片,重新“过一遍水”——用 GPT-4o 生成新的、高维度的标注。 但到这里,只解决了“描述”的问题,没解决“筛选”的问题。一个模型生成一百张图,并不是每一张都值得拿来当下一轮训练的教材。这里需要一套严格的“质检”机制——在机器学习里,这叫拒绝采样。 具体来说就是,GPT-4o 先根据一段 prompt 生成一批图像,然后根据美学偏好、指令匹配度、物理合理性等多条标准,逐张打分。批到符合条件的才“收下”,连同它为自己撰写的详细解析,一起塞进下一轮训练集。批到不及格的就直接扔掉。这保证飞轮里的数据不是在低水平循环,而是在有选择地自我提纯。 上一代模型给下一代模型当老师,下一代模型再给下下代当老师。每转一圈,对世界的理解就深一层。 大家的差距也在这个过程中越来越大。这也解释了为什么Midjourney在画质上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉开代差。 当然,听上去像个永动机骗局——自己教自己,那不得越教越傻?学术界确实有这个担忧,管它叫模型崩溃:模型反复吃自己吐出来的东西,会逐渐丢失分布的尾部信息,生成结果越来越单一、越来越平庸。 但OpenAI在文本侧已经证明:只要老师模型足够强,并且配合拒绝采样这样的严格筛选机制,这事不但不会崩,还能加速,形成数据飞轮。 2.2 这个飞轮里还有一个重要且难搞的角色——RLHF 在图像侧的质检员。 我们在文本侧已经习惯了 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):给一段文字打分,判断它有用、有趣、符合人类偏好,这件事 GPT-4o 做得很好。 但在图像侧,难度骤升。因为质检员需要同时盯住三条线:美学偏好;指令遵循;安全过滤。 三条线的标准各不相同,甚至互相冲突。一道强光影可能很“好看”,但压暗了 prompt 里要求的某个细节,就会被“指令遵循”扣分。一层安全滤镜可能误伤正常的医学解剖图,又得回头调阈值。这种多维度权衡,在文本侧已经跑通,但在图像侧变得前所未有的复杂。 而 OpenAI 之所以能做成,很可能是因为他们把图像侧的问题全部拉回了自己最擅长的战场:语言理解。 美学偏好被转译成一段构图评语,指令遵循被转译成一组约束条件的核对清单,安全过滤被转译成一套规则判例。所有判断最终都落到了 LLM 的语义空间里。 可能这才是数据飞轮真正的底牌。不是数据多,而是从标注、筛选到打分,全链路都被统一到了一个理解框架里。拒绝采样负责海选淘汰,RLHF 负责精修调优,两者共享一套语义标准,飞轮才转得起来。 三、工程解法,兼顾推理速度和对话整合 3.1 到这里,我们聊的都是效果。接下来聊一个经常被刻意绕开的话题:推理速度。 先不说审美和一致性上的飞跃,且说一个看似矛盾的现象:生图质量跃升了一个代际,但速度并没有明显变慢。这本身就是一种工程奇迹——OpenAI 是怎么做到的? 自回归模型的运作方式是逐 token 生成——每个 token 都依赖上一个 token 的完成。扩散模型则不同,它可以在整张画布上并行去噪,一次处理所有像素。按理论推算,如果 GPT Image 2 确实用了自回归架构,它的推理延迟应该比纯扩散模型高出一个数量级。 但实际体验是:没有。 第一条线索:Token 压缩率可能远超预期。 如果一张 1024×1024 的图只需要 256 个 token 就能完整描述,对 Transformer 来说就是一次呼吸的事。这意味着 OpenAI 不仅做到了语义对齐,更在压缩率上做到了极致,把高信息密度浓缩到几行字的程度。 第二条线索:推理架构的深度优化。 混合架构中,自回归生成的是粗粒度的语义 token,决定“画什么”,不负责“画成什么样”。生成步骤大幅缩短,扩散模型只用在最后一小段“按图施工”,而不是从头噪到尾。 第三条线索:投机解码(Speculative Decoding)可能被用到了图像侧。 用一个更小的“草稿模型”快速生成候选 token,再由大模型一次性验证,这套 LLM 推理加速经典技巧如果用在图像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 时代已把这套玩熟,移植到图像侧没有原理障碍。 所以结论是:GPT Image 2 的快,不是因为扩散模型变快了,而是因为可能它把最慢的语义规划,从扩散模型手里抢了过来,交给了擅长快速推理的 LLM。 3.2 比速度更影响体验的,是与对话系统的整合。 在传统图像生成工具中,例如 Midjourney 或基于 Stable Diffusion 的工作流,用户通常通过编写 prompt 来控制输出结果。虽然这些工具已经支持诸如variations、inpainting和历史记录等功能,但整体流程仍然以“单次输入 → 单次输出”为主,用户需要通过多次尝试逐步逼近目标效果。 这种过程在实践中往往表现为反复试错: 用户根据结果调整 prompt,但模型对指令的理解程度并不完全透明,因此需要多轮迭代来校正偏差。 相比之下,集成在对话系统中的图像生成引入了连续上下文机制,改变了交互方式。 用户可以在多轮对话中逐步细化需求 模型能够利用对话历史理解“当前修改”对应的对象或属性 修改请求可以以更自然语言的形式表达,而不需要一次性写出完整 prompt 例如,在多轮交互中,用户可以先生成一个基础场景,再逐步提出局部修改(如颜色、位置、风格)。最后,模型基于上下文生成新的结果。 对话式交互还带来另一个优势:需求澄清能力clarification。将模糊的自然语言意图,逐步转化为更具体的生成条件,从而提高生成结果与用户预期之间的一致性。 结语 在 GPT Image 2 出现之前,AI 生图领域的讨论框架是这样的: “扩散模型的缩放定律还能走多远?” “DiT 架构和 UNet 架构谁更优?” “Flow Matching 会不会取代 DDPM?” “多模态对齐的损失函数怎么设计?” 这些问题都有价值,但它们共享一个隐含前提:图像生成是一个独立的、需要专门架构来解决的问题。 而GPT Image 2 给出的的回答是:不一定。 如果我们把镜头再拉远一点,GPT Image 2 的出现其实指向了一个更大的命题:世界模型。 让我们重新思考什么是生成,以及世界。
几千年都没考过这个?谷歌“最毒”AI考局,专测你在压力下怎么做人
编辑:元宇 大卫 谷歌最新实验Vantage,派AI假扮你的同事,按剧本跟你唱反调、搞情绪化施压。考的不是你知道什么,而是你在压力下怎么做人。 考试考了几千年,还从来没人考过这个。 SAT考你数学,GRE考你词汇,再往前看:科举考试考你的八股文…… 古今考试形式不同,但底层逻辑却很一致:考你知道什么。 但有一类能力,从来没有考试碰过:你跟人吵架时怎么办。 最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。 自动播放 Google Labs实验中的Vantage入口https://research.google.com/p/vantage 目前Vantage已经在Google Labs开放申请体验,现阶段主要支持英文。 Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。 它会把你扔进一个AI角色扮演的协作场景里,然后让你和一群AI角色组队完成任务。 其中会有一个agent跳出来,专门按剧本跟你唱反调,抛不合理要求,搞情绪化反应。 你在压力下做出的每一个回应,都会被另一个Agent基于评分量表进行分析,生成评分与反馈。 整个过程中,你所面对的是一个被AI精心操控的「职场修罗场」:它考的不是你背了多少东西,而是你在压力下怎么做人。 谷歌联合纽约大学做了188人验证,结果显示: AI评分与人类专家的一致性,跟专家与专家之间的一致性,处于同一水平。 这意味着,至少在「评判」这件事上,AI已经开始接近人类专家。 看来,考试这件事,以后可能要被重新定义了。 最值钱的能力,偏偏最难考 为什么软技能一直考不了? 这个事企业HR太清楚了:招人最怕的不是技术不行,而是进了团队才发现这人完全不会协作。 世界经济论坛2025年《Future of Jobs 2025》报告给了一组数据:到2030年,全球39%的核心职场技能将发生变化。 未来五年内,预计工人核心技能将发生改变与保持不变的占比演变https://www.weforum.org/publications/the-future-of-jobs-report-2025/ 在企业最看重的能力排名中,分析思维排第一,紧随其后的是韧性、灵活性、领导力与社会影响力,排在最前面的几乎全是「软技能」。 雇员最核心的技能中,排名靠前的包括分析思维、韧性、灵活性与敏捷性,以及领导力与社会影响力等。 AI时代,这些软技能仍然是最核心的技能。 问题是,怎么测? 传统标准化测试太僵硬了,题目难易捕捉人类思维过程和人际互动,跟真实场景隔着十万八千里。 基本上只能依靠两条。 第一条,自我汇报问卷。问你「你善于沟通吗」,人人都勾「是的」。 第二条,真人评估中心。请几个专业考官,设计情境,观察你一整天,最后给个评语。 靠谱是靠谱,但做一次往往价格不菲、耗时几天,评分还因为考官不同而漂移。 核心矛盾只有一条:软技能必须在互动中才能被观测,但标准化互动的成本太高,限制了它的实现和推广。 你不可能给每个学生配一个真人考官,让他们吵一架再打分。 所以几十年来,这一直是教育评估领域的一个老大难问题。 市场上也不是没人尝试。 HireVue用视频面试做AI情绪分析,Pymetrics用神经科学小游戏做性格测评,但它们都有一个共同局限: 候选人面对的,更多仍是被设计好的数字流程,而不是一个会跟你争论、会给你挖坑、会把互动不断推进下去的真实对手。 直到谷歌推出 Vantage,事情才开始变得不一样:它试图用多方AI角色协作生成情境,而且还把软技能测试的成本压到接近可规模化的水平。 Vantage的多智能体架构 Vantage不是一个AI在干活,而是一群AI在演戏,该系统的精巧之处在于架构设计。 它不是一个AI出题、你来答题的传统路子,而是搭了一个四层架构,每层都有AI各司其职,同时运转。 第一层,场景生成。 你输入一个软技能维度,比如「冲突解决」。系统不是随机编个故事,它先拿到评估量表,看清楚「什么表现算好、什么算差」,然后倒推出一个能区分好坏的具体情境。 第二层,角色扮演。 这是整个系统最有意思的部分:多个AI agent各领一个角色进入场景,跟真人被测者对话。 关键的地方来了:其中一个agent(Executive LLM)的任务就是「制造麻烦」。 谷歌研究人员提到,它的角色就是按剧本给你施压、抛出不合理要求、搞情绪化反应。 这不是随便聊聊天,而是有组织、有「预谋」的压力测试。 当然,这个agent也不是傻压,而是实时分析对话状态,动态调整施压策略。它就像一个自适应的考试引擎,确保考完之后该采集的证据都采集到了。 第三层,行为提取。 对话结束后,另一个agent上场,逐轮回看对话记录。 它不打分,只做一件事:把你的具体行为抽出来。 哪句话是在回避冲突,哪句是在主动倾听,哪句是在强行说服。 事实归事实,判断归判断,这两步被刻意分开了。 第四层,评分。 评分agent拿着量表和上一步提取出的行为证据,逐条对照打分。 每个分数必须指向具体对话片段作为依据,不允许凭印象给分。 这样四层解耦的好处很明显:场景可以换,角色可以换,评分标准可以换,但流水线本身不变,而且,模块化意味着可扩展。 今天测冲突解决,明天换个量表就能测项目管理,后天再换就能测谈判能力。 熟悉软件工程的人大概一眼就认出来了,这就是把微服务架构的思路,搬到了教育评估里。 188人实测 AI考官到底靠不靠谱 架构再漂亮,不实测都是空谈。 谷歌和NYU做了一次联合验证。他们找了188名美国测试者,年龄18-25岁,在Vantage中完成了冲突解决和项目管理两个维度的评估。 然后,NYU的人类评分专家用同一份rubric对同样的对话记录打分。 结果很有意思。 人类专家之间的一致性,Kappa值为0.45到0.64,也就是中等一致性。 专家彼此之间,以及大模型和专家之间,在对话评估上的一致性对比。 蓝色是专家与专家,红色是大模型与专家的一致性评估结果。柱子越高,代表看法越接近。 两个人类专家给同一段对话打分,经常打出不同的分数。 这不意外。 软技能评估本来就是主观判断密集的领域。 比如,一个人觉得候选人在冲突中表现出了「坚定但尊重」,另一个人可能觉得那叫「固执」。 而AI评分期跟人类专家之间的一致性呢?跟两个人类专家之间差不多,这意味着它的评分质量已经到了同一水平线上。 这听起来似乎没什么大不了,但在软技能评估这个领域里,这已经是一个了不起的基线。 更重要的是:人类专家一次只能评几个人,AI可以同时评几万人。 成本直接差了两个数量级。 这不只是考试 很多人第一反应是:这不就是个花哨的AI面试官吗。 过去几年,AI面试工具层出不穷,大多数最后沦为噱头。 但Vantage更像是一个基础设施层,目前谷歌已公开 Vantage 的技术报告与实验介绍,外界已经能比较清楚地看到它如何用评分量表驱动情境生成、角色互动与结果评估。 从方法上看,这套框架具备一定的可迁移性:在理论上,研究者或机构可以围绕不同软技能设计相应任务与量表,并据此搭建类似的评估流程。 比如,企业可以探索把它用于领导力或协作场景的训练与评估,教育机构也可以把它用于协作能力练习和反馈。 这让人想起教育评估领域长期讨论的「形成性评估」:不是期末一次定结果,而是在学习过程中持续测量、持续反馈、持续调整。 过去这件事之所以难以规模化,一个重要原因是高质量互动评估往往依赖真人考官,成本高、耗时长、标准化困难。 而像Vantage这类基于生成式AI的模拟评估系统,则让这件事第一次呈现出更强的可扩展性。 当「最难考的能力」变得可考 当然,必须说清楚Vantage目前的边界。 Google Labs博客中将其定义为研究实验,它目前更接近一个公开可体验的研究实验,而不是已经大规模落地的成熟应用。 188人的验证规模不算大,只明确覆盖了协作中的冲突解决和项目管理两个维度,跨文化场景没碰,长期技能成长追踪没做,模拟环境里的表现能不能迁移到真实的人际互动,也还是个问号。 谷歌自己也承认,下一步要研究的正是这些。但这不妨碍Vantage这项实验的潜力。 OECD早就把创造力、批判性思维列进了教育系统的核心讨论。所有人都知道软技能重要,但没人真正解决过怎么测、怎么大规模地测。 Vantage给出了一个可能的答案。 Google Research博客里提到了这样一句话:「在全球教育体系中,被测量的东西往往就是被教授的东西。」 这句话才是真正的炸弹。 如果软技能可以被量化评估,那学校教什么就会变。 现在学校考什么?知识、公式、标准答案。因为只有这些东西能标准化测量。 但如果有一天,协作力、冲突解决能力、创造力都能被精准打分了,课程设计的底层逻辑就会被改写。 企业招聘也一样。 今天的招聘流程看学历、看简历、看面试官的直觉。 如果AI可以在沉浸式模拟中直接观察一个人处理冲突的能力,并给出可量化的分数,面试这件事本身就会被重新定义。 个人成长也一样。 你的沟通能力、你的领导力,第一次有了可视化的进步曲线。 不再是「我觉得自己变强了」,而是「系统显示你的冲突解决得分从上个月的63提升到了71」。 这就是Vantage这个小实验背后的大故事:当「最难考的能力」变得可考,教育评估的边界就会被重新划定。 未来的考试 可能是让你跟AI吵一架 当AI能制造冲突、观察行为、提取证据、逐条打分,「考试」这个词的含义就永远变了。 它不再是你对着一张试卷独自奋斗,可能是你走进一个房间,面对一群不好对付的人,然后做你自己。 下一个被AI考的软技能会是什么? 也许是谈判,也许是共情,也许是你最不想被打分的那个东西。 当AI不仅能替代你的硬技能,还能给你的软技能精准打分的时候,你还觉得「情商」「协作力」是不需要认真对待的东西吗?
DeepSeek V4最大的遗憾
henry 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeekV4的技术报告里有mHC,有CSA,有HCA,有Muon,有FP4…… 唯独没有Engram。 Engram去哪了? 这个话题一度成为网友们讨论的热点。 Engram在今年1月由DeepSeek和北大联合开源,主要研究大模型的记忆与效率问题。 自挂上arXiv的那一刻起,圈子里围绕它的探讨就没有停止过… 不仅仅因为它是V4的前奏,而是有了Engram,「伦敦是英国首都」这种事实,模型不用动用整个深层网络去重新推一遍,直接查就行。 不仅省显存,还能释放深层网络容量,用于更高阶的推理。 正因如此,自1月初论文发表以来,所有人都觉得,Engram就是V4的架构地基,所有人都在盼。 以至于V4发表后,大家第一时间就是command+f去论文里找Engram,可惜并没有。 以至于不少网友甚至觉得,没有Engram,V4就是不完整的。 没有Engram,可能是DeepSeekV4最大的遗憾。 不过,Engram并没有消失。随后三篇值得注意的论文接力出现: CXL内存池化版本:把Engram放进多机共享的CXL内存池,解决大模型多机部署的存储问题。 无冲突热层实验:对Engram的多头哈希优化进行了实证检验,证伪了一些直觉式改进方案。 视觉Tiny Engram:AutoArk团队把文本Engram搬到视觉模态,扩展了它的应用边界。 所以,虽然V4没有Engram,但它的理念、探索和后续应用已经悄然铺开,为下一代模型打下基础。 Engram到底是什么 把时间倒回2026年1月12日。 那一天,DeepSeek联合北大放出了一篇33页的论文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾经署名过V3。最后一位作者,梁文锋。 先来一句话速通版,Engram是给Transformer加的一个原生知识查表模块。能查的别算,先查一下。 团队的核心观察是,语言建模其实包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种是检索静态知识。 之前的问题在于,Transformer把这两件事混在一起做。模型识别一个实体时,得消耗好几层注意力和前馈网络逐层拼凑特征。 论文里举了个例子,「Diana,Princess of Wales」。模型要走6层才能把这个识别完。 前几层还在纠结「Wales是英国的一个地区」、「Princess of Wales是某种头衔」这些中间状态,最后一层才反应过来这是戴安娜王妃。 这种「用昂贵的运行时计算重建一个静态查找表」的活,本来可以让深层网络去干更高阶的推理。 对此,Engram的思路相当直接,既然经典的N-gram模型就能用O(1)的时间复杂度捕获这些局部依赖,那干脆把这能力直接嵌进Transformer。 打个比方,就像你做数学题,该用的公式不必每次从头推一遍,翻表代进去就行。Transformer之前没这张表,只能每道题都从公理走起。Engram等于把这张表交到模型手里。 具体做法是,在Transformer的第2层和第15层之间各插入一个Engram模块。 每个位置的输入会触发一次哈希查找,把当前token和前面几个token组成的N-gram映射到一个巨大的嵌入表里,直接取出对应的向量。 门控机制保证查到的内容跟当前上下文不匹配时自动屏蔽。比如「张」是个常见姓氏,但「张仲景」三个字凑一起就是固定历史人物实体了,门控就负责认出这种区别。 Engram的定位是MoE之外的另一条稀疏轴。MoE是把计算稀疏化,只激活一部分专家。Engram是把存储稀疏化,只查一部分条目。两者互补,不冲突。 论文最核心的一段实验,是固定总参数和每token激活参数,然后让MoE专家和Engram记忆抢预算,得到一条U形曲线。 纯MoE不是最优解。把大约20%-25%的稀疏参数分给Engram,模型loss达到最低点。 按这个曲线指导,团队把Engram扩到27B验证。激活参数3.8B,训练262B tokens,严格跟MoE-27B基线对齐。 结果知识密集型任务的提升符合预期(MMLU +3.4,CMMLU +4.0),但通用推理和代码数学的提升超出预期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),长上下文场景更夸张,Multi-Query NIAH从84.2%跃升到97.0%。 那么,为什么记忆模块还能反过来提升推理? LogitLens和CKA给出了答案,Engram-27B第5层的表征,跟MoE基线第12层的表征最相似。 Engram把模型的早期层从「重建静态知识」这种苦力活里解放出来,这部分网络深度被腾出来做更复杂的推理。Engram不是新增了一块记忆,它还变相把网络加深了。 工程上。论文把一个1000亿参数的Engram表整个甩到host DRAM,在H800上跑推理,8B-Dense的吞吐损失只有2.8%。 靠的是Engram索引的确定性,只取决于输入token序列,完全可以提前算,CPU异步预取跟GPU计算重叠。 可以说,这个模块天生就不靠HBM,只可惜如今V4来了,Engram没来。 没在v4,但在其他地方 发明者把它放在那里没动,但路上还是有人。三个月里,至少出现了三个值得说一下的工作。 把Engram塞进CXL内存池 3月10日,北大、阿里云、山东英信、人大、港大联合发了一篇系统论文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。 他们没改Engram本身,而是回答了一个更工程的问题,如果Engram真的成了下一代标配,内存放哪。 答案是CXL内存池化。GPU HBM放计算权重,本地DRAM做二级缓存,CXL池做三级。8台服务器共享4TB内存池,XConn XC50256交换芯片做拓扑,512GB/s带宽。 整套集成进SGLang,做了预取-计算重叠,跑下来端到端吞吐损失小于5%。Engram论文里那句「1000亿嵌入表卸载DRAM」的轻描淡写,被他们做成了27B和40B两个规模的真实测试。 结论很清楚,Engram这种确定性寻址、可预取的负载,几乎是为CXL量身定做的。 一个反直觉的实验 Engram论文上线第十一天,1月23日,一个叫TaoLin的研究者,单作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。 他想验证一个看上去显然的优化,Engram用多头哈希查表会有冲突,如果把高频N-gram用Minimal Perfect Hash Function完全消除冲突,模型会不会更好。 他设计了Engram-Nine,把记忆分成无冲突的「热层」和保留多头哈希的「冷层」。 结果反直觉。在严格iso-parameter控制下,无冲突设计没有稳定提升验证loss。 route-stratified评估还发现,训练初期热路径(高频)loss更低,但训练后期冷路径反过来超过热路径。 一个看上去显然的优化方向,被一个真做实验的人证伪了。 把Engram推到视觉(AutoArk/TinyEngram) GitHub上一个叫AutoArk的团队搞了Tiny Engram。 基于Qwen-3完整复现文本Engram之后,他们做了一件论文里没做的事,把Engram搬到Stable Diffusion上。 视觉patch经过分层编码,底层抓纹理,中层抓部件,高层抓风格,然后整套丢进哈希查表。 跟LoRA比下来,达到同等效果,Engram需要的额外参数只有LoRA的15%到30%。连续注入多个新概念时,LoRA会出现明显的概念退化,Engram不会。 Engram原本是为文本设计的。AutoArk等于把这扇门撞开了,凡是能离散化、能哈希的模态,Engram都能搬。 三个月里,Engram这条路上,发明者最沉默,跟进者各自走了一步。 一个团队替它解决多机内存层级,一个独立研究者证伪了它一个看似显然的优化方向,一个开源团队把它推到了视觉。 而deepseek-ai/Engram这个仓库,最后一次提交还停在1月14日。 One more thing Engram论文的摘要结尾有一句话: 我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。 看来,这个下一代得是V5了,难不成会是V4.1?
库存克星再出手:苹果砍掉入门 Mac mini,早买到的又赚到了
昨天苹果官网悄悄下架了 256GB 入门款版本的 Mac mini。 现在,Mac mini 的起始配置为 16GB+ 512GB,相应的起售价格也来到 5999 元。 倒也别急着吐槽库克精准的「刀法」:在这个过于魔幻的 2026 年,连一向把全球供应链管得服服帖帖的苹果,这回也是真顶不住了。 在本周的财报会上,库克罕见地承认 Mac 系列也未能在严重的「供应受限」中幸免。他提到:Mac mini 和 Mac Studio 成了极其出色的「 AI 和智能体工具平台」,导致需求远超预期。 这台悄然下架入门款的 Mac mini,不过是第一张倒下的多米诺骨牌。在它身后,有一场正在席卷全行业、直接影响全球普通人的硬件危机。 科技圈给这场灾难起了一个极具好莱坞末日片气质的名字:「RAMageddon(内存末日)」。 卖爆的 Mac mini,AI 时代的硬通货 本周苹果披露了 2026 二季度季度财报,总营收达到 1112 亿美元,同比增长 17% ,其中 Mac 业务更是逆势大涨 6% ,达到 84 亿美元。同时,苹果的研发支出创下了 114 亿美元的历史新高。 Mac 系列,尤其是 Mac mini 之所以在这场席卷全球的内存短缺中被抢断了货,答案其实藏在苹果独步天下的「统一内存架构」(UMA)当中。 在传统的 x86 架构电脑上,处理器的内存和独立显卡的显存是两块物理隔离的区域。如果要在本地跑几百亿参数的大规模 AI 模型,数据必须在这两者之间来回搬运,效率严重受限。而且,昂贵的高端独立显卡通常也只给 16GB 或 24GB 显存,装不下太大的模型。 但 M 系列芯片让 CPU 和 GPU 共享整块高速内存池。这意味着,开发者可以直接调用 Mac mini 里的 16GB 甚至更高容量的 RAM 来全速加载推理大模型,相当于直接把它当做一块超大显存来用。 说白了,一台 Mac mini,在本地跑 AI 工作流的吞吐能力上,能越级单挑一些传统架构 PC。对开发者和极客来说,这简直就是 AI 时代的底层算力节点。并且伴随着「龙虾」(OpenClaw) 热潮的兴起,从年初开始用户就把 Mac mini 抢成了硬通货。 但上游的存储大厂们不干了。由于全球 AI 数据中心疯狂扩建,三星和 SK 海力士为满足 AI 订单将资本支出向 DRAM 倾斜,间接导致 NAND 领域投资缩减。 据产业链消息,三星等供应商直接向苹果开出了高达 100% 的存储采购涨价通牒。 苹果一算账,原本入门款就是走量交朋友的,现在闪存成本翻倍,砍掉利润微薄的 256GB 版本,强制将起步配置拉高到 512GB,也是为了用更高的起售价来消化这波暴涨的组件成本。 苹果可以这么做,也是因为自从库克加入苹果以来,一直在压低库存量。 库存量从按月计算已经压低到了不到一周。根据此前最准确的信息,在 2010 年代,苹果的库存周转周期压到了惊人的 5 天左右。 这当然得益于苹果开发了叫好又叫座的产品,但更体现了这家公司令人难以置信的库存管理能力。库克曾经在媒体访谈中提到,库存是一种「根本上邪恶」(fundamentally evil) 的东西,将其形容为牛奶:产品要趁新鲜卖掉,过了保质期就会成为问题。 也正因此,库克被形象地称为「库存克星」。 在任何时间点上,苹果的主要热销产品,只需要不到一周的时间就可以卖完所有的库存。沽清之后,苹果就可以轻松地下架 Mac mini 此前的入门款配置,然后迅速地升配、提价。 这个周期越短、速度越快,苹果在内存危机中的风险暴露越小。 Mac mini 入门款的下架宣告了一个残酷的现实:AI 硬件和非 AI 硬件的成本曲线,正式脱钩了。 只要你的设备需要大内存来支撑端侧 AI,或者哪怕你完全不用 AI,只要你需要用到存储芯片,你都得为这波算力通胀买单。 那么问题来了,晶圆厂天天在连轴转,怎么突然全地球的电子产品都在缺存储? 究其原因, AI 训练和推理需要极其庞大的硬件资源池。给英伟达 AI 芯片配套的高带宽内存( HBM ),从物理制造层面来看,造一块消耗的晶圆产能是普通民用内存的整整三倍,而且由于 3D 堆叠工艺复杂,良品率也更低。同时,大模型每天还需要海量的企业级大容量 SSD 来构建数据湖。 在商言商,在巨大的利润差异面前,晶圆厂必然优先将最先进的产能分配给愿意支付高额溢价的 AI 企业级客户。当类似 OpenAI 「星门」这种千亿美元级别的基建计划带着天价订单入场,每月直接锁定全球大量的 DRAM 晶圆产出时,留给普通 PC、智能手机和游戏机的生产线,自然就被大幅度压缩了。 正如 Gartner 的分析师直言:「现在如果你不是采购 AI 服务器相关组件的客户,在供应商那里的优先级会非常低。」 美光科技甚至用最决绝的姿态向消费市场说了再见。去年底,他们宣布逐步关停经营了近 30 年的著名消费级品牌 Crucial(英睿达),将所有资源重定向到企业级 AI 业务。这无疑也是在释放一个明确的信号:普通消费者在存储产业链上的话语权,正在被极度边缘化。 其次,今年 2 月底中东地缘冲突爆发,给本就吃紧的存储供给侧又来了一记重拳。全球三分之一的氦气产量集中在中东,而氦气在光刻机冷却、晶圆蚀刻、企业级硬盘充氦密封等环节都是不可替代品。偏偏韩国半导体产业对中东氦气的依赖度极高,三星和 SK 海力士首当其冲。 蚀刻工序的另一关键原料溴元素,处境同样尴尬。全球三分之二的供应集中在以色列与约旦,而韩国芯片厂 90% 的溴依赖以色列进口,前线战火一升级,供给命脉抖三抖。 大模型的账单,正在平摊给每个普通人 无论你需不需要 AI,大模型的进化成本,最终都已经分摊到了你的头上。这笔高昂的「硬件税」,谁都逃不掉。 产能倾斜的最终结果,已经开始反噬到我们日常使用的消费电子产品上。 为了保住基础的利润率,一种名为「缩水式通胀」( Shrinkflation )的商业操作开始在手机行业里大行其道,意思是新机发布时售价不变甚至微涨,但你能拿到的比如摄像头、屏幕、马达、散热等硬件规格,为了全面压缩 BOM 成本 ,直接原地踏步乃至在偷偷降级。 受打击最重的是主打下沉市场的品牌。IDC 更是悲观预测,2026 年全球智能手机出货量将暴跌 12.9%。对于 100 美元以下的廉价机型,由于根本无法平衡高昂的成本,正面临消亡的窘境。 在游戏和 PC 市场,这场风暴的破坏力同样无处不在。根据外媒爆料,下一代主机 PlayStation 6 的发布时间,可能要一路延后到 2028 年甚至 2029 年。 自 1994 年初代 PS 诞生以来,索尼基本保持着 6 到 7 年换代的传统。但现在,因为 AI 数据中心抽走了太多高端半导体产能,索尼发现目前根本无法以合理的成本采购到足够的 GDDR7 显存芯片。如果真拖到 2029 年,不少玩家手里那台 PS5,真得熬成传家宝了。 任天堂也未能幸免。据彭博社报道,Switch 2 原本想死守底价,但过去半年里 RAM 和 NAND 闪存颗粒的价格双双暴涨,成本核算模型全面承压,定价上涨或许也在所难免。 Meta 同样扛不住,4 月宣布 Quest 3 与 Quest 3S 全线涨价 50 到 100 美元。官方给出的理由也很直接:「制造高性能 VR 硬件的成本已大幅攀升,波及几乎所有消费电子产品的罪魁祸首正是内存芯片。」 如果你说自己不打游戏,是个纯粹的职场人,那你的生产力工具同样会被波及。 时任惠普临时 CEO Bruce Broussard 透露,几个月前,内存还只占一台 PC 物料成本的 15% 到 18%。现在,这个数字直接飙升到了 35%。联想、戴尔、惠普等传统大厂全线面临提价压力。 更要命的是,微软为了推 Copilot+ AI PC 标准,强制要求电脑基础 RAM 必须 16GB 起步。在这波涨价潮中强制加量,等于直接推高了入门 PC 的购买门槛。 至于用来存资料的固态硬盘,涨幅更是让人直呼看不懂。2024 年一条 173 美元就能拿下的 2TB 西数高端固态,今天标价 649 美元,足足翻了近四倍。 智能手机和廉价 PC 普及的这二十年,是普通人生产力大爆发的二十年。 一个普通青年可以靠一台三四千元的笔记本剪视频、写代码、做设计、开网店; 一个刚毕业的大学生可以用手机完成拍摄、剪辑、发布、交易和收款; 一个小团队可以用最基础的办公电脑跑完文档、表格、协作、客服和轻量开发。 过去二十年里,硬件价格的持续下探,软件工具的持续简化,互联网服务的持续铺开,把很多原本只属于公司、机构和专业人士的能力,一点点交到了普通人手里。 这就是所谓数字平权最具体的样子。它不一定宏大,也不总是激动人心,但它真实发生在每一个能用低成本设备接入网络的人身上。普通人也因此拥有了更多关于表达、学习、交易和创作的入口。 AI 本该是终极平权工具。它可以替人补足写作、设计、编程、翻译、检索和决策能力,让没有名校背景、没有专业训练、没有大公司资源的人,也能站上更高的起点。 但伴随着运行这些顶级辅助工具的物理门槛,正变得越来越高不可攀,眼下的问题并不是 AI 发展快慢与否,而是整条产业链都在争先恐后地去「喂饱」庞大的大模型,最终,许多普通人也因为价格被无奈地挡在了新时代的门外。 AI 的一粒灰,落到普通人头上也是一座山。
华为WATCH Ultimate 2等两款智能手表HarmonyOS 6.1亮点公布
IT之家 5 月 3 日消息,华为官网最近“悄悄”更新了 HarmonyOS 6.1 支持机型。相关页面显示,目前,HUAWEI WATCH Ultimate 2 / ULTIMATE DESIGN 非凡大师紫金款等已更新至公测版 HarmonyOS 6.1 系统。 ▲ IT之家评测室:华为 WATCH Ultimate 2 非凡探索体验 IT之家注意到,华为官方发布了 HUAWEI WATCH Ultimate 2 / ULTIMATE DESIGN 非凡大师紫金款 HarmonyOS 6.1 版本升级一图览,介绍了这两款手表的更新亮点。具体如下: 表盘 1.新增“舞林萌主”表盘,宠物“憨憨”“跳跳”“嘿嘿”随身相伴,支持自由切换形象与自定义表盘功能。当点击表盘、听歌、亮屏或充电时,可爱的萌宠都发出特定趣味动作,让每一次互动充满乐趣。 2.新增“梵星绮梦”表盘,可自由更换装饰背景和功能组件,于方寸之间,邂逅专属于你的腕间浪漫与宁静。 实用功能 1.新增午睡小结功能,记录午后小憩等碎片化睡眠时刻,生成专属休息报告,让您对休息时间一目了然。 2.增强与手机协同体验: 1) 手机端支持显示手表低电或满电、手表未佩戴的提醒通知(华为运动健康 App 需更新至 16.0.12.305 及以上版本); 2) 配对 HarmonyOS 6 及以上系统手机,手表新增手机电量提醒开关,可根据需要自行开启(设置 > 通知 > 手机电量提醒)。 3.全能模式下,负一屏健康摘要卡片支持跑步距离、骑行距离、最大摄氧量等信息,趋势变化一目了然。 运动数据 1.新版本支持跑步功率监测功能,无论是冲刺突破还是长距离巡航,都能帮您精准把控节奏,科学分配体力,跑得更高效、更持久,跑步不再只是“凭感觉”。 2.新增更多专业数据,助您更全面掌握运动状态: 1) 训练负荷新增有氧、无氧区分; 2) 训练状态新增最佳负荷区间; 3) 训练状态中的成绩预测新增平均配速数据。 3.高尔夫全新升级,让您击球更加得心应手: 1) 球场模式支持多果岭视图、自定义果岭旗杆位置、果岭图旋转; 2) 球场模式中新增比赛模式(球场模式 > 设置); 3) 球场模式支持表圈多彩计分卡,球场锻炼记录新增三柏忌 +、信天翁数据统计; 4) 练习模式新增上杆幅度、击球平面数据,同时支持切换球杆及挥杆数据统计。 体验优化 1.优化夜间睡眠评分体验; 2.优化部分运动类型的自动分段与间隔提醒设置,为您提供一致性使用体验; 3.优化锻炼记录中的恢复时间、训练压力、训练负荷展示,更清晰直观; 4.优化系统稳定性,让您的设备运行更稳定。
马斯克的Grok 4.3悄悄上线,跑分评测出炉
编辑:艾伦 【新智元导读】Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。 xAI 发布 Grok 4.3,没有把声量拉到最大,马斯克甚至没单独发推,看起来只是个过渡版本。 https://x.com/elonmusk/status/2045590599206875216 它更像一次安静的产品换挡:把模型放进 API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版 Grok 迁移过来。 没有 AGI 宏大叙事,也少了马斯克式的「即将改变一切」。这反而让 Grok 4.3 看起来更真实。 对普通消费者来说,Grok 4.3 最重要的变化并非某个榜单分数涨了几分,而是 AI 助手正在变得更便宜、更快,也更像一个能替人完成文件、表格、演示文稿的合格助手。 然而,Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。 它是一款性价比很强的新模型,也是一款仍有明显天花板的模型。 消费者真正需要关心的,是它在哪些场景能省钱省时间,在哪些场景会因为判断不准、想太久或说太多,反而增加成本。 它确实变强了 尤其像一个更会干活的助手 Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超过 Claude Sonnet 4.6 和 Muse Spark。 这个提升不算小,尤其在 xAI 自家模型线里,Grok 4.3 已经是目前最强的一档。 更值得看的是代理任务表现。 Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。 这个榜单更接近日常「让 AI 做事」的场景,比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。 让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT,Grok 4.3 的体验会比前代更完整。 Grok 可以创建演示文稿、文档和电子表格,可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。 对不懂代码的用户来说,这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作,可能会被压缩成一句指令。 这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完,把一份旅行计划排清楚,把一封语气得体的邮件写好。 Grok 4.3 在这部分的进步,是真进步。 更便宜 是这次最直接的产品卖点 Grok 4.3 的价格很有侵略性。 它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元,相比 Grok 4.20 输入价格低约 40%,输出价格低约 60%。 Artificial Analysis 测算,运行整套 Intelligence Index 评测成本约为 395 美元,比 Grok 4.20 0309 v2 低约 20%。 这会影响消费者,只是方式没那么直观。 大多数普通人不会直接调用 API,但他们会用到基于 API 构建的产品。 AI 写作工具、客服机器人、语音助理、教育应用、办公插件,背后都要为模型调用付费。 当底层模型价格下降,应用厂商有空间降低订阅费,或者在同样价格下提供更多次数、更长上下文、更复杂任务。 Grok 4.3 还有一个优势是速度。 Artificial Analysis 的 xAI 模型页显示,它是 xAI 当前输出速度最快的模型之一,约 196 Tokens/s,属于很快的一档。 对语音聊天、实时客服、长文生成和批量内容处理来说,等待时间会直接影响体验。 但速度有一个细节容易被忽略:Grok 4.3 的首 Token 延迟并不低。 它会先「想一会儿」,然后快速输出。 长答案里,这种速度优势明显;短对话里,用户可能先感受到停顿,再感受到快。 用于客服、语音助手、移动端聊天时,这个差异会被放大。 它更会说人话 这是 Grok 的隐藏优势 Grok 一直有一个微妙优势:语气更像真人。 Hacker News 上有人提到,一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。 有人拿它和 ChatGPT、Claude 比,认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。 https://news.ycombinator.com/item?id=47972447 Grok 可能受益于 X 平台海量口语化表达训练。 它更容易捕捉社交网络里的语气、节奏、松弛感等;它也可能因此继承社交网络的噪音、偏见和表达习惯。 对 C 端用户来说,这种「更自然」的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。 它未必最聪明,但可能更像一个愿意按你的语气说话的助手。 Yes, BUT... 它比不过 GPT-5.5 和 Claude Opus 4.7 Grok 4.3 最大的问题,是它看起来已经进入第一梯队边缘,却还没站到最前面。 Grok 4.3 的 Intelligence Index 为 53,GPT-5.5 为 60,Claude Opus 4.7 为 57。 这个差距不只是排行榜上的几分。 对普通消费者来说,它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。 在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按标准 Elo 公式,面对 GPT-5.5 的预期胜率约 17%。 它在幻觉控制上也有代价。 Grok 4.3 的 AA-Omniscience Accuracy(准确率)提升 8 分,但 Non-Hallucination Rate(非幻觉率)下降 8 分。 这里的准确率和非幻觉率是不同的,准确率只看你答对了多少,而非幻觉率是看你没答出来的问题里面,有多少是模型老实承认自己不会的——不会但振振有词,就是所谓的「幻觉」。 换言之,Grok 4.3 的知识覆盖率变高了,但也更容易出现幻觉了。 而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事,结果关键事实错了。 人类已经很擅长自信地犯错,机器不必急着加入这个传统项目。 这意味着,在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3 仍需要谨慎使用。 它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作;涉及最终判断,GPT-5.5 和 Claude Opus 4.7 仍更稳。 长上下文和工具能力很好 但消费者买账的是结果 Grok 4.3 提供 100 万 Token 上下文窗口,这对长文档、代码库、合同、报告和资料库很有吸引力。 用户可以丢进去更多材料,让模型在更完整的信息环境里工作。 对研究、办公和创作来说,这是一种实用能力。 它还支持文本和图像输入,输出文本,并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。 xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品,把 Grok 的边界从文字扩展到语音。 对普通用户来说,未来的 Grok 可能不只是一个聊天框,而是一个能读文件、查网页、写表格、说话、听话的多模态助手。 问题在于,功能多不等于体验好。 消费级 AI 的竞争,最后会回到三个朴素标准:少等、少错、少折腾。 Grok 4.3 在「少等」和「少花钱」上明显前进,在「少错」上还没给出足够强的答案。 Grok 4.3 的准确定位: 性价比模型,不是最强模型 Grok 4.3 最适合的定位,是一款高性价比的工作型模型。 它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。 它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。 很多消费者并不需要每次都调用最强模型,就像不应该只是为了买菜开超跑,除非另有所图。 但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断,Grok 4.3 还不该成为第一选择。 GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。 这次 xAI 的策略很清楚:先把模型做得足够强,再把价格打下来,用速度和工具能力扩大可用场景。 它没有赢下「最聪明模型」的头衔,但可能会赢走一部分真实使用量。 因为市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。 Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商,往更务实的 API 和消费级工具竞争者方向推进了一步。 它看起来很好,确实很好;只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。 消费者可以期待它降价、提速、让更多 AI 应用变得便宜。 也该记住,在需要真正聪明和可靠的地方,Grok 4.3 仍然只是备选项。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。