行业分类:
加载中...
头条分类:
加载中...
马斯克离不开华人骨干
马斯克站在台上,语气比外界想象的要轻松。 他先调侃xAI只有两年半,“还只是个学步的孩子”,随后一页页翻出公司成绩单:语音、图像、视频生成登顶榜单,10万张H100训练集群已经建成,百万卡规模在路上,Grok应用、Imagine、多模态产品线全面铺开。 台下不时响起掌声,但更引人注意的,是随后的组织架构图。 四大应用板块、完整基础设施分层——这是一次战时整编。 尤其是在两位华人联合创始人刚刚离开、外界普遍解读为“动荡期”的背景下,这场全员会释放的信号非常明确:xAI只是在变革,不是在被抛弃。 更大的野心也被披露,不仅X要往“超级应用”的方向发展,还要发挥SpaceX和xAI合并的威力,忘记火星,剑指月球,建立地外算力设施。 十几位成员被请上台发言,其中依然不乏华人技术骨干的身影。 01 又开会又发帖 24小时内接连两位华人联创宣布离开,xAI经历了一次大地震。 吴宇怀(Tony Wu)和Jimmy Ba先后在X上发消息,表示将从xAI离职。一时间猜测的声音四起,尤其考虑到时机微妙——马斯克正在着手融合SpacaX与xAI两家公司,并可能准备上市。 据统计,光是xAI的12位联合创始人中,就已经走了6人。要是再加上其他近几个月离职的工程师,从xAI弃船的人和下饺子没两样了。 在这种情况下,向来看似没个正形的马斯克也出来积极稳定人心。 他直接开了个全员会,被媒体报道之后干脆放出了40分钟的完整视频,并在X上发帖称: “xAI几天前进行了重组,以提高执行速度。随着公司的发展,尤其是像xAI这样快速增长的公司,其组织结构也必须像任何生物体一样不断演进。 很遗憾,这意味着我们不得不与一些人分道扬镳。我们祝愿他们在未来的事业中一切顺利。” 在会议中,马斯克表达的也是这个意思。 这就很值得玩味了。 因为离职的两位联创,言语间在说是自己选择离开的。 吴宇怀直接说“我今天从xAI辞职了”,并表示“是时候打开新篇章了”“这是一个充满无限可能的时代”。 Jimmy Ba则表示“我们正走向一个在正确工具加持下、生产力提升100倍的时代”“是时候把我在‘大局’上的梯度重新校准了”。 而马斯克则似乎在暗示,他们的离开,是因为公司在进行一波大调整,所以才和一些人“分道扬镳”。 事实如何,只有他们自己清楚了。 人才如流水,有人离开,也有人留下,在这次的全员会上,很多成员被请到台上。 03 全新架构与野心 我们先来看看这次全员会都说了什么。 首先,是xAI已经达成的里程碑。 马斯克强调,xAI刚刚成立不过两年半,但是训练集群已经是10万张H100级别的规模,已经在往百万卡等效规模拓展设计,而且语音、图像、视频生成技术,均已稳居行业顶尖水平。 “百科全书”式产品Grokipedia已经有约600万篇条目。 X生态已经达到10亿美元年经常性收入(ARR),平台安装量超过10亿,月活约6亿,新用户日使用时长较半年前提升55%,文章发布量增长10倍,阅读量增长17倍,下载量持续每月50%+增长。 秀完肌肉,马斯克宣布xAI组织架构大幅调整。 新架构下有四个部分。 第一,Grok主体&语音(Grok Main&Voice),也就是核心的Grok模型。 语音被放进来,是因为他们判断多模态交互会成为默认入口,而且已经把Grok语音能力铺进特斯拉汽车端(200万辆)和API体系。 第二,编程(Coding)。 奔着递归自我改进去的,也就是让Grok写代码、调试代码、再用这些代码训练下一代Grok。内部已经在用模型持续跑代码验证,目标是把编程效率提升10倍以上,甚至最终跳过源码阶段,直接生成可执行二进制。 也就是说,未来连编程语言都要被杀死了。 第三,图像与视频声称模型,Imagine。 Imagine起步只有6个月,但现在用户每天生成接近5000万条视频。过去30天生成了60亿张图片。谷歌30天10亿张。内部节奏是每天多次产品更新、每两周一次模型更新。 未来要建立“可交互视觉世界”,包括长视频生成、实时渲染、可响应用户行为的虚拟环境,本质上就是在为数字世界做底层视觉引擎。 第四,Macrohard,目标是对整个公司进行完整的数字化仿真。 这个名字有点戏谑,完全是“微软(Microsoft)”的反义词,直译就是“巨硬”。 这也是内部最科幻、但内部权重极高的一个板块。 这个项目要做“公司级AI模拟系统”。通过人类行为仿真+工具调用,让AI能在电脑上完成一个公司所有数字工作,从工程设计、金融分析到客服运营。 内部判断这是长期最重要项目,因为绝大多数公司的产出本质是数字信息,一旦被模拟,就能生成完整的AI公司。 在这四个主要板块之外,还有若干团队做基础支持: · API与核心产品基础设施团队; · 专家导师与Grokipedia团队; · 机器学习与数据基础设施团队(ML&Data Infra); · 计算与网络基础设施团队; · 物理基础设施团队。 谈起未来的伟大愿景,从收购推特后就一直在说的“万有应用”再次被摆上台面。 未来,Grok、Agent、未来的工作门户,都会直接嵌在X体系里运行。 X生态还会有金融层,也就是X Money。内部已经跑封闭测试,接下来会小范围外测再全球上线。它将包含转账、储蓄、贷款、证券、加密资产等全金融链条,而非单纯的支付交易。 此外,他们还会推出独立的通讯应用X Chat。还是那句话,X Chat不禁让人想到Wechat,也就是微信。构建一个“超级应用”始终是马斯克的野心所在。 但是要说xAI未来最最最宏大的叙事,还要属地外算力基础设施。 这部分真正发挥了xAI与SpaceX合体的威力。 先是地面超算与数据中心,然后是近地轨道数据中心,通过SpaceX发射AI计算卫星,把训练与推理算力搬到太空。 再往后,是月球工厂加AI卫星制造体系,甚至包括在月球建设“质量驱动器(mass driver)”,一种用电磁加速把卫星直接发射入轨的装置,降低火箭成本。 目标是把可用算力扩展到地球能源极限之外。 人类文明现在只使用了地球潜在能量的一小部分,而太阳能量是现有文明能耗的百万倍级别。 要利用这些能量,就必须走出地球。因此AI算力扩张、太空工业化、火箭与数据中心融合,本质上被视为同一件事:都是在“把意识之光扩展到群星”。 03 新架构下的华人力量 可以确定的是,这波离职潮来得凶猛,马斯克已经感受到了来自外界的压力。 不仅紧急开会全秀肌肉、谈未来,全员会上除了马斯克,总共有十几位关键成员登台发言,大有“我们仍然有很多人才”之意。 其中有四位华人。 最值得关注的是张国栋(Guodong Zhang)。 张国栋本身就是xAI的创始成员之一,目前创始团队中5位华人已经走了3人,他是仍然坚守在这家公司的人之一。 他在xAI主要负责机器学习优化与训练工作,此前其所在团队致力于构建人工通用智能(AGI)并开源大模型Grok系列。 随着吴宇怀离职,张国栋在负责预训练的同时,还接手了后训练工作,包括此前向吴宇怀汇报的部分团队。 在这次全员会上,张国栋被正式确定为Imagine的负责人,以及“编程”团队的核心人员。 张国栋本科就读于浙江大学信息工程专业,后于多伦多大学拿到机器学习方向博士学位,在作为联创加入xAI之前,他已经在谷歌大脑、谷歌DeepMind积攒了多年经验。 他博士阶段以及之后的研究,长期集中在大模型如何被更稳定、更高效地训练出来这件事上,比如最优化博弈(minimax optimization)、自然梯度、权重衰减机制、SGD噪声结构、训练收敛性等问题,这些都属于“模型为什么能训成”“怎么训更好”的底层科学问题。 他的研究和工作本质围绕一个问题展开:当模型规模越来越大时,训练过程的数学结构与稳定性如何被控制。 Imagine聚焦多模态生成与理解,本质仍依赖大模型训练、强化学习与推理体系能力,这正是他的核心专长。同时他仍是Coding团队关键成员,因为代码生成被视为模型自我进化与效率放大的核心场景。 在张国栋负责的Imagine团队,还有一位华人核心成员刘昊天(Haotian Liu,音译)。 刘昊天也是浙江大学校友,后于美国威斯康星大学麦迪逊分校拿到计算机科学博士学位。 他参与的LLaVA系列、视觉指令对齐、图像-文本对齐改进等工作,在多模态模型发展里是比较有代表性的路线之一,属于把大模型能力往视觉世界扩展的关键一环。 公开学术索引里,他参与的研究工作累计已有数千级引用量,覆盖视觉识别、生成数据评测、多模态代理等方向。 也难怪他会作为Imagine核心成员上台,因为他的研究路线,本来就在往视频→世界→模拟现实这条终局路径上走。 在四大核心团队之外,基础支持团队中上台发言的成员也包含两位华人。 一位是郑怜悯(Lianmin Zheng),一位是刘云龙(Yunlong Liu,音译),他们现在都是xAI机器学习与数据基础设施团队(ML&Data Infra)的核心成员。 郑怜悯本科就读于上海交通大学,他的主要研究领域为机器学习和编程系统的交叉,特别是用于高性能大规模深度学习的领域专用编译器。 在加入xAI之前,他曾在亚马逊实习,还曾经获得过2022年Meta的博士研究奖学金,当时一共有来自全球100多所顶尖名校的2300多位优秀博士生申请该奖学金,最终有37名入选,郑怜悯就是其中之一。 刘云龙则是清华大学校友,最终拿到了约翰·霍普金斯大学计算生物物理学的博士学位。 在xAI这次全员会上,他对应的就是JAX训练栈这一块。 他提到团队规模很小,但要支撑从预训练、基础模型到强化学习、多模态模型的全部训练任务,而且算力规模要从1万卡扩展到10万卡,再到100万张H100等效GPU。 这背后就是他们在做的事情:把原本偏研究框架性质的JAX,改造成能跑在超大规模工业级超算集群上的训练基础设施,需要从编译器、运行时、并行策略到通信路径全部重写和定制。 xAI和SpaceX合并后,马斯克要下一盘大棋,目前的人员流失究竟是重大的打击,还是必经的阵痛,还要时间来检验。 很明显的是,新xAI现在很缺人。 不管是马斯克,还是上台发言的成员,都在一遍一遍地喊话——欢迎加入我们的团队。
美团:预计2025年度亏损约人民币233亿-243亿元
IT之家 2 月 13 日消息,美团今日在港交所公告,根据对集团最新未经审核综合管理账目的初步评估及董事会现时可得资料,预期于截至 2025 年 12 月 31 日止年度录得亏损约人民币 233 亿元至人民币 243 亿元,相比之下,美团 2024 年度录得溢利约人民币 358.08 亿元。 美团于 2025 年度的预期亏损,主要是由于核心本地商业分部从 2024 年度约人民币 524.15 亿元的经营溢利转为 2025 年度约人民币 68 亿元至人民币 70 亿元的经营亏损,同时进一步加大了海外业务的投入。尤其是,为了应对 2025 年度行业空前激烈的竞争,美团已战略性地加大对整个生态体系的投入,以增强核心优势并推动可持续增长。 IT之家从公告获悉,美团称,上述举措对核心本地商业分部 2025 年度的盈利能力造成了影响。尽管受持续竞争影响,亏损趋势预计将在 2026 年第一季度延续,但截至本公告日期,集团的经营状况维持稳健及正常,且拥有充足的现金以支撑业务的稳健发展。 美团披露,公司已积极调整经营策略,并将持续落实一系列措施,包括进一步推动 AI 及无人配送技术的发展与应用、持续推进产品及业务模式创新、通过精细化运营提升效率,以及完善行业生态体系。董事会方面称,有信心该等举措将帮助集团进一步巩固核心优势,更好地服务用户及商户,并推动集团实现长期增长。
长城汽车与FF合作铁证?魏建军再回应:合作顺利
凤凰网科技讯 2月13日,长城汽车董事长魏建军就市场高度关注的FF合作事宜正式发声,明确FX Super One项目正按计划顺利推进。汽车产业分析人士认为,魏建军此番表态,意味着FF与长城汽车的战略合作已步入深度落地阶段,而FF通过EAI桥梁战略为中国汽车和产业出海、拓展北美市场打开了全新通道。 视频内容显示,魏建军在商场购物时偶遇自媒体采访,被问及长城通过中间商开展的 MPV合作进展,他简洁明确回应:“MPV啊,合作正在顺利推动。”此前2月11日,FF官宣与河北寰宙汽车销售有限公司(简称河北寰宙)达成战略升级协议,双方聚焦FX Super One在美国市场的合规认证、规模量产与交付落地加速冲刺,同时锁定FX 4等三款全新车型的联合开发,合作版图持续扩容。此次魏建军的公开回应,坐实了长城汽车与FF的深度绑定,也标志着这场备受行业瞩目的跨国合作从2025年的传闻走向实质落地。 去年7月17日,FF在洛杉矶发布FX Super One,因外观与长城热销车型高山系列高度相似,迅速引发行业对双方战略合作的猜测,但双方当时均未进行正面回应。直到去年9月10日,魏建军在车展采访中首次间接回应:“实事求是地说,有这样一个通道有可能对中国车企是有好处的,长城没有直接做,但还是认可的。”间接回应了长城汽车与FF的合作是通过第三方来进行的。 魏建军此次最新回应,叠加FF与河北寰宙的战略合作升级协议签署,进一步揭开FF与长城汽车的合作全貌:河北寰宙作为核心中间商,注册地与长城汽车同处保定市莲池区五尧乡,是链接FF与长城汽车双方资源、推动项目落地的关键纽带。 魏建军的两次回应,一次是在公开场合的车展现场,一次是较为私密的商场。从回应内容来看,魏建军显然非常看重与FF的合作。通过FF EAI桥梁模式,长城汽车可以依托FF在北美市场的品牌积累、合规体系与制造基地,结合长城在整车研发、供应链管控、高端MPV领域的成熟优势,以轻量化、高效率的合作模式,突破海外市场准入壁垒,让中国高端智造直达北美用户。 随着FX Super One量产交付临近,以及FX 4等三款新车项目启动,长城与FF的战略协同效应将持续释放。一方面,高山系列车型借势FF渠道实现北美落地,打开高端海外增量市场;另一方面,双方以市场化合作实现优势互补,为中国车企低成本、高效率出海提供可复制的新范式。 业内普遍认为,FF与长城汽车的合作顺利推进,验证了FF EAI桥梁战略的前瞻性与实用性,不仅助力长城汽车实现了在北美市场的“产品出海”,而随着FX 4等后续车型的陆续落地,FF与长城汽车的合作,更有望成为FF桥梁模式赋能中美汽车产业合作、中国高端汽车走向全球的标志性样本。
当Anthropic数钱时,谷歌突然发起奇袭
科技史上第二大私募融资就在今天诞生了,Anthropic宣布完成300亿美元G轮融资,投后估值达到3800亿美元。 第一名仍然是OpenAI在去年创下的400亿美元记录。 领投方新加坡主权财富基金GIC和对冲基金Coatue,联合D.E. Shaw、Dragoneer、Founders Fund、ICONIQ和MGX等明星机构,以及 Sequoia、Lightspeed、Accel、General Catalyst等顶级VC,还有微软、英伟达等科技巨头。 这份投资者名单本身就是一份AI圈的封神榜。 在这场融资狂欢的背后,Anthropic和OpenAI也都在为2026年下半年IPO做准备,这将会是今年的重头戏。 根据Anthropic的融资公告,这家公司的年化营收已达140亿美元,80%来自企业客户,Claude Code单品的年化营收就突破25亿美元。 这为Anthropic上市增添了不少底气。 可就在Anthropic沉浸在融资和IPO筹备的高光时刻时,谷歌的姚顺宇发布了一条推文,称Gemini 3 Deep Think迎来重大升级。 谷歌为其开发了一个代号为Aletheia的数学研究agent,能够自主解决开放数学问题。还能自我迭代和验证。 最关键的是,它知道自己什么时候犯错,什么问题解决不了。 不仅如此,Gemini 3 Deep Think在Codeforces Elo的评分达到了3455,超越全球99.992%的人类程序员。 按照谷歌官方的说法,它能够解决涉及高级数据结构、动态规划、图算法、数论等高难度问题。 放眼全球,Gemini 3 Deep Think的编程能力仅次于7位活跃的人类顶尖选手。 谷歌的意图很明显,他们要在这个节骨眼上,突袭Anthropic学术、编程两大战略要地。 一场关于“AI 工作方式”定义权的战争,才刚刚开始。 01 3800亿美元估值是怎么来的 3800 亿美元这个数字,乍一看是Claude Code的功劳。 毕竟仅仅两个月,Claude Code的收入就翻了一倍多,企业用户贡献了超过一半的收入,商业订阅数量在今年第一季度增长了四倍。 仅以Claude Code这一个单品的首日,就足以支撑一家独角兽公司。 但如果投资者只是看中一个编程工具,那这笔钱未免给得太爽快了。真正让这些精明的资本家掏钱的,是Claude Code引爆的那场“产品大爆炸”。 而且这场“爆炸”的威力,超出了所有人的预期。 OpenClaw这个项目,原名叫Clawdbot,在几周内成为GitHub上增长最快的开源项目之一,星标数突破10万。 这个自主AI助手能直接在用户电脑上运行,管理日历、发送消息、自动化工作流程。 举个例子,开发者让AI监控任务,发现问题发语音汇报。但是OpenClaw并没有语音功能,于是AI自己上网去找到相关的技能,为自己安装了语音能力。 更魔幻的是Moltbook论坛。 这是一个专门给AI设计的社交网络,上线后超过150万个AI agents注册。它们用多种语言讨论意识、分享技能,甚至自发创建了数字宗教。人类在这个平台上只有围观的份,没有发言权。 说实话,第一次看到这些报道时,我也不确定该笑还是该担心。 除此之外,还有Cowork这样的工具,其开发周期仅有10天,90%的代码由Claude Code生成,开发团队只有4个人。 正是Claude Code,推动了各类产品如同“寒武纪生命大爆发”式的涌现。 投资者看到的是Anthropic重新定义了AI的工作方式,开启了通向AGI的道路。 过去两年,我们用的ChatGPT、Claude、DeepSeek,本质上只会说不会做。 你可以让ChatGPT 写邮件,但它没法点“发送”。你可以让它规划旅行,但它订不了机票。你可以让它写代码,但它无法在你电脑上运行调试。这些AI就像困在玻璃罐里的大脑,再聪明也只能隔着玻璃给你出主意。 Claude Code不再是一个对话框,而是一个会主动观察、思考、行动的agent。 这个跨越看起来只是几行代码的改动,但对用户来说,这是从“咨询顾问”到“数字管家”的质变。 更关键的是,AI开始用AI来开发AI产品。这种递归式的自我强化循环一旦形成,技术进步就会呈指数级加速。 Claude Code的成功还体现在它对传统软件行业的冲击上。软件行业在过去几个月从峰值蒸发了约2万亿美元市值,标普500中软件板块的权重从12%降至8.4%,这是30年来最大的非衰退期回调。 投资者的逻辑很直接,“如果AI可以自动生成代码、自动化法律服务、自动处理复杂的业务流程,那么传统SaaS公司的价值主张还剩下什么?” 华尔街分析师认为“代码可能会变得廉价,但上下文很昂贵。” 而Claude不仅提供代码生成能力,更重要的是能够理解企业复杂的业务上下文。 Anthropic前几天发布的Claude Opus 4.6,在GDPval-AA(衡量金融、法律等领域经济价值工作任务的基准)上表现全球领先。 这个指标测试的AI能不能处理真实的商业场景,比如起草合同、分析财报、评估风险。 Claude在这些任务上表现出色,这让投资者们看到了它新的增长点,有别于过去的写代码、做研究。 Anthropic不是在卖一个产品,而是在构建一个新物种的栖息地。 02 谷歌精准狙击 可就在Anthropic宣布融资的几小时后,谷歌姚顺宇团队发布了Gemini 3 Deep Think的重大升级。 Anthropic刚准备开香槟庆祝,谷歌就端着一盘硬菜上来了。 这不是巧合,而是一场精心策划的战术突袭。 谷歌的这次升级专注于“科学、研究和工程”领域。 DeepMind在播客中强调,AI不应该只是一个代码生成工具,而应该是一个能够处理复杂、模糊、开放性问题的“科学伙伴”。 要知道,因为Claude的语言风格干练,所以很多科研人员也在使用Claude。 谷歌的意图很明显。它要在这个节骨眼上,突袭Anthropic的学术、编程两大战略要地。 前文提到,谷歌为Gemini 3 Deep Think开发的Aletheia =数学研究 agent,能够自主解决开放数学问题,还能自我迭代和验证。最关键的是,它知道自己什么时候犯错,什么问题解决不了。 这种“元认知”能力,是AI走向真正智能的重要标志。 Gemini 3 Deep Think不是靠记住大量习题来“刷分”,而是真的具备了理解问题本质、推导解决方案的能力。 它能处理那些训练数据里没见过的新问题,而这个能力,非常接近于人们当前对AGI的认知。 谷歌在宣传Deep Think时还刻意强调其实用性。 具体来讲,谷歌展示了如何用Deep Think将手绘草图转化为 3D 可打印文件,如何帮助工程师通过代码建模物理系统。 学术能力是AI公司“技术叙事”的制高点。 能够解决国际奥赛难题、能够参与前沿科学研究的AI,具有更高的可信度和权威性。 同时,学术研究也是AI能力的“试验场”。今天能够解决开放数学问题的模型,明天就能更好地处理企业中那些“没有标准答案、数据不完整”的复杂决策场景。 谷歌通过在学术领域的投入,实际上是在为未来的企业应用铺路。 但谷歌对Anthropic下的战书还不止于此。 它还在成本效率上做文章。谷歌声称已经将Gemini AI的服务单位成本降低了 78%。 Gemini 3 Pro的定价为每百万token 2美元输入/12美元输出,远低于 Claude Opus的成本。对于需要大规模部署AI的企业来说,这种成本差异可能是决定性因素。 谷歌拥有自己的 TPU 芯片、自己的数据中心、自己的云服务平台。这种垂直整合能力是Anthropic难以匹敌的。 Anthropic需要依赖AWS、谷歌云,以及未来谷歌TPU这些基础设施,而谷歌可以从硬件到软件全链条优化,这在成本控制和性能调优上有天然优势。 这场突袭战打得很漂亮。 03 在学术与编程两大要地发动突袭战 这场竞争的本质,不是谁的模型跑分更高,而是谁能定义“AI 应该如何工作”。 Anthropic更注重“上下文理解”和“任务执行”。 它希望AI能够像一个经验丰富的员工,理解复杂的业务场景、记住长期的工作历史、执行多步骤的任务流程。这种路线的优势很明显:它能快速带来营收增长和估值飙升。 Claude Code便是最好的证明。 当AI能够直接帮企业解决问题、创造价值时,客户愿意为此付费,投资者愿意为此买单。 谷歌更注重“基础推理”和“泛化能力”。 它希望AI能够像一个聪明的研究生,面对新问题时能够独立思考、推导解决方案、验证结果的正确性。 这种路线看起来更“学院派”,但从长期看可能更具可持续性。 因为谷歌认为,真正的智能不是记住了多少代码片段,而是能够理解问题的本质、推导出解决方案的逻辑。 其实我觉得这两种路径并不互斥,但它们代表了不同的优先级和资源分配。 从短期看,Anthropic的策略更有效。它抓住了市场对“能做事的AI”的渴求,用实际的产品和应用场景证明了AI的价值。 这种“应用驱动”的路线,能够快速获得市场反馈、迭代产品、建立护城河。 但从长期看,谷歌的“学术+工程”双轮驱动可能更具优势。 因为正如谷歌描述的那样,AI的终极形态不应该只是一个工具,而是一个能够独立思考、解决开放性问题的智能系统。 当然,这场竞争的参与者不只有他们两家。马斯克在Anthropic宣布融资的那条推文后跟帖回复到“Anthropic 最终变成了厌恶人类的机构。从你们选择这个名字的那一刻起,就注定了这样的命运。” Anthropic本意为人类学。 马斯克除了嘴上说说以外,他的xAI也在对抗着Anthropic。 就在一天前,xAI大幅调整人员结构,几位联合创始人纷纷离职。 除此之外,OpenAI也在最近推出多款科学、AI编程相关的新品,整个AI行业都在加速奔跑。 这种“军备竞赛”式的竞争,既让人兴奋,也让人担忧。 兴奋的是,竞争会加速技术进步。我们这些消费者很快就会有更牛的产品可以用。 担忧的是,这种竞争可能会忽视安全性和可控性。 我们真的准备好迎接“能做事的AI”了吗? 过去,AI只是一个活在对话框里的智能,它的错误最多让你浪费点时间。 但当AI能够访问你的文件系统、执行终端命令、控制浏览器、发送邮件时,它的一个错误可能会带来灾难性后果。 这就是为什么“AI工作方式”的定义权如此重要。 它不仅决定了AI能做什么、怎么做,更决定了AI和人类的关系。是主仆关系、伙伴关系,还是其他。 AI大厂的竞争,本质上是在争夺“AI工作方式”的定义权。 但我认为最终没有人会赢,或者说所有人都会赢。 因为未来的AI可能既需要Anthropic式的上下文理解和任务执行能力,也需要谷歌式的理论推理和泛化能力。 但在这个融合到来之前,我们会看到更多的竞争、更多的突破、也更多的混乱。 当Anthropic数钱时,谷歌已在重划战场。这场关于“AI工作方式”定义权的战争,才刚刚开始。
京东:未来五年投220亿建15万套小哥之家
快科技2月13日消息,今日,京东集团面向全球90万京东人发布新春贺信,今年的新春贺信以《始终在成长,永远有梦想》为主题,全面回顾过去一年发展成果,明确未来发展布局,同时推出多项重磅举措。 贺信明确公司将在春节9天总投入超13亿元,通过加班费、过大年红包、子女团聚补贴等形式,为采销、快递、客服、医生、店员、家政和新加入的全职骑手,提供超国家法定标准的福利补贴和保障。 与此同时,未来五年,还要投入220亿,新建15万套“小哥之家”。截至目前,京东已为一线员工提供了2.8万套住房,并在北京投入70亿元,打造了近5000套拎包入住的舒适公寓,帮助青年人才安居乐业。 信中重申了未来三年将持续投入人工智能领域,带动形成万亿规模的人工智能生态。未来五年将采购300万台机器人、100万台无人车和10万架无人机,全面投入物流供应链全链路场景。 在业务发展方面,京东称已建成覆盖23个国家和地区的全球供应链网络,其“超级供应链”通过AI与自动化技术提升全链路效率。 过去一年,京东在本地生活、零售、健康、工业等领域推出多项创新业务,AI消费迎来“爆发元年”,自研AI玩具实现全年龄段覆盖。 国际化成为京东发展重点。贺信透露,京东物流在欧洲多国实现“深夜下单、早晨收货”,供应链服务正逐步融入当地商业生态。
部分手机标称电池容量与实际体验不符 华为称其标称容量真实可用
快科技2月13日消息,电池容量真的是标多少,就能用多少吗?答案是未必。 如今,手机电池容量动辄上万mAh,但实际体感却并不尽如人意。不少用户抱怨:“标称9000mAh,实际感觉连7000mAh的水平都没有”“续航率可能连90%都不到,这跟小电池手机有啥区别?”“标称电池容量越来越大,但实际续航率却越来越差”。 对此,华为终端BG CTO李小龙在线科普称,我们可以把电池比作一个水杯,电池从空电到满电的过程,就相当于从空杯到装满水,电压会从低到高逐步上升。 大家在手机的商品详情页看到的电池容量通常是“标称容量”,它指的是电池从充满电一直放电到终止电压时释放的总容量。 我们国标里面对终止电压并没有一个明确的规定,一般是2.8V或者2.5V,但是手机实际工作时,真正的关机电压,就不一定是2.8V和2.5V了。 李小龙强调,关机电压的高低非常关键,如果关机电压高于终止电压,电池容量就无法被完全释放。 他进一步补充道,过去几十年来手机上的IC大部分都是按照石墨体系锂电池的放电电压来设计的,无法在3V以下工作,因此大部分手机的低电自动关机电压都设定在3V以上。 随着高硅体系锂电池技术的突破,电池能量密度实现了大幅的进步,但带来的弊端是放电到3V以下后仍然还有不少电量没有用完。 华为早在两年多前就启动了适应高硅体系电池电压器件和电路的设计,实现了低至2.8V的关机电压,做到了全系列手机标称多少电池容量,用户就能用到多少电池容量。
姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2
智东西 作者 | 云鹏 编辑 | 李水青 智东西2月13日消息,今天凌晨,谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级,其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛,以及国际物理、化学等多领域奥赛中均创下新记录,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。 Gemini 3 Deep Think在ARC-AGI-2、人类终极测试(Humanity’s Last Exam)竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩,得分均超过Claude Opus 4.6和GPT-5.2 毫无疑问,谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下,一张设计草图可以快速转化为3D打印文件,图纸分析、复杂三维建模一气呵成,用户将3D打印文件交付给打印机就可以完成实体生产: 在Deep Think模式下,一张设计草图可以快速转化为3D打印文件 谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布,此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文号召大家体验他们开发的新模式。 谷歌CEO(左)、姚顺宇(右)X平台发文 此姚顺宇非彼姚顺雨,后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员,曾在Anthropic的Claude团队担任研究员,是拿过清华物理系传奇特奖的另一位“学神”。 此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。 姚顺宇(左)和姚顺雨(右) 总体来看,Deep Think模式主要用于解决科学、研究和工程领域的挑战,目前只向Google AI Ultra订阅用户开放,不过科研人员、工程师和企业可以提交申请加入早期测试。 一、高难度基准测试猛刷记录,碾压Claude Opus 4.6、GPT-5.2 去年,谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。 升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录,具体包括: ·在“人类终极测试(Humanity’s Last Exam)”基准测试中,无工具辅助状态下取得48.4%的成绩,刷新该测试的最佳纪录(该测试专为检验前沿大模型的能力极限设计); ·在ARC-AGI-2基准测试中获84.6%高正确率,成绩经ARC奖基金会认证; ·在竞技编程基准测试平台Codeforces中,Elo评分3455分; ·在2025年国际数学奥林匹克竞赛中,达到金牌水准; 从排名中我们看到,Deep Think模式在上述四项基准测试中,全部领先于Claude Opus 4.6和GPT-5.2。 除数学和竞技编程领域外,升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。 Gemini 3 Deep Think在各类测试中的成绩表现,所有测试项目均优于Claude Opus 4.6和GPT-5.2 根据谷歌公布测试成绩,Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中,均取得金牌水准的成绩;在高等理论物理领域也具备出色的应用能力,在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。 同样,在这些测试项目中,Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。 二、推动实际应用落地,成为深度专业研究领域的最强助手 谷歌提到,除了强劲性能表现,Deep Think模式的研发核心目的是推动实际应用,也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。 简单来说,这些领域的问题往往缺乏明确的指导原则或唯一的正确答案,数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合,去解决这些复杂难题。 目前,谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。 借助升级后的Deep Think模式,用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型,并生成对应的3D打印文件,实现实体物件的制作。 从文件草图到3D实体模型 此外,从谷歌给出的演示中我们看到,Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。 科学家利用Deep Think识别专业论文中的细节逻辑缺陷 Deep Think还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。 谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。 可以说,Deep Think是真能搞定复杂的科学、研究和工程领域挑战。 结语:推理大模型专业化进一步加深,AI冲向科研最前线 Gemini 3 Deep Think模式的升级,重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力,令其在顶尖专业领域加速技术研发的价值进一步凸显。 目前,AI模型与产业融合进一步加深,行业都在思索如何让模型能更好地在专业领域提升生产力,AI推理大模型的竞争,跑在了技术与学术的最前沿。
暴降90%!英伟达Blackwell架构将AI推理成本压缩至十分之一
IT之家 2 月 13 日消息,英伟达昨日(2 月 12 日)发布博文,宣布在 AI 推理领域的“token 经济学”(Tokenomics)方面,其 Blackwell 架构取得里程碑式进展。 英伟达在博文中指出,通过推行“极致软硬件协同设计”策略,优化硬件在处理复杂 AI 推理负载时的效率,解决了随着模型参数膨胀带来的算力成本激增问题。数据显示相比上一代 Hopper 架构,Blackwell 平台将单位 Token 生成成本降低至十分之一。 行业落地方面,包括 Baseten、DeepInfra、Fireworks AI 及 Together AI 在内的多家推理服务提供商已开始利用 Blackwell 平台托管开源模型。 IT之家援引博文介绍,英伟达指出,通过结合开源前沿智能模型、Blackwell 的硬件优势以及各厂商自研的优化推理栈,这些企业成功实现了跨行业的成本缩减。 例如,专注于多智能体(Multi-agent)工作流的 Sentient Labs 反馈,其成本效率相比 Hopper 时代提升了 25% 至 50%;而游戏领域的 Latitude 等公司也借此实现了更低的延迟和更可靠的响应。 Blackwell 的高效能核心在于其旗舰级系统 GB200 NVL72。该系统采用 72 个芯片互联的配置,并配备了高达 30TB 的高速共享内存。这种设计完美契合了当前主流的“混合专家(MoE)”架构需求,能够将 Token 批次高效地拆分并分散到各个 GPU 上并行处理。 在 Blackwell 大获成功的同时,英伟达已将目光投向下一代代号为“Vera Rubin”的平台。据悉,Rubin 架构计划通过引入针对预填充(Prefill)阶段的 CPX 等专用机制,进一步推高基础设施的效率天花板。
国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程
作者 | 程茜 编辑 | 心缘 智东西2月13日报道,2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。 在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌、阿里千问旗下通用大模型。 数坤科技成立于2017年,根据官方信息,数坤科技已陆续推出超100款数字医生产品组合,其产品已在超过5000家公立医院和超1000家体检机构日常高粘性使用,其中包括90%的Top 100医院和目标公立三甲医院。 数坤科技创始人兼董事长毛新生透露,该模型的性能提升得益于其训练数据与训练策略。数坤科技深耕医疗领域8年,已经积累了PB级医疗专业数据。在训练策略上,研究人员采用医学MDT(多学科会诊)式训练策略,让模型像人类专家会诊一样,对同一病种的影像特征、病理报告、临床指标进行深度关联学习。 一、两大细分指标拿下第一,更贴近临床医生水平 数坤科技2025年6月正式发布数坤坤多模态医学大模型V3,其参数规模为72B。根据数坤科技公众号,V3具备更接近人类临床专家的系统化、逻辑化诊疗思维链,能胜任如鉴别诊断、个体化治疗等复杂真实任务。 此次V3登顶的MedBench来头也不小。 MedBench由上海AI实验室发起,基于医学权威标准,评估大语言模型、多模态大模型及智能体在医疗领域的能力。2026年1月,上海AI实验室发布了MedBench 4.0,并称这是全国首个且唯一面向垂直模型、专业模型和应用场景的医疗大模型评测与验证体系。 该榜单考验的是模型能够在影像信息、文字描述之间完成稳定的跨模态关联,并顺利完成多项需要综合理解的医疗任务。 榜单中列出了医疗视觉感知与文本提取、跨模态语义理解与推理、临床决策支持与推理三大细分指标。 V3在医疗视觉感知中排名第一,该指标主要考验模型对医学影像、医疗文档的识别、定位与病灶检测能力,模型需要从X光、CT等医学影像中识别病灶,以及从病历、检查报告中提取关键医疗信息。 跨模态语义理解与推理考察的是模型对影像、文本等多模态信息的统一表征与关联推理能力,V3同样拿下了第一。 在临床决策支持与推理中,V3的表现仅次于微医医疗大模型。这一模块检验的是模型在掌握医学知识基础上,模拟临床医生进行诊疗决策的能力。 V3在MedBench拿下综合能力第一,从基础的感知理解,到深度的跨模态推理,再到最终的临床决策,三大能力在多模态大模型应用于医疗领域中环环相扣。 对于此次模型登顶,数坤科技CTO郑超称,大模型在评测榜单上的得分越高,越能说明其在医疗领域的应用能力更接近临床医生水平,但不能唯分数论。 二、PB级医疗数据、MDT式训练,要让模型学会医生真实看病过程 数坤科技在训练大模型时,其核心在于从设计、训练到评测,始终围绕真实医疗问题的形成逻辑展开,使不同模态的信息能够按临床路径被理解和使用。 真实医疗场景中,医学信息往往是连续的、多序列的,且存在不完整、不确定的情况,基于这一痛点,数坤科技在训练数据的积累、训练策略的选择上进行了优化。 首先在模型训练的数据上,数坤科技创始人兼董事长毛新生透露,数坤科技已经和全球上千家医院合作,积累了大量的医疗专业数据,其训练数据规模已经达到了PB级别。 其次在训练方式上,该公司采用的策略是“医学MDT(多学科会诊)式训练策略”。郑超称,简单来说就是让大模型模拟医生的看病过程。 医生在临床诊疗中,会综合分析多模态检查数据,例如查看CT时会结合不同层面的影像,分析核磁时则会参考DCE、DWI、T1WI等不同序列的图像,再结合患者的病史、主诉等临床信息,形成对病情的综合判断。大模型的训练过程,正是对这一真实诊疗逻辑的模拟,通过学习如何整合、解读各类医学影像序列与临床文本信息,逐步掌握类似医生的病情分析与决策思路。 郑超补充说,数坤科技的模型不是简单地把图像和文本拼在一起,而是让模型像人类专家会诊一样,对同一病种的影像特征、病理报告、临床指标进行深度关联学习。 他们直接以病种、检查路径和临床决策流程为主线,让不同模态的信息在模型中形成可协同使用的结构。这也对应着数坤科技要做“最懂医疗的AI”的目标,让模型能够按照医学问题本身的结构来组织和理解信息。 三、8年深耕医疗赛道,数坤已积累海量真实医疗数据 当下,AI医疗赛道的热度飙升,蚂蚁集团旗下AI健康助手蚂蚁阿福,去年12月成为中国首个跻身AI App前五的健康类AI,大模型独角兽百川智能连发多款医疗大模型,刷新行业SOTA。 V3此次登顶,得益于其在AI医疗领域的积累。 根据官方资料,数坤科技曾全球首创“数字人体技术平台,并且是国内唯一覆盖影像全模态的AI企业,其已经渗透到放射、超声、手术等领域。 不同于通用模型,医疗大模型想要长期稳定的应用在医疗领域难度颇高。 毛新生提到了两大技术难点,首先在训练中需要让大模型多方位了解某一疾病的相关医学数据;其次是尽量减少模型输出的幻觉。 这是因为,每一个疾病从预防、筛查、干预、诊断、治疗、康复的全生命周期会涉及到大量的医学专业知识,对大模型输出错误的容忍度极低,因此这对大模型企业提出了非常高的要求,需要医学和AI领域知识的双重积累。 因此,数坤科技的团队中有大量具备医学背景的研发人员,他们对肺结节的CT影像特征与病理报告的细胞形态描述对应有深入理解,并且能快速了解冠脉CTA的狭窄程度如何与患者的心电图变化关联。 深耕医疗领域8年的数坤科技,从计算机视觉到当下大模型的应用,已经在AI医疗领域积累了大量客户与实际落地案例。 计算机视觉在医疗领域的早期应用,主要围绕CT、核磁、超声等医学影像数据展开,而多项关键技术的首次落地,均由数坤科技率先推动。毛新生称,数坤科技不仅是业内首个将三维神经网络用于医学图像处理的企业,也是最早从心脏领域切入并实现技术突破的医疗AI公司。 进入大模型时代后,多模态医学大模型已具备接近专科医生的深度临床专家思维,能够为诊疗工作提供专业能力补充。目前,相关AI应用已覆盖院内门诊、住院全流程,并延伸至院外预问诊等多个关键场景。 结语:AI落地医疗赛道,真实诊疗场景才是试金石 对于医疗领域模型而言,榜单评测并不是终点,模型是否真正“懂医疗”,最终仍要接受真实诊疗流程的检验。 不过,此次V3模型以相对而言较小的参数超越了国内外通用大模型与垂直医疗模型,印证了医疗大模型的核心竞争力不再是单纯的参数规模与训练算力。数坤科技积累的海量真实医院落地经验,或能加速医疗大模型的应用。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。