行业分类:
加载中...
头条分类:
加载中...
腾讯AI下了一场“及时雨”
本月17 日,中国 AI 圈出现了一个“巧合”般的同日亮相。 这一天,两家头部科技公司,都把各自最重要的 AI 人物推到了台前——小米大模型核心负责人罗福莉公开亮相;腾讯则正式官宣前 OpenAI 科学家姚顺雨,出任“总裁办公室首席 AI 科学家”,并同时负责 AI Infra 与大语言模型相关团队。 关于两人加入对应公司的传闻,过去数月中行业内早有传闻。如果说罗福莉的亮相是和小米生态大会同步的节奏,姚顺雨的官宣的时间点则更加耐人寻味。 在此之前,中国AI 产业的C位,基本上由阿里和字节轮流坐庄,而腾讯除了在DeepSeek横空出世时发力了一波AI2C之后,似乎总是蓄势不发。 但以腾讯的地位和体量,必然难以接受长期远离舞台中央的局面,尤其是在两个老对手轮流发大招刺激下,鹅厂做出调整和回应势在必然。17 日这一天所做的人事任命和架构调整,显然是腾讯试图重返舞台中央的标志性一步。 伴随姚顺雨亮相的,是一整套围绕大模型研发重构的组织调整——AI Infra、AI Data、数据计算平台等部门被明确拆分与强化,原本分散在不同团队中的基础能力,被拉回到一个更集中的中枢。 不过,问题也随之而来,这场高调的人才引入,究竟意味着什么?在字节、阿里不断放大模型与应用声量的当下,姚顺雨会是腾讯 AI 当下的“及时雨”吗? A 姚顺雨与腾讯的交集,并非从官宣那一刻才开始进入公众视野。 最早的信号出现在 9 月。彼时,业内突然流传出“前 OpenAI 研究员姚顺雨已加入腾讯”的消息,并迅速被附加上“上亿年薪”“顶级科学家回国”等的标签。 腾讯随后通过官方渠道进行了辟谣,但辟谣的内容却有些偏离重点——只否认的是“上亿元薪酬”的说法,而并未就是否入职这件事作出正面回应。 几个月后,答案正式揭晓,姚顺雨的“空降”不仅仅是一次人才引进,而是直接引发了腾讯大模型业务的组织架构调整。 根据近期报道披露,腾讯对内部大模型相关业务进行了系统性的重组:原本相对分散的模型研发、数据与工程能力,被重新整合为三条更清晰的主线,分别聚焦 AI 基础设施建设、数据与评测体系,以及面向机器学习的数据智能融合平台。 在这一轮重组中,姚顺雨被赋予了核心位置。他以 CEO首席 AI 科学家的身份进入腾讯技术序列,同时兼任 AI Infra 与大语言模型部两个关键方向的负责人。这意味着其职责并不局限于单一模型或研究项目,而是直接覆盖算力基础设施、训练框架以及模型能力演进等多个关键环节,承担起跨团队的统筹责任。 值得注意的是,在正式官宣之前的数月里,姚顺雨已经在 X上发文:“如果你收到裁员影响,欢迎私信我。” 此举曾被一些业内人士解读为其正在为新团队搭建班底。顶尖研究者本身所具备的号召力,往往是人才战略中最有效的一张牌。 这样的案例,今年以来一直在腾讯的竞争对手身上上演,过去一年,中国头部科技公司几乎同步加大了对顶尖 AI 人才的争夺力度。字节跳动在年初引入前 DeepMind 副总裁吴永辉,并让他领导Seed团队,强化基础研究与模型能力建设;阿里则引入知名 AI 科学家许主洪,负责 AI To C 与 Agent 相关研究,试图在消费级智能体方向重新建立技术节奏。 从业务层面来看,腾讯选择在下半年引入姚顺雨并非心血来潮。过去一年,腾讯在大模型领域并非没有动作,其优势更多体现在视频生成、3D 建模、多模态内容理解等方向,并在部分评测榜单中取得过可观成绩。这些能力与腾讯长期积累的内容生态、游戏与社交业务高度相关。 根据腾讯官方披露的信息,混元已累计开源十余项模型与组件,覆盖文本、图像、视频与 3D 方向。其多模态能力已接入视频号、腾讯游戏与广告生产体系,逐渐形成规模化应用。 但在推理能力、长文本处理以及更具系统性的 Agent 化能力建设上,腾讯尚未成为塑造行业心智的那个角色。相较之下,这些恰恰是当前大模型竞争中,逐渐被视为“通用能力底座”的方向,尤其是在需要走量的C端市场。 结合姚顺雨的技术背景,不难发现与腾讯当前的“短板”形成了呼应。而与之同步发生的架构调整则表明,引入姚顺雨,一方面是腾讯有借助头部人才“树大招风”之意,针对AI人才进行补强,同时也是对AI战略调整的一次重要信号。 B 当前, AI 技术正处于从实验室走向产品级落地的关键拐点上,单靠“模型更大、数据更多、算力更强”的路径,正在显露出边际效用递减的迹象。这是姚顺雨此前在一档播客中表达的观点。 姚顺雨在其文章《The Second Half》中提出,AI 已经进入一个新的阶段:真正的分水岭不再是模型是否足够强,而是模型是否开始参与现实任务、是否能够在真实环境中被衡量、被纠错、被持续改进。他将这一变化概括为“从解决问题,转向定义问题”,并强调在这一阶段,评测的重要性正在超过训练本身。 这位前OpenAI科学家的观点,无疑是对当前AI产业竞赛规则的一次界定。 过去几年,AI行业的主要共识是“能力先行”——只要模型足够大、足够聪明,应用自然会随之出现;但进入所谓“下半场”后,问题开始反转:模型能力已不再稀缺,真正稀缺的是可被反复执行、可被量化评估、能够稳定交付结果的任务体系。 把这一逻辑放回腾讯的现实语境中,不难发现,过去一年,混元在多模态、开源等技术层面持续积累声量,也多次进入开源社区的讨论视野;但在更广泛的用户感知中,混元长期却有些“存在感不足”。 真正面向 C 端的窗口,更多落在元宝这一AI原生App上,但根据 QuestMobile 的 2025 年三季度 AI 应用行业报告,在原生 AI 应用的月活跃用户(MAU)排名中,豆包以约 1.72 亿领先、DeepSeek 约 1.45 亿,而腾讯元宝的 MAU 仅约 3,286 万,远落后于头部竞品。 而在微信上,腾讯也先后作出一些尝试。2025 年以来,微信开始对“搜一搜”进行 AI 化改造,多家媒体披露,AI 搜索正从二级入口被提到一级入口,用户点击顶部搜索框即可调用 AI 搜索能力。 但另一方面,腾讯对于通用Agent的态度也相对谨慎,反观护城河的另一边,字节方面已经尝试将豆包推进到手机OS层面,阿里在近期推出夸克AI眼镜,将模型能力的“有用”“可用”一面落地到更生活化的场景中。 这些尝试本身并不存在对错,但它们共同揭示了一点:当 Agent 走向执行层,技术问题会迅速转化为产品、平台与治理问题。 而在这一点上,腾讯面临的约束条件更为复杂。作为中国最重要的超级入口之一,微信本身既是 Agent 的潜在舞台,也是规则与边界的制定者之一,这决定了腾讯在推进通用 Agent 能力时,很难像创业公司或单一硬件厂商那样激进试错。 也正是在这样的背景下,姚顺雨的加入,似乎意味着腾讯出现了一个潜在的方向转移。腾讯总裁刘炽平曾经公开说过,“微信最终会推出Agent。但现在,AI市场仍然非常早期”。 作为Open AI Agent战略的重要人物,姚顺雨也许有望推动这一愿景更早实现。 但想要把Agent能力融入到现有的超级入口中,腾讯的问题还不只是模型侧。 C 回到腾讯的AI战略上,如果只把腾讯当前的处境,归因于“模型不够强”,显然过于简单。 过去一年,腾讯并非没有在 C 端下注。以“元宝”为代表的独立 AI 产品,在买量和投放层面并不保守:多份投放复盘显示,2025 年以来,元宝的素材投放量持续攀升,长期位于头部区间,但转化效率并未同步改善。 与之形成鲜明对比的是,在同一时间段内,豆包已经在用户规模上拉开明显身位差距——到 2025 年 10 月,二者的 DAU 量级相差接近一个数量级,中间还隔着一个DeepSeek。这意味着,即便在“肯花钱”的前提下,元宝依然难以追上对手,问题很难只用“起步晚”或“模型差距”来解释。 这一点,在腾讯对外的表述中同样可以找到侧证。在财报沟通与公开采访中,管理层多次强调 AI 投入会持续增加,但更强调“理性投入”和资源效率。官方的态度看起来像是,腾讯并不急于用一款 C 端 AI App 去“证明自己”,而是仍在寻找更符合自身体系的落点。 但 C 端竞争并不会因为一家公司的节奏选择而放慢。对元宝而言,压力并非只来自前方的豆包,还来自身后的快速追赶者。 随着阿里方面千问App近期发布,其投放和下载节奏明显加快:在公测首周累计下载突破 1000 万次,显示出强劲增长势头。 与此同时,腾讯元宝虽凭借生态投流维持在苹果下载榜前列,但在活跃体量上仍落后于豆包和 DeepSeek,而且在投放测有被千问反超的趋势。 这种“前堵后追”的局面,使元宝所处的位置愈发尴尬:向前看,豆包已经占据规模与心智优势;向后看,阿里拥有更完整的产品矩阵与入口资源,随时可能通过协同打法放大单点突破的效果。 这样的被动和腾讯长期的策略有关,而腾讯长期以来更偏向“赋能式 AI”——模型服务于既有业务,而非重构业务本身。这种策略在稳态时期有效,却在AI生态爆发的25年下半年却显得被动 。 这种“保守”甚至不是AI研发层面,而是产品层面本身。即便是在微信内部,AI 能力的释放依然谨慎,更多作为功能增强,一直没有迈出革命性的一步,姚顺雨的加入,无疑是腾讯AI的一场“及时雨”,但能否颠覆过往的AI战略思路,仍然有待观察。与其把姚顺雨视为腾讯 AI 的“答案”,不如把他视为一个信号:腾讯已经清楚地认识到,单靠渐进式改良,很难在 2026 年之后更加激烈的 AI 竞争中保持从容。 无论是元宝的追赶压力,还是微信在入口层面的抉择,都在倒逼这家互联网巨头重新思考一个问题——当 AI 从能力竞赛走向产品与入口竞赛,腾讯是否愿意、也是否准备好,追赶上对手的步伐。
租车行黑幕套路遭曝光!半夜有人偷偷划车 还车时被车行索赔
快科技12月18日消息,近日,有网友发帖爆料称,云南大理一租车行自导自演,员工半夜偷偷来划伤自己租的车,第二天还车时以此索赔600元。 这位网友表示,租车时没有买保险,然后根据定位找到车,晚上偷偷摸摸划车要赔偿,这已经属于诈骗行为了,数额巨大已可以坐牢了;就算你买了保险,但是轮毂不赔,他们还会划你的轮毂,太可恨了。 网友称,他觉得这不是员工一个人的事,背后肯定有人指使,遂报警处理,警方调取监控发现,划车男子竟是该租车行员工。 此事引起热议后,发帖网友的朋友向媒体透露,划车的员工已于12月11日,被公安机关处以12天行政拘留,并罚款800元。 租车行负责人联系他,退还此前600元赔偿,但要求我们不得再以任何理由,通过任何渠道追究责任,我认为这样的附加条件并不合理,暂时没有收下归还的钱。 而租车行的负责人称,划车男子在租车行兼职代驾,并表示划车是其(该代驾)个人行为。 对此,有网友在评论区称:“这已经是租车行的老套路了,如果是在小公司租车,停车尽量停在有监控的地方。” 还有网友提醒称,“租车可以选择神州、一嗨这类大平台,虽然价格可能会贵一点,但好处就是保险和协议完善,不会搞这种见不得光的小动作。”
挑战FFmpeg:谷歌Chrome浏览器多媒体引擎加速Rust化改造
IT之家 12 月 18 日消息,科技媒体 Windows Report 今天(12 月 18 日)发布博文,报道称谷歌 Chrome 浏览器正秘密测试一款名为 Symphonia 的音频解码器,该组件完全基于 Rust 语言编写,意在探索替代沿用已久的 FFmpeg 媒体引擎的可能性。 IT之家注:FFmpeg 是一套全球通用的开源计算机程序,用于记录、转换数字音频和视频,并能将其转化为流。它是数字媒体界的“瑞士军刀”,几乎所有视频播放器和浏览器都用它来把网上的视频和声音文件“翻译”成屏幕和扬声器能播放的信号。 FFmpeg 一直是 Chrome 处理音视频解码的核心引擎,虽功能强大但架构相对陈旧,而此次测试标志着浏览器底层技术栈可能迎来一次重大升级。 Symphonia 是一款开源音频解码库,其最大的亮点在于完全采用 Rust 编程语言编写。相比 FFmpeg 这种基于 C/C++ 的传统媒体引擎,Rust 语言在内存安全性上具有天然优势,能有效减少漏洞风险。 谷歌目前的策略是将 Symphonia 作为一个“可选的解码路径”集成到 Chromium 中。这意味着,在未来的浏览器版本中,Chrome 可能不再完全依赖 FFmpeg 处理所有音频任务,而是根据场景灵活调用更安全、更现代化的 Rust 组件。 Symphonia 源头可追溯至 2023 年开启的一个 Chromium 问题追踪帖。开发者们当时主要聚焦于“用 Rust 替代 FFmpeg 部分功能”的理论可行性,并未制定具体实施计划。 然而,进入 2025 年后,该项目明显提速,Chromium 代码库中开始密集出现相关代码提交(Commits)。开发团队不仅将 Symphonia 成功编译进浏览器构建版本,还着手在更多桌面平台及 Android 系统上启用该功能。 Symphonia 解码器已出现在 Chrome Canary(金丝雀版)等测试版本中,默认处于关闭状态,仅能通过特定的功能标记(Feature Flag)手动开启,且初期仅支持少部分音频格式。 对于普通用户而言,现有的音频体验不会发生任何改变,FFmpeg 依然是处理网页音频的绝对主力,谷歌方面尚未发布将 Rust 解码器作为默认选项的正式时间表。
AI接管输入法
作为AI技术触达C端用户最高频的入口之一,输入法赛道悄然掀起了一场由大模型主导的新浪潮。 其中,字节、百度、腾讯等科技巨头纷纷将各自核心大模型能力植入输入法产品,大厂的扎堆入局促使指尖上形成了些许“智能内卷”,这不仅让搜狗等传统输入法大厂感受到前所未有的压力,同步引发了行业对用户真实需求、产品核心价值的深度思考。 回到巨头们的商业化诉求和用户真实需求层面,在效率提升与功能冗余的平衡、智能体验与隐私安全的平衡中,输入法赛道的蛋糕红利并不如其他领域动辄千亿级那般大。 AI接管输入法,有人是为了在这场变革中赢得新的商业筹码,而有人也将在各方势力挑战下,艰难承压。 至于用户究竟对大模型输入法有多大的依赖,还是个疑问。 A 在豆包手机助手将智能能力,无缝渗透到手机终端的每一个场景之际,输入法这个看似基础的工具,其实同样也迎来了从功能实现到体验升级的转变。 换句话说,在模型能力卷到指尖的趋势下,原本有些古老的输入工具如今成为了一种智能助手。这是因为,过去的输入法的核心价值是精准输入,解决的是用户“怎么把字打出来”的问题。但大模型的加入,让输入法开始思考“用户想表达什么”,并主动提供解决方案。 其中的核心进步是:感官进化。 即大模型赋能技术突破体现在轻量化部署、多模态融合(语音、图像等输入)、端云协同上,进而赋予输入法更强的理解与生成能力,让用户在多场景实际中解决社交创作低效、跨语言沟通难等痛点。 具体而言,《2025年中国第三方输入法行业洞察报告》指出,AI 输入法使用场景以日常互动为主,占据了45.0%。功能偏好上,AI 语音输入(识别方言 、外语)使用率最高为40.9% ,AI 智能回复,例如高情商沟通等使用率为29.8% ,颇受用户欢迎。 输入效率层面,模型让输入法的实时纠错功能已能精准识别音近字、形近字错误,甚至纠正语法逻辑偏差。 我们考察了市面上的几款软件,大多支持方言识别(覆盖粤语、四川话等30余种方言),还能精准捕捉语气词、口头禅,甚至区分多人对话中的不同发言人。 另外一个趋势是多模态输入。例如,有的输入法支持图像识别输入(拍照提取文字并智能排版)、手势控制输入(滑动手势完成标点、换行),融合语音、图像、文字等多种输入方式,构建起全场景输入解决方案。从权威机构给出的评分看,多模态输入满意率还有待提升。 当然,上述种种变迁背后,有科技巨头密集布局以及差异化竞争的身影,行业 “马太效应” 显著。 我们曾在《豆包“输入”微信里》一文中指出,豆包输入法颇为“激进”,它把语音输入作为最大卖点,使用的是Seed - ASR2.0模型,而不是传统的机械转写语音。此外,豆包输入法还提供了150MB的离线语音模型,无网时也能实现0.8秒低延迟语音转换。 此外,字节跳动的大模型重点强化“内容生成”与“多模态交互”,其推出的“文案生成”功能,可根据用户需求生成朋友圈文案、工作汇报、营销话术等多风格内容。 百度输入法主要依托文心一言大模型,在”知识问答+场景化推荐”方面,在搜索、办公场景中,可直接基于输入关键词提供相关知识解读与内容模板。 相比之下,腾讯微信输入法则联动混元大模型,强化生态协同,在微信聊天、公众号编辑等场景中提供无缝衔接的智能输入服务,而讯飞搭载自研星火端侧模型,提升离线语音识别。 站在行业视角来看,当前大模型输入法仍处于0到1.0阶段的演变中,对用户而言,最直观的是聊天沟通时,输入法可以根据对方话语生成得体回复,但对行业来说,抬高的技术门槛正在加速市场洗牌。 随着巨头下场,并用核心技术重构赛道时,传统输入法里的玩家的生存空间不排除在未来会被大幅挤压。大模型带来的技术壁垒,开始改变了让输入法赛道过去的功能竞争格局,取而代之的是母公司的生态与模型技术竞争。 久而久之,市场集中度进一步便可能会向模型公司靠拢。 B 在业内,瞄准输入法的还有闪电说、Wisper Flow等只做语音输入的垂直创业公司,考虑它们市场份额有限,大模型引发的市场洗牌,首当其冲的自然会是传统输入法巨头,尤其是曾凭借拼音输入技术优势占据半壁江山的搜狗输入法。 搜狗的挑战又主要来自外部竞争与内部生态的双重挤压,其市场地位面临挑战。 具体看,不少外部竞争者依托大模型的输入法产品正在实现弯道超车,这对搜狗输入法而言不算好事。虽然在艾媒咨询《2025年中国输入法行业白皮书》中,搜狗输入法仍以42.3%的市场占有率保持领先地位。 可有两点值得警惕。 一方面是新的竞争者持续追赶。例如,百度输入法的市场份额已经达到31.5%,MAU(月活用户)为3.8亿,与搜狗的差距只有4000万;讯飞输入法则以12.8%的份额位居第三,并登顶了“大模型输入法”之首。而豆包本身是国内用户量最大的AI APP,MAU达1.7亿,刚上线的输入法亦在快速成长。 另外一方面,搜狗输入法相较于前几年独占超70%的市场份额,已经大幅度减少。 而用户流失的关键,多少与其功能差距有关。也就是说,搜狗输入法的核心优势集中在拼音输入、词库积累等传统功能上,在AI生成、多模态交互等新功能上相较于模型大厂商,略有距离。 根据QuestMobile 2025年年初公布的数据显示,搜狗输入法的AI搜索插件,目前渗透率低于4%,该数据从侧面佐证了上述观点。 客观而言,搜狗输入法靠接入的“腾讯混元”“DeepSeek” 等模型,还是能够提供一些辅助服务,比如输入“你为什么难过”,左下角会显示出“帮你写问候语”。 只是此类功能在业内不算什么新鲜特色。相比之下,讯飞、豆包、百度等输入法的智能功能可能更能吸引年轻用户,尤其是Z世代群体,他们对信息技术的接受度更高,更愿意尝试模型厂商提供的“AI辅助表达”的新方式。 MobTech 研究院在今年9 月发布的报告中,新装增量上,讯飞输入法以11.2%的增速与增量均居首,百度以4.5%排名第二,搜狗为3.4%,落得个第三名,与榜首差距较大, 而内部生态支持与博弈,以搜狗的处境显得有些尴尬。 多年前,腾讯完成对搜狗的全资收购后,搜狗输入法成为腾讯生态的一员,但随着微信输入法的崛起,腾讯的资源开始向自有产品倾斜。公开数据显示,微信的输入法最早发布于2022年,2023年更名为微信输入法,2024年6月它就推出了接入腾讯混元大模型的首个AI版本,2025年1月更是迭代到了4.0版本。 某种意义上,两者是同一体系内的直接竞品关系。 腾讯在微信生态内可以为微信输入法提供更多曝光入口(如聊天界面默认推荐、公众号编辑首选输入法等),而搜狗输入法面对这种“内部竞争”让搜狗陷入尴尬境地,既无法脱离腾讯生态独立发展,又需要与持续获得资源支持的微信输入法进行博弈。 面对内外市场压力,搜狗输入法并非毫无动作,于是转头就曾宣布与外部大模型厂商合作,推出“AI辅助输入”功能,但从实际体验来看,它的新装增量还待进一步提高。 搜狗本身不是科大讯飞、百度以及字节这些自研大模型的厂商,这是它与外界竞争者的最大区别。随着各方加快大模型功能的融合与创新,其市场份额可能面临新的挑战。比如,此前知名车评人韩路在微博公开发文指责搜狗输入法存在“流氓行为”,即使卸载软件后,桌面右下角仍持续弹出广告弹窗。 弹窗风波本质上也透露出搜狗输入法的变现焦虑与压力。 C 把视线拉回到行业本身,无论是搜狗还是其他,都需要在竞争中直面一个问题,输入法真的需要更智慧吗? 回答这个问题,一看厂商;二看使用群体。 从商业价值来看,与云计算、大模型等千亿级市场相比,输入法市场的商业变现空间有限,即便再智能,不大的“蛋糕”难以支撑大厂持续投入巨额资源,加之输入法市场规模与主要收入来源是小众市场的广告、批发付费、增值服务等,对大厂吸引力恐怕不够高。 偏偏就在这款应用上,输入法的火热却让行业陷入一种“智能焦虑”,有的大厂将输入法定位为AI战略中的关键落子,想试图借助虚拟键盘这一入口背后连接的数亿级用户。同时,输入法作为高频入口,能积累大量用户行为数据,反哺巨头们的模型优化。 由此也对中小厂商带来冲击,似乎不加入大模型功能的输入法厂商,就会被市场淘汰。 再看用户侧。光看技术,用户似乎照样避免不了受到大模型影响。假设往用户画像群体层面深挖,情况则不尽相同。MobTech在研究中提及,大模型的受众用户以中青年以及学生为主,年龄集中在 18-30岁,占比超过70%,其中学生群体占比最高。 调研的结论表明,30岁以上的群体,在智能功能与实际需求之间可能存在错位,这群用户对输入法的核心需求也许仍是“精准、快速输入”,过度复杂的智能功能反而可能成为负担。例如,一些上下文联想生成有时会误解用户意图,生成不符合语境的内容,反而降低用户体验。 况且输入法作为高频工具,涉及大量包括聊天记录、工作文档、个人隐私等敏感信息,智能功能的扩张与隐私保护之间的矛盾,让部分群体避而不及。 例如,启动豆包输入法时,它会明确告知用户,可能收集包括密码、信用卡号等敏感信息。无论是广告引起的隐私滥用,还是技术不成熟导致的信息泄露风险,隐私挑战始终是输入法长期未解的一道商业难题, AI 的出现也未必能完全改变这一困境。 回过头来看,大模型对输入法赛道的重构,属于AI技术赋能C端工具的一个缩影,它既展现了技术进步带来的无限可能,也暴露了行业发展过程中的矛盾与困惑。 技术的演进让输入法完成了从“输入工具”到“智能助手”的跨越,效率提升与体验升级成为不可逆转的趋势。传统输入法巨头在此背景下面临挤压,从用户需求来看,智能功能与实际需求的错位,以及隐私保护间的博弈,还会继续。
AI已吞噬全美5%电力!马斯克怒怼基建叫停者:你们是懦夫
IT之家 12 月 18 日消息,科技媒体 benzinga 今天(12 月 18 日)发布博文,报道称特斯拉首席执行官埃隆・马斯克(Elon Musk)围绕着是否应该叫停美国 AI 基建,于本周三在社交平台 X 上,和美国佛蒙特州参议员伯尼・桑德斯(Bernie Sanders)爆发激烈交锋。 IT之家援引博文介绍,事件起因是桑德斯公开呼吁暂停新建 AI 数据中心。桑德斯认为,当前 AI 行业的驱动力源自亿万富翁对“更多财富与权力”的贪婪,而非普通工薪家庭的利益。这一言论迅速引发舆论发酵,将技术发展的伦理讨论引向了阶级对立的层面。 桑德斯在声明中列举了 AI 无序扩张的两大风险:就业威胁与资源透支。他警告称,AI 技术的快速部署可能导致数千万工人失去饭碗。 同时,数据中心的高能耗特性将推高居民电费,其产生的碳排放量相当惊人,约等于汽车行驶 3000 亿英里的排放总和。基于此,他强调必须立即对新数据中心的建设实施“冻结令”,以评估其社会影响。 针对桑德斯的指控,马斯克并未直接回应环境数据,而是从价值观层面进行了反击。当一名用户评论称“殖民太空比消除官僚主义低效更容易”时,马斯克借机讽刺桑德斯:“像伯尼这样的‘索取者’终将追随‘创造者’的步伐,但他们是缺乏冒险精神的懦夫,只会等到一切安全后才敢跟进。” 桑德斯随即回击,称如果所谓的“冒险”意味着让数千万人失业并加剧寡头垄断,他确实“缺乏这种冒险精神”。 这场骂战的背景是美国日益严峻的电力供应压力。数据显示,数据中心目前已消耗了美国约 5% 的电力,且随着 AI 普及,这一比例预计将大幅攀升。 面对地面能源的局限性,马斯克提出了激进的技术解决方案:利用 SpaceX 卫星构建“轨道数据中心”。 他认为,配备本地化 AI 计算能力的卫星不仅能利用太空太阳能,还可能在未来三年内成为产生 AI 数据流成本最低的方式。 为支撑这一愿景,马斯克透露了特斯拉在硬件层面的激进路线图,特斯拉目前正交付第四代 AI 芯片(AI4),并已着手开发 AI5 及 AI6,目标是实现每年推出一款新芯片并投入量产。 马斯克预测,通过结合太空基建与自研芯片,特斯拉未来的 AI 芯片产量将超过行业其他企业的总和,从而在四年内实现 AI 规模的最快扩张,绕开地球日益紧张的电力资源限制。
NASA 新局长上任:亿万富豪转行上太空,自称和马斯克不太熟
用爱发电 的最高境界 美国国家航天局(NASA),来了个另类的新局长。 当地时间 12 月 17 日,美国参议院以 67 票赞成、30 票反对的结果,正式批准 Jared Isaacman 出任 NASA 局长,结束了此前 NASA 由交通部长 Sean Duffy 临时的代管的局面。 Jared Isaacman 何许人也?一个亿万富翁企业家,一位私人飞行员,上过两次太空的业余宇航员,是 SpaceX 的金主,现在是史上最年轻的 NASA 局长。 兴趣是上太空的亿万富翁 Issacman 的生涯也颇有企业家的传奇色彩。从小,Issacman 就对计算机和技术表现浓厚兴趣,16 岁时选择辍学,进入了一家支付公司做技术支持工作,发现商业模式有不少低效之处。 同样是 16 岁那一年,Isaacman 得到了爷爷给的 1 万美元支票,在家里的地下室开创了自己的第一家公司——一家名为「United Bank Card」的初创企业,旨在改变商业支付现状,Isaacman 会亲自打电话,一个个寻找潜在的客户。 这家公司不断壮大,几经变更后,成为现在知名的端到端支付技术提供商 Shift4 Payment。 2020 年,Shift4 Payment 在纽约证券交易所上市,作为 CEO 和创始人的 Isaacman 一跃成为亿万富翁,随后几年 Shift4 不断进军新领域,例如太空业务,和 Starlink 有所合作。 除了在商业领域取得成功,Isaacman 也在飞行领域颇有建树:他拥有多款军用喷气式飞机的飞行资格,在民用和退役军用飞机上累计超过 7000 小时的飞行时间, 还在 2009 和 2011 年打破了轻型喷气机环球速度世界纪录。Isaacman 还创立了 Draken International,运营着全球最大的私营退役军用战斗机机队。 征服了蓝天后,Isaacman 的下一个目标是宇宙。 他出钱又出力,亲自领导了 SpaceX 在 2021 年的 Inspiration4 计划,实现了人类史上第一次私人太空旅行,绕地球轨道飞行三天;在 2024 年的「北极星黎明」计划,Isaacman 再次领导团队出征,达到美国登月以来人类距离地球最远距离,Isaacman 本人更是成为了第一批在太空行走的私人宇航员。 ▲ 北极星黎明计划中出舱的 Isaacman 虽然主导过载人航天计划,还亲自「上天」两次,但 Isaacman 本人既非科学家出身,也没有政治背景,给人感觉更像是,一个相当富有的航空爱好者,通过不懈努力(和烧钱),跨界成为了全世界最重要的航天机构领导者,堪称「用爱发电」的最高境界。 资本选出的局长,目标是月球 不难看出,Isaacman 和 SpaceX 以及马斯克的关系密切,实际上他能参选 NASA 局长这件事,背后很可能也是马斯克在推动。 去年,当马斯克的盟友唐纳德 · 特朗普当选美国总统后,在 12 月就提名了 Isaacman,但今年 5 月特朗普和马斯克关系恶化,Isaacman 的提名又被撤回,上个月才重新批准。 本周三,参议员们以 67 票对 30 票的大幅票数,通过了 Isaacman 出任 NASA 局长的任命,这也是 Isaacman 政治生涯的开端。 不管是 Isaacman 的背景,还是和 SpaceX 的关系,都让人明显感觉到,这是资本选出来的航空局长。在听证会上,Isaacman 也表示,随着各国太空竞赛的进一步升温,吸引更多互相竞争的私营力量,是领先的关键。 网友纷纷担心 Isaacman 和 SpaceX 的密切联系,会使得 NASA 国家资源被马斯克个人所用,扭曲 NASA 宇宙探索的纯粹使命。 ▲ 马斯克和 Isaacman 不过 Isaacman 强烈否认了他和马斯克是亲密好友的说法:「有趣的是,在一个充满摄像头的世界里里,在餐厅、游艇等各种地方都没有我们的合照,因为根本不存在。」他表示,之前他选择和 SpaceX 合作,只是因为那是当时唯一的选择。 在上周,Isaacman 还对 SpaceX 的竞争对手、杰夫 · 贝索斯的蓝色起源公司示好,不排除未来会加大 NASA 与其的合作,这是有损马斯克利益的。 ▲ 蓝色起源今年的全女成员私人航天计划 除此之外,他还建议 NASA 多和大学以及学术机构合作,认为未来 NASA 的角色是「科学的力量放大器」。 不管 Isaacman 和马斯克是不是一个战线,可以确定的是,这个新局长是一个不折不扣的前进派,并且有事他真上,面对当前 NASA 的困境,他雄心勃勃: 我会探索所有办法将项目送达发射台,甚至如果需要的话,我自己会资助。 曾经那些科学家和官员出身的局长很难给出这样的说辞,但对于自掏腰包让自己上太空的 Isaacman 来说,又相当合理。 ▲ Inspiration4 目前特朗普、Isaacman 和马斯克都有同一个目标——月球。 Isaacman 在参选的听证会上强调了对总统登月计划的赞同;马斯克在上个月也宣布 SpaceX 接下来将大力聚焦登月;NASA 的「阿耳忒弥斯」登月计划也已经在与 SpaceX 紧密合作。 月球已经成为了各国太空竞赛的必争之地,中国已经计划在 2030 年在月球建立一个可运作的永久性月球基地;特朗普也表示,希望美国建立一个永久的月球基地,以便资源开采,并作为通往火星的跳板。 目前 NASA 的登月计划已经落后,虽然对外宣称将于明年春季进行载人绕月飞行任务,但实际情况并不明朗。 因此,对于 Isaacman 任期的一个重要的考察指标,就是能不能建出 NASA 的月球分部。
豆包“包圆”互联网
豆包手机才发布半个多月,字节就发布了通用agent模型豆包 1.8。这是一个能在真实世界中“做事”的多模态大模型。 豆包 1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面,然后像人一样点击、滑动,帮你完成各种任务。 这是字节一次非常大胆的尝试。要知道,在12月1号的时候,字节才发布了豆包手机。通用agent大模型的推出,让豆包的领地从手机一下就扩张到了PC端,再加上智能硬件以及未来可以预期的智能座舱,豆包算是把互联网从入口层面“一网打尽”了。 此前,曾因为豆包手机,字节已然成为了移动互联网的敌人,微信、淘宝等超级流量APP明确表示拒绝豆包调用。 而现在,随着豆包 1.8的发布,字节的敌人只增不减。 A 先来说说豆包 1.8的评分,更直观的感受它作为agent是否合格。 在多模态理解方面,豆包 1.8的表现具有竞争力。模型能够处理图像和视频内容,单次视频理解的帧数从前代的640帧提升至1280帧。该项提升并非仅体现在数值层面,在实际应用场景中,模型能够以低帧率理解长视频的整体内容,在遇到关键片段时调用工具进行高帧率分析。 比如官方演示中,豆包 1.8就对篮球视频进行分析,最终浓缩出正常比赛的内容。 在公开评测中,豆包 1.8在ZeroBench主集上获得了11.0分,超越Gemini-3-Pro的10.0分,位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分,评分越高,代表模型越能理解复杂的视频。 在视觉推理任务上,模型在MathVista得分87.7,MathVision得分81.3,LogicVista得分78.3,虽然整体略逊于Gemini-3-Pro,但是仍处于第一梯队。 视频理解方面,模型在VideoHolmes测试中得分65.5,EgoTempo得分67.0,MotionBench得分70.6,在长视频和流式视频处理上同样保持了竞争力。 更为关键的是模型的agent能力。 豆包 1.8能够执行代码、操作图形界面、使用各类工具,这些能力使其能够完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中,模型得分为67.6,在智能编程和经济价值领域的相关测试中也表现稳定。 字节在技术报告中提及,模型支持search、code execution、GUI interaction三种核心交互方式,这些能力通过统一的agentic接口实现。 在基础能力方面,豆包 1.8在数学推理、代码能力、复杂指令遵循、知识覆盖等维度均保持了主流水平。在AIME-25测试中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。 这些数据表明豆包 1.8的底层能力扎实,字节并未因agent能力而忽视基础建设。 字节专门构建了一些内部评测基准,覆盖教育、客服问答、复杂工作流等高价值场景。 在教育场景的测试中,豆包 1.8得分60.8,在客服问答中得分69.0,均为参与测试模型中的最高分。该结果验证了模型在实际业务场景中的表现。 豆包 1.8提供了四种thinking模式:no_think、think-low、think-medium、think-high。 该设计旨在平衡延迟、计算成本和解决方案质量之间的关系。用户可根据任务的复杂程度选择不同的模式,在需要快速响应的场景使用低算力模式,处理复杂任务时切换至高算力模式。 而且豆包 1.8在视觉编码上进行了优化,减少了图像和视频输入的token消耗。在长上下文处理方面,模型支持256K的上下文长度,并提供了原生API级别的上下文管理。 直白来说,字节已经提前规划好了豆包 1.8有哪些实际用途,以及部署上该如何优化。 B 有意思的是,豆包 1.8的能力范围不限于手机助手,浏览器以及PC端都可以使用。也就是说,字节正在用AI包圆整个互联网。 其实这两年浏览器市场的变化是非常显著的。传统浏览器,比如谷歌的Chrome和微软的Edge,都在加入AI能力。也诞生了许多基于大模型的AI浏览器。 Atlas是OpenAI在2025年10月推出的产品,本质上是Chrome与ChatGPT的结合,将对话助手嵌入传统浏览器。Disco是Google Labs的实验项目,拥有名为GenTabs的机制,能够将用户浏览的标签页直接生成可交互的Web应用。 AI浏览器是一个非常大的市场。Market.us数据显示,2024年全球AI浏览器市场规模约45亿美元,预计2034年将达到768亿美元,年复合增长率达32.8%。 然而豆包 1.8其实可以让设备拥有更神奇的玩法。 该模型的云端架构使其能够实现跨设备协同,也就是说,理论上用户可在手机上向豆包 1.8下达命令,由电脑上的浏览器执行。 比如在手机上浏览抖音时发现感兴趣的内容,想要切换至大屏观看。那么就可以向豆包 1.8发出“在网页上打开该页面”的指令,电脑浏览器便能打开手机上的视频。 这种跨平台能力是传统浏览器AI化难以实现的,也是Atlas、Disco等独立浏览器产品目前尚未拥有类似的能力。 实际上,字节也在效仿微软。微软曾在Ignite 2025大会上宣布Windows正在成为“AI agent操作系统”。 然而字节的想法和微软是不相同的。 微软需要从底层改造Windows系统架构,将agent能力深度集成到内核和API层面。而豆包 1.8的做法更轻量,它是一个系统外部的代行者,就像是外骨骼一样简化用户的操作。 为了实现这个目标,首先就是要理解文字和图表。豆包1.8在这个领域有专门优化。 它不仅能阅读文字,还能理解复杂的学术图表、数据可视化、技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时,模型能够提取关键信息、理解图表含义、建立文字与图示之间的对应关系。 而且PC端的任务往往比移动端要复杂。于是豆包1.8在复杂推理任务中,加入了并行思考机制。通过分配额外的计算资源,它可以同时探索多个解决方案路径,评估不同方案的可行性,最终选择最优解。 实际应用测试显示,豆包能够处理综合性的规划任务。在旅行规划场景中,它可以同时处理多模态信息,从地图、图片、文字描述中收集信息,综合考虑预算、时间、偏好等约束条件,生成详细可行的行程安排。 C 字节想要把AI的蛋糕做大,但是豆包手机已然让字节成为众矢之的,继续升级agent,只会为自己引来更多的敌人。 互联网行业当前的商业逻辑是,用户在应用中停留的时间越长,观看的广告越多,平台获得的收益越高。应用开发商投入大量精力优化界面、设计转化路径、增加用户黏性,目的是让用户尽可能多地接触商业化内容。在该逻辑下,应用是流量的关口,掌握应用即掌握用户。 agent模型的出现,对该逻辑形成了颠覆。在字节的演示中,豆包 1.8能够调用十余个工具完成电商平台的全网比价和下单。 用户无需打开淘宝、京东、拼多多,无需在各应用之间切换,只需告诉大模型“购买性价比最高的某产品”,agent便会自动搜索、比价、筛选、下单。在整个过程中,用户完全不接触应用界面,自然也无法看到任何广告。 实测显示,豆包 1.8可通过playwright MCP工具,按指令在淘宝筛选500-1000元区间销量第一的半入耳式蓝牙耳机,再到唯品会、京东比价并完成加购。 该能力对用户而言是效率的提升,但对应用开发商而言则构成威胁。 广告展示失去了核心场景,原有的流量价值被大幅压缩。更为关键的是,用户对应用的认知可能发生改变。 过去用户的认知是“购物使用淘宝,打车使用滴滴”,现在转变为“向agent说明需求,由其决定使用何种服务”。应用从流量的关口转变为agent可选的工具,互联网的统治权从应用层转向模型层。 豆包手机遭遇的封禁和限制,本质上是应用开发商的防御反应。但该防御能够持续的时间,取决于用户的选择。 但是,规矩是人定的。如果足够多的用户认为agent的使用体验明显优于传统的应用操作,APP开发商将不得不调整策略。 开发商可能开放API接口使agent更好地调用,也可能在agent调用时保留部分广告展示,或者改变商业模式,从流量变现转向服务收费。 况且,AI agent的玩家越来越多。 12月9日,智谱就宣布开源其核心AI agent模型AutoGLM。与豆包手机助手的能力相似,AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程,并且已支持微信、淘宝、抖音、美团等超过50个高频中文应用。 质谱开源的AutoGLM-Phone-9B总共只需要36GB的空间,就可以完全在手机本地运行。且开源采用MIT和Apache-2.0双许可证,意味着任何人都可以免费下载并用于商业用途。 在移动互联网时代,谷歌凭借开源的Android系统建立了庞大的生态,智谱显然想要在AI操作系统时代复制这一路径。 而且从豆包和智谱的技术实现来看,这个领域的核心壁垒和大模型是完全相同的,腾讯、阿里等等互联网大厂,手里都握着门票。 不过从行业竞争的角度观察,谁能让agent与现有APP生态共存的一方,谁才能占据优势。 字节既拥有模型能力,也拥有应用生态。抖音、今日头条等产品本身即为流量大户,字节能够先在自身应用中测试agent能力,积累经验后再向外扩展。 且字节的云端架构使其能够快速迭代,豆包手机上线半月即推出多次更新,该迭代速度是传统硬件厂商难以达成的。 不可否认的是,豆包1.8是字节的探索性尝试。 它们展示了一种可能性,但距离成熟的产品形态仍有距离。至于最终能够走多远,取决于字节在技术、生态、商业模式上能够实现多少突破。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。