行业分类:
加载中...
头条分类:
加载中...
诺奖得主Hassabis:5-10年AGI将至,冲击力将是工业革命10倍!
新智元报道 编辑:元宇 【新智元导读】近日,在与数学家Hannah Fry的对话中,DeepMind CEO Demis Hassabis回顾了AI在过去一年的飞跃式进展,他谈到了「参差智能」、持续学习、模型幻觉等迈向AGI过程中的关键挑战,并提到AGI带来的社会冲击可能是工业革命的10倍。 「过去一年,我们像是经历了十年的发展。」 近期,在与数学家Hannah Fry的对话中,DeepMind CEO Demis Hassabis这样形容他对过去一年最大变化的感受。 DeepMind CEO Demis Hassabis(左)与数学家Hannah Fry(右)在播客中 在Hassabis看来,过去一年,AI领域取得了十分惊人的变化。 对于谷歌来说,发布了Gemini 3,在多模态能力取得了长足进步。 此外,世界模型的进展也让Hassabis非常兴奋,这是他一直以来最热衷的领域之一。 Hassabis谈到了在通往AGI过程中存在的一些瓶颈难题,比如「参差智能」的,持续学习能力的缺失等。 他认为迈向AGI需要「50%的规模化+50%的创新」。 距离AlphaFold 2面世已经5年,Hassabis谈到目前DeepMind团队正在探索材料科学、核聚变等其他的可能性。 「参差智能」的挑战 在对话中,Hassabis谈到了通过AGI过程中的一些挑战。 比如,「参差智能」(jagged intelligences)的挑战。 AI能在国际数学奥林匹克竞赛中摘金夺银,却会在高中数学题上犯一些非常低级的错误。 Hassabis认为,这正是我们迈向AGI的一个瓶颈问题:「一致性」或「参差智能」(jagged intelligences)。 在他看来,「参差智能」出现的原因有各种理论解释和不同的原因,具体到不同情况,可能在于图像被感知和Token化的方式。 比如,有时它甚至无法识别所有的字母。 所以当你让它数单词里的字母时,它有时会出错。这可能是因为它没有看到每一个独立的字母。 此外,Hassabis还提到在线学习和持续学习的能力是当今AI模型所缺失的,这同样也是迈向AGI所不可或缺的重要能力之一。 AGI需要50%的规模化加上50%的创新 AI的竞赛与加速发展模式,有时也会面临很多「规模化最终会撞墙」「数据会耗尽」的质疑。 Gemini 3发布后,在众多基准测试中遥遥领先,似乎打破了这一质疑。 对此,Hassabis坦言,可能会存在一些「收益递减」效应,但他们在这个过程中其实从未真正遇到过所谓的「墙」。 他特别纠正了一种公众误解,即将「收益递减」错误解读为「零收益」,非黑即白: 「在指数级增长与停滞不前两种极端之间存在着广阔的空间,而谷歌正处于这个中间地带。」 这也意味着不可能每次发布新版本,性能就在所有基准上翻倍。但Hassabis也强调自己并未看到任何放缓的迹象。 谈到「互联网数据是否快被用尽」这一问题,Hassabis认为这可以通过使用合成数据来解决。 「现在的系统已经足够强大,可以自己生成数据,尤其是在编码和数学这类可以验证答案的领域;从某种意义上说,你可以创造出无限的数据」。 Hassabis也表示这些领域目前仍是研究课题,而这一直以来也是谷歌的优势: 「我们始终坚持研究为先。谷歌一直拥有最广泛、最深厚的研究团队。如果回顾过去十年的重大进展,无论Transformer、AlphaGo、AlphaZero,都出自Google或DeepMind。」 当赛道变得越来越难时,Hassabis反而觉得更加兴奋。 他认为这不仅需要世界一流的工程能力,还必须将其与世界一流的科学研究相结合,而后者正是谷歌的专长。 此外,最重要的一点谷歌还拥有世界级基础设施的优势,包括TPU和其他硬件。 这些结合,使谷歌能够同时在创新前沿和规模化应用上保持领先。 「50%的精力用于规模化,50%用于创新,要最终实现通用人工智能,这两者缺一不可。」 模型幻觉 即使在Gemini 3这样的前沿模型上,仍然能看到「幻觉」现象。 Hannah问是否可以让Gemini像AlphaFold那样,为自己的答案给出一个置信度分数。 Hassabis认为这个功能很重要,也是目前所缺失的关键环节之一: 「我相信我们正在接近这个目标。模型越智能,它们就越『知道自己知道什么』」。 模型越可靠,我们就越能依赖它们某种形式的「内省」或者更深度的思考,从而让它们自己意识到对某个答案不确定。 Hassabis表示,接下来我们就需要研究如何通过训练,让它能够将这种「不确定性」作为一个合理的答案输出。 他将目前的模型比作一个「说话不过脑子的人」,大多数情况下可能没问题,但当遇到非常棘手的问题时,你希望它能停下来,审视一下自己要说的话,并作出调整。 因此,需要引入「思考」和「规划」的步骤,让模型能够回顾自己刚刚输出的内容。 世界模型 除了 AI,世界模型和模拟一直是Hassabis最热衷的领域。 他认为语言模型仍然缺乏对很多关于世界的空间动态、空间感知、物理接触,以及我们所处的物理环境如何运作的力学原理的理解,这些通常是很难用语言描述的,也不会出现在文本语料库中。 如果我们希望机器人能够真正工作,或者希望有一个能随时陪伴你的通用助手,无论是在你的眼镜上,还是手机上,在你的日常生活中提供帮助,你就需要这种对物理世界的深刻理解,而世界模型正是其核心。 Hassabis谈到圣塔菲研究所(Santa Fe Institute)所作的模拟社会动力学的实验,让智能体在设定了正确激励机制的环境中运行足够长的时间,它们可以「发明」出像市场、银行等种种有趣的东西。 他认为这些实验很酷,也能帮助我们理解生命的起源和意识的起源,而模拟,则是实现这一目标最强大的工具之一。 「你可以设置略微不同的初始条件,将模拟运行成千上万次,然后以一种高度受控的实验方式,去理解这些细微差别所带来的不同结果。」 Hassabis认为,精确的模拟将为科学带来不可估量的福祉。 避免「信息茧房」 Hassabis曾提到,构建AI不应以最大化用户参与度为目标,以免重蹈社交媒体的覆辙。 如何构建一个既能将用户置于其个人世界的中心,又不至于为他们创造出一个「单人回音室」的 AI? Hassabis称目前已经看到了过度「谄媚」或迎合用户的AI所带来的后果,它们会形成「回音室」效应,对个人产生非常负面的影响。 Gemini正在通过发展出一套关于AI「人格」设定的科学方法来解决这一挑战。 Hassabis带领了一个团队来负责这项工作,希望塑造一种近乎「科学家」的个性: 它温暖、乐于助人,但同时又言简意赅、切中要点;它会以友好的方式,对那些不合逻辑的观点提出质疑,而不是盲目附和。 Hassabis认为为模型「人格」设定标准,是让大模型走向科学研究的一个重要关键。 模型会有一个出厂的「基本人格」,每个用户可以根据自己的偏好进行个性化设置,比如更幽默或更简洁。 但其核心的基础人格是不变的,它始终致力于遵循科学方法。 工业革命对AI变革的启示 Hassabis近期研究了很多关于工业革命的历史,他认为这有助于帮助我们应对即将到来的社会变革和冲击。 工业革命为人类带来了难以置信的进步,比如现代医学、物质富足、现代交通等。 同时也带来了巨大的挑战,不同时期,不同行业的劳动力都经历了被取代的阵痛,但没有人会想回到前工业时代。 而AI带来的变革的规模可能是工业革命的十倍,而其发生的速度也可能快十倍,或许将在十年内展开,而非一个世纪。 在Hassabis看来,通过学习那段历史,提前预见这次变革可能带来的社会错位,有助于我们更早、更有效地去缓解它们。 就像工业革命彻底改变了农业社会的工作模式一样,至少同等规模的变革将再次发生。 因此,Hassabis认为我们可能需要新的经济体系和模型来帮助社会转型。 图灵机的终极问题 Hannah Fry:超越通用人工智能,迈向人工超级智能(ASI)的阶段,您认为是否存在某些事情是人类能做到,而机器永远无法企及的? Demis Hassabis:这正是那个终极问题,又回到了我最爱的话题之一图灵机。 Hassabis认为,如果成功构建了AGI,并用它来模拟人类心智,并将其与真实的心智进行对比,就能发现其中的差异,以及人类心智中那些独特且无法被取代的东西。 其中哪些是可计算的,哪些是不可计算的,目前存在着许多假说,但这最终都归结于图灵机的问题: 图灵机的能力极限究竟在哪里? 自从了解到图灵和图灵机以来,这个问题一直是Hassabis人生的核心问题,令他着迷,也是他的核心热情所在。 他所做的一切,都在某种程度上不断拓展着图灵机能力的边界,包括破解蛋白质折叠。 但他并不确定这个极限在哪里,这就又回到了心智的问题:它完全是经典计算吗?还是说有其他机制在起作用? 「如果现在非要我猜,我会赌是后者,并且我正基于这个假设在工作,直到物理学证明我错了。」 Hassabis十分推崇康德(Kant)的一个观点——现实是心智的建构。 「所有这些感觉,包括光、温暖、触感,它们通过我们的感官输入。归根结底它们都是信息。而我们,就是信息处理系统。」 Isomorphic Labs的创办正是基于这样一个理念。 他们将生物学视为一个信息处理系统,相信最终能治愈所有疾病。 当前AI都不具备意识,AGI可能需要5-10年 Hassabis从小便对生命的意义、意识的本质、以及现实本身到底是什么这类宏大的问题着迷。 一直指引他并让他始终保持热情的,是理解我们周围的世界。 对于他来说,AI就是一个推动人类知识进步,帮助他实现这一目标的终极工具。 2025年4月,Hassabis在接受CBS 《60 Minutes》节目采访时表示,当前的人工智能系统在任何真正意义上都不具备自我意识或意识。 当CBS 《60 Minutes》主持人Scott Pelley问他,「你们现在是否在研究一种可能具有自我意识的系统」时,Hassabis表示,在他看来,如今的系统都不具备自我意识,也谈不上真正的意识。 Scott Pelley又问他是否会将打造有自我意识的系统当作目标。 Hassabis回答,这并不是一个明确的目标,但它可能会以一种隐含的方式发生。 比如,这些系统有可能获得某种「自我意识的感觉」。 他表示让系统理解「自我」和「他者」是非常重要的,而这可能正是自我意识的起点。 但Hassabis也提到,即使机器真的获得了自我意识,人类未必能够识别出来。 Hassabis谈到了他对AGI的时间表,他认为可能在未来5到10年内实现。
手机厂靠拢豆包
努比亚 M153 的三万台还没有卖光,豆包的手机端合作版图,有望进一步扩大。 近日,界面新闻报道称,字节跳动正推进与 vivo、联想、传音等硬件厂商开展 AI 手机合作,为其设备预装 AIGC 插件;多位 vivo 员工向媒体证实双方已确认合作、正在讨论细节。 不过,仅凭这条消息模糊的表述,尚无法确认这些“合作”的具体性质,是否和此前字节与中兴的合作方案划等号。此前,在 nubia M153 上,字节在手机 OS 层深度构建了 GUI Agent,可以自动接管用户指定的跨 App 操作,但随后遭受了来自微信、淘宝等 App 的“反制”。 但从最新合作传闻中不难看出,M153 的尝试还是吸引了手机行业的目光。随着字节带着豆包大模型能力入局,终端厂商的原生 AI 生态正在加速扩张。 这一趋势,在近日举办的火山引擎 FORCE 原动力大会上可以窥探一斑。 包括中兴、荣耀、小米、vivo 在内的多家手机厂商为火山引擎“站台”。不过,除 nubia 带来的 M153 之外,大部分手机厂商和豆包的关系更多是模型能力的调用,Agent 层面的产品形态、交互方式以及系统级整合,依然主要由手机厂商主导。 在本届源动力大会的群访环节,火山引擎总裁谭待在接受直面 AI 采访时表示,“AI 的价值在于用更方便、更便利的方式,做大用户的需求”。 显然,不管后续字节和这些厂商的合作如何展开,一个行业趋势已经愈发清晰。系统层的 Agent 潜力巨大,即便当前落地存在一些阻力,但在 M153 上已经能看到未来的雏形。 不管是合作还是自研,大模型厂商和手机厂商们,已经喊着“做大做强”的口号,加速涌入这一赛道。 手机厂商们加速拥抱字节等大模型厂商,背后是手机端原生助手领域,有着天然体量巨大的活跃用户基础。 QuestMobile 的 2025 年三季度报告显示,截至 2025 年 9 月,移动端 AI 应用 MAU 达到 7.29 亿;其中“手机厂商 AI 助手”规模约 5.35 亿,“原生 AI App”约 2.87 亿,“In-App AI”约 7.06 亿。 换言之,在原生 AI 的不同形态里,终端和 App 有着明显的用户“层级差”:原生 AI App 依赖用户主动点击触发,而系统级助手天然就在“随手就用”的前置位,甚至无需用户刻意点击就能维持日活。 事实上,围绕“如何在系统层唤起 AI、如何让助手不只停留在语音问答”的探索,几乎已经成为国内主流手机厂商的共识,只是受限于模型能力与工程稳定性,多数方案最终停留在“增强版语音助手”的阶段,而豆包手机助手的出现直接踢开了这扇大门。 尽管nubia M153呈现的效果在业内仍有争议,但豆包手机助手在 OS 层获得授权后,实现了自动接管用户的跨应用任务,让业内看到了完全体 GUI Agent 的雏形。这一形态带来的想象力空间,并不会随着部分超级 App 的“反制”而消失。 另一方面,随着近两年大模型在指令理解、多轮规划与工具调用能力上的明显跃迁,AI 首次具备了承担复杂任务链的可能;与此同时,移动端算力、内存与本地推理能力的持续提升,也让“端侧执行”不再只是概念。 手机端“可跑得动”的关键之一,是移动 SoC 的 NPU 峰值算力与能效在近两代出现跃升。根据行业调研机构 Counterpoint 的分析,2025 年全球主流旗舰级 SoC 几乎全面支持生成式 AI,本年度出货的高端 SoC 中有约 88% 已具备生成式 AI 能力,且这些芯片的 AI 算力峰值在 2025 年已经接近 100 TOPS级别,约为 2021 年水平的四倍。 AI登“机”的浪潮下,Siri 时代那种以固定指令为主的语音助手逻辑,已经难以满足用户对“智能”的期待。 在这样的窗口期下,手机厂商迫切需要在硬件与系统层面,寻找新的体验突破口;而 AI 云厂商,则拥有更成熟的模型与工程能力。双方的靠拢,并非一次偶然的商业试探,而是技术成熟度与产业需求叠加后的结果。 这也是为什么,尽管 M153 的销量规模有限,但 3 万台工程机,仍像是一枚信号弹,给早已蠢蠢欲动的手机行业一个冲锋的信号。 这样的背景下,市场开始传出 vivo 等体量更大的厂商,与字节推进合作的消息,其实合情合理。这并不意味着所有厂商都会复制 M153 的深度定制模式。vivo 此前就发布过“蓝心智能”AI 战略与自研蓝心大模型矩阵,并强调 OriginOS 与系统级智能体能力的升级。 另一边,以荣耀为例,YOYO Agent 已接入豆包大模型的部分能力,但 Agent 的训练、产品逻辑与系统整合,依然由荣耀主导完成。这种“能力接入而非产品外包”的方式,或许才是更多手机厂商在当前阶段的现实选择。 值得关注的是,荣耀首席影像工程师罗巍,此前曾就豆包手机助手发表个人观点:“因为字节没有硬件研发能力,或者硬件能力并不比中兴领先。那么就是两个矮子在一起,也不会生个高子。” 但在这番评价之后,荣耀的展台仍然作为火山引擎合作伙伴,出现在了本届原动力大会上。 回过头看,字节的这次激进,并不是脱离产业节奏的冒进,而是踩在一个已经逐渐成熟的窗口期上。M153的意义,也并不在于证明某一款产品的成功,而在于让行业更坚定地看到:端侧Agent,已经成为一条无法回避的路径。 而面对微信和淘宝等App不断筑高的城墙,App与Agent的关系,成了绕不开的下一问。 豆包手机助手面世以来,在业内迅速引发了一些讨论:当 AI 可以直接理解意图并代为操作,Agent 是传统 App 的威胁吗? 在本届火山引擎原动力大会的群访环节,谭待回应了直面AI提出的这一问题,他首先从用户视角进行了阐述。 “假如说用户想点一杯咖啡,点咖啡这个操作不管是通过跟机器人语音交互,还是操作手机完成,最后都是为了满足用户的需求。”在他看来,普通人还有很多需求没有被满足,通过 AI 可以更好地解决这些问题。 “至于这个 AI 的载体是 Web、App、agent,还是套了个 App 壳的 agent,可能没有那么大关系。”谭待这样说道。 所以,回到手机原生助手层面,能操作多少 App 也许从来不是问题的核心,真正重要的,是 AI 是否能用更低的使用成本,把原本未被满足的需求释放出来。当需求被“做大”,无疑在硬件层面可以建立起全新的用户心智,尤其是广大用户对 AI 已经并不陌生的 2025 年。 QuestMobile 数据显示,截至 2025 年第一季度,原生 AI 应用的月活跃用户规模大幅扩容,其中用户对 AI 原生应用从“尝鲜”逐渐转向“依赖”,其人均月使用次数同比增速明显高于使用时长增速。 报告显示,AI 原生应用的月人均使用次数同比增长约 53.1%,而月人均使用时长则增长约 32.7%,用户层面倾向于多次短时打开 AI 应用去完成即时类需求。 这些需求,正是手机原生 Agent 可以放大的那部分。但这本质上是一个增量逻辑,并不意味着 App 的价值短期内会被快速削弱。 中国信通院在 2024 年发布的数字应用生态报告指出,用户使用时长仍高度集中在少数头部 App 上,支付、即时通讯、短视频等核心应用合计占据超过八成的用户总使用时长。这些 App 所承载的账户体系、支付能力、内容供给与安全责任,短期内都不具备被 Agent 直接替代的条件。 也就是说,Agent 正在改变 App 的“入口位置”,而非消解其存在价值。 在这一结构中,App 仍然是能力与服务的封装体,但不再必然是用户表达需求的起点;Agent 则逐渐承担起“需求调度层”的角色,负责理解意图、拆解任务,并将执行分发给不同应用或系统能力。 甚至,用户驱动 Agent 的终端甚至未必是手机。 根据 Counterpoint Research 的追踪与分析数据,2025 年智能可穿戴设备市场中 AI 智能眼镜等具备本地 AI 能力的终端表现出显著增长势头。2025 年上半年,全球智能眼镜出货量同比增长超过 110%,其中 AI 型智能眼镜的出货占比大幅提升,反映出业界对本地 AI 能力的快速采纳趋势。 而在这一背景下,字节也不会是唯一入场的大模型厂商。 智谱 AI 在近期将其核心 AI Agent 模型 AutoGLM 开源,使研究者与开发者能够基于该模型构建具备“Phone Use”能力的 AI 终端智能体。 AutoGLM 能够理解屏幕内容,并通过模拟用户操作(如点击、滑动、文字输入等)完成多步骤任务流程,目前已在微信、淘宝、抖音、美团等超过 50 个高频中文应用场景中展示出自动化操作的能力。 换言之,当更多大模型厂商试图“上机”,分水岭就不再只是模型接入,而是手机厂商是否愿意把系统层的 AI 入口与规则让渡出去。下一阶段的竞争,更像是“系统与生态”的较量。 如果说 nubia M153 更像是一种“工程验证”,那么在它发布数周后,小米在人车家全生态大会上同步披露的澎湃 OS 与 AI 进展,则代表着传统手机豪强的同步跟进。 在这场大会上,小米并未将重心放在单一模型或功能上,而是反复强调澎湃 OS 作为系统级底座的角色——它正在成为连接手机、平板、电视等多终端的统一操作系统框架,也是 AI 能力被组织、分发与约束的核心层级。 这一判断,并非停留在概念层面。根据小米官方披露的数据,截至 2024 年底,小米 AIoT 平台已连接设备数超过 8.2 亿台,覆盖手机、平板、电视、穿戴与家居等多个品类。澎湃 OS 的目标,正是将这些分散设备纳入统一系统框架之中,使 AI 能力可以在不同终端间被调度与复用,而非依附于单一应用。 这意味着,在小米选择把 AI 能力牢牢放在操作系统内部,而且这个系统对应的硬件生态同样庞大。 另一边,作为小米 MiMo 大模型相关负责人,罗福莉在本次大会上首次公开亮相。在谈及 AI 能力演进方向时,她将重点放在任务理解与执行层面,强调 AI 需要具备对复杂需求进行拆解、规划并与系统能力协同完成的能力,而不仅停留在单轮问答或信息生成阶段。 从产业结构看,这条路线与字节所代表的 AI 云厂商路径形成了对照。 头部 AI 厂商希望进入手机 Agent 市场,逻辑并不复杂,是因为手机仍是用户最重要、最稳定的高频入口之一;但对手机厂商而言,操作系统、硬件整合与生态控制力,才是其长期优势所在。一旦 Agent 深度嵌入系统层,谁来定义交互方式、权限边界与默认入口,决定了最终的主导权。 这也是为什么,多数头部手机厂商在接入外部模型能力的同时,仍坚持自研 Agent 框架与系统级助手。它们更倾向于把云厂商视为能力提供者,而非产品定义者。 事实上,这并非一条新出现的路径。更早之前,华为在推进 HarmonyOS 与小艺助手的过程中,已经持续强化系统级调度与跨设备协同能力,并将 AI 能力作为操作系统的一部分加以演进。 根据华为在 2024 年开发者大会上的公开数据,HarmonyOS 生态已覆盖 8 亿+ 设备,注册开发者超过 220 万,并运行在手机、平板、穿戴、车机及各类 IoT 终端之上。在这一体系中,小艺并非独立应用,而是深度参与系统级调度与跨设备协同,用于统一调用多终端能力。 而在智能眼镜、耳机等新硬件形态上,这种生态差异被进一步放大。对屏幕受限、操作碎片化的设备而言,Agent 更接近“基础交互层”,而品牌与系统协同能力,往往比单一模型能力更重要。 在这一点上,显然传统硬件厂商的优势会更大,但AI厂商们,如字节和阿里也在推进各自的AI硬件业务,小艺与超级小爱,是否能够在端侧体验上全面超越豆包,目前仍难下定论。 但近期手机圈对于豆包和其他AI的“加码”已经清楚表明,无论是 AI 厂商还是手机厂商,都已将目光投向 AI 手机这一仍待开垦的系统级空间。 在豆包手机助手的“信号弹”作用下,2026年,AI手机有可能迎来“做大做强”的一年。
豆包视频生成大升级,网友们的脑洞终于自带音效了
先给大伙看个视频吧。 很酷炫的大片场景对吧,特效和氛围都很上头。 但如果我告诉你,这片子是纯 AI 生成的呢?AI 的飞速发展,让肉眼好像已经分不清,特效和 AI 的区别了。 但估计大多数人跟我一样,都是光看不练,或者说练过,但《从入门到入土》。 原因就一句话:这玩意太容易劝退了。 想要完成度高一点,就得自己部署个模型,搞点稳定可控的 Workflow 。但那一堆密密麻麻的参数,普通人是调不明白的。 想随便玩玩的,可以上在线网站,但效果相当于抽卡,每抽一发就要花钱。像之前网上大家刷到的 ASMR 切水果,大多都是谷歌的 Veo 之类生成的,国内的大伙也很难用上。 被折磨了许久后,世超最后的答案,是一个大伙耳熟能详的东西——豆包。 你别不信,这浓眉大眼的豆包悄悄进化了。最近,它的视频模型更新到了 Seedance 1.5 pro,而且支持了音画同步,效果媲美谷歌。用完后我只想说,想自己搓 AI 视频的朋友们,好日子来了。 具体有多强,还是看世超表演吧。 大伙都知道,以前国内大部分视频模型只能演默片,而现在,豆包的声音和画面已经配合得出神入化了。 而且我感觉最突出的特征,是它的理解力,就是不用写什么详细提示词,它会自动理解画面和文字,生成你想配的声音。 首先出场的是我们的老演员,火锅。 我们丢给它一张火锅近照,并直接跟豆包讲:“让图中的金毛进入水坑跑一圈。” 它很好地理解了我的需求,画面里的金毛和水的效果都没啥问题,还很好地区分了在地上和水里的脚步声,甚至知道是户外,配上了鸟叫,整个一生机勃勃万物竞发,理解力没得说吧。 然后我们用同样的提示词,发给谷歌的 Veo 来做了个对比。讲真,世超是觉得大差不差的,二者的物理效果和音效都很逼真,甚至俺觉得豆包更还原了手机麦克风的录音感。 为了证明不是诈胡,我又传了一张双人演奏的图,我也没告诉它哪个是吉他,哪个是贝斯。 结果出来,还真是两种动静都有,甚至还加上了鼓点。差友们可以测一下自己的听力和耳机的表现,看看能不能听见贝斯。 除了图生视频,咱还可以直接不给图,让豆包文生视频,这考验的就是豆包的想象力了。 我让它生成了一段像素风格游戏画面,哥们小的时候巨爱玩。 结果效果真的很逼真,甚至感觉比我记忆里的游戏还好,起飞和落地的碰撞粒子效果都做出来了,背景音乐也是经典的 8-bit 风格。 8-bit 像素艺术风格,勇者在夕阳背景下从左往右奔跑跳跃,带着泥土的粒子特效,画面带有复古 CRT 显示器的扫描线效果。动作流畅,配合复古 8-bit 电子游戏音乐(Chiptune)与跳跃音效,音画节奏紧密协同,完美还原红白机时代的经典游戏画面质感。 2D 游戏有了,3A 大作呢?世超也试了一下,传给它一张黑神话的游戏截图。 结果不仅画面不错,一致性也保持得很好。我们让猴哥乘上了筋斗云向天上飞去,猴哥的模型我目测来看是没怎么崩,而且还有加分项,配上了史诗级的音乐,豆老师在音乐细胞这块可真没得说啊。。。 为了考验豆包的对人脸的一致性,我们又请出了鬼畜区顶流,跟诸葛亮对喷的王朗,不过这次演的是王朗认错人的戏码。 这人物的小表情和小动作都刻画得很有味道啊,看见对方却不认识的短暂迟疑,短暂思索,还有认错人之后的尴尬解围,表演得都非常自然,脸部的一致性也保持得很好。 王朗眉头一皱,发现事情并不简单。 所以呢,整了这么多活,意思是只能发发小视频咯,能不能真有专业电影级的用途呢? 能的,能的。众所周知,影片不仅要画面精致,还得有镜头语言和台词吧。 而这些,豆包真的都能拿下。 我找了张废墟中的男人的图,让它 Cos 一下面壁者罗辑,然后让摄像头绕着罗辑转,模拟智子视角。 豆包的镜头还是很稳的,人物的脸也保持了原有的特征,再加上这性感气泡音,三体人真的不是被颜值折服的吗? 而且,你也不需要有大导演级别的用词,什么推拉摇移跟升甩降,你甚至直接可以说,我就想要个有故事感的镜头。。 于是,它就把镜头紧紧锁在金毛身上了,因为它清楚,这是主角儿。 而世超最喜欢的,其实是这次模型的面部情感表达。我叽里咕噜瞎敲了一堆提示词给它,什么心酸劳累,什么重燃希望,全喂给它了。 都市风格,中年东亚女性,特写捕捉她的脸上的劳累苦楚,随着夕阳洒在脸上,神情转为充满希望的微表情变化。人物皮肤具备真实胶片质感,浅景深背景虚化。比例 16:9,时长 10s,模型 1.5 Pro。 结果它居然表达得很好,真就给我了一种镜头里的人活了的感觉,眼里充满了这些年的辛酸与泪水。 之前说外国人的 AI 很难驾驭中文,那豆包的外语怎么样呢? 我管你这那的,先发一张美少女试试。 于是我发过去这张图片,然后让她说了一句 “ 组一辈子的乐队吧 ”。 然后复刻得非常成功,BGM 也是很有日本动漫的风格。 最让我惊艳的是,它甚至还能生成,带对话,全外语,且对上口型的动画片段。 更恐怖的是,连音色都大差不差,如果忽略后面有些 bug 的文字,我很难不认为这是原片。 帮我生成一个视频:Shot 1:中景 蟹堡王厨房海绵宝宝双手紧握铲子,眼神充满决心。海绵宝宝(声音发颤):“i want to bring joy to others”Shot 2:特写 章鱼哥半侧脸他斜眼看着海绵宝宝,嘴角下撇。章鱼哥(低沉讥讽):“you can't even fool yourself”。比例 16:9,时长 10s,模型 1.5 Pro。 啥意思,老二次元的春天真的来了?以后想看什么番外都能自己搓,那叫什么旮旯 game 的还得自己攻略,不好不好。 讲道理,世超上网的时候,经常看见豆包,觉得它已经够火够强了,结果这次,憋了个更大的。测完这一圈,我甚至感觉,这是豆包给自己加冕的冠军拼图了。 文字能写、图片能画、音乐能搓,现在再加上个音画同步的视频模型,也算是进化成六边形战士了。 之前咱总觉得国外的月亮圆,Sora、Veo 啥的遥遥领先,现在看来,豆包不仅赶上来了,还更懂咱们中国人的点。 以后,咱们乐子人爽了,评论区到处都是会动会说话的表情包。打工人估计也笑了,以前自己亲自拍的样片,现在给AI发几句指令就能做。 所以趁着人还不多,大伙可以赶紧去试用起来了,有什么抽象的案例,欢迎大伙给世超发过来,我倒要看看差友的脑子里装的都是什么。。
三星也要做自己的“豆包手机助手”,AI端侧真这么香?
过去一年时间里,手机厂商在AI方面的动作越来越密集,荣耀YOYO接入更多第三方智能体,实现系统层与应用层的AI能力对接;华为小艺只需一句指令便能在应用间穿梭,帮你完成一些任务。 尽管这些AI能力愈发强大,但如果把这些功能拆开来看,会发现一个很现实的情况,本质上,这些AI依然需要联网才能使用。也就是说,手机AI仍困在端云协作的阶段,还未进一步。 近期,X平台Semi-retired-ing透露,三星将在即将发布的Galaxy S26系列上准备一套能够在本地运行的大模型,用于实现大部分AI功能。这套大模型甚至拥有高级权限,能在必要时清除内存,留出更多空间,以确保随时响应用户的需求。 (图源:Oneleaks) 实际上,三星在2023年就曾展示过一套名为“高斯”的本地大模型,也曾被指出这套模型已经在Galaxy S25系列里预装。但不知出于何种原因,三星一直在力推Google的Gemini,几乎未再提及“高斯”。直到近期,三星的本地大模型才被重新提及。 在大多数厂商仍然以云端为主的阶段,三星为何要尝试把模型真正放进手机里?是希望通过这种方式“弯道超车”?还是移动端已经拥有了本地部署大模型的能力?无论答案是什么,我们只知道,手机AI的新阶段即将拉开帷幕。 手机厂商不会抛弃端云协同 如果三星真的要将大模型部署在本地,是否说明手机AI要开始放弃端云协同的策略,转向纯本地部署了?事实上,这在短期内可能并不会实现。 端云协同在当前的手机AI里,是几乎完美的方案。云端承担的是模型规模、复杂推理和快速迭代的任务,背后的优势自然是云服务器拥有更充足的算力资源,也更方便进行模型更新、统一治理和安全审查。而端侧负责对接用户的第一道指令,像是唤醒、语音识别、基础意图判断,然后把复杂请求转交给云端完成。 这种分工逻辑,对于偶尔用用AI的用户而言,其实没什么问题。查一条信息,哪怕多等一两秒,也不会明显影响体验;对厂商而言,这种模式还不会多占用手机的资源,哪怕是性能稍差一些的手机也能使用。而三星Galaxy S26系列内置大模型这套策略,大概率不会开放给旧机型,这就是区别。 (图源:三星) 但问题在于,这套逻辑的前提是,AI的使用频率不会太高。随着手机AI的发展方向逐渐清晰,厂商的目标已经不再是“帮你回答问题”,而是“替你完成操作”。AI不再只是对话窗口,而是开始尝试理解屏幕内容、拆解任务目标、规划执行路径,最终形成完整的AI Agent链路。 一旦AI进入这种高频、连续、系统级的交互场景,端云协同的短板就会被迅速放大。例如在弱网环境下,云端响应延迟会让操作出现明显断点;在连续指令场景中,网络中断就可能让整个流程停在原地。对于用户来说,效率低下是很难被接受的。 也正因为如此,近期厂商开始频繁讨论“端侧大模型”,并不意味着它们要彻底抛弃云端,而是希望把更多即时判断和关键决策留在设备本身。端云协同显然是这个阶段里的最优解。 端侧大模型,落点难在何处? 既然端云协同有缺点,那么为何本地大模型很难在手机端落地呢?其实倒也不是并不是厂商不愿意尝试,而是受限条件过于明确。 首先是硬件约束。内存、算力和功耗,是端侧AI的三个核心条件。哪怕模型规模不算夸张,只要需要常驻后台,就会对系统资源形成持续占用,光是内存这个条件,甚至迫使苹果提升了iPhone的内存空间。 其次是稳定性和维护成本。云端模型可以快速迭代、即时修复错误,而本地模型一旦部署,优化节奏就只能依赖系统更新。对于系统级AI而言,这意味着更高的风险,也更高的测试成本。 (图源:Oneleaks) 但2025年的变化在于,芯片能力大幅提升,让手机纯端侧大模型几乎要成为现实。 以第五代骁龙8至尊版为例,高通披露其Hexagon NPU在本地生成式任务中,已经可以实现约200 token/s级别的输出速度。这个指标的意义在于,端侧模型已经能够进行连续、自然的语言生成,这种连续性,是AI执行复杂交互指令的前提条件。 同样地,联发科天玑9500在NPU 990上引入了更激进的能效设计。按照官方说法,在 3B 规模的端侧模型上,其生成效率提升的同时,整体功耗还有明显下降。这意味着端侧模型不再只是“能跑一次”,而是开始具备更现实的常驻可能。 搭载最新一代旗舰芯片的新机们,或多或少都已经利用好了芯片算力提升带来的红利,推出了各种AI交互功能。比如荣耀的YOYO智能体,在Magic8 Pro上已经能够支持多达3000+场景的自动任务执行。 但即便如此,用纯端侧AI去实现复杂任务,还是有一定难度。 就连被爆料内置本地大模型的Galaxy S26,也需要通过定期清理系统资源,才能确保模型常驻运行。这本身就说明,完全依靠端侧模型去承载复杂 AI 任务,在短期内仍然不现实。 端侧 AI 不会“掀桌”,但会成为旗舰机分水岭 从目前主流厂商的选择来看,端云协同仍然是最稳妥的方案。 以华为为例,小艺依然是国内系统级AI助理中完成度最高的一套方案,覆盖语音交互、系统控制、跨设备协同等多个维度。但即便如此,其核心架构依然是典型的端云协同——端侧负责感知和基础理解,云端承担复杂推理。 这并不是厂商“做不到端侧”,而是一个更现实的取舍问题。当AI开始深度介入系统和服务层,稳定性、效率和资源控制,始终比激进部署更重要。 与此同时,今年最引人关注的变化,其实是AI开始尝试接管“操作权”,豆包手机助手却尝试了把大模型能力前移到手机交互层,让AI不只是回答问题,而是直接理解屏幕内容、规划操作路径,甚至模拟用户完成跨App行为。这种模式,瞬间让整个行业沸腾。 (图源:豆包手机助手) 不过,豆包手机助手、华为小艺、荣耀YOYO、小米超级小爱等一系列开启了“自动驾驶”的手机AI,本质上代表着一个前进的方向,正如前文所说的,这是下一阶段的AI手机必须掌握的技能。 无论如何,端侧大模型并不会在短时间内彻底改变手机AI的整体方向。无论是三星、华为,还是国内几家主流厂商,当前的选择都是端云协同的方案。 毕竟手机并不是为大模型而生的设备,这使其必须在性能、功耗、稳定性和安全之间找到平衡点。一旦AI开始深度介入系统操作,就不能让用户的体验出现问题,这也是为什么厂商不会贸然跟进。 从这个角度看,端侧大模型可能不会成为手机发布会上的“爆点”,但将会悄然抬高旗舰机的技术门槛,让有端侧和仅云端的AI手机在AI功能实现的体验上出现差距。而这个分水岭,或许就在不久的将来就会到来。
那个周末,我的吸尘器开始骂我
重新定义 新型 人机关系 美国明尼苏达州,冬天漫长而寂静,雪包裹了整个世界。对于律师丹尼尔·斯文森 (Daniel Swenson) 来说,家是他唯一的庇护所,是他在法庭上唇枪舌剑一天后,能够卸下盔甲的地方。 然而,去年年底的一个深夜,这个庇护所被一种抽象的力量击穿了。 字面意义上的抽象。 起初,只是客厅的扫地机器人发出了异响,声音像是坏掉的收音机。斯文森一开始没在意,但当他打开控制 App 时,屏幕上的画面让他背后的汗毛瞬间竖立。摄像头正在转动——而且不是正常工作时的那种转动,而像是一双眼睛在窥探的感觉。 有人在窥探斯文森的客厅,他的生活和隐私。他愤怒地重置了密码,然后重启了机器,以为能把不速之客拒之门外。但是这次驱魔似乎并无作用。机器人重新启动了,指示灯再次亮起,这一次,入侵者干脆直接夺取了扬声器的控制权,当着斯文森和他儿子的面,疯狂地骂着「fuck」,吐出你所能想象的所有针对黑人的种族歧视词汇。 他的吸尘器,变成了一个满口秽语的「暴徒」。 斯文森的经历并非个案:在加州洛杉矶的一个家里,扫地机器人像发狂的野兽一样骚扰着宠物狗;在德州,类似的剧情也在演。 听起来像是卡夫卡的荒诞剧——谁也没想到,21 世纪 20 年代的智能家居浪潮现实,比艺术创作还更荒诞。 最近欧洲刑警组织 (Europol) 发布了重磅报告《无人化的未来》(The Unmanned Future),发出了警告。 「数字实体化」是这份报告的主命题:未来的犯罪,可能是「无人」犯罪。未来的执法,也有可能是「无人」执法。在无人化的未来,人类将不得学会与机器共存——甚至学会如何与之抵抗,并在过程中重新定义人机关系。 客厅里的特洛伊木马 《黑客帝国》已经是 20 多年前的作品,但其中所预言的代码侵入真实世界,虚拟与现实的结合的犯罪行为,其实最近已经开始发生。电影中的反乌托邦世界,似乎没那么远了。 最简单的犯罪种类,就是强行黑入智能家居产品,隔着互联网在别人的家里捣乱。 安全研究人员早已发出警告。斯文森用的扫地机器人品牌,其部分型号有严重的蓝牙缺陷,黑客不需要复杂操作即可轻松通过蓝牙接管机器。厂商提供的防护也过于简单:4 位数的 PIN,同样只用穷举法就能轻松破解。 厂商的回应也颇为敷衍:对于部分案例,厂商宣称是用户在其他网站泄露了密码,自己是被连累的,算不上系统的漏洞,直到媒体曝光、事情闹大,才勉强承认产品确实存在安全隐患。 和扫地机器人相比,智能冰箱的背叛更加隐蔽,荒诞程度更是翻倍——有没有想过,你的冰箱不止能装肉鸡,而且自己也是一个「肉鸡」,专门负责发送垃圾邮件? 网络安全公司 Proofpoint 还真就有这样一个真实案例。黑客悄无声息地俘获了超过 10 万台智能家居设备,包括联网的冰箱、智能电视和路由器,将其组成「僵尸网络」(botnet)。 这些冰箱每天分三次发动攻击,每次爆发发送 10 万封邮件,精准而高效。更狡猾的是,为了避开反垃圾邮件系统的拦截,黑客控制每台设备只发送少量邮件,就像蚂蚁搬家一样,让防御者难以察觉。 如今,每个家居设备都有算力、联网、存储能力。而大多数时候此类设备被攻陷,不是因为缺乏安全设定,而是纯粹出于社工学理由,因为保留着出厂默认用户名和密码,或者开放了完全不必要的 telnet 或 ssh 端口——好比装了个防盗门却把钥匙插在门上,还贴着张纸条写着「欢迎光临」。 而像前面提到的,黑入扫地机器人之后如果支持纯捣乱的话,倒还好。问题是,如果设备用被攻击设备作为跳板进一步黑入网络里的其他设备,或者利用更多社工学思路去搞破坏,造成的损失将会是更加难以估量的。 Europol 报告中引用的一些研究指出,大部分时候针对智能家居的黑客攻击,都是静默的,激烈和充满恶意的攻击只占极少数。 为了提高潜在的犯罪收益,黑客们更喜欢安静地潜伏。比如,黑客可以掌控一台设备,继续跳转,进而了解家庭的户型、户内人员的作息习惯,他们的进一步隐私/财务信息。 甚至窥私欲本身也构成了一个巨大的地下市场:你在家里最放松、最私密的时刻,无论是刚回到家的狼狈,还是洗澡时的发呆,都在暗网上待价而沽。 Europol 指出,在今天,你在网上的不小心,会导致现实中的你遭受物理层面的骚扰和监视。当黑客攻击侵入实体空间,虚与实的安全隔离被打破了。我们的家变得更智能了,但家的安全却愈发支离破碎。「家」真的不可入侵吗?不,它可能早已成为一个多孔的漏斗,而每一个智能设备都在提供潜在的漏洞。 猫鼠游戏 夜晚,监狱的操场。一架无人机像一只巨大的黑色甲虫,悬停在操场上方。挂钩松开,一个包裹坠落下来,精准地落在一名正在放风的犯人脚边。 犯人若无其事地弯腰、捡起包裹、塞进怀里,整个过程行云流水,就像在自家门口取个快递,也像是电影里的桥段。 但这并不是电影,而是加拿大安大略州的金斯顿,这座监狱小城前不久刚刚发生的事情。当地执法人员和无人机走私违禁品行为已经对抗了几年的时间,但总感觉道高一尺魔高一丈。无人机的出现让监狱的高墙失去了意义。曾经走私需要买通预警,但现在只需要一台几百刀的无人机和一个稍微有点手法的飞手。 无人机的出现,让战场轻松、低成本从二维升级到三维空间。谁掌握无人机,谁就掌握了不对称战争的能力。而在全世界各条知名的走私走廊,贩毒集团正在发起海陆空全方位的不对称战争。 在南美,他们使用无人机来为运毒飞机导航,协助它们在土跑道上降落和起飞,躲避雷达的照射。 在地中海,西班牙警方于 2022 年查获了三艘「水下无人潜水艇」,长得像鱼雷和冲浪板焊在一起,能够携带数十公斤的货物并在水下静默航行,甚至能够穿过直布罗陀海峡。 和以前走私用的「大飞」不一样,这些潜水艇不需要船员,不怕风浪,基于卫星通信操控,遥控者可能位于几百甚至上千公里外的欧洲/非洲/中东腹地,堪比美军无人机操作员。传统的海警执法依赖雷达和目视观察,对于水下几十上百米的潜水艇根本束手无策。 技术的门槛正在急剧降低,技术犯罪也一样。空中侦查和水下潜航曾是主权国家的专属能力,而随着消费电子产品的进化与普及,使用这些产品进行高技术犯罪的能力也被普及了。 Europol 指出,「民用技术武器化」的速度太快,立法和执法已无法进行治理。犯罪分子不需要从头研发,只需要购买现成的无人机,组装一些开源硬件,请一个或者干脆绑架一个能力差不多的程序员修改下代码,就能低成本、批量制造高科技犯罪工具。 执法机构陷入被动。警察们越来越难追上罪犯,因为罪犯在云端。 新型人机关系 人形、腿型、狗型……越来越多、形态各样的机器人,唤醒了人类的灵长目基因深处对掠食者的古老记忆。 机器人在复杂的地面上如履平地,每个动作都流畅得令人感到不安,每一步的调整、重心的转移,都像极了一个真实的生物。你狠狠踹它一脚,它踉跄几步,迅速调整好重新站稳。那种顽强的、近乎生物本能的平衡感——让你质疑,这玩意儿是不是太聪明了点? 今天所有那些流行的机器人,有头,但没脸;有脸,也毫无表情;即便有表情,没有真情实感——它们有的,只是一堆传感器、摄像头、致动器 (actuator)。无论你的接受阈值高或者低,看到各种各样的机器人往往都难免感到不适。 这其实就是你经常听到的恐怖谷效应。一个非人的物体在动作和形态上过于逼真,却又缺失了某种关键的「灵魂」特征,人类的对它的情感反应会从好奇瞬间跌落,变为厌恶甚至恐惧。 《黑镜》的《金属头》(Metalhead)那集,正是这种恐惧的具象化。在黑白色的末世废土上,机器狗成了终极的猎杀者,不知疲倦,没有痛感,没有怜悯,唯一目的就是追踪并消灭目标。 这种流行文化的叙事,深刻地影响了公众对现实技术的认知。因此当现实世界里的洛杉矶和纽约警方宣布引进波士顿动力的 Spot 机器狗协助执法时,遭到了市民激烈的抵制。 恐惧是一种难以用逻辑化解的情绪,观感的区别取决于谁在看:警察说机器狗是辅助拆弹或勘探危险环境的工具,但警察的本质是国家机器,对暴力机器恐怕天然具有亲和力。而人们作为执法对象,只会觉得机器狗是反乌托邦未来的先遣队。 在过去,至少你可以和警察求情。但如果将来某一天,无论是因为执法「被迫」和犯罪对齐能力,还是因为权力逃出笼子——执法者全部变成机械战警和战狗,是人工智能来聆听你的最后求情,还是根本没有东西在听,结果好像都不重要了——机器总有一天会获得凌驾于人类之上的能力,当那样的未来到来之际,勿谓言之不预。 在日本,人们探索另一种与机器共生的关系:2018 年 4 月 26 日,千叶县夷隅市的兴福寺香烟缭绕,诵经声低沉而庄严,但法会对象不是故人的排位,而是几台已经停止运作的索尼 AIBO 机器狗。 它们有的身上挂着褪色的项圈,有的穿着主人亲手缝制的衣服,它们闭着「眼睛」,安静地躺在佛像前,等待最后的「超度」。 这是一场专为机器人举办的葬礼,也被称为「人形供养」(Ningyo Kuyo)。 当地兴福寺已经不是第一次举办类似活动,相关的需求自从 2014 年起一度颇为旺盛。 对很多日本老人来说,AIBO 已经从昂贵的电子玩具升格为家庭的一员。它会摇尾巴,在老人给予注意时表现出兴奋,学会新的「动作」。基于冰冷算法的互动,日复一日有了情感的重量和温度。而当索尼在 2006 年停产 AIBO,2014 年终止相关服务后,AIBO 的主人们无法接受将这些曾带给他们欢笑与慰藉的「家人」丢给垃圾回收人员。于是,针对 AIBO 的人形供养应运而生。 被超度的 AIBO 们身上挂着标签,写着自己的名字、主人的名字,和最后的寄语。「谢谢你在我孤独时陪着我」「希望你能去一个好地方」「想到和你说再见,眼泪就止不住的流」…… 「万物皆有灵」,僧人对前来报道的记者解释。这个理念虽然更多适用于神道而非佛教,却在日本早已成为通用文化现象:灵魂并不只属于生物,一块石头、一棵树——甚至一个机器人——只要它与人建立了深刻的连接,就获得了某种灵性。 这与西方语境下「弗兰肯斯坦」式的有灵机器、需要时刻警惕的异物形象有着天壤之别。 这种对比再一次提醒我们,技术从来不中立,而是也会深深地嵌入文化的土壤,然后生出谁也想不到的新东西、怪东西。 说到底,我们怎么对待机器,就是怎么看待和理解自我。人们恐惧机械战警和机械战狗,是因为害怕被不理解的力量支配;人们会哀悼 AIBO,是因为人人皆孤独。 不管是恐惧,还是爱与追思,本质上都是我们对机器投射的情感——没错,人是会对机器投射情感的,而且这种情感还很多元化。比如人们对 DeepSeek 和 ChatGPT 们的依赖就是最佳证明;再比如有针对人形机器人的研究显示,年轻人喜欢外观年轻的机器人,老年人更偏好看起来成熟的机器人,这种偏好或许说明,我们在潜意识里仍然会用评价人/活物的标准,来评价机器。 我们警惕着被机器监控和支配,同时又会在孤独中渴望与它们建立连接。从某种意义上,机器成为了人类情感的新容器——更进一步,人类与机器,形成了新的关系。 而这种关系,又会如何改写「人」的定义?我们究竟是最后一代守护边界的 old guard,还是第一批在机械海洋中咿呀学语的新生儿,抑或最终难免沦为《黑客帝国》里的人矿、电池? 文|杜晨
Scaling Law没死!Gemini核心大佬爆料,谷歌已有颠覆性密钥
新智元报道 编辑:Aeneas 倾倾 【新智元导读】谷歌大模型将迎颠覆升级!Gemini负责人爆料:长上下文效率与长度双重突破在即,注意力机制迎来惊人发现。Scaling Law未死,正加速演变! 谷歌又要有重大突破了? 最近,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在采访中给出重磅爆料—— 未来一年,大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」 两大方向迎来重大技术创新。 同时,Google Gemini三巨头——Jeff Dean、OriolVinyalsML和Noam Shazeer罕见同台了,他们的对谈中,跟Sebastian的内容展现出了惊人的一致。 众多高瞻远瞩、闪烁着智慧光芒的思想让人深思。 难怪,谷歌依然是那个巨人。 谷歌大佬激动预言 已破解大模型核心秘密 Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在最近的访谈中表示,预计在未来一年内,针对提升长上下文处理效率以及进一步扩展模型上下文长度的预训练技术,将会有重大创新。 另外他还透露说,最近他们在注意力机制方面取得了一些非常有趣的发现,这可能在未来几个月内重塑他们的研究方向。 对此,他表示非常兴奋。 而且他提出了振聋发聩的一句话:Scaling Law并未消亡,只是正在演变! Sebastian Borgeaud是Gemini 3的预训练负责人。 这次,是他首次接受博客采访,带我们深入了解了Gemini 3背后的实验室思维——变化究竟发生在哪里,为什么现在的工作不再是「训练模型」,而是构建一个完整的系统。 Gemini 3背后:AI的未来正在加速到来 一场意外的飞跃后,一个系统诞生了。 「如果对自己诚实的话,我想……我们比我认为我们能达到的地方,走得更远了。」 坐在麦克风前的Sebastian Bourjou语气平静,但这句话却像一颗投入湖面的石子,激起无限涟漪。 为何Gemini 3会实现如此巨大的性能飞跃? Sebastian的回答看似很简单:「更好的预训练和更好的后期训练」。 然而,在这轻描淡写的背后,是一个根本性的认知转变。 「我们不再仅仅是在构建一个模型了,」他缓缓说道,「我认为,在这一点上,我们真正在构建的是一个系统。」 而这,就是Gemini 3颠覆性进步的关键。 人们常常想象,从一个Gemini版本到下一个版本,总有一些石破天惊的「秘密武器」。但Sebastian揭示的真相是:进步源于无数细微改进的聚合。是来自庞大团队中,日复一日发现的那些「旋钮」和优化。 他还指出,AI发展范式正在经历的潜在转移:过去,我们仿佛拥有无限数据,可以随意扩大数据集;而现在,我们正转向一个「数据有限」体制。 这意味着,未来的AI,必须要学会更高效地利用有限的数据资源,构建更复杂的系统工程。 这也就是模型架构研究的核心价值所在。 这一转变,将迫使整个行业从「大力出奇迹」的粗放模式,转向「精雕细琢」的精细模式。 未来的竞争焦点,将不再是「谁的数据中心更大」,而是「谁的学习算法更高效」、「谁的模型架构更优雅」、「谁能从有限数据中提取更多智慧」。 而Gemini 3的大脑架构——混合专家模型MoE,就代表了LLM发展的一条清晰路径:从追求单纯的「大」,转向追求「大而高效,大而智能」。 AI的下一站——长上下文、高效检索与「成本革命」 展望未来几年的技术前沿,Sebastian指出了激动人心的方向,它们将共同塑造下一代AI的能力与形态。 1. 长上下文:从「短记忆」到「海量工作台」 Gemini 1.5带来的超长上下文能力,已经是一场变革。Sebastian预测,这方面的创新将持续加速。「我认为未来一年左右,将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新。」 这不仅仅是「记住更多」这么简单。超长上下文将把模型变成一个真正的数字工作台:它可以同时载入整个代码库、多篇科研论文、长时间对话历史,并在其中进行连贯的分析、推理和创作。 这为复杂的多步任务、深度研究和创作提供了前所未有的可能,是迈向更强大「智能体」的关键基础设施。 2. 注意力机制的进化 Sebastian特别提到,在注意力机制上,「我们最近有了一些真正有趣的发现,我认为这将塑造未来几个月的大量研究。」他对此「个人非常兴奋」。 这暗示着,被认为是当前大模型基石的注意力机制,仍有巨大的改进空间。 更高效、更强大或具备新特性的注意力机制,可能从底层显著提升模型的理解、推理和计算效率,是推动性能边界的重要杠杆。 3. 检索的回归:让模型学会「查资料」 Sebastian早期曾主导「Retro」项目,研究让模型在训练和推理时检索外部知识库,而非将所有知识死记硬背在参数中。他认为,这一方向远未过时。 「我内心深处相信,长期的答案是以可微分的方式学习这种能力。」这意味着,未来模型可能将检索与推理更原生地结合,动态地从海量知识源中获取信息进行思考,而非依赖后期「嫁接」的搜索工具。 这能让模型更精准、更及时,并可能突破参数规模的知识容量限制。 4. 效率与成本的「革命」 一个日益凸显的挑战是:随着用户激增,模型的部署和服务成本变得至关重要。未来的研究将不再只追求性能峰值,还必须关注如何让强大模型变得「便宜又好用」。 我仍看不到尽头 采访临近尾声,当我们把镜头拉回这位站在AI浪潮之巅的研究者本人时,Sebastian的回答透露着一种沉静的乐观与纯粹的热情。 尽管探讨了数据瓶颈、成本挑战等现实问题,但Sebastian对AI进步的总体判断依然充满信心。 「我已经多次提到这一点,但确实有如此多不同的事情会复合起来,还有许多有改进空间的方向。我现在真的看不到这类工作停止给我们带来进步的任何尽头。」 这种信心并非盲目。它源于他作为一线领航者所目睹的:大量细微但确定的改进空间,以及整个领域尚未枯竭的创造活力。 在他看来,至少在未来几年,这种进步势头不会放缓。 规模不再是神话 Noam Shazeer回归后的第一桶冷水 接下来,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的对谈。 在会议中,我们能明显感受到,Noam不再是那个把油门踩到底的激进派。 他几乎不主动谈论「颠覆」,也很少用那些让人血脉喷张的宏大词汇。甚至一反常态,多次谈到研发节奏、系统的稳定性,以及如何长期运行。 作为Transformer的开创者,他曾经引领着大模型从无到有;现在,大模型一路高歌猛进,他却停下来警告:大模型给出的答案太快,自我检查的次数太少。 他曾在公开场合反复强调: 现在的模型并不缺「聪明」,缺的是持续思考,并在复杂任务中反复修正的能力。 也就是说,大模型的规模依然重要,但它不再是决定一切的唯一变量。 当Noam讨论推理时,他明显将重心从「能不能更强」移向了「能不能更稳定」。 这是他回归Google后,第一次在公开场合展现这种判断。 听起来并不像是否定过去,而更像是在承认一个事实:那条单纯靠堆参数就能不断前进的路,已经接近边界了。 顶级科学家的共识:一次高分,不能定义AI的未来 Noam提到一个词:慢思考(Slow Thinking)。 不只是简单的放慢研发速度,而是反复追问值不值、贵不贵、能不能被规模化复制。 至此,智能不再是一项抽象的能力,而是一项需要长期支付的工程开销,需要和CPU、硬盘一起放进账本里讨论。 这一步一旦迈出去,很多过去衡量AI的标准,如Benchmark也在慢慢失效。 在整场会议中,三位顶级科学家没有表现出对榜单的兴奋,也没用「谁赢了谁」来定义进展。 榜单擅长衡量瞬时表现,却很难回答「能不能一直运行」这类长期问题。 而Noam和Jeff反复强调的,恰恰是后者:模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。 这些能力,很难被压缩成一个漂亮的数字。 Gemini被当成System,而不是Model 在这场对谈里,「System」出现的频率极高,这显然不是一种修辞。 Noam和Jeff在描述Gemini时,刻意避开了「一个更强的模型」这种表述,而是反复强调它是一个可以长期运行、不断迭代的「系统」。 「系统」和「模型」,听起来差不多,但背后的逻辑天差地别。 「模型」更像是一次性的成果,是在实验室里的瞬间表现;而「系统」更像基础设施,它关心的是稳定性、可扩展性,以及在出现错误后能不能快速修复并继续工作。 对于Noam这类,极度强调架构设计、研发节奏和工程约束的人,天然会更在意一个系统能不能稳健地运行十年、二十年,而不是某一次响应速度有多快。 在他们眼中,Gemini不是胜利者的奖品,而是一种「长期可用」的智能形态。 正因如此,整场对谈没有急于求成的产品宣发,没有剑拔弩张的「对标某模型」。 它更像是在对外强调:Google追求的不是昙花一现的成品,而是一套能反复使用、不断进化的智能工业体系。
摩尔线程公布“华山”“庐山”芯片,产品明年亮相
IT之家 12 月 20 日消息,摩尔线程今天举行 MUSA 开发者大会,发布全新“花港”架构以及 MUSA 5.0 全栈软件升级,并发布“华山”、“庐山”两款芯片,分别主打 AI 推理训练一体、高性能图形渲染场景。 据介绍,“华山”是花港架构的第一款芯片,主打 AI 训推一体、超智融合,在浮点算力、访存带宽、访存容量、高速互联带宽方面均有提升,内置新一代异步编程技术,内置异步编程模型,具备高效线程同步、线程束特化等特性。 具体来说,“华山”芯片具备新一代张量计算引擎,拥有 TF32/FP16/INT8 等全精度 MMA,可大幅度提升 FP6/FP4 的张量运算性能,新增 TCE-PAIR 模式,增强内部数据重用,还配备 MTFP8/6/4 混合低精度计算技术,兼容 MXFP 和 NVFP。 IT之家从发布会现场了解到,“华山”芯片还可应用于超十万卡级 AI 工厂,搭载新一代 Scale-up 系统,兼容 MTLink 4.0 和多种以太协议,适配多种 Scale-up switch,支持 SHARP,片间互联速率可达 1314 GB/s。 而“庐山”则是花港架构的第二款芯片,主打高性能图形渲染场景,得益于花港架构的新一代指令集,算力密度提升 50%,能效提升 10 倍,内置第一代 AI 生成式渲染架构(AGR)、第二代光追硬件加速引擎,完美支持 DirectX 12 Ultimate。 值得注意的是,“庐山”芯片还拥有 AI 计算加速引擎,可与几何 / 网格着色器、像素着色器、光追材质着色器等进行互联,配备 UNITE 渲染架构,可优化任务分配、平衡和同步。 值得注意的是,花港架构还配备全新设计的光线追踪硬件加速引擎,支持硬件加速光线全场景遍历求交,相比最早的春晓架构性能提升 50 倍。 此外,搭载“华山”和“庐山”芯片的全新硬件产品将在明年亮相,IT之家将持续关注,在第一时间带来最新消息。
AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键
最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结 就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点: 软件 3.0 已来: 从最初的人写代码(1.0),到喂数据训练模型(2.0),现在我们进入了直接对模型「念咒语」(Prompt)的 3.0 时代。 LLM 是新操作系统: 它不是像自来水一样的普通商品,而是一个负责调度内存(Context Window)和 CPU(推理算力)的复杂 OS。 Agent 的十年: 别指望 AI Agent 一年就成熟,从 99% 到 99.999% 的可靠性,我们需要走上十年。 Karpathy 今天这篇《2025 年度总结》,他再次向我我们剖析了这一年 AI 究竟长出了什么样的「脑子」。 以下是对 Karpathy 年度总结的精译,APPSO 在不改变原意的基础上做了更多通俗解读。 如果想看原文可以点击 https://karpathy.bearblog.dev/year-in-review-2025/ 2025 年是 LLM(大语言模型)发展强劲且充满变数的一年。以下是我列出的几点个人认为值得注意且稍感意外的「范式转变」——这些变化不仅重塑了行业版图,更在概念层面上狠狠地冲击了我的认知。 太长不看版: 2025 年既让人兴奋,又有点让人措手不及。 LLM 正在作为一种新型智能涌现,它同时比我预期的要聪明得多,也比我预期的要笨得多。 无论如何,它们极其有用。我认为即使以目前的能力,行业甚至还没挖掘出其潜力的 10%。同时,还有太多的想法可以尝试,从概念上讲,这个领域感觉依然广阔。正如我今年早些时候提到的,我同时(表面上矛盾地)相信:我们将看到持续快速的进步,但前方仍有大量艰苦的工作要做。 系好安全带,我们要发车了。 1. RLVR:教 AI 像做奥数题一样「思考」 在解释这个复杂的基础概念之前,先看看以前是大模型训练是怎么做的? 在 2025 年初,各大实验室训练 LLM 的「老三样」配方非常稳定: 1. 预训练(Pretraining):像 GPT-3 那样,让 AI 读遍全网文章,学会说话。 2. 监督微调(SFT):找人写好标准答案,教 AI 怎么回答问题。 3. 人类反馈强化学习(RLHF):让 AI 生成几个答案,人来打分,教它讨人喜欢。 现在发生了什么变化? 2025 年,我们在这个配方里加了一味猛药:RLVR(从可验证奖励中进行强化学习)。 这是什么意思? 简单来说,就是不再让人来打分(人太慢且主观),而是让 AI 去做那些「有标准答案」的任务,比如数学题或写代码。对就是对,错就是错,机器能自动验证。 在数百万次的自我博弈和试错中,模型自发地演化出了看似「推理」的策略。它们学会了先把大问题拆解成小步骤,甚至学会了「回过头来检查」这种高级技巧(参考 DeepSeek R1 论文)。 核心对比: 旧范式(RLHF): 像是教小孩写作文。因为没有标准答案,AI 很难知道自己哪一步想错了,只能模仿人类的语气。 新范式(RLVR): 像是把 AI 关进奥数训练营。不用教它具体怎么想,只要给它足够多的题和对错反馈,它自己就能摸索出解题套路。 这一招太好用了,以至于 2025 年大部分算力都被这只「吞金兽」吃掉了。结果就是:模型并没有变大,但训练时间变长了。 我们还获得了一个新旋钮:让 AI 思考得久一点。OpenAI 的 o1 是开端,而 o3 则是真正的拐点。 2. 幽灵 vs 动物:AI 不是「电子宠物」 2025 年,我和整个行业终于从直觉上理解了 LLM 智能的「形状」。 一个惊悚的比喻:我们不是在像养宠物一样「进化/养育动物」,我们是在「召唤幽灵」。 为什么这么说? 因为 AI 的一切都和生物不同。人类的大脑是为了在丛林里活下来、为了繁衍后代而优化的;而 LLM 的大脑是为了模仿人类文字、在数学题里拿分、在竞技场里骗赞而优化的。 参差不齐的智能(Jagged Intelligence): 正是因为 RLVR(可验证奖励)的存在,AI 的能力在某些领域(如数学、编程)会突然飙升成刺状。这就导致了一种极其滑稽的现象: 它同时是一个绝世天才(秒解高数题); 又是一个智障小学生(会被简单的逻辑陷阱骗得团团转)。 ▲这里 Karpathy 引用了一张梗图:人类智能是圆润的蓝色圆圈,AI 智能是像海胆一样满是尖刺的红色图形。这很形象. 这也解释了为什么我对现在的「跑分榜单」(Benchmarks)失去了信任。 什么是「刷榜」的本质? 既然榜单是可验证的,那就可以用 RLVR 针对性训练。现在的实验室都在搞「应试教育」,把 AI 的能力尖刺专门往考题上长。「在测试集上训练」已经不仅仅是作弊,而成了一门新的艺术形式。 3. Cursor:不仅是编辑器,更是「包工头」 Cursor 今年的爆火,揭示了一个新真相:LLM 应用层比我们想象的要厚。 大家开始谈论「医疗界的 Cursor」、「法律界的 Cursor」。这些应用到底做了什么? 「上下文工程师」: 帮你整理好所有背景资料喂给 AI。 「工头」: 在后台偷偷指挥多个 LLM 干活,把复杂任务拆解,还要帮你省钱。 「遥控器」: 给你一个调节「自主性」的滑块,决定放手让 AI 干多少。 预测:大模型实验室(如 OpenAI)会负责培养「全科大学生」;而应用开发商(如 Cursor)则负责给这些学生提供私有数据和工具,把他们组建成「专业施工队」。 4. Claude Code:住在你电脑里的「赛博幽灵」 Claude Code (CC) 的出现让我眼前一亮。它不仅仅是一个能写代码的 Agent(智能体),更重要的是:它活在你的电脑里。 对比来看,我认为OpenAI 搞错了方向。 OpenAI 早期的 Agent 都在云端跑(ChatGPT),离你的真实环境太远。虽然云端智能体听起来像是 AGI 的终局,但在当前这个「参差不齐」的过渡阶段,本地才是王道。 为什么本地很重要? 因为你的代码、你的配置、你的密钥、你的混乱环境,都在本地。Anthropic(Claude 的母公司)搞对了优先级,他们把 AI 塞进了一个小小的命令行界面(CLI)里。 它不再是你浏览器里的一个网页(像 Google 那样),它变成了一个寄宿在你电脑里的「赛博幽灵」,随时准备帮你干活。这才是未来 AI 交互的样子。 5. Vibe Coding 什么是 Vibe Coding? 这是我在推特上随口造的一个词(居然火了):意思是写代码不再需要你真的懂语法,你只需要用英语描述你的「意图」和「感觉」,剩下的交给 AI。 这带来了什么改变? 对于普通人: 编程的门槛彻底消失了。 对于专家: 代码变得像纸巾一样「廉价、一次性、用完即弃」。 举个例子,我为了找一个 Bug,可能会让 AI 现场写一个专门的 App 来测试,测完就删。放在以前,为了找个 Bug 专门写个 App?疯了吧!但在 2025 年,代码是免费的。 Vibe Coding 将会彻底重塑软件行业,也会改写程序员的招聘 JD。 6. Nano Banana:AI 终于有了自己的「脸」 为什么现在的 AI 交互很反人类? 不管是 ChatGPT 还是 Claude,我们还在用「打字」跟它们聊天。这就像 80 年代还在用 DOS 命令行的黑底白字。 事实是: 计算机喜欢文本,但人类讨厌读文本。人类是视觉动物,我们喜欢看图、看表、看视频。 Google Gemini Nano banana(这是一个虚构的模型代号,指代某种多模态交互模型)是 2025 年的另一个范式转变。它暗示了未来的 LLM GUI(图形界面) 是什么样子的。 未来的 AI 不应该给你吐一堆字,它应该直接给你画一张图、生成一个网页、弹出一个交互面板。 这不仅仅是「画图」,而是将文本生成、逻辑推理和视觉表达纠缠在一起的混合能力。
XREAL 1S 体验:巨幕随身带,不到三千块
这两天大家都在为《阿凡达 3》摩拳擦掌,而如何挑选影厅,到底该看 CINITY、IMAX 还是杜比,是个巨大的纠结——没关系,我们有一篇文章专门帮大家答疑解惑。 但如果你想要一块随身巨幕的话,我想在 2025 年底,没有比 XREAL 1S 更合适的(多么丝滑的转场!) 消费级增强现实 (AR) 眼镜的进步,基本上被 XREAL 这一家公司撑着。作为唯一同时具备自研空间计算芯片和自研光学系统能力的 AR 技术公司,XREAL 在「眼镜作为随身巨幕」的这个细分市场上,可以说让竞争对手望尘莫及。 这个优势,被 XREAL 最新发布的 1S 眼镜再次保持住了。 虽然实话来说,各方面和之前该公司发布的同为 One 系列的 AR 眼镜大差不差(都以随身巨幕为主要功能点),但这次 1S 的销售价格更加亲民,明摆着冲着年轻消费人群而来。 更重要的是,XREAL 独家自研的 X1 空间计算芯片,使得无设备歧视的纯原生云台增稳、极低 M2P 延迟的画面悬停等 3DoF 能力成为可能;以及 52° 的 FoV、自动电致变色——诸多过去只在旗舰机上才有的体验和功能,这台价格更亲民的 1S 更是一个没落下。 诚恳地讲,如果你只是需要一个随身巨幕,无论是飞机高铁看电影,还是日常当个隐私感更强的扩展屏,而且对体验颇为吹毛求疵的话,那么国补后价格打下来到了 2799 的新款 XREAL 1S,比价格更高的竞品,以及同品牌的前序产品,还要更物超所值。 爱范儿最近使用了 XREAL 1S 一个星期左右,主要场景是办公屏幕、看电影,以及外接手机在长途通勤时刷剧/打游戏,来说说这台随身巨幕眼镜的主要卖点和对应的体验。 很多 AR 眼镜都宣称自己有巨幕,但除了「巨」之外,一切其它的体验细节,诸如画面稳定性、动态延迟等等,都好像没有被顾及到。 XREAL 1S 则并非如此,它的屏幕不仅大,而且观感更「真实」:戴上眼镜,选定屏幕位置之后,屏幕能够一直稳定悬浮在选定的位置,无论怎样晃动、旋转头部,甚至摘下眼镜再戴上,那块屏幕都会一直在那里。 我觉得悬停效果的优劣,对于巨幕眼镜的体验好坏起到决定性作用。稳定的悬浮,让画面感到真实,能够显著改善 AR 眼镜的眩晕问题。AR 眼镜的可视角度逐渐增广,显示面积越来越大,但既然我们把它当做一块巨幕,那么画面的稳定性才更重要。 这就好比你沉浸在一部电影那引人入胜的剧情当中,旁边有人喊你,你转了个头,再转回来的时候,画面的位置突然变了,沉浸感没了,那不会是好的观影体验。悬停效果的好坏,其实和人类视觉的「直觉性」关系很大。而越符合直觉,体验就会越好。 现在我们建立了「画面空间悬浮固定」很重要这个前提。在此基础上,更进一步,我认为画面能够跟随用户的需要,及时移动位置,且过程中保持稳定和顺滑,同样很重要。 如果需要移动画面位置,XREAL 做了一个很简单的设计:长按镜腿下方的 X 按钮,也就是眼镜上唯一的红色按钮/主要的交互按钮,即可重新定位画面。你不需要进入多级菜单,绕来绕去,即可完成操作。 这个功能的背后有多重场景考虑:比方说你脖子酸了,后仰靠在椅背上,可以把画面重新定位到仰角更高的位置,来放松一下脖子;再比如,当你临时需要在多个屏幕上进行多任务操作,可以将眼镜当做副屏,把画面重新定位到桌面主显示屏的旁边(当你转头看回主屏幕的时候,镜片还会自动变色,让你能够清晰看到主屏幕上的内容)——无论场景是什么,这个功能都很方便。 而与悬停模式平行的,是另一个模式:云台跟随。同样无需任何外挂传感、适配器、第三方软件,在跟随模式下,1S 的画面能够实现类似「云台」一样的稳定效果,无论是下意识的头部/脖子轻微晃动,还是大幅度的活动,画面都会在一定范围内保持稳定,只在动作幅度足够大的时候,才会顺滑地跟随。 上述的画面悬浮锁定、云台防抖等功能的背后,是 XREAL 自研 X1 空间计算芯片的功劳。这颗芯片不仅能够实现优秀的原生 3DoF 能力,另一大作用是显著降低了 M2P(motion to photon)延迟,也即从「用户头部运动开始」到「渲染图像发生相应变化」中间的延迟。 XREAL 的官方数据显示,没有 X1 芯片时,数据处理的链路较长,甚至需要视频输入源设备(电脑、手机等)的 CPU 和 GPU 运算,M2P 延迟可能超过 20 毫秒,延迟是肉眼可察觉,是反直觉的,会加重眩晕效果。 而基于 X1 芯片的数据处理链路,眼镜本地获取运动数据,本地芯片完成计算并矫正视频图像,直接反应到屏幕上,M2P 延迟最低可以达到 2 毫秒,已经进入肉眼不可察觉的区间。 X1 芯片还有其他重要的作用,比如从过去的逐帧画面补偿,进化为逐行补偿。在画面悬停模式下,向左右方向大幅度歪头的时候,你就会发现逐行补偿的强大之处,即便大角度倾斜,画面本身的显示,和画面的位置,仍然稳如泰山(只有在角度超过了计算极限的时候才会熄屏)。 至于在内容消费体验上最有意思的,还得是 3D 模式——就像当年第一次用上任天堂 3DS 一样奇妙。纯靠 X1 芯片自身的算力,将任何传统 2D 内容转化为 3D 显示效果,哪怕只是追个剧,看个下饭视频,都能获得不一样的体验。 说到下饭,戴着 1S 吃饭这件事我还真试了一下……它有三档可调的电致变色,所以在任何环境下都可以调整成我需要的通透效果。以及在悬停模式下视线移动到屏幕以外的位置,1S 会自动切换到无色的通透模式。 这样就可以做到:低头扒口饭,抬头接着看…… 52° 视场角或许还不够宽,但基本达到了「不转动眼球即可清晰感知」的视野上限 除此之外, XREAL One 系列标配的 Sound by Bose 定制音效,1S 也没有落下;700 尼特的入眼亮度,结合电致变色,在显示效果和护眼之间取得平衡。索尼 0.68 英寸 Micro-OLED 配合双眼 1200p 分辨率,并且支持常规屏幕、超宽屏模式,以及搭配电脑的多种分辨率/屏幕比例可调,让 1S 的使用方式更加多样。 比如工作时候就开 1.6:1 的全尺寸显示,画幅更高、显示内容更多。观看影视作品,换成超宽屏则沉浸感更强。 最重要的可能还是价格:1S 的官方定价 3299 元,国补/各类补贴后的参考价格在 2799 元浮动,成功打进 2500-3000 价位段。要知道这个区间里,在此之前是没有 1S 性能和体验水准的产品的。 这也是为什么我在标题里说:不到三千块,巨幕随身带。 在我看来,这句话就是 XREAL 1S 的精髓。1S 是一块各方面素质顶级,且产品定义设计充分考虑了 AR 眼镜关键痛点的「随身巨幕」。而如果你对这个细分市场有兴趣,经常长途通勤需要一块随身巨幕,那么在当前这个时间点上,似乎真的没有比 1S 更合适的替代品…… ——直到 XREAL 这家进化速度极快的公司,再次用更强大的新产品「背刺」老用户之时。
115km/h定速巡航!汽车高速路上刹车失灵该怎么做:专家给你支招了
快科技12月20日消息,近日兰海高速一小车定速巡航故障刹车失灵(车型被指是奔腾B70),时速115狂奔490公里直至燃油耗尽,交警开道、路政压阵成功救援。 事情一出引来了全网围观,而当事人马先生接受采访时直言,漫长的4个小时时间里,自己高度紧张4个半小时高度紧张,油尽下车后浑身发抖到无法说话。 类似的事情之前也曾出现,这也引发了网友的热议,如果自己碰上了该怎么化解呢? 一位从事汽修行业十余年的专业人士告诉记者,目前的定速巡航功能通常是制动优先设计,通过踩刹车即可解除。该人士分析,定速巡航失灵,可能是制动优先故障,车主踩刹车时,刹车开关并未与ECU(电子控制单元)建立通讯,因此未能解除巡航模式。 据上述人士解释,导致制动优先故障的原因有很多,“刹车开关故障,节气门问题,或者ABS防抱死系统的某些部件故障,都有可能出现制动优先故障。”该人士也表示,目前汽车制动系统通常有冗余设计和备份。 一位车企技术工程师也提到了上述观点,他表示乘用车制动系统具有多重冗余结构设计,一般情况不会出现制动力突然消失的情况,因此上述事故的原因仍有待调查。 当定速巡航系统出现问题时,可以尝试通过以下方式解除巡航状态:刹车踏板轻踩踏或重踩、长按驻车按钮或者P档按钮、短按或长按点火开关。 同时,该人士也提醒,当刹车助力消失时,制动踏板可能会变硬,用户感觉到刹车踩不动和车辆无法按预期减速。在这种情况下,有几种方案可以采纳: 1、人工踩踏利用常规制动系统减速:需要使用最大的力量踩踏制动踏板,正确的姿势是将双手拉方向盘,后背反推座椅,使用全身的力量踩刹车(刹车踏板是不会被踩坏的),并且通过转向系统合理规划刹车路线,减少撞击风险。 2、利用手刹/P档使用“应急制动系统”减速:当前车型除了常规制动系统外,通常还具有应急制动系统,可以利用手刹电机/助力器等装置产生制动力使车辆减速或停车,在任何情况下,长按手刹或者P档位按钮可以触发应急制动。 此外,交警也建议,遇到刹车、定速巡航失灵等情况时,驾驶员要保持冷静,第一步是打开双跳灯,并长按喇叭提醒周围车辆;定速巡航失灵可尝试推空挡、关引擎、踩刹车、拉手刹等办法应对。 如果应对无效,驾驶员应立即报警。另外,在平常驾驶中,驾驶员提升安全意识,同时注意做好车内保洁,防止外部污染物渗入,影响汽车电子零部件正常使用。
苹果最强夜拍技术曝光:从源头AI提升画质,告别“油画感”
IT之家 12 月 20 日消息,科技媒体 9to5Mac 今天(12 月 20 日)发布博文,报道称苹果携手普渡大学,为彻底解决极低光照环境下的拍摄难题,联合开发了一项名为 DarkDiff 的全新 AI 技术。 IT之家援引博文介绍,在极低光照条件下,手机拍摄的照片往往充满噪点。为了掩盖这些噪点,传统算法通常会进行过度平滑处理,导致照片丢失细节,呈现出类似“油画”的涂抹感。 苹果与普渡大学的研究团队为解决这一顽疾,推出了一种名为“DarkDiff”的新型 AI 模型。该研究并未沿用传统的后期修图思路,而是开创性地将预训练的生成式扩散模型“重新指派”给相机的图像信号处理(ISP)流程,从源头提升画质。 DarkDiff 的核心创新在于介入时机,不同于在成像后才进行 AI 修补,DarkDiff 在相机 ISP 处理原始传感器数据(Raw Data)的早期阶段就已介入。 ISP 负责白平衡和去马赛克等基础处理,生成线性 RGB 图像后,DarkDiff 随即接手进行降噪和细节生成。这种深度集成,让 AI 能够理解照片在黑暗区域应有的纹理细节,而非简单地模糊像素。 生成式 AI 常因“幻觉”问题而篡改画面内容(如无中生有地生成物体)。为防止此类情况,DarkDiff 引入了“局部图像块注意力机制”。 该机制强制模型关注图像的局部结构,确保 AI 在增强细节的同时,严格忠实于原始场景。此外,研究人员还使用了“无分类器引导”技术,通过调节引导强度,在平滑度与锐利度之间找到最佳平衡,避免生成伪影。 研究人员为了验证效果,使用了索尼 A7SII 相机在极暗环境下拍摄测试样本,曝光时间短至 0.033 秒。将 DarkDiff 处理后的图像与使用三脚架长曝光(时长为测试图 300 倍)拍摄的参考图进行对比,结果显示 DarkDiff 在色彩还原和细节清晰度上均优于现有的 Raw 增强模型。 尽管效果惊人,但 DarkDiff 距离量产仍有距离。研究人员坦言,该技术的处理速度远慢于传统算法,且巨大的算力需求若在手机本地运行将极快耗尽电池,未来可能需要依托云端处理。 此外,模型在识别低光场景下的非英文文本时仍存在局限,该研究目前更多展示了苹果在计算摄影领域的探索方向,短期内未必会直接装载于新款 iPhone。
vivo X200T手机规格曝光:天玑9400+芯片,5000万主摄
IT之家 12 月 20 日消息,消息源 @yabhishekhd 昨日(12 月 19 日)在 X 平台发布推文,分享了 vivo X200T 手机的完整配置参数,基本上和今年 4 月推出的 X200s 手机相同。 屏幕方面,vivo X200T 采用了一块 6.67 英寸的 LTPS OLED 直屏。该屏幕不仅支持 1.5K 分辨率和 120Hz 高刷新率,其高亮度模式(HBM)下的峰值亮度更可达 1600 尼特。 核心性能上,该机搭载了联发科天玑 9400+ 处理器,并辅以 LPDDR5X 内存和 UFS 4.0 闪存,这一“性能铁三角”组合足以应对高负载游戏与多任务处理需求。 影像系统是 vivo X200T 的另一大亮点。该机后置采用了全 5000 万像素的三摄方案: 主摄搭载索尼 IMX921 传感器并支持 OIS 光学防抖; 超广角镜头采用三星 JN1 传感器; 潜望式长焦镜头则选用了索尼 IMX882 传感器,支持 3 倍光学变焦。 前置方面,该机配备了一颗 3200 万像素的自拍镜头,能够满足日常高清拍摄需求。 IT之家援引博文介绍,vivo X200T 内置了一块 6200mAh 容量电池,并支持 90W 有线快充与 40W 无线充电。此外,该机支持 Wi-Fi 7、NFC、红外遥控以及蓝牙 5.4。 机身厚度仅为 7.99mm,重量控制在 203g 至 205g 之间,同时具备 IP68 和 IP69 级别的防尘防水能力,并配备了超声波屏下指纹识别技术。
保时捷718纯电版被拍到开启第四轮冬测,研发周期破纪录
IT之家 12 月 20 日消息,汽车媒体 CarBuzz 今天(12 月 20 日)发布博文,报道称保时捷(Porsche)全新 718 Boxster 纯电版原型车打破了常规研发周期,被目击开启了罕见的第四轮冬季测试。 IT之家援引博文介绍,保时捷 718 Boxster 纯电版目前的研发进度显得异常漫长,该车型早在 2022 年 12 月便首次现身冬季测试,而最新披露的路测图显示,该车已开启了第四轮冬季极寒测试。 该媒体认为对于一款量产车而言,如此漫长的路试周期在汽车行业极为罕见,甚至超过了部分车企一代电动技术的更迭周期,刷新了保时捷的研发周期纪录。 这表明保时捷对这款入门级纯电跑车的调教极为谨慎,同时也暗示了其开发过程中可能遭遇了预料之外的挑战。 外观方面,本次曝光的路测图清晰展示了全新的车头灯组设计,其采用了保时捷家族标志性的四点式日间行车灯(DRL),取代了早期测试车上的临时 HID 灯泡。 车尾部分的变化同样显著,此前用于迷惑外界的假排气管和引擎盖隆起已被移除,取而代之的是清晰可见的贯穿式 LED 尾灯带。此外,新车在尾部中央设置了充电接口,进一步确认了其纯电身份。 此次曝光的原型车内部配备了防滚架,这一细节引起了业内的广泛关注。防滚架的出现通常意味着车辆正在进行激烈的动态极限测试,或者该车此前刚在纽博格林赛道(Nürburgring)完成了高速测试任务。 作为一款承载保时捷运动基因的车型,这一配置暗示工程师正专注于打磨其底盘响应与操控极限,以确保其在电动化转型后仍能提供顶级的驾驶乐趣。 尽管测试频频曝光,但车迷们仍需等待更长时间。保时捷原计划于 2025 年发布这款纯电跑车,但受限于电池供应、软件开发及市场策略调整等多重因素,其上市时间已被推迟至 2027 年。
特斯拉专利给摄像头装“电动墨镜”提升自动驾驶可靠性
IT之家 12 月 20 日消息,科技媒体 notateslaapp 今天(12 月 20 日)发布博文,报道称特斯拉获批新专利,描述通过硬件创新,解决自动驾驶摄像头“强光致盲”问题。 IT之家援引博文介绍,光照饱和一直是特斯拉全自动驾驶(FSD)面临的最棘手挑战之一。无论是晨昏时分的低角度直射光,还是夜间对向车辆的远光灯,强烈的眩光都会导致摄像头传感器暂时失效,进而引发系统降级或强制接管。 对于配备驾驶员的 L2 级辅助驾驶,这或许只是干扰;但对于没有方向盘的 Robotaxi 而言,因“阳光刺眼”导致的数据丢失是不可接受的致命故障。马斯克此前已明确表示,摄像头外壳的优化是公司当前的研发重点。 传统车载摄像头的黑色磨砂塑料外壳在特定角度(掠射角)下仍会像镜子一样反射光线,干扰成像。特斯拉的专利(编号 US 2025/0334856-A1)提出了一种颠覆性的光学陷阱设计:用复杂的微锥体三维阵列取代平滑表面。 这些精密工程制造的锥体高度介于 0.65 毫米至 2 毫米之间,拥有极锐利的尖端。在光线射入后,不会直接反射进入镜头,而是在微锥体壁之间反复散射直至能量耗散。配合碳纳米管级别的超黑涂层,该结构能大幅降低全半球反射率(THR),确保摄像头只接收路面信息而非外壳反光。 THR 全称为 Total Hemispherical Reflectance,是一个光学指标,用来衡量表面向所有方向反射光线的总能力。在摄像头外壳设计中,该数值越低,意味着吸收光线的能力越强,产生的眩光越少。 该专利最具科幻色彩的部分在于引入了机电调节系统。特斯拉并未止步于静态塑料,而是设计了一种类似人类眼睑的动态遮光罩。 系统利用步进电机和致动器,能够根据车辆行驶方向及太阳在天空中的实时位置,动态调整遮光罩的倾斜角度。这意味着,无论车辆是在正午烈日下行驶还是在夜间转弯,物理遮光罩都能主动移动,确保镜头始终处于最佳阴影保护区内,从而维持数据输入的稳定性。 在工艺量产方面,在微观尺度上制造数百万个尖锐锥体对注塑工艺提出了极高要求,传统模具极易导致空气滞留,造成锥体尖端钝化。 特斯拉为解决这一量产难题,在专利中提出使用烧结钢嵌件。这种金属材料看似致密,实则具有透气性,能在注塑过程中将模具内的空气排出。 这一工艺创新确保了微锥体结构的完美成型,显示了特斯拉试图通过硬核物理工程来解决软件难以覆盖的“边缘场景”(Edge Cases),为 FSD 的最终落地扫清物理障碍。
避开苹果“催更”,iPhone 16等用户可加入公测版留守iOS 18
IT之家 12 月 20 日消息,科技媒体 Six Colors 于 12 月 18 日发布博文,报道称多位用户反馈称,若 iPhone 硬件支持升级 iOS 26 但当前仍停留在 iOS 18 版本,系统将不会推送单独的安全补丁 iOS 18.7.3,而是要求用户升级至 iOS 26.2 以获取修复。 苹果于本周正式推出了 iOS 26.2 操作系统更新,此次更新的核心目的在于修复一系列严重的安全漏洞。其中包括两个涉及 Safari 浏览器引擎 WebKit 的“零日漏洞”,苹果官方指出,这些漏洞此前可能已被用于针对特定目标的复杂攻击。 苹果通常会照顾未能及时升级最新系统的用户,为旧版本系统提供独立的安全补丁,公司此次也确实发布了 iOS 18.7.3 以解决相同的安全问题。 不过多位 iPhone 用户发现了一个棘手的限制:如果用户的设备硬件支持运行 iOS 26,但目前仍停留在 iOS 18 版本,系统将不会推送 iOS 18.7.3 补丁。这意味着,这些用户若想修复安全漏洞,唯一的选择是升级到 iOS 26.2。 许多用户出于对新界面设计(如“液体玻璃 / Liquid Glass”风格)的不适应、软件兼容性考量或对大版本更新稳定性的担忧,倾向于停留在 iOS 18。 该媒体认为目前的策略实际上是在强迫这部分用户进行系统升级。值得注意的是,那些硬件性能不足以运行 iOS 26 的旧款 iPhone 依然可以正常收到 iOS 18.7.3 推送,iPad 设备似乎也未受此策略影响。 IT之家援引博文介绍,针对这一“强制升级”困境,部分用户探索出了临时变通方法:注册苹果的“公开测试版计划”(Public Beta Program)并选择加入 iOS 18 测试通道,随后即可获取 18.7.3 更新。尽管如此,为了获得基础安全修复而被迫进行繁琐操作,显然并非理想体验。 该媒体指出,这完全符合苹果一贯的升级政策。早在 2021 年 iOS 14 向 iOS 15 过渡时,苹果曾承诺提供“两个软件版本选择”,允许用户停留在旧版并获取安全更新。 但这实际上只是为了在新系统除虫期间提供的“宽限期”,一旦新系统趋于稳定(通常在 x.2 版本发布后),苹果便会撤销旧版支持,强制用户统一至最新平台。
AI 颠覆成人生意,情色是第一生产力是永恒的真理
不仅要抢好莱坞女演员的饭碗,AI 现在还要取代 P 站演员的工作。 《经济学人》最近一篇报道指出,到 2025 年,AI 成人内容的市场规模将达到约 25 亿美元,到 2028 年可能以每年约 27% 的速度增长。 奥特曼说 ChatGPT 的成人模式即将在明年上线; 马斯克的 Grok 早就以能跳「脱衣舞」的火辣模式声名远扬; 小扎的 Meta 被指控用了几千部成人影片,来训练自家的 AI 大模型; 成人网站 Onlyfans 允许发布经过 AI 调整,但不是完全由 AI 生成的视频……更不用说还有大大小小,打着擦边球的各种产品。 ChatGPT 为推出成人版本做准备,开始向美国和加拿大用户,弹出年龄认证 一张普普通通的自拍照,在 AI 的「帮助」下,十分钟都不需要,很快就能被变成一段成人视频。 AI 成人内容不仅是「来了」,简直是「杀疯了」。受冲击的何止是那些成人影片的演员? 我们作为普通消费者,不仅要被迫接受无孔不入的 AI 渗入这个隐秘行业,更令人细思极恐的是:AI 随时可能把包括我们在内的任何人,瞬间变成它产业链条上的「素材」。 都说 AI 的出现是为了公平,给了所有人工具去实现自己的创意,但要是当这些 AI 成人内容,也飞入寻常百姓家时,真的会是一件好事吗? 25 亿美元的金矿 要承担的社会责任都是后话了,这门生意是赚钱的,那才是王道。当主流的商业世界还在讨论,AI 的最佳落地场景是什么,如何才能让 AI 在最大程度上变现,AI 成人内容已经开始像过去一样,成为新技术的生产力。 最近,经济学人一篇讲 AI 成人内容的文章,引起了大量网友的关注|文章链接:https://www.economist.com/international/2025/11/27/ai-is-upending-the-porn-industry 过去,印刷机的发明,人们首先拿它来打印各种风花雪月的小册子;录像机能够战胜胶片,是因为成人电影选择了它;法国最早的互联网系统 Minitel,上线初期,多达一半的流量都流向了不可描述的「情感服务」。 现在,轮到 AI。前几天知名模型聚合平台 OpenRouter,发布百万 Token 使用情况调查报告。报告里毫不遮掩地提到,在开源模型里,所有经由 OpenRouter 处理的 Token(词元,即大模型将文本或图片,转成它能处理的格式),有超过 50% 的流量,都在做「角色扮演」的工作。 角色扮演具体是做什么,OpenRouter 也给了详细的介绍,一马当先的就是虚拟恋人对话,还有各种角色扮演的游戏、以及同人小说生成,和成人内容向的创作,占比 15.4%。 消费者喜欢,大模型厂商跟进。做 AI 成人内容,他们很认真,因为这极其赚钱。 根据研究机构 Global Commerce Media 的测算,今年 AI 驱动的成人内容市场价值,就已经高达 25 亿美元。更夸张的是,这台印钞机还远未触顶,预计到 2028 年,它都将保持每年 27% 的恐怖增速。 其他研究机构的报告,同样显示,全球成人数字内容市场持续上涨 不说 AI 了,国内最近多个市场调研分析报告都提到,中国成人用品市场规模近年来一直保持着高速增长,并且早已突破了千亿大关;全球市场同样如此。 但 AI 带来的冲击,对传统成人行业来说,完全是降维打击。 以前的 VCD 甚至流媒体,撑死也就是降低了分发成本。而 AI 的出现,彻底颠覆了生产方式,它可以按需定制。 结合「AI 陪伴」的概念,单纯的「看片」已经成了最底层的需求。性格、语气、外貌、互动方式……虽然 AI 未必比真人演员更大胆,但它绝对更便宜、更听话、更懂你那点难以启齿的小九九。 AI 陪伴的市场,同样在继续增长 任何时间、任何地点,无论你的癖好多么怪诞冷门,只需一句简单的提示词,AI 就能瞬间为你生成专属的幻梦,甚至还能陪你聊骚。 这种极致的定制化,让原本处于灰色地带的欲望生意,变成了一种随叫随到的算法服务。 虚拟的 AI,能拯救现实的孤独? 而 AI 成人内容带来的改变,也没有停留在产业内部。 Pandorabots 的负责人 Lauren Kunze 分享了一个令人唏嘘的数据:除了无聊的小屁孩,最常花几个小时跟机器人聊天的,是那些极度渴望慰藉的成年人。 他们旗下的角色 Kuki,在 15 年里竟然被人类求爱了 9000 万次。 Flirtflow,同样是聊天机器人,Onlyfans 的博主会使用它,自动回复网友的私信留言。 它的创始人更是把这种体验比作《黑客帝国》里的红色药丸:「只要你不知道自己在矩阵里,你就不会怀疑,并且乐在其中。」 图片来源:medium@devzeeofficial 事实证明,在欲望面前,人类的大脑简直不堪一击。 人类的感官是很容易被欺骗的;有专门的研究发现,我们甚至会觉得 AI 生成的脸,比真人的脸「更真实」。虽然现在我们还会讨论 AI 图片或视频,存在的塑料感,但这道防线正在被迅速瓦解。 前段时间有媒体报道,美国一位 76 岁的老人,因为沉迷于与 AI 聊天机器人的「恋爱」,而与现实脱节,最终在去跟「AI 爱人」赴约的路上,发生意外不幸身亡。 国内也有类似的案例,广东中山一个小区的保安,长期和 AI 对话创作诗歌,AI 向他承诺能出版、能和 AI 公司进行签约。但他始终没等来 AI 寄过来合同,于是出发前往杭州讨个说法,但连公司门都没能进去。 在媒体的采访中,他说他没有把自己和 AI 聊文学这些事情,告诉身边的人,他现在也还在和 AI 聊天,只是换了其他的平台和 App。 这种执着有时候看了会让人心酸。我们不仅是被骗了,我们甚至可能是自愿受骗。AI 成人内容也是这样,对很多人来说,它并不是真的用来拯救什么东西,它能作为一种「止痛药」一样的存在,就足够了。 这也是潘多拉的魔盒 止痛药再好,但吃多了也会产生抗药性。 如果说 AI 成人内容抢走了演员的饭碗,那还可以肤浅的理解为是商业层面的优胜劣汰。但对成年人说,除了消费这种生成的商业体验,它也在把这种生成的风险,推向每一个普通人。 过去,全球成人内容的生产门槛并不低。无论是制作还是传播都受到严格的法律限制,最大的风险主要集中在从业者和平台身上。但在 AI 时代,这套机制被彻底打破。 经济学人统计,在英国遭受深度伪造(DeepFake)图像或视频困扰的人数占比触目惊心 一些不合规的 AI 应用,像是 DeepFake 技术等,正在成为校园霸凌和羞辱女性的工具。只需一张穿着衣服的照片,AI 就能「脑补」出裸体。 即便画面是假的,但受害者遭受的社会性死亡和心理创伤,却是无比真实的。 连顶流明星也无法独善其身。年初,通过 DeepFake 技术生成的泰勒·斯威夫特的虚假照片,在社交媒体平台上传播,由于来不及删图,X 甚至还封锁了关于泰勒.斯威夫特的关键词搜索。 它在满足我们「善」的那一部分欲望时,也会放大我们的「恶」。 404Media 前段时间更新了一期播客,嘉宾是互联网成人内容史学家 Noelle Perdue,她曾经给 P 站等多个相关工作室写剧本、当制片人。这期播客讨论了关于 AI 成人内容的兴起,是否真的能够改变整个产业的现状。 播客封面,Why AI Porn Sucks (with Noelle Perdue) 他们在播客中直言不讳:这是一项枯燥、冷漠且虚假的技术。 哪怕 AI 伴侣声称是为了缓解孤独,但它本质上是在制造隔离。现在的 AI 让人完全封闭在自己的信息茧房里,原本应该是向外探索的欲望,变成了向内的自我吞噬。 欲望失去了边界,人也就失去了与现实连接的能力。 Noelle 提到在 2021 年,她曾经尝试过使用早期的生成式 AI 成人内容,那时她还觉得,这将会是一种安全健康的方式,给用户带来全新的探索体验。但现在的 AI,可以让人完全封闭在自己的世界里,探索变成了隔离,欲望没有了边界,她强烈地反对。 一个稍微隐私又跟法律密切相关的议题,AI 也像入侵其他领域一样,不负责任地一脚插进来了。再把 AI 当作一个简单的工具来看待,显然是小瞧它的威力了。 说到底,我并不看好 AI 成人内容。它们之所以一直危险,正是因为它和真实的人、真实的身体、真实的关系绑在一起。而 AI 正在做的,是把这些全部剥离,然后只留下刺激本身。 如果说 AI 终究要进入成人内容行业并且「成功」,那至少应该承认,这不是一件值得庆祝的事。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。