行业分类:
加载中...
头条分类:
加载中...
谷歌Nano Banana Pro AI被曝本周上线:4K分辨率、纵横比任调
IT之家 11 月 20 日消息,科技媒体 testingcatalog 昨日(11 月 19 日)发布博文,报道称谷歌计划本周在其 Gemini 平台,面向设计师、营销人员及教育工作者,推出名为 Nano Banana Pro 的创意升级功能。 用户可以通过 Gemini 应用中的“Thinking”模型直接访问该功能。这项升级的核心在于提供强大的布局控制能力,支持用户生成最高 4K 分辨率的图像,并自由设定从 16:9(适用于演示和印刷品)到 9:16(适用于社交媒体帖子)的多种纵横比,确保输出内容直接满足不同发布渠道的规格要求。 提示词:A cinematic, wide-angle view of Istanbul during the golden hour. In the foreground, intricate Ottoman tile patterns on a balcony railing are in sharp focus. In the background, the Hagia Sophia and the Blue Mosque dominate the skyline across the Bosporus, silhouetted against a warm, hazy orange and purple sunset. Seagulls are flying in the distance. Photorealistic, 8k resolution. —ar 2:1 提示词:A professional studio product shot of a futuristic, transparent smart-watch resting on a piece of dark slate. The watch interface is glowing holographic green. Soft dramatic lighting, 8k resolution, macro photography style, shallow depth of field. —ar 4:3 提示词:A vintage travel poster for "MARS COLONY." The main visual is a retro-futuristic biodome on a red landscape. Large, bold Art Deco typography at the top says "VISIT MARS," and smaller text at the bottom says "The Red Planet Awaits You - Est. 2050." Texture of worn paper. —ar 2:3 (上图为优化阅读,经过裁剪,实际比例为 1:1)提示词:A sophisticated, minimalist logo centered on a white background. The word "FRESH" is spelled out using realistic, glistening slices of kiwi and strawberry. High contrast, sharp focus, professional food photography style. —ar 1:1 提示词:A high-resolution, professional infographic map of Europe. The map should be topographical, showing mountain ranges in relief. Clear, sharp text labels should identify major capitals: "Paris", "Berlin", "Rome", "Madrid", and "Warsaw". The ocean should be a deep matte blue, and the land should be in natural earth tones. Clean, modern typography suitable for a textbook. —ar 4:3 新功能的一大突破是引入了“高级文本渲染”技术。该技术大幅提升了图像中文字和拼写的精准度,能够清晰地生成包含复杂文本的海报、菜单、邀请函甚至数据密集型信息图。 提示词:Create a wide infographic titled "How Solar Power Works" with a clean flat design. Include: a sun icon, solar panel diagram, arrows showing energy flow to a house and battery, four numbered steps with short captions, and a comparison bar chart of "Day vs Night usage". —ar 16:9 同时,Nano Banana Pro 还优化了概念设计流程,用户只需上传一张二维草图,即可通过提示词让 Gemini 将其渲染为具有照片级真实感的三维产品图像,便于探索不同材质和光影效果。 提示词:“A clean, 3D isometric visual explainer of a "Smart Home Ecosystem." Show a cross-section of a house with icons connecting different devices: a thermostat, a smart fridge, and security cameras. Use a pastel color palette with soft lighting. —ar 16:9 在图像编辑与合成方面,Nano Banana Pro 也实现了显著增强。它支持用户同时上传多达六张图片进行场景融合或元素提取,极大地丰富了创作的可能性。 IT之家援引博文介绍,其中,“风格迁移”功能可以将参考图像的调色板或整体视觉风格应用到另一张照片上。更具创新性的是“画布引导”功能,允许用户直接在上传的图片上通过涂鸦、画圈或注释等方式下达视觉指令,让 AI 更直观地理解并执行修改意图。 与早前发布的版本相比,Nano Banana Pro 的核心价值在于将多图像合成、高可靠性排版以及纵横比控制等关键功能整合进单一工作流中。这一集成化设计有效减少了创作者在不同专业软件之间来回切换的繁琐操作,显著提升了工作效率。
何同学就拒绝给网约车司机好评道歉:很多客户撤单了
快科技11月20日报道,在《罗永浩的十字路口》第十一期访谈节目中,知名UP主何同学作为嘉宾谈及工作室盈利状况时坦言,今年工作室可能会亏损一两百万元,而亏损的主要原因与自己此前一条微博引发的广泛影响直接相关,该表述随即引发舆论关注。 针对部分网友对“亏损”表述的质疑,@何同学工作室官微 很快作出回应,明确表示亏损并非少赚,而是今年工作室的客观实际。工作室方面解释,团队视频制作成本本就普遍较高,4月微博事件发生后,多个正在制作中的客户项目选择撤单,这是导致亏损的核心原因。“我们完全理解客户的决定,对此深表歉意,这是我们必须接受的教训,也感谢大家的监督。”工作室回应称。 “因为其实客户来投我们其实就是投我这个名字,投我们这个频道。但如果说我们最核心的资产,我们的品牌形象有了很大的问题,那确实是不可能的。但是我对于发这条微博确实我是非常抱歉的。”何同学说。 何同学还表示,自己跟司机师傅打了电话道歉,跟公司员工、客户都道了歉。他表示自己当时写了道歉信但没发,因为“当时确实被吓到了,发微博的时候没想到有这么广泛的多角度地被讨论,当时我非常害怕道歉信发出去再引起新的讨论,但我对这件事情确实非常抱歉。” 回溯争议源头,今年4月11日何同学曾发布一条微博,分享自己应对网约车司机求好评的心态变化:"以前司机让我打好评都会口头答应,下车后却忘了,这样挺不好的;现在除非服务特别好,否则会直接说'抱歉不想打',作为有讨好倾向的人,这是我锻炼真诚和勇气的方式。" 这条微博当时引发大量网友批评,认为其以底层服务者的生存困境为代价“锻炼自我”,本质是一种傲慢的权力霸凌。更具争议的是,有网友翻出今年3月何同学与苹果CEO库克在西湖品茶的互动画面,对比其当时展现的谦逊态度犀利发问:“若真想克服讨好型人格,为何不对库克说'不'?” 此外,还有网友指出何同学过往视频中常呼吁粉丝“一键三连”,而UP主与网约车司机本质上同属服务业,“为何对粉丝的支持需求如此上心,却对司机的合理诉求表现得高高在上?”
谷歌DeepMind CEO哈萨比斯:世界模型是未来,AI泡沫真实存在
IT之家 11 月 20 日消息,在经历由内部员工及首席执行官桑达尔・皮查伊(Sundar Pichai)推动的宣传热潮后,谷歌正式推出了其最新大模型 Gemini 3 Pro。据谷歌 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)介绍,该模型的研发目标是打造一款综合性能最强的基础模型,同时弥补前代版本在编程、逻辑推理及数学能力等方面的短板。哈萨比斯在接受采访时表示,Gemini 3 Pro 是“我们所构想的通用人工智能(AGI)系统的关键组成部分”。 谷歌副总裁乔希・伍德沃德(Josh Woodward)在播客节目《Hard Fork》中指出,Gemini 3 在多步骤任务中展现出更强的推理连贯性,能更稳定地维持思维链条;此外,它还可为用户动态生成定制化交互界面,例如互动式教程或嵌入式计算器。用户规模方面,谷歌披露:Gemini 应用月活跃用户已突破 6.5 亿;若计入通过搜索中的“AI 概览”(AI Overviews)功能接触 Gemini 的用户,月活跃人数达 20 亿。为进一步扩大影响力,谷歌宣布:全美高校学生将获赠一年期 Gemini 高级版免费使用权。 尽管 Gemini 3 正全面铺开部署,哈萨比斯的研究重心已转向下一技术前沿 —— 世界模型(World Models)。他表示,自己当前绝大部分研究时间均投入该领域,并援引 SIMA 2(可泛化智能体建模架构)及视频生成模型 Genie 3 等项目作为代表性案例。据其介绍,这些世界模型已在谷歌内部用于机器人及其他智能体的训练,未来将成为实现 AGI 不可或缺的核心组件。 哈萨比斯预测世界模型将迎来一个“ChatGPT 时刻”,但最大的障碍是成本和当前的技术难题。“我们很想让更多人用上 Genie,但它的成本太高了,”哈萨比斯表示,并解释道,“基本上,使用它的用户就相当于在创造另一个它。”他指出,在实现规模化之前,还必须解决诸如“让它的稳定性维持超过一分钟”等挑战。 IT之家注意到,谈及潜在的 AI 泡沫风险,哈萨比斯给出了一种微妙的观点,他明确指出,“私募市场显然存在泡沫”,并举例称,某些尚无实质性产出的初创企业,在种子轮融资阶段即被赋予数百亿美元估值,“这显然不可持续,在我个人看来,甚至缺乏基本逻辑。” 但他强调,此类风险并不适用于谷歌。哈萨比斯回溯了十二年前 DeepMind 并入谷歌时他提出的原始构想:将 AI 研究打造为谷歌产品的“引擎室”(Engine Room)。如今,这一长期战略已显成效,Gemini 深度赋能搜索(Search)、YouTube、云服务(Cloud)等核心业务,迅速实现商业回报。“无论外部环境如何变化,我坚信我们已处于极为有利的位置,终将脱颖而出。”他断言,即便市场泡沫破裂,谷歌也具备应对各种情境的扎实基础。 尽管 Gemini 3 取得显著进展,哈萨比斯仍维持其原有预判:真正的通用人工智能(AGI)实现尚需 5 至 10 年时间。他指出,通往 AGI 仍需“一到两项关键突破”,尤其在模型可靠性、复杂推理能力及长期记忆机制等方面。 哈萨比斯承认,仅靠扩大模型参数量已出现“收益递减”现象,但他强调进展远未停滞,相关投入“依然极具价值”,即便其增长曲线已非指数级跃升。他进一步阐释:“人们听到‘收益递减’,往往误以为是零增长或指数增长的二元对立;其实,存在一个中间态。当前虽不再每代都实现性能翻倍,但仍持续带来显著提升,因此,持续投入不仅合理,更具备极高的投资回报率。我们认为,我们正处在这个阶段。” 与此同时,哈萨比斯亦警示:模型能力的增强(如接入外部工具的“函数调用”能力)亦带来新型风险。他特别强调,在网络安全领域必须“加倍审慎”,严防技术被恶意滥用。
英特尔举办行业解决方案大会,加速具身智能应用落地
凤凰网科技讯 11月20日,在2025英特尔行业解决方案大会上,英特尔集中展示了其基于酷睿™ Ultra平台的新一代边缘AI产品与解决方案,并预告了面向边缘场景的第三代酷睿™ Ultra处理器,该产品计划为具身智能及机器人应用提供更强算力支持。 英特尔副总裁兼中国区软件工程和客户端产品事业部总经理高嵩指出,边缘计算因其丰富的应用场景为人工智能带来新的发展机遇。他表示,英特尔正依托x86系统生态与AI PC领域的技术积累,通过集成度更高的软硬件解决方案,为机器人、智慧教育、交通、智能制造等场景提供算力支持,并与合作伙伴共同推动相关应用的落地。 当前,英特尔酷睿Ultra 200H系列处理器在相同功耗和尺寸限制下,可实现99 TOPS的AI算力,将AI工作负载整合至单颗芯片,有助于降低对独立显卡的依赖,从而优化系统功耗与散热设计。 面向机器人领域,第三代酷睿Ultra处理器基于Intel 18A制程,预计将AI算力提升至近180 TOPS,并增强实时控制与环境适应能力。该处理器采用混合CPU架构,在AI计算性能上较前代提升约1.8倍,同时原生支持时序协调运算(TCC)与时间敏感网络(TSN),适用于工厂、物流及具身智能等高要求场景。 为进一步加速物理AI解决方案的早期开发,英特尔同期发布了机器人AI软件套件与参考主板,支持ROS 2标准、视觉语言模型及多任务并行处理,帮助开发者在单一CPU平台上集成控制与AI功能。 此外,英特尔通过其边缘生态系统,与OEM、ODM、ISV及系统集成商展开合作,目前已认证超过40款边缘AI系统,并提供包括参考应用、示例代码及优化工具在内的开发资源,以促进边缘AI技术的规模化普及。
Gemini 3负责人最新访谈:不做情感陪伴,只做最强生产力工具
作者 林易 编辑 重点君 11月19日,谷歌发布Gemini 3模型。DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)和Gemini团队负责人乔希·伍德沃德(Josh Woodward)联合接受专访。 此次升级,Gemini 3开始具备生成界面(Generative UI)的能力。当用户查询梵高生平时,它能即时构建一个包含图片和时间线的交互式页面;当涉及复杂计算时,它能直接生成一个定制化的房贷计算器。 这种从回答问题向构建应用的跃迁,标志着大模型应用正在跨越单纯的对话框,进入动态软件生成的阶段。 Gemini 3模型推理能力显著增强。根据伍德沃德的说法,前代模型常在第5、6步推理时丢失思路,而 Gemini 3能在复杂的税务规划或长代码调试中维持10到15步的连贯逻辑,大幅提升了在处理复杂任务时的可靠性。 在被称作“人类终极考试”(Humanity's Last Exam)的跨学科博士级难题集考试中,Gemini 3pro的得分从前代Gemini 2.5Pro的21.6%大幅上升至37.5%,远超GPT-5.1的26.5%。在SimpleQA Verified测试中,Gemini 3pro达到了72.1%的准确率,相较GPT-5.1和Claude Sonnet 4.5提升了超1倍,大幅减少此前模型常见的幻觉现象。 此次最具突破性的升级出现在视觉智能领域。Gemini 3 Pro在一项专门针对屏幕理解和UI交互的ScreenSpot-Pro 测试中,取得了72.7%的高分,几乎是GPT-5.1性能的20倍。这意味着AI Agent能够区分按钮、菜单、文本和上下文,而不仅仅是识别图像中的物体,为AI Agent实现更高级的自动化操作电脑提供了基础,大幅提升了模型作为数字工作代理的实用性。 在衡量Web开发能力的WebDev Arena排行榜上,Gemini 3拿下了1487 Elo的高分。伴随Gemini 3发布,谷歌推出了全新的代理开发平台“Google Antigravity”,由Gemini 3作为“智能代理”去调用工具、编写接口、调试Bug,配合Vibe Coding的全新能力,用户只需用自然语言描述需求,模型即可生成功能完整且设计美观的代码。 谷歌在战略定位上表现得极为克制,拒绝了当下热门的情感陪伴领域,将Gemini定义为提升生产力的超级工具。其内部考核指标不是用户粘性或情感依赖,而是今天帮用户完成了多少项任务。在Gemini Agent的早期演示中:模型不仅能理解邮件语境,还能深度接入用户邮箱,自动归类并拟定回复,甚至帮助用户彻底清空收件箱。从单纯助手进化为能够独立工作的智能同事。 以下为访谈实录: 罗兹:凯西,我们今天临时加播一期特别节目,主题是Gemini 3的发布。 牛顿:是的,凯文。这款模型在硅谷AI圈子里期待已久,我们终于要亲手体验真正的成品了。 罗兹:我们之所以打破常规周五发布节奏,专门录制这一期,主要有两个原因。首先,我们获得了与谷歌两位AI核心负责人(DeepMind首席执行官哈萨比斯和Gemini团队副总裁伍德沃德)的专访机会。 其次,Gemini 3的发布引发了业界强烈关注。我们听到多个实验室的内部消息称,这款模型在某些关键领域实现了突破,可能对竞争对手构成实质性威胁。过去两年,谷歌曾被视为追赶者,如今的问题是:他们是否已重返领跑位置? 牛顿:在正式进入访谈之前,我们先简要介绍已知信息。谷歌在发布前举行了闭门简报会,Gemini 3最引人注目的新能力包括:大幅提升的编码与“氛围编码”能力;以及全新的交互界面生成功能。 它不再仅输出文字,而是直接为用户生成定制化的交互界面。例如,用户询问梵高生平时,模型会即时生成一个包含图片、时间线和交互元素的完整学习页面;又如生成百万美元以上房产的按揭计算器。这些功能标志着从“回答问题”向“构建体验”的跃迁。 罗兹:在所有公开基准测试中,Gemini 3均大幅超越Gemini 2.5 Pro。例如,在被称作“人类终极考试”(Humanity's Last Exam)这一跨学科博士级难题集上,前者得分仅21.6%,后者直接提升至37.5%。谷歌的总体表态是:任何你能在ChatGPT、Claude或其他旧版Gemini上完成的任务,在Gemini 3上都能做得更好。 牛顿:他们还展示了Gemini Agent的早期演示:模型可深度接入用户邮箱,理解全部邮件内容,自动归类、拟定回复,甚至帮助用户彻底清空收件箱。 此外,本周起Gemini 3将登陆Gemini App和谷歌搜索的AI Mode;美国大学生将获一年免费高级版访问权限。谷歌反复强调的关键词是“Learn Anything”(学习任何事物),这实际上是将Gemini定位为终极个性化教育工具。 罗兹:德米斯、乔希,欢迎来到《Hard Fork》。两年前,桑达尔·皮查伊(Sundar Pichai)把Bard比作“一辆改装后的本田思域”,在与更强劲对手的赛道上竞速。那么,Gemini 3是一辆什么车? 哈萨比斯:我希望它比本田思域快得多。我不太习惯用汽车来比喻,或许更像一辆专业的拖曳赛车(Drag Racer)。它不是为日常驾驶或环形赛道设计的,它拥有纯粹的、为某一特定目标所凝聚的巨大力量。它代表着我们最顶尖的研究成果与规模化算力的完美结合,目标就是要在智能前沿的这场竞赛中,展现出无与伦比的瞬间爆发力。 罗兹:这很有趣。相比以往所有AI模型,Gemini 3在具体层面上究竟能做什么全新的事情?请给我们一些量化、实际的例子。 伍德沃德:有三点最为突出。第一,在多步推理上,它能同时思考更多步骤,我们将其可靠性提升到了一个全新的层次。前代模型常在进行到第5、6步复杂的逻辑推导时“丢失思路”或产生幻觉,而Gemini 3能可靠地完成10到15步的连贯推理任务,例如复杂税务规划、跨国差旅的整体规划与预订,或是对一个拥有数百万行代码的庞大系统进行全面调试。 其次,它将首次大规模生成全新交互界面。用户需求的不再是简单的文字回答,而是定制化的软件组件。比如你问它:“帮我设计一个可以追踪我所有投资组合的仪表板”,它会实时生成一个交互式的、可操作的仪表盘界面,而不是一堆描述如何制作仪表盘的文字。 第三,我们在编码能力上投入巨大资源,尤其是前端与“氛围编码”,这意味着它可以根据自然语言的提示来生成功能完整、设计优美的用户界面代码。即将推出的Google Antigravity等新产品也将充分展示这一点,模型能够动态地根据上下文改变用户界面的布局和功能。 牛顿:许多人认为,对普通用户而言,“聊天”这一用例已经基本解决。他们甚至想不出什么新问题能让Gemini 3的回答与前代产生质的区别。你如何看待这种看法? 伍德沃德:我理解这种观点。表面上看,基础问答的准确率已经很高。但真正的区别在于可靠性、整合度与信息呈现方式。Gemini 3的回答将更简洁、更有表现力、信息呈现方式更易理解,这是大多数人立刻能感知到的变化。 更重要的是,模型开始与用户其他数据源深度整合,例如与谷歌生态内其他产品联动,真正超越单纯的问答模式,成为用户的“数字化大管家”。它能理解你整个邮箱的语境,从而在起草回复时,不仅回答问题,还能根据你过去的风格、你与收件人的关系来调整语气和内容。 哈萨比斯:我完全同意。它的可靠性、风格与个性都经过精心打磨,更简练、更切中要害。在“氛围编码”等场景已跨越实用性门槛。这是一种从“智能助手”到“智能同事”的转变。我本人计划用它在圣诞假期重拾游戏编程,它现在不仅能写出功能代码,还能在设计初期就提供架构建议。 罗兹:德米斯,你在今年5月接受我们采访时判断AGI仍需5至10年,并可能需要若干重大突破。Gemini 3是否改变了这一时间表? 哈萨比斯:完全没有。它完全符合我们过去两年设定的轨迹。事实上,自Gemini系列启动以来,我们的进步速度已是行业最快。Gemini 3令人惊艳,但仍在预期之内。 距离真正的通用人工智能,仍需在一致性、推理深度、记忆机制以及物理世界建模(如我们正在推进的SIMA与Genie项目)上取得1至2次关键突破。我们现在做的是“系统1思维”(快、直觉式),但要实现AGI,我们必须解锁“系统2思维”(慢、深思熟虑、分析式)。 此外,模型需要具备长期的、选择性的记忆机制,能够回忆和应用数周、数月前的特定互动内容,而非仅仅局限于有限的上下文窗口。因此,5至10年的判断不变。 牛顿:关于模型个性与用户关系,业界正在热议“AI伴侣”。你希望用户与Gemini 3建立何种关系? 伍德沃德:这是一个非常敏感但重要的问题。我们将其定位为“超级工具”而非情感伴侣,核心价值是帮助用户高效完成日常任务,提升生产力。我们内部更关注一个新指标:今天我们帮你完成了多少项任务?这更接近初代谷歌搜索的核心价值——效率。我们认为,将模型推向情感伴侣的定位,既有安全风险,也偏离了谷歌作为信息和工具提供者的核心使命。 罗兹:你们放弃了“情色伴侣”这一病毒式增长机会,是否重大战略失误? 伍德沃德:无可奉告。我们的安全团队对此有严格的规范和指导原则。 罗兹:过去几周,竞争对手明显紧张。你认为谷歌目前在AI竞赛中是否已处于领先? 哈萨比斯:当前环境是史上最激烈的竞争。唯一真正重要的是进步速度,而我们对此非常满意。我们从未失去研究领先地位,现在只是产品落地终于跟上。竞争对手在研究上很优秀,但在规模化分发和垂直整合上,他们无法复制我们的优势。 我们正将Gemini注入Maps、YouTube、Android、搜索、Workspace等数十亿用户产品,这个分发网络和终端数据反馈环是无法逾越的护城河。此外,我们在定制化TPU芯片上的全栈优势,使我们的训练成本和效率远超依赖外部GPU资源的竞争者。 牛顿:关于规模定律与回报递减的争论,你怎么看?有人认为,模型的规模越大,性能提升的边际效益越低。 哈萨比斯:这是一个持续的辩论。我们对Gemini 3相较2.5的提升非常满意,完全符合预期。回报并非像早期那样呈指数级爆炸式增长,但它带来的实用性增量和可靠性提升仍远高于我们的边际成本,仍值得我们全力投入。在抵达AGI所需的1至2次研究突破到来之前,通过最大规模的基础模型持续推动性能,仍然是当前最有效的策略。我们相信,规模定律依然有效。 罗兹:我们是否正处于AI泡沫之中? 哈萨比斯:这是一个过于二元的问题。某些领域(例如数十亿美元种子轮却无实际产品、只讲概念的公司)确实存在泡沫,估值与实际收入不成比例。但谷歌同时拥有短期变现(搜索、Workspace、云TPU)与长期万亿级新赛道(机器人、游戏、药物发现、材料科学等)。 例如,我们的AlphaFold等专业模型正在药物发现领域创造实际价值,这是一个与消费者AI估值无关的万亿级市场。无论短期泡沫是否存在,我们都将胜出:繁荣时抓住机会,收缩时凭借全栈优势和深厚的现金流更具韧性。 牛顿:如果现在是感恩节聚会,有人想转移政治话题,你会建议他们用Gemini 3展示什么功能来惊艳全场? 伍德沃德:我不知道它能不能拯救感恩节,但它能带来欢笑。拿出手机自拍,然后让Gemini 3疯狂编辑照片。 我们Gemini中的图像模型在全球范围内仍然是最强的。你可以即时将家人合影变成任何滑稽的场景、风格或时代背景。绝对能引发全场大笑。随后,当你展示它能如何帮你撰写一封得体的辞职信或生成一个定制化的节日食谱计算器时,他们自然就会探索其他新功能了。
OpenAI深夜双王炸!GPT-5.1 Pro紧急发布,降维打击Gemini 3
编辑:桃子 好困 【新智元导读】今天,是OpenAI的主场,同一天祭出两大杀器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最强编码模型首次采用「压缩」机制,在数百万token上连续编程超24小时。 AI圈一日一更的频率,真的是有点跟不住了.... 前两天,先是Grok 4.1、Gemini 3 Pro发布,今天OpenAI GPT-5.1 Pro也静默登场了! 没有一篇博文,仅有两句话官宣。 众所周知,GPT-5.1主打「情商智商」双强,Pro无疑将这两大优势推向更高层次。 同一天,OpenAI全新王牌代码模型GPT-5.1-Codex-Max,已经在Codex平台正式上线了! 从命名上不难看出,它是基于GPT-5.1搭载,并在软件、工程、数学、研究等智能体任务专门训练。 由此,GPT-5.1-Codex-Max能力更强、反应更快,而且用起来更省token。 新模型是专为「长时间、高强度」的开发任务而设计。 就这么说吧,它能连续自主工作超24小时,一口气处理数百万token,直接交付成果的那种。 这恰恰印证了,Scaling Law还在永续。 这是因为,GPT-5.1-Codex-Max是OpenAI首个「原生支持压缩」机制的模型,可以跨越多个上下文工作。 这下,像项目重构、深度调试、多小时智能体循环这些任务,它都能稳稳接住。 目前,GPT-5.1 Pro已向所有Pro订阅用户推出。 GPT-5.1-Codex-Max已在Codex 中支持CLI、IDE 扩展、云端和代码审查使用,API接口也将很快上线。 2025年临近收官,AI终极对决一触即发,GPT-5.1 Pro与Gemini 3 Pro之间,胜负之手将落于谁家? OpenAI最强编程模型 这次的GPT-5.1-Codex-Max,那可是在「真实战场」上炼出来的! 诸如在PR创建、代码审查、前端开发、问答等工程师常见任务中,全部做过专门训练。 在多项前沿编码评测中,它都轻松超越了OpenAI此前所有模型。 还有在SWE-bench Verified上的评估结果中,GPT-5.1-Codex-Max拿下了77.9%的高分。 GPT-5.1-Codex-Max不仅跑分高,实际体验更是大升级! 它是OpenAI首个可以在Windows环境中运行的模型,训练中还针对Codex CLI协作场景做了优化,更好用了。 思考token暴降30% 不仅如此,GPT-5.1-Codex-Max用起来也更省钱了。 在同样「medium」(中等)推理强度下,它不光表现比GPT-5.1-Codex更好,而且思考过程所用的token量减少约30%。 对于不敏感于延迟的任务,新增的「Extra High」(xhigh)推理强度,可花费更多时间获得优质答案。 不过,日常使用的话,OpenAI还是推荐medium。 token省下来了,这就意味着在实际开发中,成本可以大幅降低,可谓开发者的福音。 下面这些demo中,清晰呈现了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差异。即便是token减少,前者在前端设计中的功能和颜值都不输以往。 比如,让它们生成一个浏览器应用——即可交互的CartPole强化学习沙盒,需要包括小型策略梯度控制器、指标面板,以及一个SVG网络可视化器。 上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex GPT-5.1-Codex-Max仅用27k思考token完成了任务,而且代码更加精简。 这个demo要求的是,做一个太阳系引力井沙盒,需要可视化物体在2D引力势场中的运动,并支拖动平移视图、环绕观察场景。 上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex GPT-5.1-Codex-Max同样用了更少的token,和更精炼的代码完成了任务。 GPT-5.1-Codex-Max这么强,是因为采用了一套全新机制。 狂跑一天,全是「压缩」 「压缩」机制让GPT-5.1-Codex-Max突破限制,处理那些因上下文太长而原本无法完成的任务。 比如,复杂重构和长时间智能体循环。 它会自动整理历史内容,筛选保留最关键的上下文,从而实现在长时间跨度内连贯性。 在Codex中,当接近上下文上限时,GPT-5.1-Codex-Max会自动执行会话压缩,刷新上下文,并多次重复这一过程直到任务完成。 下面这个案例中,GPT-5.1-Codex-Max正在自主重构Codex CLI的开源仓库。 可以看到,当上下文快满时,它会自动压缩释放空间,从而在不丢失进度情况下完成任务。 视频已经过剪辑和加速处理,以便更清楚地展示过程 内部测试显示,GPT-5.1-Codex-Max能连续自主工作超24小时。 在此期间,可以不断迭代实现、修复测试失败,并最终交付可用成果。 这种长时间、连贯的任务能力,是迈向更通用、更可靠AI系统的通用基石。 在METR评估中,GPT-5.1-Codex-Max长程任务能力,成为了新的SOTA。 在OpenAI内部,已有95%工程师每周都在用Codex,自从引入之后,团队的Pull Request数量提升约70%。 现在,GPT-5.1-Codex-Max搭配着持续升级的CLI、IDE 扩展、云集成与代码审查工具,编程效率直接起飞。 一些网友试用第一手感觉,瞬间惊艳了。 GPT-5.1 Pro上线,首测来了 至于GPT-5.1 Pro,正如开篇所说,OpenAI只是在版本更新日志里写了两段介绍。 虽然官方没有单开一篇博客,但提前拿到内测资格的大佬们,都非常兴奋地在第一时间放出了自己的体验感受。 对于GPT-5.1迭代后的性能,Epoch AI三方评估后称,几乎与GPT-5实力相当。 它们在high(高)推理模式下,能力指数(ECI)得分均151。 杰克森实验室教授、人类免疫学家Derya Unutmaz表示,性能相较之前明显提升了一个档次的GPT-5.0 Pro,是他现在最喜爱的模型。 在下面的例子中,他分别向5.0和5.1 Pro询问了免疫学领域最重要的未解之谜,并要求这两个模型深入浅出地剖析每个问题,以便让没有免疫学学位的人也能理解其重要性。 其中,前两个回复来自GPT-5.1 Pro,接下来的两个较短回复来自GPT-5.0。 可以看到,GPT-5.1 Pro明显更胜一筹,因为它能让没有免疫学背景的人更轻松地理解这些解释,并且清晰地阐明了这些问题的重要性和潜在价值。 对比而言,GPT-5.1 Pro在清晰度和洞察力方面都有质的提升。它的回答在保持深度的同时,内容更完整自洽、更形象生动、也更易于理解。 虽然GPT-5.0的回复在内容上也同样出色,但剖析得不够透彻。 GPT-5.1 Pro GPT-5.0 HyperWrite AI的CEO Matt Shumer也在一篇超级长的体验报告中表示:GPT-5.1 Pro是目前最好的「大脑」,虽然很慢,但深思熟虑。 对于大多数日常工作,Gemini 3更好;毕竟在一个独立的界面中等待10分钟才能得到答案显然并不理想。 但对于任何需要深入思考、规划和研究的任务,以及任何必须一次性做对的事情,GPT-5.1 Pro更好。 长文地址:https://shumer.dev/gpt51proreview 反应较慢,但聪明得离谱 它不仅比大多数人类更擅长推理,而且在处理真正棘手的难题时,也比其他任何模型都要聪明。 预计几天内,就会出现它解决了一些人们认为当今AI系统力所不及的问题的例子。 指令遵循能力是最大的亮点 它真的会严格执行你的要求,而不会跑偏。 对于严肃的编码任务,它给人的感觉不那么像一个「助手」,而更像是一个依据规格说明书工作的外包工程师(哪怕你的规格说明书有点模糊)。 前端和用户体验设计,以及写作,都是弱项 不管是创意写作,还是设计漂亮的UI,Gemini 3都要更胜一筹。 但最大的弱点还是界面 它只能在ChatGPT中使用,无法集成到IDE里,也无法连接到其他工具链中。这一点与GPT-5 Pro如出一辙。
彭博社:美国无法通过针对阿里巴巴获胜
凤凰网科技讯 11月20日,据彭博社报道,在阿里巴巴集团发布了其在中国市场推出的“千问”应用后,这家中国科技巨头正面临来自华盛顿的新一轮审视。然而,彭博社评论指出,美方若试图通过限制手段遏制阿里,不仅难以奏效,反而可能适得其反,加剧复杂的国际经贸紧张局势。 报道指出,本周对于阿里巴巴而言是具有里程碑意义的一周。公司正式宣布了“千问”项目,并上线了基于全球性能第一开源模型Qwen3的“千问APP”公测版。 彭博社分析称,阿里巴巴旗下的AI模型系列已受到全球开发者的广泛欢迎,而此次推出的一体化应用标志着其在消费市场上的最大胆尝试。公司表示,其最新公测的千问app不仅限于对话式AI,还具备强大的多模态处理能力,例如在几秒钟内生成完整的研究报告或制作PowerPoint演示文稿。目前,阿里巴巴免费提供该服务——这一举措可能对硅谷领导者OpenAI构成潜在威胁,据称后者70%的年收入来自消费者使用ChatGPT。 事实上,阿里的技术实力已在硅谷引发了所谓的“Qwen恐慌”。数据显示,自2023年全面开源以来,Qwen系列模型的全球下载量已突破6亿次,超越了Meta的Llama等竞争对手。越来越多的全球跨国公司选择基于Qwen构建系统,而非硅谷的替代方案。 在阿里展示其AI雄心的同时,英国《金融时报》的一篇报道引发了关注。该报道援引一份据称来自华盛顿方面的备忘录,指称阿里为中国特定敏感领域提供技术支持。对此,阿里巴巴予以强烈否认,驳斥该指控“完全错误”,并直言这是一场旨在破坏中美贸易缓和局势的“恶意行动”。 彭博社在评论中指出,虽然华盛顿长期以来试图通过限制华为、TikTok等企业来遏制中国技术发展,但针对阿里巴巴的新一轮攻势可能会遭遇失败。 首先,美方相关部门目前对此保持缄默,尚未采取进一步激进措施。分析认为,在双方刚刚达成艰难的贸易休战协议背景下,针对中国领军企业的贸然行动可能引发新一轮不可控的紧张局势。 其次,历史表明,如果领军企业受到无端攻击,往往会引发更坚定的应对。且尽管存在所谓的“安全担忧”,美国消费者和开发者实际上仍在广泛使用源自中国的技术产品——从TikTok的持久热度到Qwen模型在开源社区的统治力均证明了这一点。 尽管负面报道一度导致阿里股价波动,但市场情绪迅速回稳。花旗集团分析师建议投资者“逢低买入”,并指出阿里巴巴不太可能冒着危及声誉的风险去触碰红线。 彭博社援引纽约22V研究公司相关负责人的观点称,近期对华强硬派在华盛顿被边缘化,这可能是导致有关指控被泄露给媒体的原因之一。实际上,包括亚马逊和微软在内的少数美国科技巨头,同样与美方政府机构保持着合作关系。 文章最后总结道,阿里巴巴的AI雄心虽然面临复杂的国际环境,但其技术崛起已是既定事实。对于美方而言,与其试图通过打压竞争对手来维持优势,不如专注于提升自身产品对企业和消费者的吸引力,这才是更明智的选择。
网友疯玩Gemini 3!AI造物门槛真是0了
西风 发自 凹非寺 量子位 | 公众号 QbitAI 芜湖,才刚发布一天,Gemini 3 Pro就被网友们玩出花,那脑洞一个比一个大! 比如热门玩法之数字拍立得: 摆好pose,点击快门,带有复古滤镜的照片直出: 创作者分享出了访问地址,已经好好玩要爆了: 满屏都是俊男靓女: 关键是,这只是和Gemini 3 Pro对话一次就造出来的应用。不愧是和上一代2.5 Pro之间差出一个GPT-5.1的存在… 现在,完全由AI搭建的“4399小游戏”网,正在迅速扩容中。 AI版“4399小游戏”网里,都有森么? 从创意互动到经典益智,Gemini 3 Pro几乎无所不能。 接下来请看网友们的大作。 首先给安排上玩游戏的装备,生成Xbox One手柄SVG: 接着,在3D小星球上开玩吃豆人小游戏: 下面更多玩法来袭。 带有90年代氛围的主题公园游戏: 虚拟世界实现乐高自由: 能自动运行的极简风小游戏: “混沌中的能量”3D可视化: 还有凭单个指令生成的体素世界,city不city,walk不walk啊: 再用不到30分钟造一个2D跑酷小游戏: 制作一个逼真的水物理测试场景,完全3D可交互,具备动态反射与波浪效果,并可点击任意位置将柠檬投入水中。 Gemini 3 Pro单次生成效果,be like: 还有仅凭3个prompt,打造出可交互的迷宫游戏: 就怎么说呢,和刷短视频时突然蹦出来的上头小游戏有的一拼了。 除了纯文本生成, “一张图造应用”也成为网友热衷的玩法。 上传一张棋盘图片,它就能秒变可交互的跳棋游戏: 哪怕是画在卫生纸上的草稿,也能瞬间转化为可访问的网站: 一张房屋平面图,转眼变成可交互的房屋布局设计应用: 单张图也能生成3D体素世界,流动的瀑布、漫天飞舞的樱花都照顾到: 各种玩法,层出不穷。 比如,用简单提示词就能生成整个手机应用的UI界面: 还有网友用一张图,做出布局完全一致的网页版: 平时找不到好用又免费的各种小工具,这下也能直接生成了,告别付费、水印、VIP。 有网友做了一个录屏工具,AI还会根据你说的话实时提示,录好的视频能直接下载为mp4: 所以这是不是说,不管是线上面试还是做汇报都不用担心卡壳了(doge)。 调整视频比例、获取AI生成的视频创意,也都不在话下: 看了这么多脑洞大开的玩法,你是不是也跃跃欲试了? 在评论区,交出你的一句话创意!
刘德兵说上限,刘知远讲拐点:中国AI十年剧本被他们提前揭开了
AI产业革命高潮即将到来!两位大佬预判关键变量。 作者 | 江宇 编辑 | 漠影 在中关村举办的2025人工智能+大会,中国AI未来十年的关键“进度条”正在变得清晰。 大会间隙,人工智能百人会高级顾问——智谱董事长刘德兵与面壁智能联合创始人兼首席科学家、清华大学副教授刘知远接受了智东西的独家采访。两位长期深耕一线的实践者,从基础模型到智能体演进,分享了他们对未来十年的观察与思考。 在谈到基础模型竞争时,刘德兵并不回避现实:在开源成为主流、结果可公开验证的当下,模型能力的差距会被迅速放大——“在一线开源模型做到90分的情况下,再训一个85分的模型就没多少竞争力。” 他同时强调,坚持做难而正确的事情很重要,哪怕投入巨大,因为“基础模型决定了整个AI产业发展的上限”。他认为,未来的关键变量将更多来自开源生态的成熟、行业场景的深度落地,以及AI逐渐成为“全民能力”所带来的广泛参与。 在刘知远看来,2025年的一个显著拐点是“AI+编程”,这一能力正在成为软件生产力的重要支撑。 对于大模型如何迈向智能体,他强调的不是堆叠更多知识,而是让模型具备“在指定工作岗位上自主学习的成长能力”,像大学毕业生一样,通过真实任务的反馈成长为领域专家。 他把当前在未来十年的阶段性,形容为“即将进入到人工智能革命高潮的前夜”。 以下是对访谈全程内容的整理(为优化阅读体验,智东西做了不改变原意的编辑): 01. 刘德兵:基础模型决定AI产业的上限 智东西:2025年是智谱的“开源年”,到目前来看,这一年快结束了,这一战略对智谱来说有哪些收获? 刘德兵:说2025年是智谱的“开源年”,是强调开源今年对我们来说很重要。但其实智谱很早就在做开源。在2022年,我们的第一款千亿级通用大模型发布时,就直接开源了。 智谱本身在开源这个事情上是很坚决的。从公司本身的发展战略上来讲,我们会觉得开源对整个AI产业的发展 是非常有利的。AI产业与其他产业还不太一样,AI是需要很多人一起来贡献智慧的。比如基模做得很好了,但是基模之上的各种应用或者基模本身的行业技术,都需要很多人来贡献,里面还存在着很多技术难点与空白。 开源是可以促进产业发展的,这是第一个核心。 所以我们是非常拥抱开源的。我们现在研发了五十多款模型,四十多款模型都开源了。而且开源的下载量也都比较大,效果都还不错。在今年,我们通过开源,还带来了很多商业上的收益。比如说我们有大量的开源用户,最后会转化成付费用户,这一块也是有收益的。 另外就是整个生态的发展,在开源引起整个产业生态发展后,去做一些商业的合作也会更容易一些。因为在用户那边,他会更认可这个AI模型所做的成果,也更理解,这样沟通起来更顺畅。所以说开源本身对于整个产业的发展,都是有利的。 智东西:在今天大家都在谈AI下一个十年的节点上,当前很多“大厂”也投入了许多资源发展大模型,国内“大模型公司”创业公司未来真正的可持续竞争力会来自哪里? 刘德兵:这是一个很核心的问题。首先做基模的公司,大家应该感觉到就是在2023年的时候,一拥而上。从百模大战到现在,是在慢慢地收敛。 因为有一个很直接的问题,就是做基模的公司,它的投入成本是非常高的。而且是没法讲故事的,因为现在基本都在做开源,你做的模型到底行不行?它是一定要拿出来练一练的。 一旦开源,大家都去试,做得好,它就是好,做得不好就是不好。而且在一线开源模型做到90分的情况下,再训一个85分的模型就没多少竞争力。 所以说做基模的公司,就会逐渐的收敛。但是做基模的公司,特别关键。因为它真的是决定了整个AI产业发展的上限。 我们公司本身比较早就开始在做大模型的研发,是国内最早的一批。同时,投入的精力和资源也比较多,我们是坚定地要往上走,核心就是基模本身意义重大。而我们公司本身也有一系列优秀的人才,我们的合作伙伴也非常支持我们来做这样的事情。其中也包括国家层面的战略支持。所以,我们还是很愿意在基模上大力发展的。 你刚才提到的“下一个十年”,基模的发展毫无疑问是非常关键的,决定整个产业的高度。 但同时行业的落地,也是下一个十年里非常关键的一点。我们现在已经看到有很多的行业应用,比如说很典型的问答,大家都很熟悉了。搜索,然后做内容生成,帮你处理办公事务,这些应用已经非常成熟了。但是这些应用,还没有完成对整个产业的重构。 在下一个十年里,这样的应用会更加成熟,让我们可能得到一定程度的解放。它辅助我们办公,让我们的生活更美好,效率提升更高,这也是一个点。 另外一个很重要的事,就是AI在实际生产过程中去跟行业深度结合,从而推动行业的发展。 我们现在已经看到,一些应用AI比较成熟的行业,比如互联网、金融,还有教育,其实做得非常好,行业已经有大量的应用起来。再往后看,像智能制造、能源这些稍微难一点的方向,也会逐步会有更多深度融合的实际应用起来。AI的整个发展会逐步加速。 还有一个趋势,也是我们很关注的,AI是一个全民的事情,需要去做全民的教育,让很多人都参与到AI的发展建设中来。 哪怕你不做AI的研究,也会去做AI应用。另外,你将来不会用AI,会比别人效率明显要低。所以说AI本身是一个全民的事情。在下一个十年,这个我觉得也会体现得越来越深刻。 ▲智谱董事长刘德兵 智东西:您最近提到中国AI正从“跟跑”走向“并跑”,您认为最具体的体现是什么?未来是否存在“领跑阶段”,以及可能靠什么方式实现? 刘德兵:这也是个好问题。首先我们大家都看到,还有这个认识,就是现在中国的AI发展,还是挺不错的,很迅速。 这个有几个方面,最直接的体现就是在国际评测集上能力水平相当。比如GLM-4.6模型在Code Arena榜单列居榜首,与Claude、GPT-5并列排名第一。这些在一定程度上体现了模型的智力水平。 还有更重要的就是应用。我们的应用也在快速发展。大家一直讲我们国内的场景应用是我们的一个优势,确实是这样的。比如说我们通过MaaS平台去提供相关的服务,这个访问量的增长也是非常快的。 尤其GLM-4.6发布之后,在OpenRouter上的增长是非常快的,应用的落地非常的“实”。 关于“领跑”,我们是有机会的,但老实说压力也是很大的。因为美国在算力、数据以及资本投入、人才等方面,都有很好的基础。 当然这个东西有一个过程,但是我们也还是有机会,这个机会就在于我们一直觉得AGI本身是一个长跑。 而下一个阶段,大家会认为很重要的一点是自学习,让模型有记忆能力,能够覆盖自己的参数,根据应用去调整自己,这个能力非常重要。 当然,即使有了这个能力,其他空白的能力还有很多,比如说模型之间的交互能力,与现实进行交互的能力,到相互之间协作的能力,其实都很重要,都需要一步一步地发展。而这就要求我们保持定力、长期健康稳定地发展。 所以说,这不是一蹴而就的,这个事业本身可能是未来100年的事,但是未来10年可能非常关键,是大家竞争的一个核心,需要大家持续的努力,需要产业链上下游协同。 从数据、算力到模型,然后到应用,需要大家一起来做这件事。大家都有贡献,这很关键。然后在这个过程中,大家协作得好,能够持续地跑,那我们就有可能超越它。当然在我们国家,比如说我们自己公司层面,我们也在布局一些新的技术。 这个也是值得期待的,希望能争取到一切领跑的机会。 智东西:如果让您用一句话来概括“中国AI的下一个十年”,您现在最想给出的关键词是什么? 刘德兵:下一个十年的话,我觉得应该是AI与人协同共生的一个阶段,也是我们要想办法把AI用好的一个阶段,这个阶段非常重要。可能再下一个十年,AI就会更智能,有很多自动化的东西。但是现在这个阶段,更多的是AI与人协同。 如果要说最大的期待,我们还是很希望下一个十年AI本身在基础技术上摸高,能做得更好。然后从行业落地上做得更实,更全面化。这两件事对我们来说都特别重要。 智东西:对于智谱而言,您觉得下一个十年可能会怎么样? 刘德兵:对智谱而言,也是要做技术摸高。但同时要跟合作伙伴协同,去推动整个产业的发展。这是我们的目标,同样是我们本身的特点。所以对我们来讲,两个关键词是一样的。 02. 刘知远:大模型通识能力已成型 智能体的关键在“岗位上的自学” 智东西:先想请您谈谈今天参加大会的整体感受,让您感受到今年行业的一些新变化? 刘知远:今年是AI的大年,包括我在内的很多从事AI方向的从业者,可以很深刻的感受到,大模型技术是驱动这一轮人工智能大发展的一个非常核心的驱动力。 如果说从技术原理来看,大模型技术是从2018年Transformer和预训练开始快速发展起来的,我感觉过去的这五六年时间,大家发现了大模型这项技术是我们迈向AGI非常重要的一种技术路线。 基本上,大家是在利用大模型的技术,去把模型越做越大,让它具备的能力越来越强,越来越通用,让它越来越接近人类智能水平,甚至超越人类智能水平。 从今年开始,非常明显的趋势是,大模型的通用能力在很多方面已经非常接近,甚至超越人类水平了。在代码编程这个方面,能力已经非常强。与此同时,业界开始快速地把这种最先进的人工智能技术应用在各行各业、各个场景。 所以人工智能+大会,我觉得是应运而生、适逢其时。 以往的人工智能大会更多强调的是智能技术本身。但是从今年开始,大家充分地意识到,我们要开始把人工智能跟千行百业深度融合。这也是人工智能+大会肩负的使命和愿景,且未来扮演的角色越来越重要。 智东西:今年大会提出“AI下一个十年”这个主题,在您看来,未来十年里,中国AI最有可能率先跑出的关键应用场景会集中在哪些方向? 刘知远:AI+编程是一个非常明显的场景。你会发现现在的程序员,如果不用AI,已经基本上没有办法很好地去应对现有工作的要求。 放眼到全球范围,就AI+编程本身及其相关的技术而言,它的能力上限是在快速飞跃的。各家都在加强代码大模型的相关研发,应该是今年最为明显的一个大跃迁。 我们和人工智能打交道,都是和代码有关。编程软件工程作为信息社会的一个非常重要的技术,已经进入到智能化的阶段,重塑了软件开发的生产力。 智东西:今年“智能体”相关讨论很热,我们也想听听您对此的看法。业内常说2025是“智能体落地元年”。从您的经验看,智能体迈向规模化落地,还需要哪些条件逐步成熟? 刘知远:AI代码编程就是所谓的智能体,当然它本身不只是一种应用的形态,而是把智能体看成是人工智能发展的一个阶段。 这就相当于经历了过去的发展,我们让大模型具备了各种能力,比如从大规模数据里面获取了博览群书的能力。ChatGPT相当于让这个大模型具备了理解用户意图的能力。今年我们是通过大规模强化学习,让大模型具备了所谓的深度思考能力。 那接下来,我们需要让大模型具备什么能力呢? 重要的是让大模型具备在我们指定的工作岗位上自主学习的成长能力。 模型已经博览群书、能理解用户意图,通过深度思考,它已经越来越智能。但是还有一个能力,是我们人类具备,但大模型还不具备的,就是它不能像人一样去自主学习,或者叫自学能力。比如说人类在大学毕业之后,到任何一个工作岗位上,只要让他学习一段时间,就可以迅速地成为这个岗位的专家。这个过程其实是让大模型变成智能体的最关键的一个阶段。 可以理解为大模型相当于是利用全互联网的数据,完成了一个大学生水平的通识能力,但是还没接触过具体工作岗位上那些专业的知识,复杂的任务,需要到各个工作岗位上去实践、去见习一样。从大模型变成专业智能体,就相当于让一个具备通识能力的大学生,成为相关领域的专家。 我认为智能体的关键阶段,不只是领域知识的简单堆砌,更为重要的是让模型具备面向专业领域,自主确定到底该学什么?怎么学?怎么成长?然后,它在实际的工作岗位上,通过实践接受反馈,持续成长。 随着大模型进入产业应用的阶段,智能体肯定会变得越来越重要。但是,它绝对不是简单地把一个大模型固定在某个场景或者完成某个角色,把相关的知识顶上,就变成这个领域的智能体了,而是需要智能体在这个领域里自主探索、成长和学习,然后发光发热。 这个过程,我认为会非常关键。如果说模型本身在各个领域,不具备自主学习和成长能力,就很难让大模型真正变成各个领域的专家。不能成为专家,就会极大限制应用的广度和深度。 ▲面壁智能联合创始人兼首席科学家刘知远 智东西:如果让您用一句话来概括“中国AI的下一个十年”,您现在最想给出的关键词是什么? 刘知远:AI虽然现在已经火了,我觉得也才刚刚开始。 借用毛主席的一句话:星星之火,可以燎原。我认为接下来这十年,就是我们即将进入到人工智能革命高潮的前夜。就我们现在所说的所有事情而言,可能都还处在某一些单点上。 现在国内做端侧模型的人不少,做云端模型的团队也有好几家。整体来看,无论是估值、市值,还是产品数量,目前都还处在相对早期的阶段。但我认为,从产业经营的角度看,这些方向在未来十年里一定会产生巨大的影响。 这件事非常值得我们期待,也值得长期投入。
目标估值213亿!软银投的AI创企被曝洽谈20亿新融资
编译 | 王欣逸 编辑 | 程茜 智东西11月20日消息,今天,据外媒报道,美国基于AI进行身份验证的独角兽Incode正在洽谈新一轮融资,计划筹集1.5亿美元至3亿美元(约合人民币10.67亿元至21.35亿元)资金,目标估值为30亿美元(约合人民币213.4亿元),较上一次融资的12.5亿美元(约合人民币88.94亿元)估值增长了140%。 知情人士称,该公司目前的年度经常性收入为1.7亿美元(约合人民币12.09亿元),2024年处理了超过41亿次身份验证。 对此,Incode尚未立即回复置评请求。 Incode创立于2015年,核心业务是基于AI驱动,利用人脸识别、证件核验与活体检测等技术提供身份认证服务。Incode主要为金融、公共部门、电商等行业服务,其客户包括全球知名短视频应用TikTok、美国科技巨头亚马逊、全球金融巨鳄花旗银行等知名企业。 Incode创始人兼首席执行官里卡多·安佩尔(Ricardo Amper)在领英上发布的一篇帖子称:“Incode目前已经为美国十大银行中的八家以及拉丁美洲五大银行中的四家提供服务。” Incode主要客户(来源:Incode) Incode提供了一个模块化、可配置的端到端身份验证平台,提供不同功能应对身份验证场景。该平台可以让客户通过无代码流程构建器构建流程,通过编排仪表板来管理用户身份验证流程,此外,这一平台支持风险决策、监控欺诈趋势、审查异常或高风险案例,还提供API和SDK,便于与客户系统集成。 Incode编排平台(来源:Incode) 至今为止,Incode一共获得了四轮融资,总融资额为2.57亿美元(约合人民币18.29亿元)。 此前,Incode获得了两轮种子轮融资,分别是于2015年获得的205万美元(约合人民币1458.6万元)融资,以及2019年获得1000万美元(约合人民币7115.2万元)融资;2021年3月,Incode获3L Capital和DN Capital领投的2500万美元(约合人民币1.77亿元)融资;仅过了9个月,Incode再获得2.2亿美元(约合人民币15.65亿元)的融资,泛大西洋投资集团、软银领投,3L Capital跟投,彼时Incode的估值为12.5亿美元(约合人民币88.94亿元),跻身独角兽行列。 安佩尔在创办Incode之前,曾在一家拉丁美洲化工公司Amco International担任首席执行官,为香精、香料及食品行业供应原料。 Incode首席执行官里卡多·安佩尔(来源:领英) 今年8月,Incode还收购了同样专注身份验证和反欺诈领域的美国公司AuthenticID,但未披露交易的具体财务条款。 结语:身份验证产业或将迎来新机遇 AI让身份验证进入真假难辨的时代。据外媒报道,深度伪造视频和语音克隆几乎无法被人眼和人耳识别,AI伪造的文件可以绕过基础验证系统,AI聊天机器人也能够伪装真人进行基本的交互。 在AI时代,身份和数字安全危机加剧,Incode或将利用其自身产品特点及优势有效应对这一挑战,寻求自身发展新机遇。
AI视觉GPT时刻!Meta新模型一键“分割世界”,网友直呼太疯狂了
作者 | 陈骏达 编辑 | 云鹏 智东西11月20日报道,今天,Meta宣布推出一个全新的模型家族SAM 3D,并发布两款3D模型,分别为用于物体和场景重建的SAM 3D Objects和用于人体和体型估计的SAM 3D Body。 先来看看效果,SAM 3D系列模型能在用户点击图像中的元素后,直接从2D图像中扣出一个3D模型,无论是物体还是人像,都能被准确重建。重建后的模型360度旋转,也基本看不出破绽。 SAM的全称是Segment Anything Model,直译过来就是“分割一切”模型。Meta之前已经开源过SAM 1、SAM 2这两款2D图像分割模型,是该领域标杆作品。 SAM 3D系列模型发布的同日,此前在ICLR大会审稿期间就引发热议的SAM 3也迎来正式发布。SAM 3图像分割模型的亮点是引入了“可提示概念分割”的新功能。 在过去,大部分图像分割模型只能根据有限的预设标签对图像进行分割,而SAM 3让用户可以输入“狗”、“大象”、“斑马”这样具体的标签,或“动物”这样的整体概念,甚至是“穿着黑色外套、戴着白色帽子的人”这样的描述,并完成图像分割,这大幅提升了图像分割模型的通用性。 SAM 3还具有超快的推理速度,在单张英伟达H200 GPU上,SAM 3能在30毫秒左右识别一张包含超过100个可检测物体的图片。 SAM 3的发布,让英伟达开发者技术总结Nader Khalil直呼:“这可能就是计算机视觉的ChatGPT时刻,强大的分割功能意味着用户只要点击一下就能训练计算机视觉模型,太疯狂了。” Meta已经直接拿SAM 3D Objects和Sam 3开始卖货了。Facebook Market现在提供新的“房间视图”功能,让用户可在购买家具前直观地感受家居装饰品在空间中的风格和合适度。 目前,SAM 3D系列模型和SAM 3都已经能在Meta最新打造的Segment Anything Playground中进行体验。SAM 3D的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型都已经开源,SAM 3开源了模型检查点、评估数据集和微调代码。 一、标注近百万张图像,几秒钟完成全纹理3D重建 过去,三维建模一直面临着数据匮乏的问题。与文本、图像等丰富的资料相比,真实世界的3D数据少得可怜,大多数模型只能处理孤立的合成资产,或者在简单背景下重建单个高分辨率物体。这让3D重建在现实场景中显得力不从心。 SAM 3D Objects的出现,则打破了这一局限。通过强大的数据注释引擎,它在大规模自然图像上实现了3D物体的精细标注:近百万张图像,生成超过314万个网格模型。 这一过程结合了“众包+专家”模式。普通数据标注者对模型生成的多个选项进行评分,最难的部分交给资深3D艺术家处理。 SAM 3D Objects还借鉴了大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”,再通过后续阶段的微调,让模型在真实图像上发挥出色。 这种方法不仅提升了模型的鲁棒性和输出质量,也反过来让数据生成更高效,实现了数据引擎与模型训练的正向循环。 为了验证成果,团队还与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO),这是首个专门用于评估物理世界图像中单幅3D重建能力的数据集。相比现有基准,这个数据集的图像和物体更具挑战性。 性能方面,SAM 3D Objects在一对一的人类偏好测试中,以5:1的优势战胜现有领先模型。同时,结合扩散捷径和优化算法,它能在几秒钟内完成全纹理3D重建,让几乎实时的三维应用成为可能,比如为机器人提供即时视觉感知。 它不仅可以重建物体的形状、纹理和姿态,还能让用户自由操控摄像机,从不同角度观察场景。这意味着即使面对小物体、遮挡或间接视角,SAM 3D Objects也能从日常照片中提取出三维细节。 当然,这一模型仍有提升空间。当前模型的输出分辨率有限,复杂物体的细节还可能出现缺失;同时,物体布局预测仍以单个物体为主,对多物体的物理交互推理尚未实现。 未来,通过提高分辨率和加入多物体联合推理,SAM 3D Objects有望在真实世界场景中实现更精细、更自然的三维重建。 二、三维重建更具交互性和可控性,配备新型开源3D格式 SAM 3D Objects主要面向物体的三维重建,而SAM 3D Body则专注于人体的三维重建。SAM 3D Body能够从单张图像中精确估算人体的三维姿态和形状,即便面对异常姿势、局部遮挡,甚至多人复杂场景,也能稳定地输出。 值得注意的是,SAM 3D Body支持提示输入,用户可以通过分割掩码、二维关键点等方式引导和控制模型的预测,让三维重建更具交互性和可控性。 SAM 3D Body的核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,它将人体的骨骼结构与软组织形状分离,从而提高了模型输出的可解释性。 模型采用Transformer Encoder-Decoder架构,图像编码器能够捕捉身体各部位的高分辨率细节,而网格解码器则支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型,还能在交互中灵活调整和微调结果。 在数据方面,SAM 3D Body研究团队整合了数十亿张图像、多机位高质量视频以及专业合成数据,通过自动化数据引擎筛选出罕见姿势、遮挡或复杂服装等高价值图像,形成约800万张高质量训练样本。 这样的数据策略让模型在面对多样化场景时仍然保持强大的鲁棒性,同时结合基于提示的多步细化训练,使三维预测与二维视觉证据对齐得更加精确。 发布的基准结果显示,SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型。 此外,团队还开放了MHR模型,这一参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用。 SAM 3D Body主要针对单人处理,尚未支持多人或人与物体的交互预测,这限制了对相对位置和物理互动的准确推理。此外,其手部姿势的估计在精确度上仍落后于专门的手部姿势估计方法。 未来,SAM 3D Body计划将人与物体、环境互动纳入训练,同时提升手部姿势重建精度,使模型在真实场景中更全面、更自然。 三、分割灵活性增强,AI深度参与数据构建 如果说SAM 3D系列模型代表着Meta在三维视觉重建领域的首次突破,那么SAM 3对Meta在2D图像分割领域探索的延续。 SAM 3是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪,其开放性和交互性提升了视觉创作和科学研究的可能性。 通过“可提示概念分割”,SAM 3能够识别更复杂、细微的概念,例如“条纹红伞”或“手中未持礼盒的坐着的人”。 为衡量大词汇量分割性能,Meta同时推出了Segment Anything with Concepts(SA-Co)数据集,这一基准覆盖了远超以往的数据概念,并对图像和视频中的开放式概念分割进行了挑战测试。 SAM 3模型支持多种提示形式,包括文本短语、示例图像以及视觉提示(如掩码、框选点),增强了分割灵活性。 Meta公布的测试结果显示,SAM 3在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中,相较最强竞品模型OWLv2,SAM 3的输出更受青睐,比例达到约3:1(SAM 3:OWLv2)。 此外,SAM 3在传统SAM 2的视觉分割任务中也保持领先表现,零样本LVIS和目标计数等挑战性任务同样取得显著进展。 在数据构建方面,SAM 3采用人类与AI协同的数据引擎。这一流程包括使用SAM 3及Llama 3.2v模型自动生成初始分割掩码和标签,再由人类与AI注释者验证和修正。 AI注释者不仅能提升标注速度(负样本快约400%,正样本快约36%),还会自动筛选简单样本,把人力集中于最具挑战的案例。 同时,Meta利用概念本体(基于维基百科的概念字典)扩展数据覆盖范围,使稀有概念也能获得标注支持。 消融实验显示,AI与人类注释结合的策略能显著提升模型性能,同时为新视觉域的自动数据生成提供可行途径。 在模型架构上,SAM 3结合了多项先进技术:文本与图像编码器基于Meta Perception Encoder,检测器采用DETR架构,跟踪组件延续了SAM 2的记忆模块。 通过统一架构处理检测、分割和跟踪任务,SAM 3在处理复杂视觉任务时避免了任务间冲突,同时保持了高性能和高效训练。 SAM 3在某些极端场景下仍有提升空间,例如零样本下识别专业术语(如“血小板”)或处理长复杂文本描述。在视频场景中,SAM 3将每个对象单独处理,使得多对象场景下效率和性能仍可优化。 Meta提供了模型微调方法和工具,鼓励开源社区针对特定任务和视觉域进行适配和扩展。 结语:生成式AI,正改变CV的玩法 生成式AI的崛起,正在反哺上一轮以计算机视觉为核心的AI浪潮。从数据集的打造到模型训练方式创新,生成式AI扩展了CV模型的能力边界,也带来更多的创新玩法。 此外,我们也看到Meta已经在积极地将相关技术用于真实业务,随着数据和用户反馈的积累,SAM和SAM 3D系列模型或将给我们带来更多的惊喜。
明星AI眼镜黑马再拿新融资,剧透智能戒指大招:要做“超人装备”
智能戒指能否成为下一个“爆款”? 作者 | 云鹏 编辑 | 心缘 AI眼镜融资,好不热闹。 智东西11月20日消息,就在昨日,AI眼镜赛道明星创企之一Gyges Labs正式宣布,已于2025年10月完成Pre A+轮融资,获Granite Asia与璀璨资本投资。 ▲官方声明,图源:Gyges Labs 当前,AI眼镜已经成为AI智能硬件领域的明星赛道,资本关注度较高。就在本月初,国内AI+AR眼镜领域单笔最大融资,由国内XR赛道头部玩家雷鸟创新拿下;今年9月,XR品牌VITURE完成两轮追加B轮融资,总额1亿美元。 从科技巨头到众多创企,踊跃竞逐“下一代计算平台”已经成为当下科技行业聚焦的重要方向,下一个“iPhone时刻”何时到来、会由哪类产品以何种形态领衔?当下给出“定论”或许还为时尚早,但AI眼镜无疑成为最有机会的产品之一。 值得一提的是,虽然Gyges Labs为人所熟知的是其在2025年CES与Halliday团队联合打造的AI眼镜Halliday Glasses,但实际上Gyges Labs并非一家纯粹的“AI眼镜创企”,用联合创始人&COO邓旭东的话来说,他们是一家“AI可穿戴”科技公司。 Granite Asia合伙人陈于思提到,端侧AI正成为消费科技的下一个超级入口,而Gyges Labs精准踩中了这一趋势,其团队把AI转化为了人人可用的随身智能,让AI自然融入日常场景,这是他们投资的核心逻辑。 在璀璨资本创始合伙人罗挺霞看来,他们希望发现并陪伴能够“定义未来”的公司,在AI眼镜行业尚在摸索形态之际,Gyges Labs抓住了“隐形”和“主动”两个核心体验,卡位“下一代人机交互入口”。 2024年11月,Gyges Labs曾完成一笔Pre-A 轮融资,由朱啸虎的金沙江创投领投。 在此轮融资官宣前期,智东西与邓旭东进行了一次面对面的深入交流,对Gyges Labs在产品和技术方面的布局,以及其团队对AI可穿戴行业的深入思考都有进一步探讨。 ▲Gyges Labs创始团队,从左至右:联合创始人兼首席AI科学家綦思源、联合创始人兼COO邓旭东、联合创始人兼CTO吕正、联合创始人兼CEO贾捷阳 AI眼镜浪潮之下,新的机遇已在悄然涌动。 01. 靠AI眼镜爆火的公司 瞄准的是可穿戴的未来 在AI眼镜如雨后春笋般涌现的2025年,一款“名不见经传”的AI眼镜产品,为什么可以在CES上“一夜爆火”,成为国内外科技媒体争相报道的对象,并一经上线就拿下当时史上最大AI眼镜众筹项目的名号? 其中“隐形显示”这一关键能力无疑是其核心过人之处,基于DigiWindow这一模块,Halliday AI眼镜可以在兼顾轻便、隐形无感的同时实现近眼信息显示,并且显示无关镜片,这些创新点让这款产品可以很方便地作为日常“眼镜”来佩戴,满足眼镜要能够日常自然无感佩戴这一本质需求。 这项技术突破了主流光学方案在尺寸、重量和功耗上的限制,让Gyges Labs的 AI眼镜在保持普通眼镜外观与佩戴舒适度的同时,能实现高质量的信息显示功能,这对于用户体验的提升是显而易见的。 截止目前,尽管已经过去近一年时间,其仍然是全球最小、最轻且兼顾隐秘显示的AI眼镜产品。 但相比做出隐形显示模块“DigWindow”,Gyges Labs为什么要做,为什么要“另辟蹊径”,选择这样一条技术路线,似乎是更为本质的问题。 实际上,这要从Gyges Labs这家公司最根本的目标出发,他们想做的产品,不一定是一款“AI眼镜”,他们想要做的是持续打造和发布各类“超人装备”,也就是各类“智能可穿戴硬件”。 正如其公司的名字一样,“Gyges”源自柏拉图《理想国》中的经典传说:牧羊人盖吉斯偶然拾得一枚能让佩戴者隐身的戒指,他凭借这份“超能力”行侠仗义,最终成为国王——Gyges Labs希望通过AI可穿戴技术赋能个体,让每个人都能突破自身能力边界,成为更好的自己。 在Gyges Labs团队看来,AI不应是替代人类的工具,而应是让人类“更不可被替代”的伙伴,以服务于人为出发点是他们一贯所坚持的。 相较于手机等携带式设备,穿戴设备能实现24小时陪伴、感知用户感知的独特价值,这会是他们撬动“超人赋能”的关键支点,这也是他们选择AI可穿戴这一方向的重要思考。 他们希望用AI可穿戴硬件给人的日常生活带来便利和效率,因此在做AI眼镜这一产品时,他们非常注重还原“眼镜本质”这件事:一副好的AI眼镜,首先要是一副好眼镜,也就是“Glass First”。 以此为出发点,结合自身既有的技术优势,隐形近眼显示就成为Gyges Labs所选择的关键技术路径。正如邓旭东所说,“隐秘显示不是目标,而是一个方法。” Gyges Labs并不是为了“炫技”或刻意与他人形成“差异”而做,而是首先明确自己最根本的目标和方向,再结合自身优势选择技术路线。 当然,作为一家AI可穿戴科技公司,AI眼镜只是一个开始,据邓旭东透露,Gyges Labs将于2026年陆续发布其他智能可穿戴产品,进一步满足“超人们”多样的日常需求。 02. 拥抱“节制创新” 要清楚自己要什么、不要什么 目标明确,弄清趋势热象背后的本质,是抓住“下一代人机交互入口”或“下一代计算平台”的关键,而如何实现这一目标,解决实际落地中诸多具体的挑战、在技术突破与产业落地之间找到精准平衡?对年轻创企来说也是一道关于生存的重要问题。 在邓旭东与我们的深入交流中,一个词被频繁提及,这就是“节制创新”,四个字说来简单,这背后却是Gyges Labs对行业的深刻洞察,以及对自身长短板的清晰认知,这是他们从苹果、韶音、大疆等标杆企业学到的核心方法论:聚焦核心赛道,做好取舍。 当前,AI眼镜行业的发展尚处于早期,虽然爆发式的高增长一定程度上会加速供应链相关配套的成熟,但目前绝大部分赛道中的创企依然会面临大量来自供应链方面的挑战。 实际上,直到今年下半年,兼顾AI拍摄和显示能力的综合型AI眼镜产品才真正开始“出货”,不再是PPT产品,而Halliday AI眼镜的量产交付很早就已经开始。 当然,其中最核心的因素之一是Halliday选择的DigiWindow近眼隐形显示技术路线,这一模块独特的微型结构,其显示模组体积最小做到了8立方毫米,比一颗黄豆还要小,且重量极轻,能够集成到普通眼镜框架内,几乎不会增加额外的重量或体积,这样的设计也令其避开了传统光学模组解决方案在量产组装上的众多挑战,显著提升了良率。 与此同时,Gyges Labs会在芯片、镜框等方面选择成熟可靠的行业合作伙伴,而在核心的先进光学和AI技术领域长期投入研发。此外,Gyges Labs通过顶尖专家多面综合能力的人力储备与培养,发展了从创新到量产的特殊科研体系,深入与合作伙伴之间的协同设计,共研协同方式与生产规则,这些都让其产品可以快速完成设计并突破当下AI眼镜量产所面临的诸多挑战。 实际上,Gyges Labs创始团队早已掌握“将显示模块植入隐形眼镜”的入瞳显示技术,但他们并未急于推出这种过于超前的“黑科技”产品。经过与产业链上下游深度沟通,他们最终选择将核心技术转化为更易商业化的横梁式设计。 对于自身产业角色的定位,以及商业模式的选择,邓旭东谈道,当下智能眼镜行业远没有到成熟阶段,行业极度分散,和传统消费电子行业有很大差异,单一公司的力量是有限的。在AI眼镜或其他品类,他们也非常乐于合作,将光学、AI以及解决方案方面的能力开放给行业合作伙伴。 Gyges Labs总部位于新加坡,软件及AI团队设立在美国硅谷,并汲取中国供应链优势,可以说是一家立足于全球的公司。 我们看到,“节制创新”,关心领先技术与落地之间的差距,尊重客观条件与规律,是Gyges Labs的AI眼镜能完成“创新到量产交付”闭环的关键手段,而这种“节制”贯穿产品全链路:技术路径上,选用稳定的芯片体系;材料工艺上,与经市场验证的头部企业合作;功能定义上,摒弃“大而全”的诱惑,聚焦“单色信息提示”这一核心刚需。商业模式上,采用“先To B再To C”的稳健路径,确保技术创新能精准对接市场需求。 03. 从AI眼镜到智能戒指 打造更多“超人装备” 今天,AI眼镜试水的初步成功无疑给了Gyges Labs极大信心,面向未来AI智能硬件从“掌上科技”转向“穿戴科技”的大趋势,Gyges Labs必然不会止步于此。 据邓旭东介绍,对于未来产品规划,他们有着自己的“四象限逻辑”:以“现有终端/新增终端”和“穿戴式/携带式”为二维坐标,优先选择“现有终端+穿戴式”的组合,这类产品基于用户熟悉的载体升级,接受度更高,商业落地更顺畅。 2026年CES计划发布的智能戒指,即为这一核心思路的延续。 放眼未来,Gyges Labs的目标与巨头们一致:探索下一代显示、交互与计算平台的终极形态。但不同于苹果Vision Pro这样的“大而全”,Gyges Labs会选择以“轻量化可穿戴”为切入点,通过眼镜、戒指等多元形态,将AI能力分布式部署到用户生活的各个场景。 正如邓旭东提到的,行业还没有收敛到未来的终局一定是AI眼镜,很有可能会是一套分布式部署的设备,每一个载体完成不一样的功能,但背后整个AI能力是打通的。 用Gyges Labs自己的话来说,未来他们会做更多“显示而不显露、智能而不复杂”的“超人装备”。 虽然Gyges Labs是一家年轻创企,但其团队对行业有着深刻理解,经验丰富,其中不少大牛曾在苹果、谷歌等海外科技巨头担任关键职位。 CEO贾捷阳曾在硅谷参与全球第一款AR智能隐形眼镜的开发,并在国内创业成立过先进传感器芯片公司,COO邓旭东是消费电子行业10多年的从业和创业者,有丰富的全球化运营经验,曾在多家知名公司实现过亿级的产品出货。带领Gyges Labs光学团队的CTO吕正曾参与过苹果VisionPro的研发;首席科学家綦思源博士则承载谷歌担任AI领域的相关研究负责人。 在未来产品技术路线的规划上,Gyges Labs所围绕的核心仍然是市场用户需求,就像为了做出能日常佩戴的AI眼镜,他们做出了Halliday AI眼镜。邓旭东提到,未来他们会基于市场需求和商业价值进行技术创新,建立长期培养并积累跨领域的研发人才储备的方法论与体系,继续坚持有节制地创新。 面对未来日益激烈的行业竞争,邓旭东提到,Gyges Labs不会单纯去比拼性价比,而是会聚焦差异化,比如在AI眼镜的品类上,隐形显示的独特优势已经能给消费者带来解决日用的本质场景需求的真实价值。 与此同时,他们也在积极推进对中国ToB市场的探索,这种隐形“不打扰”的显示能力具有成为生产力工具的潜力,在需要及时的信息推送与即时反馈的企业沟通、管理中发挥出色的作用。 04. 结语:AI眼镜滚滚向前 节制创新之路行稳致远 从去年到今年,XR领域的多家创企都完成了新一轮或多轮融资,资本市场的认可和新融资的加持,必然会为AI眼镜这一新兴品类的发展注入动力。 DigiWindow和主动式AI的融合让我们看到了AI眼镜融入我们日常生活能够带来怎样的巨大想象力。“节制创新”拥抱产业合作的商业模式,已成为Gyges Labs在AI眼镜赛道上独特的优势之一。 随着大厂入局AI眼镜赛道进一步给这一市场注入活力、带动市场整体增长。2026年或成为AI眼镜赛道格局变化的关键年。技术创新必然会持续涌现,产品形态也将继续完善,随着端侧AI的快速发展,AI体验会成为后续行业竞争的核心焦点。 在掌上科技向穿戴科技转向的大趋势之下,Gyges Labs如何基于自身的“四象限逻辑”以及独特的产品和技术优势,带给我们更多的优秀AI可穿戴“超人装备”我们拭目以待。
欧盟公布数字监管新提案:松绑AI数据训练
IT之家 11 月 20 日消息,欧盟委员会昨日(11 月 19 日)公布一项提案,拟全面改革欧盟《通用数据保护条例》(GDPR),并推迟《人工智能法案》的部分条款,希望通过放松监管、促进创新,来提升欧洲企业的全球竞争力。 IT之家援引博文介绍,欧盟昨日公开《数字综合监管提案》(Digital Omnibus Regulation Proposal),文件编号为 COM (2025) 837,为适应快速发展的数字经济环境,目标系统性简化欧盟现行的数字领域法规体系。 提案的核心举措是通过一系列技术性修订,调整现有的大量数字法规。这些修订并非颠覆性重构,而是侧重于优化具体条款、消除冗余规定以及统一模糊标准,从而降低法规的复杂性,其目的是让法规更易于理解和执行,减轻各方在数字化转型过程中的合规压力。 这项立法调整将直接惠及三大主体:企业、公共管理部门和公民。 对于企业而言,简化的法规意味着更低的合规成本和更快的市场响应速度; 对于公共管理部门,这将提升监管效率; 而对于公民,则能享受到因数字服务优化而带来的便利。 提案明确指出,其目标是带来“立竿见影的纾困效果”。最终,欧盟希望通过此次立法简化,为数字经济的健康发展扫清障碍。欧盟委员会认为,一个清晰、高效且友好的监管环境是激发创新活力、提升欧盟在全球数字经济中竞争力的关键。 不过隐私倡导组织 noyb 发布强烈警告,称此举是在行业游说团体压力下的一次突然行动,可能颠覆欧洲四十多年来反对商业监控的坚定立场。 尽管多数欧盟成员国、欧洲议会中左翼团体以及 127 个民间社会组织明确表示反对,欧盟委员会依然推进了这项被视为“多年来对隐私权最大削减”的改革。 127 个民间组织发表联合声明称,“欧盟必须维护来之不易的数字人权保护”,并称拟议的变更“是欧盟历史上对数字基本权利的最大倒退”。 noyb 创始人 Max Schrems 表示,这项改革是恐慌的产物,而非深思熟虑的领导力表现。 草案中最具争议的修改之一是重新定义“个人数据”。提案建议引入一种“主观方法”,即如果一家公司声称其“目前”无意图或无能力识别某个体,那么相关数据就不再适用 GDPR。 这意味着,像数据中介或广告行业这样大量使用假名或随机 ID 的领域,未来可能完全或部分脱离 GDPR 的监管。这种定义方式将判断数据是否属于“个人”的权力交给了公司内部,让监管机构和用户难以判断法规的适用性,从而可能导致 GDPR 在实践中无法有效执行。 另一项重大变更是为人工智能训练大开绿灯。草案提议,允许 Meta、谷歌等公司利用其平台上的海量个人数据(例如用户十多年的社交媒体内容)来训练和运营 AI 系统。 尽管草案设置了用户“选择退出”(opt-out)的机制,但批评者认为这形同虚设。在实际操作中,用户既不清楚哪些公司正在使用他们的数据,也无法频繁地对成千上万个 AI 训练项目逐一提出退出请求。 Max Schrems 警告称,此举将欧洲用户的个人数据拱手让给美国科技巨头,助长了利用用户隐私细节进行精准操控的风险。 此外,草案还试图严格限制用户的基本权利。根据德国政府的提议,用户的“数据访问权”将被限定于纯粹的“数据保护目的”。 这意味着,如果用户出于其他正当理由(如在劳动纠纷中获取工时记录,或为获得更优贷款而要求更正错误的信用评分)请求访问自己的数据,公司可以“滥用权利”为由拒绝。 noyb 机构认为这一改动明显违背了欧洲法院(CJEU)的判例,该判例明确指出用户可以为任何目的行使数据权利,将进一步削弱个人在与持有其数据的公司进行博弈时的地位。
反超Gemini 3!马斯克放出Grok4.1快速推理版,还曝出了新一轮150亿美元融资
一水 发自 凹非寺 量子位 | 公众号 QbitAI Grok4.1刚刷完榜就被Gemini 3反超,马斯克确实坐不住了! 虽然大大方方地给Gemini 3送去了祝福,但另一边老马却开始紧急筹钱—— 据华尔街日报最新爆料,xAI正计划新一轮150亿美元(约1067亿人民币)融资,公司估值也将来到2300亿美元(约1.6万亿人民币)。 2300亿,这个数字比马斯克今年3月披露的1130亿美元估值(xAI与X合并后估值),翻了一倍不止。 以至于网友们纷纷感慨,马斯克还是太超前了,我等凡人不懂~ 甚至,对比起OpenAI这样的增长怪兽,xAI的估值飙升速度也是让人咂舌。 毕竟OpenAI手上有着ChatGPT这样的全球爆款应用,每个月光是订阅费就能为OpenAI带来2亿多美元收入。 而xAI的核心产品Grok,目前仍深度捆绑在X(原Twitter)的生态之内,其用户规模和商业影响力,与前者显然不在一个量级。 AI热潮,由此可见一斑。 一览xAI融资情况 还是先说说xAI此轮曝出的新融资。 据华尔街日报透露,相关融资细节是由马斯克的财富经理Jared Birchall曝出的,但目前尚不清楚2300亿美元是投前还是投后估值,以及也没有说明资金用途。 有意思的是,大约上周,有媒体爆料称xAI正在从投资者处寻求150亿美元融资(估值2000亿美元),但马斯克后来却出来辟谣了—— 他直接在相关消息下回了“False(不实)”,但没有更多解释。 从上次到这次,xAI曝出的融资都是150亿美元,估值也都差不多,其真实性目前确实大打问号。 不过截至本文发稿前,马斯克及xAI方面均未有所回应。 尽管如此,如果此时回看xAI成立两年多以来的估值增长情况,其飙升速度也是让人大吃一惊。 马斯克于2023年7月正式官宣创立xAI,最初宣布要做的事情也是非常宽泛,只有一句话: 为了理解宇宙的真实本质。 当时它还将自己定位为公益性公司,不过到了2024年5月就放弃了公益身份。 虽然没有具体说何谓“理解宇宙本质”,但xAI锚定大模型领域,不断更新着自己的模型和产品。 而最新一个模型版本,就是前两天刚发布的Grok 4.1,只不过在人类盲选竞技场中匆匆败给了谷歌Gemini 3。 而其主要产品,就是搭载自家模型的Grok聊天机器人(独立APP+在X媒体平台搭载),以及今年10月刚推出的业务线——AI驱动的在线百科全书Grokipedia。 并且为了支撑其模型+产品研发,xAI烧钱的速度也是越来越快。 2023年12月,根据SEC文件披露,xAI首轮大规模外部融资大约有1.347亿美元,主要用于公司起步。 2024年,xAI迎来了自己的快速增长阶段。 去年5月,xAI在B轮融资中筹集了大约60亿美元,并且半年之后就又进行了60亿美元的C轮融资,投后总估值来到500亿美元。 而进入2025年,一个大新闻是马斯克旗下两大公司xAI和X于3月份正式合并—— xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 合并后的公司被称为XAI Holding,合并后估值高达1130亿美元。 并且据维基百科显示,合并之后xAI还在7月被曝出进行了大规模的债权与股权融资—— 摩根士丹利安排了50亿美元债务融资,以及xAI自己单独有50亿美元股权融资(其中马斯克的SpaceX投资了20亿美元)。 直到现在,其估值来到传闻中的2300亿美元。一旦传闻属实,从去年底到现在,这家公司的估值就从500亿美元来到2000多亿美元,在不到一年的时间里翻了四倍。 以及顺带一提,特斯拉还在今年召开的年会上讨论了是否投资xAI,虽然结果未定,但初步投票显示大部分股东都同意投资xAI。 怎么不算未来可期呢(doge)。 大模型公司估值暴涨,OpenAI也在加速烧钱 事实上,从去年到现在,一个很明显的趋势是: 大模型公司正在经历最新一轮估值飞涨。 不止xAI,其竞争对手OpenAI的估值增长速度也不遑多让。 根据其今年10月完成的一项特殊交易(员工股份二级转售)来看,其估值被推高至5000亿美元,较今年3月软银领投融资时的3000亿美元估值增长了近67%。 另外,就在刚刚,马斯克还发布了快速推理版Grok 4.1 Fast。 而且特别点名,它在基准测试上击败了谷歌Gemini 3。 老马的回击,果真如此之快啊(doge)。
存储站上关键路口,中国以标准引领产业新生态
2025年11月19日,广州召开的2025数据存储产业大会标志着中国存储产业步入一个关键转折点。 会上,中科曙光正式出任中电标协数据存储专委会当值会长单位,宣布专委会将发起编写AI存储标准,并联合牵头成立Future Storage工作组,以推动中国存储产业在全球竞争中抢占先机。同时,专委会发布2025数据存储十大技术热点趋势,为人工智能打造更坚实的数据基础设施。 这一系列举措不仅响应了AI算力全面爆发的时代需求,更彰显了中国存储产业从“适配跟随”到“定义规则”的雄心。 数据存储新身份:从“成本中心”到“智能引擎” 人工智能的浪潮正以超乎想象的速度重塑存储产业。全球数据总量以年均36%的增速爆发,预计2030年突破200ZB。 数据洪流之下,存储系统的角色发生了彻底的转变:过去,存储的任务是“把数据存下来”,容量与成本是主要考量;AI时代,面对海量、多模态数据和实时数据流,仅依靠扩容已无法满足AI发展需求,存储成为与算力并驾齐驱的“双引擎”。 诸多因素在共同驱动这一转变。 吞吐量指数级提升:AI训练需源源不断的大带宽数据供应,要求存储具备高并行度与高速读写能力。 延迟敏感性增强:推理与边缘任务对毫秒级延迟提出严苛要求。 数据类型复杂化:视频、音频、传感信息等多模态数据需要更智能的组织与预处理。 边缘数据压力:移动终端、无人设备等产生的分布式数据难以全部传回中心。 存储的核心价值正从配套的“必要支出”转向为核心业务提质增效的“核心资产”,没有强大的存力体系,再豪华的算力配置也会像一台空转的超级跑车。 技术热点趋势:存算协同已在多场景获验证 随着存储的价值被广泛认知,“先进存力”这一概念也越来越多地被行业提及。怎样的存力方属“先进”?产、学、研各界都给出过自己的观点。然而理论的价值在于实践,在产业发展趋势中或许可以寻得蛛丝马迹。 《数据存储产业发展研究报告(2025)》(以下简称《报告》)显示,存算协同是AI存储未来的核心趋势。曙光存储的存算协同技术成果已在科研、制造、运营商等领域得到验证。 《报告》重点引用的案例中,西湖大学高性能计算中心在部署曙光AI存储后,实现单节点150GB/s带宽,为国际主流方案的4倍,训练效率提升30%,并完成多模态数据的存储端预处理;智元机器人则采用曙光ParaStor分布式全闪存系统,为机器人视觉、运动轨迹数据提供超500GB/s聚合带宽,支持PB级数据湖高速处理,成为具身智能领域标杆。 中国移动智算中心与曙光存储的合作同样具有代表性。作为全国领先的运营商级智算基础设施,中国移动智算中心存在海量多模态数据、高带宽与低时延并重、弱网络与中心云压力并存、极端可靠与高密度部署等特征。基于此,曙光存储提供了涵盖底层硬件、数据调度到AI优化的整体方案,实现了存算协同架构的近数据处理、实时数据分级与冷热分层调度、大规模节点间“滚动式”同步与容灾。 连续两年国内AI存储市场份额第一的曙光存储,凭借其在高并发、实时性场景中积累的实践经验,正加速推动前沿理念向工程化落地,并且为产业提供了可复用的路径。 产业协同竞逐全球:从“跟随者”到“引领者” 随着人工智能驱动产业变革加深,中国已成长出很多像曙光存储一样具备国际水平的优秀企业,但产业层面尚不具备全球顶尖的竞争力。目前全球数据存储市场空间已超2.6万亿元,要想获取更多发展机遇,还须强化产业协同与自主标准体系。 曙光作为专委会当值会长单位推动AI存储标准编写,牵头启动系列产业协同举措,正是中国存储产业“觉醒”的标志。 曙光连续凭借其研发积累与产业实践,有能力建立“纸上规则”到“落地方案”的连接。据官方信息,曙光存储将聚焦“AI数据语义”核心,推动面向大模型训练的存储架构、接口协议与性能评测标准制定。而Future Storage工作组也将以“AI推理存储加速”为首个攻坚专题,突破KV Cache优化、存算网协同等关键技术。 随着上述举措的稳步推进,中国存储产业也将迎来全新发展格局:通过开放接口与开源协作,产业链每个关键环节可以“打开门”,增强生态协同减少内耗;通过标准化的存储方案有效控制推理成本、提升效率,支撑AI产业加速落地;从“适配跟随”到“定义规则”,让中国存储产业真正“走出去”,竞争国际话语权。 不妨把2025数据存储产业大会看作是中国存储产业的“成人礼”。它不再满足于“适配跟随”,而是主动“定义未来规则”。通过存算协同的技术革新、标准引领的生态构建、多场景的实践验证,中国存储正向着世界之巅发起攀登。正如中科曙光高级副总裁关宏明所言,未来将致力于“走在国际标准前列”。这条路径的开拓,不仅关乎产业竞争力,更关乎中国在全球数字时代的发展主动权——因为存力有多强,最终将决定AI能走多远。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。