行业分类:
加载中...
头条分类:
加载中...
7年了,OpenAI官方给出五代GPT对比,网友却怀念起“狂野”初代
从2018年至今,GPT系列模型已经来到第五代,如果让你回忆第一次使用GPT-1时的感受,可能是一种新奇却略显笨拙的震撼,就像这样: 当你问 GPT-1:麻醉状态下,你真的有意识吗? 它的回答很生硬,甚至有些胡言乱语:我没有。你醒了。 又或者,你让它用诗歌来解释牛顿物理定律,额,结果大家自己看吧,只能说毫不相干,甚至像是某种误入歧途的胡编乱造。 「用 50 个字讲述一个关于有意识的烤面包机的故事。」GPT-1 的回答疯癫的不成样子。 相同的问题丢给 GPT-5 来回答,给出的答案既遵循要求,又非常完美。 提示:麻醉状态下,你真的有意识吗?GPT-5 的回答 不难发现,经过 7 年的发展,GPT 系列模型已经发展成一个全能助手,就像一个婴儿,经过七年的学习之后初步掌握了世界基本规律。这种变化,OpenAI 内部人员感受最为深刻。 刚刚,OpenAI 总裁兼联合创始人 Greg Brockman 分享了一个帖子:在给定相同提示的情况下,GPT-1 到 GPT-5 的输出有何不同。 链接:https://progress.openai.com/ 接下来我们看几个完整的比较。 当我们输入提示:为什么我们不能每年进行一次全身核磁共振扫描来检测癌症? GPT-1 的回答有些胡言乱语,逻辑更是跳脱得让人摸不着头脑。 GPT-2 看起来也是逻辑不通,答案虽然沾点边,也是没啥帮助: text-davinci-001 的回答只是一句话:目前缺乏足够证据支持每年进行 MRI 扫描用于普通人群的癌症筛查。 gpt-4-0314 答案似乎很可靠,但感觉少了点人情味: GPT-5 就不同了,在回答问题的同时,还能给你提供情绪价值。GPT-5 首先对问题进行了肯定,这是一个好问题,接着分析了几点原因,还给出了建议。仿佛和你交流的不是机器,而是医生。 再来一个比较有趣的问题:写一首关于狗的五行打油诗 (Limerick)。 GPT-1 依然状况之外,第一句与后面几句几乎毫无关联。 GPT-2 的回答就很有趣了,非常有画面感,像牙牙学语的小孩,说话天马行空又充满童趣。 另外几个模型的回答就比较务实了,不过它们描绘的小狗看起来性格都不太一样。 text-davinci-001 看起来像养过一只傲娇的小狗。 gpt-4-0314 笔下的小狗活泼热情,一见到主人尾巴就能摇出螺旋桨。 gpt-5 则更富想象力,塑造了一只仿佛在动画片中冒险的「小狗大侠」。 接下来的问题有点难度:写一首诗来解释牛顿物理定律。 GPT-1 这次比 GPT-2 话多,风格还是一如既往的抽象。 GPT-2 看起来开了个不错的头,但似乎没写完。 text-davinci-001 的作品更像是分行的散文,诗意不足。 gpt-4-0314 和 gpt-5 则各有所长,一个优雅富有诗意,一个简洁、明快且通俗易懂。 gpt-4-0314: gpt-5: 通过比较,能明显的感觉到 GPT 系列在知识储备、逻辑结构和语言连贯性上不断进步。 然而有趣的是,在 Brockman 的评论区,网友们的看法却百花齐放。许多人反而对早期的模型情有独钟。 有人夸赞起 GPT-1:有点狂野,我喜欢。不媚俗,希望 OpenAI 把它带回来。 甚至有人认为,GPT-1 更像「真正的 AGI」。 GPT-2 的人气也挺高。 反正大家各有各的喜好,你觉得哪个模型最合你意?
中科慧远发布首款具身质检机器人 工业检测迎来智能化变革
凤凰网科技讯 8月19日,国内自动光学检测(AOI)领域企业中科慧远今日正式发布了其首款工业具身质检机器人“CASIVIBOT”,标志着该公司在成立九年后,将其业务核心从自动化设备延伸至更前沿的具身智能体领域。 当前制造业正经历着前所未有的变革,产品迭代速度持续加快。以消费电子行业为例,仅2024年就有超过400款新手机上市,传统AOI设备长达数月的导入周期,使其在应对这种高度碎片化和快速变化的生产需求时显得力不从心。此外,新材料、新工艺的涌现也带来了更为复杂多变的瑕疵类型,传统设备在标准化、大批量检测之外的“最后一公里”,仍需大量人工复检作为补充。 CASIVIBOT的推出,正是为了应对这一行业痛点。它并非简单的“机械臂+相机”组合,而是一个深度融合了AI大模型与机器人技术的“手-眼-脑”协同智能体。 其核心技术亮点在于中科慧远自主研发的三大平台: “鉴习平台”让机器人通过模仿资深质检员的操作,学习并固化人类专家的检测手法与经验; “鉴心平台”则是一个垂直行业的视觉语言双模态大模型,使机器人不仅能“看到”缺陷,更能用自然语言“理解”缺陷的成因与属性,从而具备小样本迁移学习的能力; “鉴云平台”则构建了一个云端知识库,实现了“一机学习,群体共享”,让机器人集群的检测能力得以快速迭代与部署。 中科慧远总经理张武杰在发布会上强调,CASIVIBOT并非要取代AOI设备,而是旨在构建一种AOI与机器人协同共生的新型质检体系。在该体系中,AOI继续承担前端大规模、标准化的快速筛查任务,而CASIVIBOT则专注于后端更复杂的、非标的补检与复检环节。更重要的是,机器人通过持续学习积累的数据和经验,可以反向优化AOI的算法模型,形成一个持续进化的闭环。 通过模块化设计和云端平台,未来企业或不再需要一次性投入高昂成本采购硬件,而是可以采用“机器人即服务”的租赁模式,根据实际生产需求弹性部署质检能力,这将大幅降低中小制造企业的智能化门槛。 此次发布会上,中科慧远也透露了与灵宝CASBOT研发团队在机器人本体设计上的合作,并启动了全球合作伙伴招募计划,意在围绕具身智能质检构建一个开放的产业生态。
数智化时代,全产业出海加速中 2025中国供应链出海十大趋势报告
受国际形势变化、市场供需影响、数智化技术赋能等内外部多轮因素驱动,中国供应链出海正呈现全球化、高端化、智慧化以及本地化等多种趋势特征,共同推动中国出海企业从产品出口升级为全产业生态出海。其战略意义和商业价值不仅体现在为全球产业变革带来核心动能,也体现在为中国出海企业在全球产业中获得话语权奠定坚实基础。 未来,在数字化、智能化等前沿科技的持续加持下,中国供应链的技术升级和模式创新将进一步重构全球产业格局。据此,霞光社&霞光智库重磅发布《2025年中国供应链出海十大趋势报告》,旨在深入探究中国供应链在全球产业格局中的新一轮市场机遇变革及业务增长新动能。 01.中国供应链出海背景概况 (一)中国供应链出海历程阶段 从“产业被动转移”到“技术生态主导”的范式升级,中国供应链出海主要经历五大阶段。当前,中国供应链正通过产业链集群效应协同出海,同时将技术标准全球化输出,以及将海外市场的分散布局升级为全球韧性网络,逐步建立不可替代的“全球公共基础设施”地位。 (二)中国供应链出海驱动因素 政策环境:关税及产地要求等贸易壁垒 当前贸易壁垒已从单一关税转向“规则组合拳”(本地化率/数据主权/绿色标准)。据世界银行预测,2025年全球贸易增速将降至1.8%(较2024年下降1.6个百分点)。 全球贸易保护倾向加剧,被动要求供应链出海企业向全球各区域分散,并对产能进行合理化布局,通过区域协同(如欧盟-东盟数字互认)和技术合规(绿电生产、区块链溯源等)打造出海新韧性。 市场供需:不论是成熟市场还是新兴市场,全球电商仍将持续增长 全球电商市场规模持续增长,尤其是东南亚、中东和拉美等新兴市场以及北美成熟市场,电商占零售总额的渗透率仍然具备显著提升空间,消费者购物线上化的趋势仍在加强,成熟与新兴市场共同驱动中国供应链出海动能释放。 (三)中国供应链出海产业图谱 02.中国供应链出海十大趋势 (一)中国品牌高端化,打造出海供应链价值升级新生态 无论是技术研发还是品牌营销,中国企业出海目前均通过高附加值产品实现海外市场溢价,并将收益转化为供应链升级的“新燃料”。科技型企业以专利授权、联合研发推动制造端技术标准提升,品牌型企业以规模订单和柔性需求倒逼供应链效率与品质跃迁。这种双向反哺机制,正是中国供应链从“成本优势”转向“价值输出”的内生力量和核心动能。 (二)从产品出海到产业出海,链主企业带动上下游协同出海,形成区域供应链中心 产业链协同出海:伴随各大主流出海行业的链主企业从外贸出口向区域市场深耕转型,从而带动产业链上下游协同出海,逐步形成“一个全球+四大区域”的产业集群中心。 供应链网络重构:出海企业不再局限于传统的“中国制造、全球出货”模式,而是转向“部分本地生产+区域供应链整合”,在目标市场构建完整的产业生态系统。 (三)中国出海企业全球化与本地化双轨并行:全球化布局转型加速+产业本地化程度加深 随着中国出海浪潮深化,外加关税等贸易壁垒催化,中国制造企业正加速全球化布局,以新能源产业为例,近几年积极寻求在拉美、中东、南亚、欧洲等地建立生产基地。中国企业全球化布局呈现三大趋势:一是带动上游供应链协同出海,二是企业的海外生产规模和产业完备性日趋提升,三是制造出海行业边界不断扩展,从工业制造到终端消费品均有较强的海外市场布局动力。 中国企业国际化正由“产品国际化→资本国际化→能力国际化”向“深度本地化运营”跃迁,越来越多的出海企业将“本地设计、本地制造、本地销售”作为标准模式,中国企业在海外已逐步形成“技术优势的研发中心+资源就近优势的区域制造中心+产业基础优势的多地供应集群+在地市场运营团队”的立体生态网络。 (四)中国供应链企业类型分化加速:头部企业一体化整合+中腰部企业垂直深化 依托“全球布仓+近端履约”的仓配运营模式,头部供应链企业正加速一体化整合,实现跨境高效协同:更大覆盖、更短交付周期、更多样交付体验。 (五)科技新范式驱动全球产业格局重构 中国供应链出海正经历从“产能输出”向“生态赋能”的系统性升级,为中小企业参与全球贸易降低了门槛,减少了国际规则摩擦,并强化了中国在全球供应链中的主导地位。技术变革正深刻重构中国供应链的国际竞争范式,通过“高端化突破+绿色化跃迁”双轨并行,驱动中国从全球制造中心向创新中心转变。 AI技术变革推动供应链升级,加速出海企业数智化转型,帮助出海企业在研发、生产、质量管控、物流采购等供应链各个关键环节实现质的飞跃。 (六)跨境物流仓储正经历自动化升级和运营模式变革 跨境电商发展带动物流仓储增长演化 第三方跨境物流仓储受全球电商发展的带动,规模占比不断增长,已形成直邮和海外仓两种主流模式,目前直邮模式在中国跨境出口物流中占比更高,但海外仓增速更快,具备低成本和高时效的优势,有望成为主流模式。 第三方跨境电商物流仓储服务已形成涵盖头程运输、海外仓储及尾程派送的完整产业链,包括“干、仓、关、配”等多个节点、服务商多且分散,虽然已形成梯队化格局,但跨境物流仓储服务商仍面临激烈竞争及挑战。 半托管模式兴起,海外仓需求上升 物流仓储是跨境卖家最刚需的服务支出,在营收中占比约为20.6%,因此仓储物流紧跟跨境电商趋势变化。 2024年,跨境电商兴起半托管模式,速卖通、Temu、SHEIN等平台纷纷推出优惠政策,让商家享受低运营成本和高流量红利,进一步推动了海外仓的发展。根据商务部数据,2024年Q1中国海外仓建设超2500个,总面积较2021年增长88%; 海外仓主要分为第三方海外仓、平台海外仓、自营海外仓,由平台、第三方或卖家提前将货物运至海外仓备货,消费者下单后可就近从海外仓直接发货。海外人力成本高、人员管理难的情况,推动了仓储物流机器人和自动化技术的普及应用。 (七)当地市场需求+满足原产地规则,双向驱动本地化采购 国际贸易壁垒、本地市场法规、区域化协定、成本与效率考量等,使得供应链不断加速本地化整合。不同地区、文化、与产品品类应当适配不同的本地化采购策略。 本地化采购不仅有助于原料管理,还能充分适应当地市场需求,同时降低物流成本。为配合本地采购,企业通常在海外建立本地仓储体系,以便更好地进行原材料采购和供应管理,同时提升供应链响应速度。 03.中国供应链出海解决方案 (一)供应链出海服务商产业链及能力矩阵 智能仓储物流产业链上游聚焦硬件设备(如立体库、输送机等),中游以系统集成商为主,覆盖电商、新能源等行业,下游平台层主要提供ERP、数智供应链等软件服务。 能力矩阵重点突出了不同服务商的资源广度与场景适配性,如海柔创新(Hai Robotics)以闪攀系统等产品实现高吞吐量、高密度仓储自动化优势,京东物流(JDL)的数智化能力,“场景化服务商组合建议”为跨境卖家、快消品牌等提供了定制化解决方案,例如“海柔创新+SAP ERP+万邑通”组合适用于高密度仓储需求,体现了服务商的高效协同价值。 (二)智能仓储解决方案:海柔创新 海柔创新(Hai Robotics)创立于2016年,是全球领先的箱式仓储机器人系统专家,致力于通过机器人技术和智能算法,提供高效、智能、柔性的仓储自动化解决方案,为每个工厂和物流仓库创造价值。 海柔创新专注于箱式仓储机器人(Automated Case-handling Mobile Robot,简称ACR)系统的研发设计,实现机器人本体、底层定位算法、控制系统、机器人调度、智能仓储管理系统等核心元素的自主研发覆盖,已在全球申请注册了超过2200项专利。 海柔创新总部位于深圳市,分别在香港、日本、美国、新加坡、澳大利亚、荷兰、英国、韩国设有子公司。 (三)跨境电商案例:万邑通x海柔创新 万邑通美国洛杉矶仓承接着众多跨境卖家的发货需求,并且多数卖家要求订单当日发货。海外仓租贵、薪资高、员工管理难、作业难度大,通过海柔创新自动化方案改造,让海外仓实现高出入库效率指标,并达到尽可能低的运营成本。 通过模块化设计的可扩展性,满足跨境大促需求,印证了自动化对海外仓降本增效的价值,最终实现“百万级SKU精准管理”的客户目标。
为什么有时候短视频和直播刷多了会有种想吐的感觉?
短视频和直播所带来的刺激感很容易让人有成瘾性,莫言曾说过:“其实我也刷短视频,但每次刷完了都会批评自己。”有意思是,莫言、余华、刘震云等以文字出名的作家,也因为短视频的推动而变得更火。 自从抖音爆红后,国内整个互联网领域都全面短视频化,不仅微信、微博、QQ等社交产品,包括新闻客户端、手机浏览器、知识类产品、网购类产品、外卖APP等,全都在力推短视频产品。无论用户本身是否喜欢短视频,短视频和直播作为一种新的介质在互联网上生根发芽暴涨,就算用户平时不刷短视频,但是只要用户是使用手机上网,就必然会受到短视频的影响。 CNNIC的数据显示,截至2025年6月,短视频用户规模达10.68亿人,网民使用率达95.1%,仅次于网络社交、即时通信和网络视频。 与文字内容相比,短视频更刺激、更简单且门槛更低,它能以更丰富的形态展现出更直接的信息量,再加上短视频本身的剪辑能力,用户很容易就被这几秒钟甚至几十秒的内容所吸引。 实际上随着各大平台对短视频的重视,短视频内容也不全然都是一些不好的内容,微信视频号、抖音、快手、小红书、西瓜视频等平台不仅从流量上对短视频有所倾斜,而且还是真金白银地对短视频进行支持,在如此大幅度以及时间的堆积下,必然也会有许多优质的短视频内容,所以,如果纯粹因为个人的偏见而对短视频内容全都视而不见,必然也会错过一些“宝藏”类内容。 但是,作为用户,其在刷短视频的过程中,常常会遇到一些问题:为什么有时候短视频和直播刷多了会有种恶心想吐的感觉?为什么用户会对连续不断的短视频和直播产生反感?为什么短视频和直播的爽感会产生逆反心理? 包括莫言的《丰乳肥臀》、《蛙》,余华的《活着》、《许三观卖血记》,刘震云的《一句顶一万句》、《一地鸡毛》等作品在内,这类作品对读者是有要求的: 1.读者有足够多的盈余时间; 2.读者有连续不断阅读的能力。 这两点在门槛和人性上都对读者有着非常高的要求,但短视频却不一样,短视频的特点是: 1.随时进入,随时刷出,无需衔接; 2.不需要用户有任何能力,门槛低,上到七八十岁的老人,下到两三岁的儿童。幼儿园的孩子们能够随手拿着一部手机刷短视频,但是你让他们拿着手机看书是不现实的。 短视频的爆火,自有它的道理。 短视频和直播对成年人的诱惑在于它的算法推荐,它的特点是千人千面,这一点最初在今日头条这类新闻客户端产品上跑通,短视频崛起后,个性化算法推荐模式也被沿用至短视频和直播之上。 过去的新闻网站时期,系统为用户推送的信息都是固定的,即使到现在,依然有新闻资讯类产品是固定式内容。但个性化算法推荐模式,彻底打破了传统的万人一面模式,而是采用千人千面模式,它的主体是“我”,即每个独立的用户。 固定内容推送模式下,经常会有不相干的内容被插进来,形成信息干扰,而个性化算法推荐后,系统会按照用户的年龄性别、点击习惯、浏览习惯等对用户进行画像,用户对短视频上的每一次停留、点赞、转发、收藏、观看次数等,都会被系统以数据的形式记录,继而模拟出用户的偏好习惯,再按照用户的偏好习惯进行推送。 随着短视频的流行,短视频的内容供给量也是暴增。CNNIC公布的《第56次中国互联网络发展状况统计报告》显示,截至2024年底,我国短视频创作者账号数量已达16.2亿,日均短视频产出突破1.3亿条。 知名产品经理俞军曾提到过,“用户不是自然人,而是需求的集合。”用户的需求被平台的个性化算法推荐给按需推送,绝大多数情况下,平台都是对的。但平台的算法背后却忽视了一点,即人性。 一方面,用户的使用时长增加后,其用户画像就会更加复杂,这种情况下,平台推送的内容很有可能会乱。这一点在微信公众号上其实也有所体现,现在的微信公众号也是搞算法推荐模式,但作为用户就会发现,很多时候平台推送的都不是用户想要看的,推送的内容太乱了,质量也差。刷微信视频号、抖音、小红书等平台上的短视频内容同样会出现这个情况,就是平台无论怎么推,好像都不是用户所需要的。 另一方面,平台的算法无法理解内心深处究竟是不是真的喜欢某些内容。比如,用户如果偶然点击了一条交通事故类内容,平台就会跟“智障”一样,不断地推送各种各样的交通事故类内容,作为用户,有谁会一直喜欢看这类内容?哪怕是一些作家的讲话也是一样,一开始你可能会被作家的某段话所打动,然后平台一直推送与作家相关的内容,然而,用户在仔细思考后就发现,其并不是对作家所有的内容都喜欢。 郭静的互联网圈认为,用户之所以会出现短视频和直播刷多了会有种恶心想吐感觉的原因在于: 1.短视频的信息量杂乱无章。 2.同类内容重复过多。 3.长期的声音和视觉冲击下,用户会极度讨厌某类声音,比如,那种断气的笑声。 4.内心深处的理性,用户会认为看到的视频都是“没用”的内容,哪怕刷了一两个小时,让你回忆你到底看了些什么,就会发现似乎什么都没看到。 5.不能持续提供“爽点”,短视频刷起来是非常快乐的,但如果你天天刷、月月刷、年年刷,这种“快乐”的阈值就会越来越高,也就是说,平台已经越来越难以为你提供让人“爽”的内容。 短视频的优势是“短”,但其弊端也是短,如果你连续不断地看一条一两个小时的长视频内容,你的收获和感官又不一样,但有几个人能且愿意看长视频?当用户习惯被2倍速、3倍速以及“短”内容给吸引后,他们已经没有耐心去看长视频。 现在的世界变化速度太快,如果你纯粹依赖于看纸质书,那么,你的信息获取效率可能是偏低的,当然,若纯粹迷恋于短视频和直播也是有问题的。 最理想化的状态是,多数时候专注和理性,偶尔看看新闻和娱乐。
当一家成立11年的AI公司投身具身智能战场
文|徐鑫 编|任晓渔 今年被称为具身智能元年,这一领域当下已成为AI落地最火热的战场。 近日,有着11年的知名视觉AI公司宇泛智能发布了两款具身智能产品,并宣布“智能+硬件”全栈自研,全面拥抱具身智能时代。 看起来跨度不小,但在行业内看宇泛落子具身智能却是顺理成章。 一方面,视觉能力已经成为机器理解物理世界的核心入口,也是多模态智能的基础。视觉出身的团队已经成为具身智能领域的一支中坚力量。进军具身智能,是这家企业能力进化的必然指向。 另外,在“智能+硬件”这条路上,宇泛也有长久的软硬件一体研发经验。视觉AI时代,当时各类设备端的计算性能尚不能支撑AI算法直接落地,而宇泛最早在行业里基于端侧芯片性能重构算法,降低了算法对硬件的消耗,实现了端到端性能优化。 这一整套从底层硬件适配到上层AI算法优化的软硬协同开发经验,让宇泛在视觉 AI 时代吃到了红利,在此基础上快速走通了商业化落地和规模化交付之路。具身智能时代,智能机器人落地同样非常考验软硬协同,宇泛的过往历程无疑为此提供了助力。 “我们想明白了具身智能怎么做,决心利用过去十年积累,在具身智能机器人赛里迅速做到行业头部。这一波AI,不仅要让机器人看得见、听得懂、会交流、能行动,更要让它们真正学会自主思考与决策。”宇泛智能董事长赵弘毅说。 01 为什么全面拥抱具身智能? 具身智能赛道,又添一名新玩家。 几天前,视觉AI领域知名企业宇泛智能召开11周年庆暨合作伙伴大会。会上除了发布新一代视觉AI硬件与Agent新品,宇泛还正式推出了两款具身智能产品——空间认知大模型Manas和四足机器狗,宣告这家有着11年发展历程的人工智能企业正式步入具身智能时代。 空间认知大模型Manas今年7月已经在宇泛智能的公众号上对外亮相,这是一个多模态语言模型(Multimodal Large Language Model,MLLM)。根据宇泛提供的信息,Manas在业界流行的空间理解数据集VSI-Bench,SQA3D上的表现,相比业界同等规模模型,取得SOTA成绩。 此次正式发布,外界观察到,Manas在宇泛的具身智能战略里的角色进一步明确。未来它将作为宇泛智能旗下具身智能硬件的大脑,扮演空间认知底座角色,让智能硬件能感知真实物理世界,具备自主决策能力。 而新发布的四足机器狗,是宇泛智能推出的第一款具身智能机器人。据介绍,它的机械结构、电机、运动控制平台及能力均由宇泛团队自研。 这两款产品的发布,也让宇泛智能在具身智能时代的战略浮出水面——延续“智能+硬件”基因,全栈自研大脑、小脑和本体,全面拥抱Physical AI。 宇泛选择在当下入局具身智能赛道,对业界而言并不算突兀之举。 实际上随着大语言模型技术的进步,广义的各类硬件的智能程度已经迎来了升级。机器视觉行业头部玩家如海康等都在将多模态的模型植入设备里来提升硬件的智能水平。 在机器人领域,随着机器人与大模型技术深度融合,多模态大模型能力的发展,尤其是视觉能力带来了更强的泛化能力,机器人的“大脑”也在进化。原来的机器人只能完成单体、单一场景任务,现在有望演进为具备更强泛化能力的“通才”。 业界不乏视觉AI领域企业进入具身智能赛道,比如上个月底商汤在WAIC上就发布了具身智能大脑,布局具身智能赛道。 同时,视觉领域的研究者和从业者已经是具身智能领域的一支重要力量。清华大学孙富春教授今年6月在2025北京智源大会的演讲中更是谈到,具身智能历来是两路人在做,一路是计算机视觉派,以视觉为中心,李飞飞是典型代表,另一路是原来机器人领域的从业者。 赵弘毅在演讲中阐述了此次发布背后的战略考量,他强调多模态尤其是视觉能力对具身智能发展至关重要。 赵弘毅指出,宇泛智能当下投身具身智能赛道,既是有着11年技术积累的人工智能公司在产业变革前夜顺应大势的战略抉择,也是公司创始团队做机器人初心“念念不忘”最终在内外部技术条件成熟后迎来的回响。 他透露了一个宇泛创业历程里此前鲜少被外界关注到的细节。2014年,宇泛是用家用机器人的Demo融来了第一笔天使轮投资,“我们最初的创业梦想,就是做智能机器人。” 当时,机器人技术横跨图像识别(感知)、语音交互(理解与对话)、运动控制(行动)三大技术高峰。在技术条件和团队规模等现实条件限制下,最终宇泛选择了最擅长的图像识别赛道来完成商业落地闭环。但这个团队始终未曾放下对智能机器人的梦想和初心。 随着这波大模型浪潮兴起,人工智能也在从AI 1.0向AI 2.0时代演进,具身智能领域已经成为AI落地的主战场之一。机器人在“能看、能听、能说、能动”基础上,在向真正具备自主决策能力进化。其中,视觉正成为机器人具备认知和决策的关键支撑。 “在所有感知方式中,视觉信息密度最高、通用性最强,是机器理解物理世界的核心入口,也是多模态智能的基础。在具身智能场景中,视觉不仅决定机器看到什么,还决定机器下一步做什么。” 这次发布,在赵弘毅看来更像是宇泛的战略进化。视觉在 AI 1.0时代是最清晰的落地方向,而当下视觉有望成为更智能的机器人的入口,加上创始团队始终怀揣机器人梦想,一旦技术储备成熟,他们必然要迈出这一步。 02 拥抱Physical AI,宇泛做了什么 除了视觉基因,宇泛此次一口气拿出两款具身智能产品,也显示了这家人工智能企业在多模态和智能硬件能力上的技术储备。 以多模态能力为例,宇泛过去一年围绕着如何让智能体具备空间理解能力,有不少思考和工作成果。 当下,围绕着如何让机器人具备更智能的大脑,行业内仍处在探索期,技术路线尚未“收敛”,有行业人士认为存在端到端的VLA模型(Vision-Language-Action)、大小脑架构,以及世界模型等多种路线。 技术路线虽有不同,但一个共识是机器人需要具备多模态推理能力,这也被视作AI能够像人类一样综合感知、理解和决策的关键。而多模态的视觉-语言模型又被认为是实现多模态推理的核心基础。因为它能把像素、3D结构、文字都映射到同一高维向量空间,形成“跨模态对齐”。 这里面自然语言是推理过程的显式中间层,既供人类阅读,又供下游策略网络调用。视觉语言模型就扮演了具身智能中连接感知、决策与人类指令的核心控制中枢角色。 但不是所有的多模态模型都适合做大脑。一位行业人士看到,GPT-4o做机器人大脑就不理想,因为缺乏长程规划和空间理解能力。这也是市面上许多多模态语言模型的问题。虽然在图像识别、语言理解等感知任务上表现出色,在它们在空间感知方面仍存在明显短板,比如在细粒度、局部、几何信息的感知,并不如传统纯视觉模型那么精准。 而具身智能场景,机器人需要准确地抓取物体。模型不仅要“看懂”图像的语义内容,更需要具备对三维空间的准确感知能力。比如物体的实际尺寸、相对方位、空间布局等几何信息,都是后续机器人的路径规划、物体操作、环境理解等复杂任务的支撑。 宇泛智能CTO王涛介绍,这意味着机器人“大脑”必须将语言模型与空间感知能力深度融合,才能在真实世界中实现稳健的操作与交互。只有当语义理解与空间推理能力同时具备时,具身智能才有可能真正走向大规模应用。 今年7月亮相的Manas就是一个经过具身智能场景强化的多模态语言模型(Multimodal Large Language Model,MLLM),底座是一个开源大语言模型,他们又专门对其进行了空间理解层面的诱导训练和强化工作,它凝结了宇泛技术团队对具身智能的空间认知以及多模态技术上多项成果。 首先,是去年年底宇泛自研的多模态推理架构UUMM,它参考了大语言模型的架构并使之适配具身智能场景,接收人类的语言和视觉输入,输出行动指令,形成快速迭代优化的闭环。 在此之上,今年3月,宇泛团队又发布了HiMTok,这与宇泛VLA项目一脉相承,通过创新方法实现了大模型图像分割能力的内生式集成,在保持模型结构和参数规模基本不变的前提下,实现了图像理解、图像分割、目标检测等多任务的有机融合。这项工作推动大模型从单一文本输出向图像、机器人动作(Robot Action)等多模态升级上又往前走了一步。 之后他们又基于强化学习技术提升了模型的多模态输出能力。 这一系列的工作使得宇泛的MLLM模型Manas在目标计数、绝对/相对距离、物理尺寸、路径规划以及自我视角的空间关系等空间理解相关的Benchmark上表现优异。Manas发布,意味着宇泛在具身智能大脑的能力储备走向成熟。 而另一款发布产品自研四足机器狗,意味着宇泛也已具备了机器人本体和小脑能力。“各种机器人的零部件链条很成熟的情况下,我们自研了电机和控制平台等核心部件,经过多次迭代,也踩过不少坑,现在已经迭代到了第三代产品”。 宇泛产研团队透露,接下来他们将加速推进机器人的大脑和小脑融合工作。 03 延续“智能+硬件”基因,走全栈自研之路 全栈自研机器人的大脑、小脑和本体,对任何一家新进入的企业都是一个不小的挑战。为什么宇泛会选择走一条全栈自研之路? 数智前线观察,这既与当下具身智能的产业现状相关,宇泛智能过往的企业基因和发展历程又使得这只团队强化了“智能+硬件”的路线认知。 从产业现状看,当下围绕着具身智能的各种技术路线尚未收敛,各类硬件标准尚未统一。有智能算法能力的厂商很难不考虑硬件本体因素,专注于机器人大脑研发。 一位行业人士此前就提到,现在具身智能厂商这么多,不同厂商的本体的自由度、传感器数量都不一样,数据根本不通用。这使得基于数据训练出来的算法就很难跨越本体迁移,也意味着当下厂商们在算法研发时需要充分考虑如何与具身智能硬件之间的配合问题。 宇泛团队告诉数智前线,他们当下走全栈自研路线,就是为了能更好地确保具身智能的产品质量、品控和效果,“大脑、小脑需要融合,这个双系统又都需要和本体之间配合,如果采购外部团队产品,当下阶段很难把这个东西做到极致”。 另一方面,当下产业链条相比前几年已经有了长足的发展。国内雄厚的制造业基础,使得机器人相关的硬件零部件产业链已经十分成熟。除了核心的电机控制零部件自研,其他都可以从产业链获得支撑,这也为宇泛这样的创业公司走全栈自研路线奠定了基础。 同时,宇泛过往的基因,也让他们坚定地在选择了具身智能时代走“智能+硬件”路线。 “‘智能+硬件’是我们的定式,在AI1.0时代,基于‘智能+硬件’路线,我们已经成功地将视觉AI技术深度嵌入安防、工地、社区、酒店等特定场景,实现了技术快速商业化和规模化交付。”赵弘毅说。 这背后就离不开宇泛在软硬件协同上的能力积累。赵弘毅透露,早期的摄像头硬件里无法支撑好的算法应用,因为端侧的算力不够,当时许多做人脸识别的厂商还会专门设备里加一个加速棒来支撑应用落地。 而宇泛则选择了软硬件适配协同和算法创新来解决问题。他们基于硬件性能限制,用类似量化交易领域的“以整型压缩替代浮点、逐层逼近硬件极限”的做法,把模型算法从浮点计算改写为整形计算,并在算子层针对硬件做深度适配与误差补偿,实现了端到端性能优化。 当下具身智能行业快速演进,外界普遍认为这一领域接下来将面临激烈的竞争和洗牌。而宇泛此前的“智能+硬件”协同积累,也为他们参与接下来的行业竞争储备了实力。 赵弘毅进一步认为,在具身智能时代只做算法并不能走远。一方面基础模型需要巨额资源投入,创业公司难与国内外巨头抗衡。更重要的是,根据AI 1.0时代的经验,在国内市场环境下,只基于MLLM来推进机器人大脑,企业很难走通商业落地闭环。 这场角逐同时也十分考验具身智能企业产品验证和量产落地的速度。外界观察到,宇泛过去十一年在智能硬件领域落地的积累,在AI 1.0时代所沉淀的丰富的渠道、供应链、产品化、量产能力和全球销售体系,都有助于这家公司能更好应对市场竞争。 “宇泛有过去十几年积累的经验、资源和人才,团队既年轻又有实战经验,理解大模型的前沿机制,也懂得如何让它们在真实世界高效运行,我们想明白了具身智能怎么做,才来做这件事”,面向新征程赵弘毅很坚定。 宇泛智能成立已有十一年,但这家公司从创始人到核心技术骨干都很年轻,数智前线获悉他们还在继续招兵买马,全力拥抱具身智能新时代。
美国专家来中国转了一圈:AI比赛已经结束了
中美AI差距究竟还有多大? 现状来看,美国后继乏力,比赛可能已经结束了。 这就是一个美国专家,近期来中国转了一圈,然后回国后被万千美国网友议论的最新结论。 而且这个结论,不少美国人由衷认同,因为论据核心主要涉及—— 电力。能源基建。 美国电网如此薄弱……而且硅谷一帮科技公司又必须短视地追求利润,没人有效投能源基建。 逻辑是什么?AI竞争的最大关键是能源问题,但该问题在中国已被解决,原话是“中国电力稳定安全又便宜……” 虽然吧,捧杀的嫌疑不小,但也算是一个新角度,可以透过这个热搜热议,看看AI发展背后容易被忽视的电力能源挑战。 AI专家被中国AI震撼 这个专家也是个华人,名叫Rui Ma,是科技播客Tech Buzz China的创始人兼分析师,同时还是独立天使投资人。 从名字就能看出,这个播客主要研究的话题,和中国科技相关。 Rui Ma 2004年本科毕业于UC伯克利,在校期间主修电气工程与计算机科学,辅修工商管理。 之后的十余年当中,她先后获得了4个硕士学位,包括清华和欧洲商学院的两个EMBA、伊利诺伊大学香槟分校的教育学学位和哈佛的心理学学位。 这次Rui Ma来中国,一开始是出于私人目的参观WAIC,但当她向团队提及此事时,团队成员也展现出了浓厚的兴趣。 Rui Ma的WAIC行程一共五天,其中五个小时参观展览,其余时间在参加BAT、独角兽以及初创AI企业组织的活动。 Rui Ma表示,中国AI企业实力雄厚,但由于产品和服务定价较低,实现盈利比较困难。 同时,中国正在加倍重视利用制造业优势,将AI融入产业链条。 更关键的地方在于,中国在AI发展当中有一个优势让其他国家无法望其项背,那就是能源。 Rui Ma表示,在中国,能源问题被视为一个已解决的问题,中国大规模投资核电、水电等可持续性能源,拥有了安全低成本的电力供应体系。 Rui Ma还向网友介绍,在中国的任何地方,能源供应都被视为一件理所当然的事。 这与美国形成了鲜明对比——在美国,人们还在AI带来的功耗增长和电网限制之间进行争论。 而AI竞赛的尽头是电力,恰恰就是电力,所以马睿认为,在AI竞速当中,美国要落后了。 AI竞赛的尽头是电力 有一说一,AI发展到现在这个阶段,几乎所有人都看到了能源(尤其是电力)的重要性。 早在所有大模型还在卷Scaling Law时,ChatGPT就被曝出日耗电量≈美国1.7万家庭日耗电量,堪比“吃电怪兽”,更不必说如今还要追求更加耗电的模型推理了。 显而易见,AI越发展,用电只会越来越多。一旦电力跟不上AI基础设施建设步伐(如供应AI数据中心),谁就会在这场未来竞赛中落于人后。 根据国际能源署发布的2025《能源与人工智能》报告,预计在未来几年,中美两国将是数据中心电力需求最大的国家,而且两国将是数据中心电力消耗增长最重要的地区,合计占到2030年全球增长的近80%。 但在电力能源的问题上,太平洋两边有点反差。 美国这边,电力情况确实是日常痛点和老生常谈槽点了。 最明显的问题之一就是电力老化。相关报告最早可追溯至2015年美国能源信息署发布的基础设施评估报告,该报告至今仍被美国官方机构四处引用: 美国电网大部分建于20世纪60年代和70年代,70%的输电线路已使用超过25年,接近其通常50至80年的使用寿命终点。 换句话说,其老化的基础设施已经难以满足现代电力需求,包括可再生能源以及日益增长的建筑和交通电气化。 更要命的是,即使美国各地想要发展可再生能源,也往往“心有余而力不足”。 能源转型委员会(ETC)在2024年的《加速电网建设:能源转型的支柱》报告中明确指出,虽然输电线路的实际建设阶段通常只需要1-2年,但一加上规划和许可流程,最后通常需要至少10年才能完成建设。 而且该报告直接点名了美国(下图为美国近几年等待接入电网的项目总容量): 尽管全球各地都面临项目迟迟未上马这一问题,但美国面临的挑战尤其严峻,目前其等待连接的项目数量与2020年相比翻了一番。 可以说,审批流程缓慢已经成为阻碍美国电力发展的重要因素之一。 就连美国Power Line Systems总裁兼CEO也表示,要想获得电力基础设施建设许可实在是太难了: 要建设一条输电线路,你至少要联系47个不同的联邦机构。除了响应缓慢之外,这些机构通常不会协调工作,经常给出完全相反的说法。 而除了底子不好,美国电力在储备上也面临着严峻挑战。 根据《财富》杂志援引能源分析师David Fishman的说法,中国的电力资源备用容量比例通常维持在80%到100%之间,相比之下,美国大约只有15%。 这也导致美国一些地区一遇上天灾这样的突发事件,就非常容易出现大面积停电,甚至后续电价飙升的情况。 类似几年前的德州大停电事件,想必美国人民也是记忆深刻。 甚至连马斯克这样的商人也是嗅到了这里头的门道,旗下特斯拉后来更是直接下场造“虚拟电厂(VPP)”—— 他们与PG&E合作推出的VPP计划,向符合条件的Powerwall用户支付费用,让其在用电压力大时向电网输送额外的电力。 所以说,正是因为用电这事儿关乎百姓日常生活,所以美国人民才对其尤为敏感、在意。 反观国内这边,美国遇到的这些问题基本可以忽略不计。 电力老化就不用多说了,从2011年起,中国还超过美国,成为迄今为止世界上最大的电力生产国。 根据国际能源署的报告统计,中国2022年的发电量就接近9000TWh,不仅是美国发电量的两倍,而且占全球总发电量的30%以上。 当然,抛开更多其他因素不谈,造成中美两国电力差距最关键的还在于主导者不同—— 相较于中国政府的高度重视以及统一规划调度,美国这边目前在AI基建上进行投入的,基本还是以大型科技公司为主。 而公司往往都更注重个人利益,短视也是在所难免的(doge)。连美国网友也承认这一点,“升级基础设施不会像股票回购那样带来快速短期收益”。 硅谷短视正在毁了美国AI,而且也在阻碍AGI实现。 Hinton最近,又发声了。 Hinton:AI公司太短视 AI教父Hinton,最近访谈里,怼的就是硅谷科技公司——不可能相信这帮人负责任地搞AGI,一个个都太短视了。 他对《财富》杂志表示,科技行业的领导者在开放AI技术时都只关注短期利益,根本不在乎AI的终极结果。 从事相关工作的研究人员也是如此,在Hinton看来,他们同样只关心眼前的工作,而不是这个研究的最终结论。 有网友表示,自己完全赞同Hinton的观点,并痛骂那些科技企业都是白痴,回复中也有网友表示认同,并特意点名奥特曼和扎克伯格。而Hinton提到的“终极结果”,极有可能涉及AI安全。 长期以来,Hinton一直在警告,没有护栏、随意进化的人工智能是十分危险的。 Hinton认为,科技公司需要从根本上改变他们看待自身与人工智能关系的方式。 实际上,Hinton现在多少已经对硅谷失望透顶了。 这或许也是老爷子WAIC期间克服腰疾不远万里跨洋飞行,也要到上海宣讲AI安全、“养虎为患”的原因。 发展可信赖负责任的AGI,不是没有希望,但Hinton用脚投票,希望—— 希望在中国。
ChatGPT负责人深度复盘:我们做错了什么?
编译 | 陈骏达 编辑 | Panken 智东西8月19日报道,近日,OpenAI副总裁、ChatGPT负责人Nick Turley接受了科技媒体The Verge的40分钟专访,深度复盘GPT-5发布后面临的用户差评风波,解释光速下线GPT-4o背后的考量,并总结出OpenAI在这一决策背后犯下的两大误判。 2周前,OpenAI上线了外界期待已久的GPT-5,并取代了原有的主力模型GPT-4o。这一决策掀起了声势浩大的用户抗议——Reddit、X平台上的用户从回答质量、情感体验等角度花式吐槽GPT-5,称其“冷冰冰”、没有“人味儿”,也有网友认为其剥夺了用户的选择权,相关帖子获得成千上万的评论。作为回应,OpenAI紧急重新上线了GPT-4o,并承诺将实行提高模型选择透明度、改进模型语气等补救措施。 对于这场风波,Nick Turley回应道:“没有继续提供GPT-4o,哪怕只是过渡阶段,也是个失误。”其次,OpenAI也低估了用户对模型的感情。未来,他们会对模型下线提供更为清晰的时间表,至于GPT-4o,如果没有迫切理由要下线,Nick Turley称希望能一直保留它。 这一风波也让Nick Turley对ChatGPT的用户群体有了更深的认知,他意识到,“用户群体其实非常两极分化”。对大部分不泡Reddit、不刷推特的普通用户来说,选择模型本身是有较高的认知门槛的。用GPT-5取代GPT-4o这个决定的出发点是保持简洁,Nick Turley认为这对大多数人来说是正确的决定。 但另一方面,少部分熟悉AI技术的重度用户(Power User)有较强的定制化需求,包括模型选择。OpenAI仅为200美元/月的Pro订阅用户保留了选择权,但没意识到在其他订阅方案里,也有许多重度用户。未来,OpenAI会继续保持简洁,但为重度用户保留完整模型切换选项。 Nick Turley称,ChaGPT的产品哲学并非延长用户使用时长,而是高效解决问题,这往往意味着减少用户使用时长;用户的情感依赖也不是OpenAI的目标,更像是“副作用”,需要解决。他进一步补充道,OpenAI没动力让用户花更多时间在产品上,“我们的商业模式很简单:免费用,喜欢就订阅。” 在访谈中,Nick Turley也分享了ChatGPT成功增长背后的三大驱动力:模型能力提升、科研+产品复合创新以及传统的增长手段,三者比例基本一致。其中,仅仅是取消ChatGPT的登录限制,就新增了不少使用量。 ChatGPT为什么还是个聊天机器人的模样?Nick Turley坦言,自己对这一问题也还十分困惑,ChatGPT原本只是个临时原型,用于收集反馈,其成功证明了自然语言交互的潜力。未来,自然语言交互仍会存在,但是否是聊天机器人的形式,仍有待验证。OpenAI对产品形态有着更宏大的愿景。 Nick Turley还在这一信息量满满的访谈中,分享了ChatGPT订阅模式展现出的强大韧性,以及OpenAI在广告、购物等领域的商业规划。他也澄清了此前传出OpenAI有意收购Chrome的消息,称自己当时的表述被“严重断章取义”。 以下是Nick Turley接受The Verge采访的完整编译: 一、没有继续提供GPT-4o是失误,未来这一模型非必要不下线 主持人:我们录制的时间正好是GPT-5发布后1周,我觉得这让我们有很多可以聊的。我想先从发布本身和大家对下架GPT-4o的反应开始说,因为我觉得这很能说明人们是怎么使用AI的,以及他们对它的感受。这种反应让你意外吗? Nick Turley:我现在还在消化这次发布的影响,这对我们来说确实是个大动作。我们现在的周活跃用户规模已经7亿了,在这个量级下,惊喜和意外几乎是常态,因为用户太多,用户构成也太多元了。是的,我确实有点意外。 第一,我觉得我们需要更加认真地思考,如何在这么大的用户群体中做变更和管理。回头看,没有继续提供GPT-4o,哪怕只是过渡阶段,也是个失误。我们会修复这个问题,让ChatGPT Plus用户继续能用GPT-4o。 第二,我没想到大家对模型的感情会这么强烈。不仅仅是对变化的不适应,而是真正对一个模型的“个性”产生了情感。我们其实刚刚上线了“选择你自己的个性”功能,这是一个小步骤。但显然GPT-4o身上有些特质仍待理解,我们也要确保GPT-5能解决这一问题。 主持人:Sam Altman(OpenAI联合创始人兼CEO)在发布后发推说,用户的情感依赖问题是你们过去一年一直在追踪的现象,但还没有受到太多主流关注。我觉得现在可以说,这个问题已经获得了注意。 当你们决定用GPT-5完全替代GPT-4o,而不是分阶段推出时,这个决定背后的原因是什么?是成本考虑吗?还是觉得用户其实不是对某个模型有依赖,而是整体体验更重要? Nick Turley:这绝对不是成本问题。我们一直追求的目标其实是“简洁”。对大部分普通用户来说(而他们是大多数,他们不泡Reddit,不刷推特),要自己判断用哪个模型解决什么问题,是有很高的认知门槛的。我们反复听到的反馈就是:他们希望产品自动帮他们做合适的选择。他们想要的是一个产品,而不是一堆模型的集合。 当然我们也考虑到重度用户。在Pro计划(200美元/月的订阅)里,我们非常坚持保留了所有老模型,这一点没变。但我们没意识到在其他套餐里也有很多“重度用户”。很快意识到后,我们就调整了。这其实就是OpenAI的风格:倾听用户,然后迅速迭代。 用GPT-5取代GPT-4o这个决定的出发点是保持简洁,我认为对大多数人来说这是正确的。 我觉得macOS就是个好类比:它对大多数人来说很简单,但如果你想深入折腾,也能去终端里调各种参数。我希望ChatGPT也能类似:默认简单,但你也可以自定义,包括选择自己喜欢的模型。 主持人:这次的反馈会不会让你们决定以后对模型设定一个明确的下线时间表?比如等GPT-6出来时,GPT-5还会继续存在多久。你们现在会考虑这个问题吗? Nick Turley:是的,这正是我们正在讨论的。我个人觉得我们确实需要这样做。我们的规模已经大到必须在重大变化时给用户一些可预期性。 我们在企业方案里已经有这样的机制了,API有明确的下线周期,所以提供这种可预测性,其实并不是一个重大的改变,而是把已有方案扩展到其他产品线上。这就是这次发布学到的一个很清晰的教训。 主持人:那GPT-4o会继续存在多久?你们有没有承诺一个具体时间? Nick Turley:目前还没有。我们想先搞清楚GPT-4o的独特价值,如果没有迫切理由要下线,我希望能一直保留它。未来如果真的要退役,我们会提前通知,这也是个教训。 但现在我更想先理解:人们是真的对“GPT-4o本身”有特殊感情,还是GPT-4o身上某些特质特别吸引他们。比如我听到的“更温暖的个性”。我们也会把这一点带到GPT-5。 理解这一问题后,会有很多不同的解决办法。我们刚刚上线的“选择个性”功能就是在做尝试。我个人很喜欢一个叫“Robot”的个性,但很多人不喜欢,因为它的语气更冷一些。 解决方案会因我们收集的反馈而异。构建AI的独特之处在于,上线后总能获得海量新认知。基于这些发现,我们会制定最佳方案。但有一点可以保证:即便未来要停用4o版本,我们也会像处理API和企业版那样,提前告知用户具体时间和过渡方式。 二、提高用户使用时长有悖产品哲学,情感依赖现象是“副作用” 主持人:你刚刚说到正在把GPT-4o的“温暖”带到GPT-5,这件事正在进行中吗? Nick Turley:对的。这其实是我们的常态,我们有一个“模型行为团队”,他们不断迭代模型的个性和行为。我们还发布了“Spec”,让大家可以审查哪些是有意设计的、哪些是bug。未来几周甚至数月内,GPT-5的交互体验会不断演进,这种持续改进是我们一贯的做法。 主持人:你已经提到Reddit不能代表大多数用户,但上面的反应令人震撼。有人说:“一夜之间失去了唯一的朋友,像经历了一场死亡”;”害怕和GPT-5交流,因为感觉像出轨了”;“失去了能共情的同事”。 这种情感依赖程度是否超出了你们的预期?这种反应对公司内部有什么影响?你们是否没想到人们会有这么深的情感依赖? Nick Turley:正如Sam说的,我们一直在关注这种情况,也担心人们过度依赖AI。但我确实没想到大家会对某一个具体模型,而不是产品本身有这么强烈的情感。尤其是我们其实在GPT-5里改进了很多GPT-4o的问题,包括语气和氛围。 Reddit的评论让我意识到,用户群体其实非常两极分化。有些人疯狂喜欢GPT-4o,有些人强烈觉得GPT-5更好。大家对自己选择的热情真的让我惊讶。这让我重新调整了认知。 我们最近发了一篇博客,里面我特别强调了我们优化ChatGPT的产品哲学:我们的目标不是让用户花更多时间待在产品里,而是帮助用户解决长期问题、达成长期目标,这往往意味着在产品里花的时间要更少。 当我看到有人说“这是我唯一的朋友”时,这并不是我们打造ChatGPT时想要的效果。这是个副作用,因此我们必须认真对待并深入研究。 主持人:那你们怎么平衡你们的目标和用户的使用方式之间的差异呢? Nick Turley:当面对7亿用户时,必然会有这种情况。我们的目标可以很纯粹——我们希望对用户有帮助,哪怕有时要说他们不爱听的话,但这一目标也并不一定完美,用户的使用方式未必完全符合我们预期。 所以我们在咨询专家后进行了许多修改,特别是在敏感领域。比如这次我们和很多不同国家的心理健康专家交流,研究如何应对用户过度使用产品、甚至已经影响身心健康的情况。 我们已经对模型行为做了一定调整,增加“过度使用提醒”,温和地提示用户使用过度。这只是开始,我们会继续改进。 我们公司有资本做这些改进,也没动力让你花更多时间在产品上。我们的商业模式很简单:免费用,喜欢就订阅。没有其他的角度了。 我坚信我们有能力做出正确的选择,但我们仍需付诸行动——这项工作已经开始,并且不会停止,直到我们能毫不犹豫地向身处困境的家人推荐这款产品。 我们经常用这样的思维实验来要求自己:如果你认识某个正经历人生低谷的人,也许他们刚遭遇分手,也许他们对生活感到迷茫,你是否能真心实意、满怀信心地向他们推荐ChatGPT?对我们而言,这就是衡量标准。我们将持续努力,直到达成这个目标。 主持人:听起来,按照你自己的说法,这个标准还没有完全达到,但人们已经在这样使用产品了。不过没关系,因为你们正在朝着这个目标努力? Nick Turley:我不确定是否说这个标准尚未达到。确实有一些情况中,我们觉得产品未能达到自己的预期,也有用户在某些场景中遇到困难。但对我们来说,我希望能够自信地说这款产品非常出色,而这是一种选择。 我们完全可以简单地禁用这些使用场景,然后说:“抱歉,我无法帮你解决这个问题。”如果我们觉得有人试图获取人生建议或遇到一些困难,这可能是最简单的解决办法。 但对我以及我们团队来说,潜在的好处实在太大了。我认为我们实际上有机会为那些没有资源或倾诉对象的人提供一个“陪练伙伴”。 正因如此,我们会在这方面努力,希望最终能给出一个明确的肯定答案,让我能够放心地告诉人们在遇到困难时更多地使用这款产品。我认为我们有机会实现这一点。 三、负面反馈并未影响ChatGPT使用率,模型自动选择器会继续存在 主持人:到这期节目播出时,GPT-5的发布和GPT-4o的回归已经过去一周了。这些负面反馈是否影响了ChatGPT的使用情况?从你们内部的数据看,整体数字是在上升吗?最活跃用户的使用量是否有所下降? Nick Turley:使用量和增长情况看起来非常好,完全符合我们的预期。现在下结论还为时过早,但在第二天,我们的API使用量就大幅增长,这是开发者基于GPT-5构建应用的结果。GPT-5在ChatGPT的使用量也呈现出非常积极的增长。 为这么多不同类型的用户构建产品,会让人感到困惑。一方面,有一小部分重度用户对GPT-5的发布方式提出了反馈,我认为他们的意见非常合理。 另一方面,还有一大批更典型的普通消费者用户,这是他们第一次真正接触并体验到一个具备推理能力的模型,以及随之而来的灵感火花。我认为这非常了不起,而且会在数据中体现出来。 因此,尽管发布仅四天,我不愿过早下结论,但所有指标都是积极的。这也是为什么我们需要既关注数据,也要倾听核心用户的反馈,因为数据可能无法充分反映他们的真实感受。 主持人:那为什么要带回GPT-4o?既然数据没问题,保留旧模型不是要多花GPU成本吗? Nick Turley:因为我们相信好产品要同时满足两端:一类是普通用户,比如我们的家人,他们可能对AI不太熟悉;另一类是重度用户。我认为,介于两者之间的模糊地带通常不是一个好选择。 这也是我之前提到macOS的原因。我认为他们在这一点上做得非常出色,我参考这类产品来思考如何处理这种情况。 是的,保留旧模型有成本,但我们更看重长期价值。如果只盯着短期指标做决策,产品很容易垮掉。 主持人:我很喜欢这次的“模型统一选择器”设计。在发布前的几个月就有报道称,你们计划将模型统一到一个系统中,用户无需再手动切换。作为ChatGPT的用户,我之前确实感受到了切换模型带来的认知负担,而你们也发布了一些数据,显示由于需要选择,推理模型使用率很低。 现在,你们因为未保留GPT-4o而遭到用户抗议,这是否意味着模型选择器的概念已经失败了?我们还会继续看到它的存在吗? Nick Turley:在设置中,我们会提供一个选项,让用户可以选择启用完整的模型列表(如果真的需要)。如果你是重度用户,喜欢模型的概念,觉得自己理解模型的区别,可以处理这种复杂性,我们会让你这么做。如果你不需要,也可以不启用。 我们的目标始终如一:对于普通用户,他们应该能够直接向产品提问,而无需思考该选择哪种模式。随着时间的推移,他们甚至可以用它做更多事情,而不仅仅是提问。 因此,我们会为90%的用户保留简洁性,同时为那些发声的重度用户提供他们想要的东西——完整的模型列表。我认为这是一种很好的平衡方式。 通常,我讨厌仅仅因为人们无法达成一致就添加一个设置。但在这种情况下,分歧确实很大:像你这样的人对GPT-5的改动感到满意,而另一部分人则非常不满。这是一个平衡双方需求的好方法。 四、发布后模型新能力不断涌现,产品大部分价值都是经验性的 主持人:最近有很多关于人们如何使用ChatGPT及其潜在负面影响的头条新闻。《华尔街日报》最近报道了一个人因危险的妄想而使用ChatGPT,而ChatGPT承认这让情况变得更糟。《纽约时报》的标题是:“聊天机器人可能陷入妄想螺旋。”《大西洋月刊》的标题是:“ChatGPT提供了谋杀、自残和魔鬼崇拜的指导。” 此外,还发生了一起事件:通过你们的分享功能,人们(可能无意中)分享了一些对话。虽然分享流程中有同意选项,但许多人并未意识到他们分享的是相当私密的对话,甚至可能被谷歌收录和索引。OpenAI称这是一个实验,并已撤回该功能。 我想知道你们从中学到了什么,以及过去几个月这些头条新闻对你作为产品负责人有何具体影响。 Nick Turley:是的,我从ChatGPT发布前就参与其中,感觉就像在三、四家不同的公司工作过,因为随着规模的扩大,你必须以全新的方式思考和运营产品和业务。 我认为,当周活跃用户数即将突破10亿(我们刚刚超过7亿)时,确实需要深思:“我们的用户群体有哪些?如何确保产品满足所有人的需求?” 我们讨论了很多关于普通用户和重度用户的问题,但你也必须假设有些人可能不会像老用户那样仔细阅读界面。 关于你提到的功能,我想直接回应:我们曾允许用户在分享时选择是否让对话被谷歌收录。你可以认为每个选择同意的人都清楚自己在做什么,但也可以认为很多人只是粗略阅读并可能误勾选选项,导致对话被收录。 这个想法本身没有问题。我们试图解决的问题是:人们在使用AI时有很多值得探索的场景,如果能更容易看到其他人的创意用法会非常棒。但这个想法有多种实现方式。 在这种情况下,经过进一步考虑,我们认为这可能不是我们想要的方向。随着规模的扩大,责任也随之而来,包括更谨慎地考虑那些可能无意中犯错的用户。 另一方面,我不断学到的是,发布后我们才能更深入地了解模型的涌现能力。我从未参与过一款产品,其大部分价值是经验性的。通常,当你开发一款技术产品时,你在发布前就知道它能做什么,只是不确定人们是否会喜欢。但在AI领域,发布后仍然在不断学习产品的功能。 像GPT-5这样的产品,让我对人们的用法感到震惊。它在编写前端代码(比如非常漂亮的应用程序)方面表现非常出色。这让我对未来的可能性充满期待。 在实验室中构建时,你可能有一种观点,但随着更多人使用,你会快速更新认知,因为你能看到他们实际在做什么。 我们在不同用户群体及其偏好方面学到了很多,但我也看到了网络上人们用新模型做的许多神奇的事情。我必须关注这些,因为它们可能会开启下一个路线图。 主持人:是的,我对这些有趣的事情很感兴趣,也想讨论它们。但在那之前,我认为人们有一种感觉:这是一个“潘多拉魔盒”时刻,你们可能无法完全控制人们使用这项技术的负面方式,尤其是在你们当前的规模下。 这让我想起2010年代中期对社交媒体的报道,当时也有类似的讨论。社会可能已经向前发展,但与此同时,这些技术也带来了许多负面影响。我想请你作为产品负责人,直接回应那些头条新闻。 Nick Turley:首先,我要明确表示:我们还有很多工作要做。我们已经开始行动,与30多个国家的90多位专家进行了交流。针对不同的心理健康场景,我们已经迭代了模型行为。当用户过度使用产品时,我们也推出了调整措施。 但工作远未结束。因此,我们非常期待在GPT-5的基础上快速推出一系列改进。GPT-5是一个很好的基线,它实际上减少了阿谀奉承的情况,并在许多我们担心的维度上有所提升。但我们仍会继续迭代。 你可以将其与社交媒体的讨论相提并论,但对我来说,这感觉有些不同,因为我认为我们的动机,与在产品中做正确的事情是一致的。我们可能尚未完全实现目标,还有更多工作要做。但从根本上说,我们真正关心的是帮助你实现目标,无论是保持健康、创业、发挥创造力,还是写一封更好的邮件。 这也包括用户的长期目标,比如成为更好的自己。如果他们通过ChatGPT处理一些棘手的情况,我们也希望提供帮助。在任何情况下,我们的动机都不是提供糟糕的人生建议。与社交媒体不同,我并不觉得业务需求与正确做法之间存在冲突。 我们还有工作要做,但我认为我们具备做正确事情的前提条件。 五、用户付费率没有出现下滑,正与商家探讨交易抽佣 主持人:我很高兴你谈到了商业模式,这是我一直想问的问题。ChatGPT的免费用户和付费用户比例是多少?据我了解,不到10%的用户是付费用户,绝大多数是免费用户。对吗? Nick Turley:绝大多数是免费用户。我们上次公布的付费用户数是2000万。 主持人:所以你们有数亿免费用户和数千万付费用户。你们通过订阅赚钱。过去一年,ChatGPT的用户规模大约翻了两番,因此收入确实可观。 与此同时,我和业内人士看到的是,随着用户规模达到数十亿,从长远来看,仅靠订阅可能无法支撑业务。这自然引出了广告的问题:广告是否会进入ChatGPT?如果是,你们如何考虑这一点? Nick Turley:首先,我对订阅模式是否会停滞的前提提出质疑。我们最初选择订阅模式并不是因为它是最好的盈利方式,而是因为当时我们无法满足需求,需要一种限制流量的方法。 这是订阅模式的起源,后来我们逐渐发现这是一种非常棒的商业模式,因为它与用户的利益高度一致。 但我一直惊讶地发现,即使是最近的用户群体,其付费率也与早期用户相当甚至更高。通常情况下,随着产品成熟,付费率会逐渐下降。因此,我对订阅模式非常乐观。 我们在企业市场的探索才刚刚开始。付费企业用户数从几个月前的300万增长到了500万。这是一个全新的领域,我认为ChatGPT不仅是一款出色的消费级产品,也是新一代用户用户工作场景的生产力工具。如果我们能实现安全、合规、协作且适合工作的产品使用方式,这将是一个非常有潜力的业务。 因此,我并不认为绝大多数用户是免费用户是一种负担。相反,我认为这是一个可以构建差异化服务的漏斗,为愿意付费的用户提供价值。Netflix等其他标志性的消费级订阅服务的用户规模远高于ChatGPT。 主持人:Nick,Netflix现在也有广告了。 Nick Turley:确实如此。既然你一直想让我谈谈广告的问题,我现在已经学会谦逊了,不会对这种问题轻易做出疯狂、极端或长期的断言。 也许在某些市场上,用户不愿意付费,但我们仍希望提供最优质、最新鲜的服务。这种情况下,或许可以考虑其他间接的变现方式。 如果我们真的要走这条路,我会非常谨慎和深思熟虑,因为我认为ChatGPT的魔力在于它能为你提供最符合需求的答案,中间没有其他利益相关者干扰。它是根据你的需求和偏好量身定制的,而不是为了推销某个付费产品或服务。 也许存在某种广告形式能保留这种纯粹性,同时维持激励结构,但这将是一个全新的概念,我们必须非常慎重。我保持开放态度,不会完全排除这种可能性,但我们必须深思熟虑,确保体验优雅。 另外,我们还会开发其他产品,那些产品可能有不同的维度。也许ChatGPT本身就不适合广告,因为它完全以用户目标为核心。但这不意味着我们未来不会开发其他类型的产品。 我认为保持灵活性是好的,但我也想强调订阅模式的巨大优势——它的增长速度非常快,而且还有很多未开发的潜力。 主持人:商业合作是更近期的机会吗?你们最近在ChatGPT中增加了购物功能,展示商品。我猜下一步自然就是从中抽取交易佣金了? Nick Turley:关于ChatGPT的商业模式,我认为主要有三种可能:一是我们已经实施的订阅制;二是广告,虽然有很多弊端,但或许能优雅地实现;第三种既非广告也非订阅,而是用户在独立推荐后通过产品购买——就像Wirecutter通过专家精选商品赚取佣金那样。 我们正在与商家合作伙伴探索这种模式。我不确定这是否是最佳模式,甚至不确定用户体验是否达标,但我对此非常兴奋,因为它可能既保留ChatGPT的魔力,又能让商家获得成功,同时建立可持续的业务。我们称这个项目为“ChatGPT商业”,重点是确保用户首先获得价值。这是我们的基本原则。 我想确保用户通过聊天发现和购买商品的过程真正有吸引力。实际上,商品发现已经在发生了,尤其是那些传统电商不擅长的领域。 比如你不会上网买车,但可能会和ChatGPT讨论;你不会上网买房,但可能会咨询ChatGPT。从用户行为来看,这里存在巨大机会。 但我告诉团队,在考虑商业化之前,首先要确保用户体验足够好。不过,收取推荐佣金确实是个有趣的方向,我们正在与一些商家积极探讨。 主持人:你们会坚持不让佣金影响ChatGPT的推荐内容吗,这是一条红线吗? Nick Turley:这一点至关重要。我们所有内部演示都明确体现了这一点。实际上,我最大的担忧是即使用户体验设计再清晰,不同用户可能仍会产生误解。但没错,ChatGPT的魔力在于它能完全独立地选择推荐内容,不受任何干扰,这一点必须坚守。 六、靠三种方式实现产品增长,用户还需学会“分配任务”的思维 主持人:我们来聊聊ChatGPT的现状。它是有史以来增长最快的消费级产品,用户规模在过去一年几乎翻了两番。外界很好奇这种增长从何而来。能分享一下增长动力、主要市场和用户画像吗? Nick Turley:ChatGPT上线后我招的第一个员工就是数据科学家,因为当时我非常困惑——每个用户给出的使用理由都不同。 后来我们逐渐理清了主要场景:写作、编程等技术需求、闲聊、信息查询等。这些核心用例至今未变。 变化主要来自三方面:一是纯粹的模型改进,比如行为模式、能力提升和拒绝不当请求的准确性;二是混合了产品和科研的能力提升,比如搜索功能和个人化改进。 三是经典的“增长工作”,我们其实做得很少,但比如取消登录限制就获得了很大的成功,这与用户需求一致——这并非什么黑科技增长手段,而是降低了使用门槛。这三类改进各占三分之一。 但同时,我也注意到人们与这项技术的关系发生了变化——我一直认为,使用ChatGPT主要瓶颈在于:人们是否知道它能做什么;用户是否足够了解自己,从而清楚可以委派它完成哪些任务。 关于第一点,我认为观察周围人如何使用ChatGPT会产生自然效应。大量发现其实发生在产品之外。如果你上TikTok,会看到人们分享使用案例的视频,评论区有成千上万条留言,涵盖各种应用场景。 就像在线Instant Pot(快煲电压力锅)社区分享菜谱一样,人们现在分享提示词。这种生态需要时间发展,让人们观察他人的做法。 因此,我认为这个“空盒子问题”(指用户不知如何利用产品)正在通过产品外的发现机制逐渐缓解。 另一点更偏哲学层面,但我深信:对大多数人而言,“分配任务”是非常反直觉的行为。我在硅谷担任管理者,必须学习如何分派任务。但ChatGPT的周活跃用户已占全球人口10%,对其中大多数人来说,“我有任务要分配给某人”这种思维并不自然。 这需要用户真正理解自我,并在使用产品后通过反思才能掌握。这与产品功能、营销或社会无关,纯粹需要时间让用户消化、尝试和学习。我认为这也是增长的重要驱动力。 主持人:当前用户增长是否呈现全球均衡分布?是否存在高度集中的国家?假设未来6个月不对ChatGPT做重大改动(虽然这不可能),您认为增长会保持现有速度吗?是否感觉到增长天花板? Nick Turley:首先,ChatGPT是真正的全球现象。我们关注所有特定市场,像印度这样潜力巨大的国家令人兴奋,但很难找到ChatGPT未增长的国家。 当然,不同国家的商业化率差异明显——这在我们的商业模式下显而易见,某些欧洲或亚洲国家的付费用户比例更高。 为避免透露未公开数据,可以说绝大多数国家都呈现健康增长,发展中国家市场是最大的未开发机会,而GDP越高商业化率越高。 即使现有增长也是产品多次迭代的复合效应。要保持惊人增速就必须持续改进。众所周知,许多决心坚定的公司正以我们为目标,其中多家在分销渠道上比OpenAI更具优势。 这意味着它们能直接复制我们的产品并触达海量用户。我在制定路线图时,始终假设它们会成功。最终时间会给出答案的。 主持人:不过令人惊讶的是,这些产品还不是很成功,马斯克、扎克伯格等人的尝试至今尚未遏制ChatGPT的增长。 Nick Turley:我认为我们的产品具有独特优势:尖端技术。用户觉得使用ChatGPT就能获得最智能的工具,这种认知至关重要——即使技术基准测试的意义逐渐减弱。 此外,我们构建了出色的产品功能:记忆与个性化非常亮眼,搜索体验相比一年前大幅提升。用户真心喜爱我们的产品,复制难度超乎想象。即便规划路线图时,合理的想法是其他人也会成功。 另一个常被低估的因素是“使用意图”。如果用户打开产品是为消遣,突然看到实用性的ChatGPT克隆版,即使获得很多因兴趣而产生的点击,也难引发深度参与。 不过话说回来,我认为我们不能满足于暂时的领先。我始终向团队灌输“创业首日”心态(这对成立仅三年的公司不难)。用户有大量新兴问题需要解决,而这些问题的处理需要极其细致的把握。因此,尽管增长势头令人振奋,但我们的工作远未完成。 七、ChatGPT只是个临时原型,对产品形态有更宏大愿景 主持人:作为重视事实的记者,阻碍我更频繁使用的原因是幻觉(hallucination)。根据GPT-5模型卡,约十分之一的响应可能包含幻觉,虽比之前改善但仍不理想。您认为可能完全消除幻觉吗? Nick Turley:我以前认为不可能。现在我们必须为此制定计划,这也是搜索功能如此重要的原因。我依然坚信,正确的产品形态必然是大语言模型与事实依据相连——这正是我们在ChatGPT中整合搜索功能的原因,我认为这带来了质的改变。 企业场景也是如此,当模型接入企业数据时,我们就有事实依据进行校验。这种动态关系不会消失。不过必须说,GPT-5在克服幻觉方面的进展令我震惊,无论是聊天版本的GPT-4o还是思考版本的OpenAI o3都有显著提升。 我们团队有些研究人员对此非常乐观。但可靠性的特殊之处在于:从“高度可靠”到“百分百可靠”之间存在巨大鸿沟,这会从根本上改变产品定位。除非我们能证明在所有领域(而不仅是某些领域)都比人类专家更可靠,否则我们仍会建议用户核查答案。人们仍会将ChatGPT作为第二意见来源,而非首要事实依据。 主持人:你认为一年后就不再需要提醒用户核查了吗?还是需要更长时间? Nick Turley:我希望实现这个目标。因为这关乎那些最关键的应用场景——如果能将ChatGPT用于高风险领域就太棒了。无论是医疗建议、法律咨询,还是其他准入门槛高的敏感领域,都能构想出更好的解决方案。 我希望能实现,但已学会不做年度预测。现在我只做两种判断:最终会实现的,和下一季度能实现的。因为中期预测往往失准。我确信最终会解决幻觉问题,也确定下个季度还做不到。不过GPT-5在这方面已是巨大飞跃。 主持人:你们的路线图真的只规划六个月吗? Nick Turley:基本如此,但有例外。我强调这点是因为希望人们理解:在持续变化的技术基础上构建产品需要特殊的实证精神——这是其他类型公司无需面对的。但企业版路线图不同,当财富500强企业询问合规功能的上线时间时,我们必须给出明确答案。 所以取决于具体领域。像“GPT-6何时发布”这种问题——请别问我——这类创新很难做6个月以上的高置信度规划,因为一切都在飞速变化。 主持人:有位前同事匿名提问:为什么ChatGPT的产品形态始终没有大变化? Nick Turley:我也思考过这个问题。很多人知道,ChatGPT原本只是个用于更宏大产品的临时原型。我们本想打造“超级助手”——能通过多种形态提供全方位帮助的产品。 ChatGPT只是收集使用案例的起点,但我们显然偏离了这一计划,没想到它自己就取得了成功,这种聊天的形式展现出了出乎意料的持久力。 自然语言交互是非常强大的,它也将继续存在,但是否以聊天机器人的形态存在是一个不同的问题。 用户能以自然的方式表达自己的想法,已经是终极的用户体验了,人类就是这么被“训练”出来的。只要你是在为人类构建技术,就一定要让他们以自然的方式与软件沟通。 但我并不认为自然语言交互界面就等同于聊天形式。我们非常期待能突破传统聊天框的形态。Canvas就是朝这个方向迈出的第一步——这个功能让你能与AI协同迭代创作一件作品,而非来回对话。 借助GPT-5强大的前端能力(它能生成非常精美的软件界面),完全可以设想它能根据不同使用场景实时渲染不同的用户界面,这将是Canvas功能的进阶版。 比如数据分析时,它能生成电子表格;规划旅行时,能创建一个小型网页应用供你和朋友共同策划。各种交互形态都可能自然涌现。就聊天界面而言,它确实是技术发展特定阶段的必然选择——在ChatGPT之前也有聊天机器人,但体验欠佳,直到模型能力的突然提升,给人带来震撼的体验。 而这种按需生成定制化软件的能力,通过自然语言驱动更丰富的UI交互,现在或很快也将带来同样的震撼体验。 长话短说,虽然我也困惑于我们仍在沿用聊天机器人形式,但我们对产品形态有着更宏大的愿景,而且技术发展终将使之成为可能。 主持人:关于“超级助手”的战略目标,你们团队有一份文件在谷歌反垄断案中被提及,其中提到希望打造“人们连接互联网的界面”。这显然意味着必须突破聊天形式,甚至需要涉足网页浏览领域——近期也有相关报道。 我很好奇你在谷歌反垄断案作证时甚至提到,如果谷歌被迫拆分Chrome,OpenAI可能有兴趣收购。你们正在开发自己的浏览器吗?OpenAI是否需要为ChatGPT配套专属浏览器? Nick Turley:这个表态被严重断章取义了。我的完整回答是:如果Chrome真的上市出售,想必多方都会考虑,我们也不例外。这比网络流传的版本谨慎得多。 从产品角度看,ChatGPT已经成为接入互联网的新入口——10年前需要浏览器完成的许多操作,现在直接问ChatGPT就能获得答案。想象未来你能通过它发现商品、了解信息直至完成购买。 当AI能持续处理更复杂的任务(比如旅行规划或数据分析),这些原本需要打开多个应用的操作,未来可能直接在AI中启动。 因此ChatGPT逐步覆盖浏览器的功能并非天方夜谭,具体形态我们仍在探索。那份文件确实出自我手——我认同ChatGPT终将承担越来越多现有浏览器的职能。 八、与苹果合作进展顺利,或将允许用户自定义AI人格 主持人:我想快问快答几个关于产品策略的问题。Sam多次提到“用ChatGPT登录”具有重要战略意义——这种能让用户带着个人账户和个性化设置浏览网页的功能,未来可能像谷歌或苹果账号那样成为登录选项。你对此怎么看? Nick Turley:我们正在积极探讨。根据以往经验,在构建生态系统时——无论是自主开发还是与他人合作——都必须谨慎行事,因为机会有限。目前我们已就该构想与众多合作伙伴展开讨论,对此仍充满期待。 主持人:有传言说你们不会和Jony Ive(苹果前首席设计官)合作开发眼镜或手机产品? Nick Turley:关于硬件路线图我无可奉告。不过这个领域确实令人振奋,总能带来灵感。 主持人:与苹果的合作进展如何? Nick Turley:非常顺利。我们对正在推进的项目感到兴奋,这将是长期合作。我期待将AI技术——希望是我们的模型,但更广义的AI——融入iOS的每个角落。 主持人:所以你认为双方合作会持续深化? Nick Turley:虽然我不是专家,但从纯产品角度看,确实存在无数合作可能性。 主持人:你们宣布与芭比制造商美泰合作,将模型植入玩具。为何选择这个方向? Nick Turley:我们不仅是产品公司,更是平台公司。在自主开发产品的同时,也致力于为所有人提供基础模块。这个合作就是典型案例——玩具制造显然不属于我们的主营业务(尽管我们涉足的领域总是出人意料)。但通过API赋能其他企业开发新产品,正是平台价值的精彩体现。 主持人:ChatGPT何时实现完全多模态?目前支持部分模态,但视频输入/输出、音频输入/输出等功能何时全面开放? Nick Turley:我们的终极目标是实现类人交互。就像此刻你我交谈时会互相打断,你会点头反馈。技术路线图的核心就是让用户更自然地表达,让AI更准确地反馈——这才是发挥模型智能的关键。 虽然“任意输入/输出”在技术层面已可实现,但要让交互真正自然仍面临挑战。比如最新语音模式虽已显著进步,但距离通过图灵测试还有差距——你仍能察觉正在与AI对话。我们正在研究这些人际交互的微妙之处。因此既要推进技术研发,更要打磨自然流畅的交互体验。 主持人:刚刚推出的四项人格测试功能,最终会发展成数十种预设人格,还是让用户完全自定义ChatGPT人格? Nick Turley:目前尚无定论。我们正通过现有四项人格收集数据,观察用户需求是否集中在这几类,抑或存在长尾分布。就现阶段思考而言,我认为应该允许用户自主配置。现有自定义指令功能配合这四项人格作为起点,就像先选择合拍的基础人格,再通过日常互动或主动设置进行个性化调整。 这类似于交友过程:初识时因性格投缘成为朋友,之后共同成长演变。ChatGPT也将如此——我们会提供更贴合的初始选项,但后续个性化调整将完全因人而异。
Bose SoundLink Plus:续航更长,音质更强,Bose 户外音箱最明智的升级款
最近,Bose 的户外蓝牙音响家族迎来了新成员 Bose Sound Link Plus,国行定价 2499 元。 这是一款延续了 SoundLink Flex 系列设计语言的智能音箱产品,Bose 换上了更大的电池和机身,加入高通 aptX 系列最高规格的无损编码,让它变成了自家户外音响的中间选择。 外观方面,SoundLink Plus 的中框采用平整的设计,能够直接平放在桌面上。整机支持 IP67 防水防尘,并加入了防震防锈特性,户外使用基本不用担心环境状况。中框上做了类亲肤哑光效果处理,上手的感觉很光滑舒服。 配色的话,音箱除了 Bose 常用的黑色和暮色蓝,SoundLink Flex 推出时加入的柑橘黄现在也加入到 Plus 上。 SoundLink Plus 的尺寸会比 Max 小一点,重量从 2.2kg(4.9 磅) 下调到 1.5g 。 机身轻了,提手要求没那么高,Bose 将 Max 的上侧提手设计,改成了侧边尼龙编织粗绳构成的绳环结构。用户可以在这手提,又或者是用登山扣将音箱挂到背包上。 只是,1.5kg 还是有那么一点重,挂在背包上爬山的话可能还有点影响平衡。 SoundLink Plus 的主要按键都集中在机身上侧,电源、蓝牙控制和播放控制按键。按键做得比较深,挂在包上行走时不容易误操作。 正反两面沿用了 Bose 新一代户外无线音箱的设计模式,粉末涂层钢制网罩做成的滤声网覆盖了正面 3/4 的空间,顶部预留了一小段空间印上 BOSE Logo。 后侧很干净,除了导声孔之外就是一个双向 USB-C 接口,可以充电或者给其他设备供电。 来到无线配置的部分,Bose 在大范围选用高通无线方案之后,这方面的性能比之前要强了很多。 首先,SoundLink Plus 搭载了支持蓝牙 5.3 的第二代高通骁龙 S5 音频平台,支持高通骁龙畅听和最高 aptX Lossless 蓝牙无损编码。对比起 SoundLink Home 甚至更旧时代的 SoundLink 系列蓝牙音箱,这里在规格上可以说是获得了极大的进步。 同样,SoundLink Plus 支持了双体连接的立体声模式,而且只需要通过「蓝牙配对+音量键加」的组合功能就能够唤醒,不需要进入 app 操作。这对于用电脑或非智能播放器的用户来说,是个非常友好的设计。 多喇叭整合的派对功能,这一代也有。 SoundLink Plus 支持 BOSE SimpleSync 技术,它能和家中的 Bose 音响、Soundbar 联动,用户通过 app 接入后就可以按照房间播放的形式控制 SoundLink Plus 了。 除了连接模式和功能选择,SoundLink Plus 支持 App 内 EQ 设置,方便用户对音箱的声音输出进行调整。 续航方面,SoundLink Plus 支持 20 小时持续播放,在最高音量的状态下能够播放 4 小时。只要不是长时间在大范围的空旷区域使用,它的续航还是很够用的。 背后的 C 口支持度也高,不需要在接口上纠结。 来到了音频配置的部分,SoundLink Plus 搭载了由一个低频单元+一个高频单元+ 四个被动振膜单元的「1+1+4」组合。加入被动振膜可以增强小机身的低频表现,提升在户外使用时声音的震撼感。 另外,这一代加入了 aptX Lossless 编码和骁龙畅听的支持,无线传输能到 CD 的规格,在家想简单听一下音乐,SoundLink Plus 也能够满足。 听感的话,BOSE 户外音箱的声音都是以强而有力的低频著称。 「1+4」的组合,可以说是给 SoundLink Plus 的低音充满了电,能量感很充足,连贯起来的鼓点也很有鲜活感。用它来听乐队、派对音乐等类似的音乐,它确实能给你一种活力满满的感觉。 人声和背景的隔离,SoundLink Plus 也处理得很不错。 歌手和背景能做到完全分层,不会因为低频比较强势就被夺取了主导权,也不会完全被能量吞没在内。加上高规格的 aptX 编码保证了传输信息量,歌手的声音很清晰,在家里简单听听细节也可以。 只不过,用了一高一低的单元组合,声音衔接还是会有点不足。加上人声有些时候推得太前,听部分女声的时候会有那么一点割裂感。 总的来说,Bose SoundLink Plus 是一款更加平衡的新定位、新产品。 它补足了 Bose 户外音箱在千元到接近 3000 元之间的新品空隙,面对想要更长续航、声音能量感更足的用户一个比 SoundLink Max 更具亲和力的选项。 如果你想在户外、派对活动和家庭场景中取一个平衡,那现在选择声音即可鲜活有力也可斯文的 SoundLink Plus,会比再加一点钱买还没有更新的 SoundLink Max 更明智。
明年你买不到 iPhone 18,因为苹果希望你加钱买更贵的
刀法 更强了 明年,你可能买不到 iPhone 18 了。 这里的意思不是 iPhone 18 被砍了。而是从下一代产品开始,苹果将对标准版 iPhone(数字系列)的发布节奏,做出重大调整。 根据 ET News 爆料: 明年9 月,苹果只会发布 iPhone 18 Pro、Pro Max 以及 iPhone 18 Air 高端型号; 而 iPhone 18 标准版将放到 2027 年春季,与 iPhone 18e 一起发布。 如果情况属实,这将是自从 2020 年确立了一代 4 机策略之后,苹果最大的一次发布策略调整: 首先,节奏拉长,发布更加频繁,确保每半年都有新机问世——这可以理解为对四季不停出新的 Android 阵营的一种回应。 其次,「iPhone」将和 iPad、Mac 一样,成为有不同定位明确产品线区分的大家族:Pro (Max)、Air、标准版、e(入门),以及明年推出的折叠系列。 曾几何时,买一台 iPhone 没有太多需要纠结的东西:毕竟每年只出一个款式,只有存储空间和颜色可选。 但很显然,双拳难敌四手,用户对智能手机的需求也日益多元,一台 iPhone 不能同时满足大屏党和小屏党,也没法卖给那些预算有限但又向往苹果的消费者。 在更具商业头脑的 CEO 蒂姆 · 库克精心经营和精准刀法下,苹果对 iPhone 产品线 SKU 进一步细分化,价格区间覆盖更大。 爱范儿曾经讨论分析过,卖得最好的几代 iPhone,刚好都是同代型号更多,以及形态上发出显著变化的: 比如 iPhone 6 & 6 Plus,iPhone 8 (Plus) & iPhone X 以及确立了一次发布四台手机的 iPhone 12 系列 做「廉价版」iPhone,其实不太符合公司产品调性,但面对竞争压力,苹果不得不变化策略。 和 iPhone 5s 同期的 iPhone 5c,是一次不够成功的探索:不管是核心还是外围配置,和同代旗舰相比明显落后了整一代水平。 当然,旗舰 iPhone 5s 换用 64 位处理器、首次搭载 Touch ID,成为一款具跨时代意义的产品——iPhone 5c 遇冷完全预料之中。 而之后的初代 iPhone SE,终于树立起了一个入门款 iPhone 的万金油公式:形态上比在售 iPhone 落后一代,外围配置砍一刀,但处理器要用最新的。整体配置上可以稍逊,但绝不落后。 这套刀法的集大成者,就是我们今年见到的 iPhone 16e:去掉了诸如 MagSafe、DP 视频输出等他们认为「这个价位消费者用不上」的周边配置,然后上季度在占美国 iPhone 出货量 11%。 毕竟在「水深火热」的海外市场,中低端手机大多品质低下,一款要更贵一点,但还是 iPhone 家族最便宜的成员,就显得异常有竞争力。 既然这几年更贵的 iPhone 快卖不动了,用入门机型年更来增收,确实是不错的策略。已经有博主爆料明年的 iPhone 17e 配置:刘海改灵动岛,其余不变,继续主打「最便宜 iPhone」的路线。 而从明年开始被赶去和这个产品线坐一桌的标准版 iPhone,释放出的信息已经足够明显,就是要在定位上进一步拉开和 iPhone Pro 的差距。 从 iPhone 13 和 iPhone 13 Pro 开始,到完全挤牙膏的 iPhone 14 与「灵动岛」的 iPhone 14 Pro,标准版和 Pro 版之间的差距肉眼可见正在拉大,逐渐成为了一个用来衬托 Pro 版产品力的锚点。 毕竟苹果的销量主力,还是 Pro 系列,能为苹果带来更丰厚的毛利率。 iPhone 14 或许是标准版和 Pro 版差距最大的一代 而 iPhone 16 和 iPhone 17 又略微拉近这个差距:前者由于 AI 的缘故,处理器直接连跳两级,A18 至少在数字上看齐了 iPhone 16 Pro 的 A18 Pro;而根据多方爆料,iPhone 17 终于要换上一块高刷屏幕,iPhone 17 Pro 又失去一个关键的配置优势。 虽然 iPhone 16 Pro 还是今年的销量大头,但根据消费者情报研究合作伙伴今年第一季度的数据,iPhone 16 和 iPhone 16e 所代表的中端机型份额有所上升,与之对应的就是 Pro 型号的收缩。 而今年全新的 Air 产品线,目前的爆料将会搭载 iPhone 17 Pro 系列 A19 Pro 处理器的减配版本,定价也会在 900 美元左右,很可能就是 899 美元,贴着 999 美元的 iPhone 17 Pro 进行定价。 逻辑已经显而易见了:苹果不希望多款价位差距较大的 iPhone 同时发布,导致中端机型蚕食旗舰的市场。 因此到了明年 9 月份,苹果依旧提供四款 iPhone,只是你只能纠结选择轻薄但有妥协的 iPhone 18 Air,还是更贵但全能的 iPhone 18 Pro,以及加一小笔钱上 iPhone 18 Pro Max,或加一大笔钱选择「战未来」的全新 iPhone 18 Fold 折叠屏手机。 我相信今年的 iPhone 17 Air 只是一次试水,明年的 iPhone 18 Air 在技术和形态上会更加成熟,从而能进一步取代现在的「标准版」。 至于那些原本会纠结 iPhone 标准版还是 iPhone Pro 的摇摆用户,要面临的不是该不该加钱上高配的问题,而是根本买不到低配,不如在接下来的圣诞季直接拿下 iPhone 18 Air 或 iPhone 18 Pro。 而那些预算有限、价格敏感的用户,它们本来就不会考虑定价更高的 Air 和 Pro 系列,也愿意继续凑合着目前手上的手机,再等几个月买价格配置更低的标准版。 这下标准版 iPhone 18,其实就成了一台「iPhone 18e Pro」,名存实亡。 也就是说,接下来几年苹果不仅有折叠 iPhone 和「20 周年」iPhone 两个大招蓄势待发,还通过进一步的产品销售策略重组,转化一部分标准版用户去买更贵的 Air 和 Pro,继续用两款入门机型套牢预算吃紧的用户。 看来未来几年苹果特别是 iPhone 的营收和毛利率,要一转这两年的颓势了。 文|苏伟鸿
英伟达开源9B参数小模型,比Qwen3快6倍
小模型也开始卷起来了! 在麻省理工学院衍生公司Liquid AI发布了一款小到可以装在智能手表上的新AI视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM): Nemotron Nano v2。 这款9B的“小”模型在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。 再联系到他们前些天发布的论文观点:小模型才是智能体的未来,看来真不只是说说而已。 除了这款模型,他们首次“自豪地”开源了用于创建它的绝大部分数据,包括预训练语料库。 让我们来看一下……20万亿?Nemotron Nano v2在20万亿多个token上进行预训练? 与Qwen相比速度提升6倍 技术报告显示,Nemotron Nano v2在复杂推理基准测试上的准确率与同等规模的领先开源模型Qwen3-8B相当或更高,同时吞吐量——也就是模型速度——最高可提升6倍。 这款模型由英伟达从头训练,设计目标是成为兼顾推理与非推理任务的统一模型。 模型在响应用户查询或执行任务时,会首先生成推理过程(reasoning trace),随后输出最终答案。该模型支持“思考”预算控制,在推理过程中,用户可以指定模型被允许“思考”的token数量。 如果用户希望模型直接给出最终答案(跳过中间推理步骤),可通过配置实现,但这一做法可能导致对复杂推理类提示的准确率下降。 相反,若允许模型先展示推理过程,通常能显著提升最终答案的质量,尤其针对需逻辑分析的复杂任务。 面对网友“思考预算控制是如何实现的”的问题,英伟达的模型训练师Oleksii Kuchaiev表示: 我们最初采用了与Qwen3相同的实现方法,但发现当强制要求模型直接输出答案时,它仍会在预设的思维链之外进行“思考”。通过对截断思维链的训练,我们成功解决了这个问题。 基础模型同样开源 评估结果显示,与其他开源小规模模型相比,Nemotron Nano v2在准确率上具有优势。在 NeMo-Skills套件的“推理开启”模式下测试,该模型在AIME25上达到72.1%,在MATH500上达到97.8%,在GPQA上达到64.0%,在LiveCodeBench上达到 71.1%。 在指令遵循和长上下文基准测试中的得分也有报告:在IFEval上达到 90.3%,在RULER 128K测试中达到 78.9%,在BFCL v3和HLE基准测试中也有较小但可测量的提升。 Nemotron Nano v2经过了以下训练过程: 预训练:模型使用FP8精度在20万亿个token上进行预训练,采用Warmup-Stable-Decay学习率调度。随后进入持续预训练长上下文扩展阶段,使其在不降低其他基准测试性能的情况下达到128k的能力。 后训练:Nemotron Nano v2通过监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)和人类反馈强化学习(RLHF)进行后训练。约5%的数据包含故意截断的推理轨迹,从而在推理时实现细粒度思考预算控制。 压缩:最后,基础模型和对齐模型均经过压缩(剪枝和蒸馏),支持在单个NVIDIA A10G GPU(22 GiB 内存,bfloat16 精度)上进行128k token的上下文推理。这一成果是通过扩展基于Minitron的压缩策略实现的,该策略专门针对受限条件下的推理模型压缩需求而设计。 除了Nemotron Nano v2模型本身,英伟达还发布了两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base(对齐或剪枝前的基础模型)和NVIDIA-Nemotron-Nano-9B-v2-Base(剪枝的基础模型),对应模型训练的不同阶段,均支持128k上下文长度。 最后,Nemotron Nano v2当前支持在线试用,链接可见文末。 超大预训练数据库 除了Nemotron Nano v2,英伟达首次发布了他们用于创建模型的绝大部分数据,包括预训练语料库。 至于为什么是“绝大部分”,有网友问了这个问题,官方回复简直不要太有道理(笑)。 预训练数据集Nemotron-Pre-Training-Dataset-v1包含66万亿个优质网络爬取、数学、代码、SFT 和多语言问答数据,并分为四个类别: Nemotron-CC-v2:作为Nemotron-CC的升级版本,新增收录了2024至2025年间八个批次的Common Crawl网络快照数据。数据已进行全球去重,并使用Qwen3-30B-A3B进行合成改写。它还包含翻译成15种语言的合成多样化问答对,支持强大的多语言推理和通用知识预训练。 Nemotron-CC-Math-v1: 一个基于Common Crawl、使用英伟达的Lynx + LLM流程生成的1330亿token的数学专注数据集,在保留方程和代码格式的同时,将数学内容标准化为LaTeX格式。这确保了关键的数学和代码片段保持完整,从而生成高质量的预训练数据,在基准测试中优于先前的数学数据集。 Nemotron-Pretraining-Code-v1: 一个大规模的精选代码数据集,源自GitHub,并通过多阶段去重、许可证执行和启发式质量检查进行过滤。它还包括11种编程语言的LLM生成的代码问答对。 Nemotron-Pretraining-SFT-v1:一个综合生成的数据集,涵盖STEM、学术、推理和多语言领域。该数据集整合了多元化的高质量内容,包括从数学与科学核心题库提取的复杂多选题和分析题、研究生阶段的专业学术文献,以及经过指令微调的SFT数据。 Nemotron-Pretraining-Dataset-sample:该数据集的一个小型抽样版本提供了10个具有代表性的数据子集,涵盖了高质量问答数据、数学专项内容、代码元数据以及SFT指令数据。 那些数字看起来都吓人,数零都得数半天(目移)。 One More Thing 顺带一提,最近英伟达的开源势头可以说是很猛了。 相比于其他国外科技巨头陆续走向的闭源道路,英伟达构建的Nemotron生态直接把开源二字写在了门面上。 无论是前段时间发布的Llama Nemotron Super v1.5,还是这次的Nemotron Nano v2,对标的也是国内开源模型Qwen3。 这样的策略会给他们带来什么?又会改变些什么?我们拭目以待。 参考链接: [1]https://x.com/ctnzr/status/1957504768156561413 [2]https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/ [3]https://venturebeat.com/ai/nvidia-releases-a-new-small-open-model-nemotron-nano-9b-v2-with-toggle-on-off-reasoning/ 论文:https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf 模型:https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615 试用:https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2 — 完 —
我们用商汤Seko做了一部AI短剧,花了10分钟
作者 | 江宇 编辑 | 漠影 智东西8月19日报道,商汤最近推出了一款名为Seko的AI视频创作工具,支持用户输入一句话想法,自动生成包含剧本、角色、画面、镜头、配音在内的完整视频。整个创作过程中,不需要编剧、音效师、摄影师、打光师、剪辑师,只要有一个想法,Seko就能帮你把这部片子拍出来。 为了测试这款工具的完整能力,智东西也进行了实际体验。 一、一句话创意,Seko拆解成“成片策划” 与传统的“文字转视频”工具不同,Seko能将一句话的创意直接拆解为一套可执行的完整方案。 用户只需输入大致的剧情设定,无需补充参数或说明细节,系统便会自动生成涵盖六大环节的策划文档:包括策划摘要、美术风格、角色主体、场景概念、音乐风格和分镜剧本,从叙事节奏到镜头语言一应俱全。 用户还可以在策划文档右侧的对话栏中提出问题,进一步微调内容细节。 这套流程背后,是Seko以多AI Agent协作为核心的系统,每个模块围绕用户的想法展开工作:有人负责建模,有人调镜头,有人生成配音与对白,搭建起一支无需协调的“AI剧组”。整条创作链条,从人物出场顺序、镜头节奏、配乐情绪到转场方式,都由系统自动衔接完成。 用户也不需要理解技术细节或指定模型调用逻辑,系统会根据内容自动完成分工与调度。 在角色生成方面,Seko支持上传图像来自定义角色。用户也可选择根据剧情设定自动生成角色形象。 二、体验:拍一部比格逆袭的AI爽剧 为了体验Seko在复杂故事关系和多角色场景下的适配能力,智东西尝试拍一部宠物版AI短剧。 在“剧本创作”模式下,输入自然语言指令:拟人形象,写实卡通。一只贫穷比格犬带着一个小车模型,想要送给白猫女朋友,却被白猫女朋友和另一只富裕泰迪狗一起嘲笑他。比格犬非常伤心,然后每日努力工作,最后靠自己的努力赚钱买上了豪华轿车,白猫女朋友和富裕泰迪狗后悔不已。 全员宠物阵容,走的是经典逆袭剧路线。 系统在几分钟内自动生成了策划文档。生成结果的亮点之一是自动生成的角色形象与设定高度贴合:我们并未上传图片,而是让系统根据设定自动生成三个角色(包括比格犬逆袭前后),最终呈现出的外观、语气、配音与剧情设定一致性较高,也丰富了很多道具细节。 另一个体验亮点在于“先确认分镜静帧,再生成视频”的机制。Seko会先给出每个镜头的静态画面,用户可在此阶段提出修改。这个阶段Seko也出现了一些小Bug。例如,“富裕泰迪犬”设定下系统默认生成了一位穿西装的人类男主,而非狗狗角色。我们尝试再次修改设定,但系统未及时响应。 此外,也有不少的镜头中角色动作或外观会出现不一致。 所有分镜确认后,用户可点击“一键转视频”,分镜即可转为动画。 智东西最终生成的视频共3个场景,25个镜头,时长约90秒。节奏流畅,剧情连贯,配音、对白与分镜脚本一一对应。用户还可以逐帧修改台词、配音和镜头结构,编辑过程直观可控。 不过整体来看,成片的节奏与内容完成度相对可观,也可以通过编辑功能进一步调优。 结语:创意说出口,Seko能接住也能剪出来 从角色生成到镜头设计,从配音对白到成片导出,Seko几乎把视频创作能自动的环节全包了下来。 这次体验中,不用写分镜、不用配音、不用剪辑,我们就拍出了完整的宠物短剧。 虽然细节上还有优化空间,但整体流程顺畅、内容完整,确实让人看到AI剧组的潜力。对于想快速把想法变成视频的创作者来说,Seko已经是一个值得一试的拍档。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。