行业分类:
加载中...
头条分类:
加载中...
9月旗舰大战提前引爆 安卓双芯狙击苹果iPhone 17
【CNMO科技新闻】近日,CNMO注意到本数码博主“数码闲聊站”在微博公布了重磅消息:智能手机战场即将迎来密集的新品轰炸与史诗级旗舰对决。 爆料显示,6月至7月间,多款备受瞩目的中高端机型将率先登场,为市场注入活力。预计亮相的包括vivo X Fold5折叠屏旗舰、荣耀Magic V5、Redmi K80至尊版、小米MIX Flip 2竖向折叠新机、魅族22系列以及iQOO的新品等。这一波新品潮将满足消费者在暑期换机的多样化需求。 待上述中高端机型悉数亮相后,真正的巅峰对决将于9月拉开帷幕。据爆料,今年高通骁龙8 Elite 2与联发科天玑9500这两款安卓顶级旗舰移动平台的发布节奏明显提前。两大阵营的年度旗舰手机将集中在9月至10月发布,目标直指同样预计在9月亮相的苹果iPhone 17系列,竞争激烈程度被形容为“前所未有”。 据泄露信息,骁龙8 Elite 2将采用高通第二代自研Oryon CPU架构,集成Adreno 840 GPU。其GeekBench 6单核性能目标设定在4000分以上,多核性能更是瞄准11000+的高分,性能提升显著。 天玑9500则大胆采用创新的“全大核”CPU设计(1*Travis + 3*Alto + 4*Gelas核心组合),集成Immortalis-Drage GPU,其AI算力预计将达到惊人的100 TOPS(万亿次操作每秒),在人工智能任务处理上潜力巨大。 值得关注的是,这两款旗舰芯片均将采用台积电最新的第三代3nm制程工艺(N3P)制造,有望在性能与能效比上实现双重突破。
格力主导,全球制冷压缩机领域ISO标准实现“零”的突破
IT之家 6 月 15 日消息,据国家市场监督管理总局消息,近日,国际标准化组织(ISO)正式发布了由我国牵头制定的两项制冷压缩机国际标准《容积式制冷压缩机性能评价》《离心式制冷压缩机性能评价》,填补了该领域国际标准空白,标志着全球制冷压缩机产业迈入规范化、标准化的新阶段。 根据国际能源署报告,制冷设备用电量占全球用电量高达 17%,节能潜力巨大。该两项标准涵盖了制冷压缩机的额定评价工况、性能运行要求、额定性能能效评价、允差要求、运行可靠性及发布数据要求等多个关键维度,适用于空调、冰箱、热泵热水器、除湿机、数据中心离心冷水机组等多种产品的压缩机,其发布顺应了全球绿色可持续发展的大趋势,为全球制冷压缩机行业提高能源利用效率、实现绿色低碳转型提供了“国际方案”。 IT之家查询获悉,6 月 12 日,格力电器与合肥通用机械研究院在珠海联合召开 ISO 制冷压缩机国际标准全球发布会,正式发布了这两项制冷压缩机国际标准。 格力电器董事长、ISO / TC86 / SC4 主席董明珠指出,中国是一个压缩机制造大国,但过去在主导制定制冷压缩机国际标准方面没有掌握话语权,“两项标准成为国际标准,将为世界所有制造压缩机的企业提供新标准,通过大家的努力为各个国家创造绿色发展环境。”
4个主播自掏100多万买版权,斗鱼抠成这样了?
最近,世超刷到一条稍显离谱的新闻。 前几天,斗鱼上四位主播,合资掏了100多万买下《CS2》奥斯汀Major直播版权来直播,还透露下半年相关赛事版权也在商谈中。 主播自掏腰包买版权直播,饶是经常关注游戏直播的差友,也很少见这阵仗吧。 付费上班无疑富有话题性,网友们也为此贡献出犀利点评: “花大钱给平台所有人播吗,乐山大佛来了都得给让个座了”。 “至少我有的看了,我愿称之为斗鱼四圣”。 “无敌了,哪有主播交钱上班的”。 这次买版权的主播之一@CSGO玩机器直播时也聊了聊这事,其中还有些细节,比如除四位主播外还有一个陪玩店出力,之后他们会给陪玩店打广告。 以及,这次赛事只有买了版权的四位主播能播,版权方只开放了他们权限。后续还买不买,他们也会通过这段时间的收益来评估。 所以,主播们也不傻,这事与其说是付费上班,更像一种投资。 值得玩味的是,以往这类版权投资的发起者是直播平台。因为对于游戏直播平台来说,主播(内容创作者)以及版权(内容源头),是平台内容生态的两大核心。 现在呢,斗鱼在版权投资这块堪称摆烂。 《CS2》相关版权不买了,《英雄联盟》比赛版权也基本放弃,其他关注度低的赛事更不用提。 很多网友甚至吐槽:“斗鱼这么穷了”? 在世超看来,说穷倒也不至于,只能说,游戏直播的辉煌时代已一去不返。 头部主播的不断出走,跟版权的不断缺失,看起来可能不太体面,但站在商业角度,并非臭棋。 斗鱼也算是游戏版权采买领域的老大哥了,哪些买了能赚,哪些买了贡献不了收入,主播尚且会算账,平台自然也有衡量。 同时,市场格局逐渐稳定,未来几年的收入是可预期的,在收入难以迅猛增长的情况下,日子想要过得好,快速控制成本就成了出路。 也许对于斗鱼来说,这只是因为:很多版权买了没意义,不能带来超量收益,优质内容正在丧失价值。 今日斗鱼的“精打细算”,跟过去“一掷千金”,不无关系。 2013年初,“生放送”游戏直播频道在A站上线,靠着LOL跟DOTA的直播,这个频道快速起量,并在次年元旦正式独立改名为斗鱼TV。 在那个风投们不差钱只差一个好点子的时代,只要有前景,就会有钱景。 BAT们带着热钱赶来,“国民老公”王思聪也积极下场,直播平台如雨后春笋涌现。 到2016年年中,仅仅在App Store里可以搜索到的直播平台就达到了数千个,俗称“千播大战”。 如此激烈的竞争,也难怪这个行业在当年迅速走向了畸形。 游戏直播平台的核心逻辑是,用户流量跟着主播内容走,签一位头部主播,就相当于坐拥了这位主播的粉丝流量。 由此,平台重金挖角成了常态,今天你掏1000万挖走他的主播,明天他掏2000万挖你的主播,当时的人气主播签约费以千万计,快赶上很多小明星的收入。 更有平台买出了我签不下来,也要把你的价格抬上去的气势。 可以烧钱的地方还有很多,比如冠名电竞赛事、电竞战队,试图俘获民间电竞高手,斗鱼就曾针对LOL国服高分段位的玩家,推出活动,游戏ID带上斗鱼,且斗鱼独家直播达到多少局数就能获得奖励。 赛事版权上,也是“壕无人性”,抢独播,抢热门。 你当然可以嘲笑这群平台,从本质上看,市场价格是被他们炒起来的。 但换位思考,在大家一起疯狂钞能力的局面中,如果是你,你敢不敢说,哥们退出比赛,不陪你们玩了? 就这样,从主播薪酬到版权价格,被不断推高,随之上涨的还有平台的成本与亏损。 先是小平台开始陆续倒闭,接着中腰部也扛不住了,即便是曾风光无限的熊猫直播,也在2019年宣告退场: 千播大战从群雄逐鹿步入虎牙和斗鱼双强局面,而游戏直播行业也随着热潮退去,不再饱受瞩目。 上次斗鱼火出圈,还是2023年11月,“斗鱼证实CEO陈少杰失联”冲上热搜。 此后,斗鱼CEO陈少杰因为涉嫌开设赌场罪被逮捕,不少斗鱼头部主播暂停直播。 但斗鱼的没落跟陈少杰关系不大,因为在出事之前,斗鱼的表现就不太尽如人意。 2023年5月,斗鱼股价就曾跌破1美元,同年10月,斗鱼连续30个工作日在ADS收盘价均低于1美元最低买入价,在退市边缘反复横跳。 股价成这样,不是没有原因的。 常年亏损,总营收不断下滑,活跃用户数量跟付费用户数量也不乐观。 以月活跃用户数为例,2022年Q3月还是5710万,2024年Q3这个数字是4210万。 主播也在出走,一个比较有代表性的案例是,2023年“斗鱼一哥”旭旭宝宝解约,转投抖音。 这样的情况下,斗鱼只能积极自救,抛弃低收益的赛事版权,调整主播薪酬结构,抓紧时间节流,这招靠不靠谱,已经体现在了财报上。 5月20日,斗鱼发布2025年第一季度财报,运营亏损为2610万元,同比大幅减少84.3%;调整后净亏损为2090万元,同比缩窄75.6%,可以看到,亏损在快速收窄。 当然,斗鱼也不是直接躺了,为了缓解赛事版权的影响,他们也在积极自制游戏直播综艺。 只是效果似乎一般,没咋出圈。 2023年,斗鱼直播综艺节目勇敢者的游戏第二季,邀请观众跟12位主播一起共闯恐怖之境: 此外,平台也在加速转型,不仅仅专注游戏直播,还在拓宽直播类型,像在斗鱼的主页中,除了游戏直播,还有心动派对跟户外直播等栏目。 同时,还基于直播开拓游戏相关的衍生服务。 比如给无畏契约、和平精英做做游戏道具的分销(部分厂商也会给斗鱼提供稀有道具),围绕新游戏上线做宣发,《DNF手游》刚上线时,斗鱼就开了DNF手游全国格斗大赛斗鱼赛道。 这套操作颇有成效。 2025年第一季度中,创新业务、广告及其他收入整体达3.83亿元,同比增幅60.2%,在季度总收入中的占比从去年同期的23.0%涨到了40.4%。 咱们不去讨论这波的未来想象空间哈,至少斗鱼从原本单一的商业模式中,挖到了第二条路子。 不过,在世超看来,比起现状,更值得关注的是斗鱼下完这几步棋以后,未来该往哪走? 游戏直播平台所现阶段面临的问题,在于整个行业都在被视频平台,尤其是短视频平台冲击。 击败一辆马车的从来不是更快的马车。 直播平台爆火的时候,短视频平台还没有走红,用户能用来线上娱乐,消磨时间的平台有限,而如今所有网民的注意力都在被短视频吸走。 传统直播平台被新兴平台冲击起来,似乎没啥壁垒。 粉丝看的就是人嘛,很容易跟着迁徙,对于粉丝来说,在哪看没有区别,少下一个APP还更方便了。 斗鱼可能也就剩一个弹幕有趣的优势了。 斗鱼弹幕诞生了无数梗,比如玩机器,因为直播间里烂梗太多,有粉丝自发给这些烂梗搭建了专门的网站,这事放全网直播平台里都算独一无二的。 同时,互联网时代,庞大的流量就是一种武器。 大流量意味着变现空间广阔,这事天然吸引着明星主播,别说旭旭宝宝了,像张大仙、冯提莫等等老牌明星主播都在从原平台跳去抖音。 对于用户来说也是如此,游戏垂类的死忠用户有限,更多用户关注的不只是游戏,他们也会更倾向大而全的平台。 别说主播跟用户,腾讯都跟抖音世纪和解了。 尽管在千播大战中,斗鱼杀出了重围,但市场的竞争从不停息。 版权的买与不买,只是这场商业竞争里的,其中一道选择题,还是已经没有那么关键的那种。 至于未来到底能不能走出属于自己的康庄大道,也许还需要时间来证明。 图片、资料来源: 百度贴吧:CS赛事吧 《游戏直播平台竞品分析——斗鱼TV、虎牙直播》 东方证券研究所 斗鱼、抖音
不止Siri 2.0!苹果AI蓝图曝光,为何雷声大雨点小?
AI,或许是苹果现在最不想听到的词汇。 曾几何时,苹果的Siri独步全球,让全世界都意识到智能语音助手并不是“人工智障”,而且也是最早将机器学习等人工智能技术融入系统功能里的手机企业,我想大家应该都还记得过去只有苹果的相册支持人像自动分类等功能。 除此之外,苹果在影像算法、预测输入、Face ID等多种功能上都大范围使用机器学习技术,优化功能的体验。甚至可以说,iPhone的成功除了A系列芯片的强大外,早就开始拥抱AI技术的iOS功不可没。 图源:苹果 但是,在进入AI大模型时代后,苹果似乎一夜间变成了落后者,刚刚结束的WWDC 2025上,苹果对AI服务的更新计划甚至可以用“乏善可陈”来形容。以至于WWDC首日结束后,苹果的股价直接来了个自由落体,从6月9日到13日,持续5天的WWDC让苹果的股价从9日的最高点205美元一度跌到196美元。 虽然苹果一向不太在意短期的股价波动,但是市场以及用户的质疑也确实给苹果带去了不少压力,或许是有意也可能是无意,来自彭博社的一篇文章,揭示了苹果正在推进的多个AI项目。 其中一些是早已披露的项目,比如更智能且具备感知能力的Siri,也有一些是首次披露出细则,比如Knowledge聊天机器人,受此影响苹果股价有了短暂回弹。接下来,就让我们一起来看看苹果的AI蓝图里到底都有什么? 三箭齐发!苹果AI蓝图曝光 从文章透露的信息来看,苹果内部正在推动的服务型AI项目主要有三个:1、Siri 2.0;2、Knowledge聊天机器人;3、常驻助手(Copilot)。其中常驻助手是基于Siri打造的后台智能AI,并非独立的新AI助手。 其中Siri 2.0是苹果在WWDC上主要讲解的AI项目,有兴趣的朋友可以看看我们在10日发布的相关文章:AI Siri来年再议!苹果AI「大转弯」:不画大饼了?,这里就不再重复叙述了,我们来聊聊另外两个项目。 先来看看Knowledge聊天机器人,这个AI项目的首次曝光是6月1日,著名的苹果爆料者Mark Gurman在一篇文章中披露了Knowledge的存在,并将其称为“从开放网页抓取信息的ChatGPT式应用”。 图源:OpenAI 单看这个形容,只能说初步了解Knowledge的使用方式,而在后续的文章里,则给出了更加明确的功能说明。据介绍,Knowledge是一块基于网页app运行的AI问答服务,Knowledge是员工的称呼,正式项目名可能是“AppleGPT 2.0”,数据主要来源于“Safari 搜索索引 + NewsKit 报道摘要 + Apple Maps POI”,由前 Siri 负责人 Robby Walker 牵头推进。 某种程度上,Knowledge就是一个分摊了部分Siri功能的网页版AI助手,比Siri更轻度、更简单。Knowledge可以在不使用麦克风、摄像头的情况下,仅依靠网页数据就可以为用户提供备忘、日历以及邮件草稿等功能。 此外,用户也可以直接将其看作是AI版的Safari搜索引擎,当你需要搜索某个问题的答案时,Knowledge可以为用户提供整合式的AI回答。或许你会想问,为什么不直接整合到Siri里?这就要聊到苹果的AI战略了,苹果对于AI确实很看重,以至于给自己设置了许多目标:比如Siri在全场景下的体验一致性。 简单来说,苹果希望Siri可以在联网和非联网状态下,都能够提供相同的AI体验,这对iPhone的端侧算力要求太高,以至于一直难以落地。即使后续借助新一代芯片和优化得以实现,Siri在系统权限和用户隐私数据方面的权重过高,也让苹果并不希望将其用在需要与网络进行频繁交互的app上。 图源:苹果 所以,分拆出一个独立的“聊天机器人”来负责轻量级的AI应用就是个不错的方案,而且苹果似乎也在借此测试不同提示词系统,看看哪一套系统更高效,或者具备更好的理解能力。 那么Copilot又是个啥(实际发布时大概率要改名)?这玩意就有意思了,根据曝光的资料来看,常驻助手并非一个独立的app,而是一个基于系统的全局服务。如果说Siri是被动的助手,那么Copilot就是主动助手,在用户没有主动提出要求的情况下,Copilot可以根据麦克风、地图定位等各种数据,结合AI模型智能判断用户的需求。 举个例子,当你走到机场的登机口时,Copilot会根据你的行程安排、GPS定位和登机时间等数据,自动弹出电子登机牌,或是结合Apple Watch等设备给予主动建议,比如当你健身完,根据身体消耗和用户的饮食菜单及喜好智能推荐菜谱,甚至可以直接帮用户检索周围的外卖店铺,提供推荐、下单和付款的一条龙服务。 在苹果的计划里,Copilot将采用端侧的安全芯片与统一推送链路,确保这个服务在运行时可以确保用户隐私的安全。更进一步地说,苹果或许打算将Copilot打造成贯穿整个苹果生态的智能体,并作为苹果的智能中枢来联动各个设备,并给予用户无缝的AI服务。 不过,相较于Siri 2.0和Knowledge,Copilot目前给到的信息还非常少,所以更具体的功能和体验还有待后续的进一步曝光。虽然总体来说还是一块“饼”,但是至少比苹果在WWDC上公布的Siri 2.0要更吸引人一些,而且从中不难看出苹果对AI生态有着更多的思考,那就是让AI“无处不在”。 苹果AI落地为何困难重重? 苹果在AI领域的进展确实有些出乎大家的预料,在2023年AI大模型刚刚被众人所熟知时,苹果就已经启动了名为“Ajax”的AI大模型项目,并且在次年开始发布相关论文及成果,彼时大家都认为苹果应该会在2024年成为最早普及AI的企业之一。 但是事与愿违,苹果的Apple Intelligence上线时间严重延误,即使是最早上线该功能的北美地区,WWDC 2024上展示的功能也依然没有全部上线。而且在Apple Intelligence上线后,用户也发现这个功能的体验远不如苹果宣传的完善,这也进一步加剧了市场及用户对苹果AI项目的不信任。 图源:苹果 到了2025年,当我们复盘苹果的AI战略时,不难发现苹果最大的问题或许是“想要的太多”。自研AI大模型、全面的用户隐私保护、严苛的数据安全要求以及系统级的AI服务响应,以上要求只要实现一个,可以说都能在AI领域夺得头筹。 但是苹果对用户数据和隐私的保护要求,严重限制了自研AI大模型的进度,以至于要求助OpenAI,使用ChatGPT来支撑初代苹果AI功能的模型需求。然后又因为开放的数据权限太少,导致以ChatGPT为基础的Apple Intelligence难以提供真正的个性化AI体验。 虽然从用户角度来看,苹果能够如此重视隐私和数据安全确实让人欣慰,但是大家也有一个疑问:苹果真的能够在兼顾隐私的情况下,确保AI功能的体验吗?至少在苹果看来是有可能的,因为直到WWDC 2025结束,苹果也仍在强调将优先考虑以本地AI大模型+AI芯片来满足用户需求。 更进一步地说,苹果让用户在任何时候都能得到体验一致的AI功能的想法很好,但是现阶段想要实现也是十分困难。因为云端算力与端侧算力的巨大差距,让两端的AI模型在参数上差距几乎不可弥补,只能是云端去迁就端侧,那么苹果又要如何在参数远不如竞争对手的情况下,让AI的体验能够达到一线水平呢? 图源:苹果 或许只能寄希望于苹果的AI团队真的可以通过深度优化,让自研的AI大模型具备极高的推理效率和性能吧。更直接地说,苹果或许还缺少一个“DeepSeek”时刻,只有彻底优化和改变AI大模型的底层推理,才有机会实现苹果的愿景。 为了进一步提升AI项目的速度,我们可以看到苹果近期也进行了频繁的人员调动,苹果希望通过集中力量的方式来让最紧要的项目可以如期交付。没错,说的就是在WWDC 2025上公布的Siri 2.0,虽然距离预订上线的时间还有六个月以上的时间,但是苹果显然对原本的Siri团队不太满意,希望借助更换领队的方式来提高团队的效率。 事实上,此前就有媒体报道称Siri团队的AI项目进度太慢,iOS团队决定推进自己的AI项目。不过Siri团队估计也是有苦难言,据称受限于Siri的遗留数据和以前的机器学习模型,想将其与新的AI模型进行整合难度很大,只能对Siri进行大范围的重构。 整体来看,苹果AI项目所面临的问题确实不少,但是相较于其他手机品牌的AI计划,无论是功能表现还是对用户数据的保护,都称得上是最佳,如果2026年可以如愿上线Siri 2.0,那么一切都还有希望。
Cursor CEO最新访谈:编程会消亡,但品味将永存
编程的末日即将到来,而Cursor正在为这一天做准备。 在Y Combinator最新一期播客中,Cursor联合创始人兼CEO Michael Truell透露了一个惊人的事实:这家估值90亿美元的公司,根本不是在做一个代码编辑器,而是在创造编程的替代品。 作为史上增长最快的创业公司之一,Cursor在短短20个月内就达到了1亿美元的年收入。但Truell的野心远不止于此——他要彻底改变软件开发的方式。 从GPT-3到Cursor:一场预见性的豪赌 Truell和他的三位联合创始人都是MIT出身的程序员。早在2021年,当大多数人还在观望AI时,他们就被两件事深深震撼了。 第一是GitHub Copilot的出现。Truell回忆道: 那是我们第一次真切感受到,现在可以用AI做出真正有用的东西了。不应该去实验室工作,而是时候让这些技术走向现实世界了。 第二个关键洞察来自OpenAI的研究——scaling laws(扩展定律)。这些研究表明,只要持续增加数据和计算资源,模型就会变得越来越强大。 「Follow the line」——这是他们当时的座右铭。相信这条上升的曲线,并为它的终点做准备。 三个月的弯路,一年的坚持 有趣的是,Cursor团队最初并没有直接进入编程领域。他们花了近一年时间尝试为机械工程师开发3D建模的AI助手——训练模型来预测CAD软件中的下一步操作。 但现实给了他们当头一棒: 3D领域的训练数据比代码少了几个数量级 当时的AI技术还无法很好地处理3D几何 更关键的是,他们对机械工程并不真正感兴趣 Truell坦言,回头看当时应该直接去一家雇佣机械工程师的公司「卧底」三周,而不是做了几百次用户访谈。 最终,他们决定回归初心——为程序员构建工具。 这个决定看似简单,实则需要巨大的勇气。当时市场上已经有GitHub Copilot和十几家其他公司在做类似的事情。 不做插件,要做编辑器 Cursor做出的第一个反直觉决定是:不做VS Code插件,而是构建自己的编辑器。 这个决定招来了大量质疑。 但Truell团队从GitHub Copilot的开发历程中学到了重要一课:即使是简单的代码补全功能,Copilot团队也需要修改VS Code的核心代码才能实现。 如果连最基础的功能都需要改动编辑器,那么要实现「替代编程」的宏大愿景,控制整个开发环境就是必须的。 「品味」将成为工程师的核心竞争力 当被问到未来软件工程师的核心技能时,Truell的回答出人意料: 不可替代的是品味(taste)。定义你真正想要构建什么的能力。 他解释道,现在的编程工作大部分是「人肉编译」——你知道想要什么,可以告诉另一个人,但必须用for循环、变量、方法这些低级语言向计算机详细说明。 AI将接管这个编译过程,但定义「什么值得构建」的品味永远属于人类。 超越「vibe coding」 Truell提到了一个有趣的概念——「vibe coding」(氛围编程),即不真正理解代码,只是通过AI生成然后祈祷它能工作。 对于小型项目和初创公司,vibe coding可能暂时有效。但对于专业开发者和大型代码库,你仍然需要理解每一行代码。 Cursor的数据显示,即使在今天,用户通过AI生成的代码也只占40-50%。剩下的仍然需要人工编写和审查。 招聘哲学:慢即是快 Cursor在招聘上有个反常规做法:前10个员工花了极长时间才招到。 Truell解释道: 如果你想在未来几年快速发展,在最初6个月慢下来其实非常有帮助。如果你真的搞定了前10个人,他们会在未来加速你的发展。 他们的面试流程也很特别——最后一轮是两天的现场工作。候选人会真正加入团队,参与项目,一起吃饭,最后做演示。 有意思的是,虽然Cursor是AI编程工具,但他们在技术面试中不允许候选人使用AI(除了自动补全)。 原因是—— 不使用AI的编程仍然是测试技能和智力的最佳方式,而且他们不想错过那些还没用过AI工具的优秀程序员。 不是企业软件,而是下一个Google 当谈到护城河时,Truell提出了一个大胆的类比: 我们所在的市场不像传统企业软件市场,更像90年代末的搜索引擎市场。 就像搜索引擎通过用户点击数据不断改进一样,Cursor通过观察用户接受或拒绝哪些代码建议来优化模型。 分发即是产品改进的关键。 他还提到了另一个类比——2000年代初的消费电子。就像iPod和iPhone时刻改变了整个行业,Truell相信编程领域还有几个这样的「魔法时刻」等待被发现。 工程瓶颈与未来展望 Truell指出了实现「超人类编程助手」的几个技术挑战: 上下文窗口:1000万行代码可能需要1亿个token,现有模型还无法有效处理 持续学习:模型需要记住组织背景、过去的尝试、团队成员信息 多模态能力:真正的软件工程师需要运行代码、查看输出、使用调试工具 长时间任务:目前AI最多能持续工作约1小时,远未达到人类水平 但这些挑战恰恰说明了机会的巨大。 如Truell在访谈最后所说: 这将是一个你构建能力被极大放大的十年。 编程可能会消亡,但创造将永不停息。 另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的知识星球中。
Cursor CEO最新专访:五年内所有编程将用AI进行,“品味”才是工程师的核心竞争力
估值接近百亿,最新一轮融资高达 9 亿美元,Cursor 无疑是今年风头最劲的 AI 产品。Cursor 不仅是一个 AI 协助编程的工具,更加是创造了「vibe coding」的理念,一种主打低代码甚至零代码的编程方式。 能在「套壳」的赛道上,真正闯出名堂,过程总比表象来得更艰辛。在做 AI 编程这个业务之前,Cursor 的初创团队曾经在其它更硬工程的领域兜兜转转,直到最后意识到:创业太难了,还是要做点自己喜欢的。 Cursor CEO Michael Truell 作客 Y Combinator 的播客节目,分享了两次创业以来的经验,他重申了那个听起来有点陈词滥调,但总是有用的理念: 毫不怀疑,永远坚信,直到时间证明你是对的。 下文为访谈内容,经编译及删减。 Garry Tan: 欢迎你,Michael。我们都知道并且非常喜欢 Cursor,你说过,Curosor 的目标是发明一种新型的编程方式,在这种方式下,你可以只描述你想要的东西,然后就可以构建它了。展开讲讲吧。 Michael Truell: 是的,公司的目标是用更好的东西代替编码。我和我的 3 位联合创始人,我们已经做程序员很长时间了。编程吸引我们的一点是,你可以非常快速地构建东西。但编程需要编辑,数百万行深奥的正式编程语言,需要做很多很多的工作才能真正在屏幕上显示出一些易于描述的东西。 我们认为,在未来的 5 到 10 年里,有可能发明一种新的方法来构建更高水平、更高效的软件,我们使用 Cursor 的目标是到达那里。我们实现这一点的途径是使用 AI 编程,然后不断发展,将其从普通编程发展到看起来非常不同的东西。 Garry Tan: 所以有些人会说这就是我们今天所拥有的——你描述你想要什么,然后它就会出现。我们达到你真正想去的地方了吗? Michael Truell: 我们正在看到事情真正发生变化,在较小的代码库中,在一小部分软件工作人群中,感受到变化最大。我们已经看到人们在代码之上迈向更高的抽象层次。 但我认为还有很长的路要走。我认为 vibe coding 或编程的整个想法,如果不真正查看代码并理解它,它就不会真正起作用。如果你现在要处理数百万行代码和数十或数百人在多年的时间里从事某件事情,你不能避免思考代码。 我们的主要重点是帮助专业程序员、面向那些以构建软件为生的人。在这些环境中。人们越来越多地使用 AI 进行编程。我们看到有人使用 AI 编写 40% 到 50% 的 Cursor 内生成的代码行,但这仍然是一个读取 AI 生成的所有内容的过程。因此,我们需要跨越的一个重要鸿沟是产品。我们将会达到一个不再是生产力工具的阶段,它可以帮助你阅读、编写、理解代码。 Garry Tan: 有一些初创公司显然是从零行代码开始的,所以这好像很容易。你觉得有没有一个界限,在那之上,仅仅是 vibe coding 就不太够了? Michael Truell: 如果打算让代码在很长一段时间内保持稳定,那么我们绝对不建议您使用 vibe coding。我认为,当你是几 个人的初创公司时,并试图弄清楚你在做什么时,开发的一个特点通常是:代码只能存在数周。 现在,我们正处于这样一个阶段,AI 正在为你提供帮助,对吗?要么将任务委托给人工智能,对它们说: 去帮我做这件事,去回答这个问题。 编程有时候是非常可预测的,当你只是在旁边观察某人工作时,你知道,他们接下来 10 分钟、15 到 20 分钟的工作内容。所以这种标签页的形式可以发挥很大作用。而且这种委托给另一个人的代理形式也可以发挥很大作用。 一旦这些开始变得成熟,对于 25%、30%的专业开发工作,可以完全端到端地依赖这些工具,而不用真正去关注具体细节。那么接下来需要弄清楚的是,关于如何让这些在现实世界中真正发挥作用。 如果我们是一个帮助人类将头脑中的想法转化为屏幕上内容的工具,那么给人们对最细微细节的控制权总是很有帮助的。这是我们面临的产品挑战之一:你应该总是能够编辑逻辑中非常具体的部分。 我认为一个有用的用户界面是将软件的逻辑写下来。然后你可以指向逻辑的各个部分并实际编辑它们。但是如果我们达到一个你不必太关注代码的地步,那个写下来的软件逻辑版本就必须变得更高层次。 我们对此感到兴奋,在让代理工作起来之后,在让标签页形式变得非常成熟之后,AI 是否真的会改变编写和查看编程语言的含义? Garry Tan: 是跟上下文窗口有关吗?一旦你超过大约 100 万到 200 万个 token,甚至我觉得直到最近 100 天我们才获得了可用的 200 万 token 长度,这是一个阶段。一旦你的代码库达到一定规模,就必须使用 RAG(检索增强生成),它有不完整的上下文,然后就无法做到人类程序员能做的事情? Michael Truell: 是的,我认为在 agent 达到人类水平方面存在许多瓶颈。上下文窗口方面肯定是一个问题,如果你有 1000 万行代码,那大概是 1 亿个 token,既要有一个能够实际摄取这些内容的模型,又要让它具有成本效益,然后不仅仅是要有一个能够将这些内容摄取到其权重中的模型,还要有一个能够有效关注那个上下文窗口的模型。这很复杂。 我认为这是这个领域需要解决的问题。而且这不仅仅是代码库的问题。这也是一个持续学习的问题:了解组织的背景和过去尝试过的事情,以及让模型真正持续学习某些东西的问题,这是我认为这个领域仍然没有很好解决方案的问题。训练这些模型的机构缺乏真正良好的长期上下文数据,所以我认为这将会很棘手。但是持续学习和长期的背景知识绝对是瓶颈。 在网上有一个关于过去一两年在最大时间长度方面进展的惊人图表。AI 能够在一个任务上运行的时间已经从几秒钟增加到——我不知道这些数字实际上是如何得出的但有人声称,一些最新的模型可以达到一个小时。当然不同模态还存在问题,所以要成为一个软件工程师,你需要运行代码然后处理输出。 所以计算机使用对于代码的未来将是重要的,能够运行代码,能够查看 Datadog 日志并与人类使用的那些工具进行交互。有很多我们将不得不面对的已知问题,还有很多我们将不得不面对的未知问题。 然后我要指出的一件事是,我认为仅仅有一个文本框来要求软件更改的用户界面是不精确的。所以,如果你关心人类能够控制屏幕上显示的内容,你就需要一种不同的界面方式让他们进行交互。 一个潜在用户界面是编程语言的演进,变成更高层次的东西。另一个可能是用户界面的直接操作,能够指向屏幕上的东西并说,哦,变这个,或者自己调整这些值。 Garry Tan: 这似乎是一堆刚刚冒头的东西,对吧?模型似乎没有明确的美学感知,所以也许这个需要人类设计师能够看到。 Michael Truell: 看到它们在美学方面有所改善是很有趣的。我们的理解是,你教这些模型在美学等方面做得更好的方式,并不像你教人类那样。它是通过收集大量数据,并对它们进行强化学习。这就是你在这个任务中的教学方式。这是一项足够多的人关心的任务,你可以支付所有这些的成本,你可以去训练并将其融入基础模型中。 Garry Tan: 因此,考虑到每个人都在建设的未来,而你无疑是站在前沿的领导者,你认为未来作为一名软件工程师,什么是不可替代的或类似的基本要素?是审美吗? Michael Truell: 人们通常在思考软件的视觉方面时会考虑这个问题。我认为软件的非视觉方面也需要审美:关于逻辑如何工作。而现在,主动编程某种程度上会弄清楚你到底想要东西如何工作——比如你通过编写的逻辑真正定义的是什么产品,以及实现细节的高层次审美,即如何将其映射到物理计算机上——这些都捆绑在一起。 但是现在,很多编程都是你在做的一种人工编译,你知道自己想要什么。你真的必须为计算机详细说明,因为你能够用来向计算机描述事物的语言是正常的编程,就是,你知道,for 循环、if 语句、变量和方法。你必须详细说明。 所以我认为越来越多的那种人工编译步骤将会消失,计算机将能够填补空白,填补细节。但是由于我们的工具是帮助你实现的,帮助你构建你想的东西的那种品味,我认为永远不会消失。 Garry Tan: 这很有道理。有句话说优秀的人会帮助你达到你能看到的标准,但真正伟大的、真正精通的人,他们能达到一个你甚至看不见的更高标准。而这需要审美。你把这称为人们需要成为逻辑设计师。在意图驱动编程方面,这意味着什么呢? Michael Truell: 随着这项技术越来越成熟,随着我们越来越接近一个编程可以自动化,可以用更好的构建软件的方式取代的世界,我认为会有很多影响。 一个是,专业的开发人员只会变得更加高效。千人软件项目的进展速度如此之慢,百人软件项目的进展速度如此之快,很疯狂,其中很大一部分归结于现有逻辑的重要性,只是让你发挥最好的一面。 随着这项技术越来越成熟,当我们越来越接近一个编程可以被自动化并且可以被更好的软件构建方式取代的世界时,我认为会有很多影响。我认为其中一个是,专业开发者将变得更加高效。 千人软件项目的进展速度,百人软件项目的进展速度,以及真正的专业软件项目的进展速度都慢得令人发狂,很大程度上这归结于现有逻辑的负担,就是让你不堪重负。当你在一个代码库中时,可以从头开始,你可以很快地做事情,当你改变某些东西时,却会有一堆其他的东西随之破坏而需要你去修复。 我认为其中一个影响将是,下一个分布式训练框架,下一个数据库或下一个视觉设计工具的构建速度将会快得多,下一个 AI 模型也是如此,如果你和实验室交谈,他们很大程度上在工程能力上受到瓶颈限制。我认为所有这些都会大幅改善。 我的第一份工作之一实际上是在一家生物技术公司工作,这是一家由实验室科学家组成的公司。他们正在开发治疗疾病的药物,我是被聘用的第一个软件工程师,他们正在生成大量的化学物质,然后让它们通过这些生物实验。然后他们需要读取结果来弄清楚应该进一步研究哪些化学物质,需要大量的内部软件开发来做这件事。 令人惊讶的是,看看现有的工具,它们是多么糟糕。然后想到这家软件不是核心竞争力的公司,必须出去做这种疯狂、费力的事情——雇佣一个真正的软件工程团队并培训他们,让他们进行内部产品开发,这简直太疯狂了。对于这种类型的公司,将会有更多的选择可供他们使用。 Garry Tan: 换个话题,我想听听 Cursor 早期的故事,你在 MIT 遇到了你的联合创始人 Sule、Arvid 和 Aman,这家公司成立于 2022 年。是什么把你们聚到一起的,你们什么时候意识到这是一个能够一起构建真正宏大目标的团队? Cursor 的创始人团队 Michael Truell: 我认为我们有很多年轻的天真,在当时可能是没有根据的。一开始我们就相当有野心。Cursor 实际上来自于我们四个人的一个雄心勃勃的想法练习,你知道,我们都很年轻就开始了编程,然后我们的一些早期工程项目实际上与 AI 有关。我们中的一个人致力于提高机器人强化学习的数据效率,就是教机器人非常快速地学习新任务。那是我们早期的 AI 项目之一。 另一个人致力于构建 Google 的竞争对手,使用神经网络来尝试快速构建一个令人惊叹的网络搜索引擎。其他人在 AI 方面做学术工作,但在 2021 年有两个时刻让我们真正兴奋地想要建立一家专注于 AI 的公司。 其中一个是使用第一批真正有用的 AI 产品,其中 AI 真正处于核心地位,GitHub Copilot 老实说是那个让我们真切感受到现在真的可以用 AI 制作非常有用的东西的时刻,我们不应该去实验室工作来做这些事情。相反,是时候让这些东西进入现实世界了。 另一件让我们真正兴奋的事情是看到来自 OpenAI 和其他地方的研究,显示有这些非常可预测的自然法则,表明如果你扩大数据规模并扩大投入这些模型的计算量,它们就会变得更好。 我们想要选择知识工作的一个领域,然后致力于随着 AI 变得更加成熟,那个知识工作会变成什么样。我们对这样一种公司的形态非常感兴趣:为那个知识工作领域构建产品。首先,随着底层技术变得更加成熟,你就可以演进做那件事的形态。其次,即使在那时,很明显你可能需要的不仅仅是扩大语言模型的规模到 GPT 级别,继续推进底层机器学习进展的一种方式是获得产品数据。 我们实际上并不太了解机械工程,我们研究了一段时间的计算机设计副驾驶。所以我们在训练 3D 自动补全模型,帮助那些在 Solidworks Fusion 360 这样的软件中对他们想要构建的零件进行 3D 建模的人,试图预测他们将要对几何形状做出的下一步改变。这是一个有趣的问题。这是学术界一直在研究的问题。实际上这也是 DeepMind 稍微研究过的问题。 Garry Tan: 这些都不是大语言模型。 Michael Truell: 你可以完全用 3D 来做,或者你可以说是我们研究了一段时间的一个方向,就是将其转化为语言问题,你把某人在 CAD 系统中所做的步骤转化为方法调用。相当复杂,但我们研究了一段时间。 这有几个原因。一个是我们对机械工程真的没有像对编程那样兴奋。我们都是程序员。另一个是,我认为当时的科学技术还没有为 3D 做好准备,比如预训练模型在这方面还不够好。没有很多数据。互联网上 CAD 模型的数据比代码少好几个数量级。所以很难制作一个有用的模型,或者当时很难为那个领域制作一个有用的模型。 Garry Tan: 你会和那些使用 CAD 或机械师之类的人坐在一起吗? Michael Truell: 我们就是这样做的。我们进行了大量的用户访谈,我认为我们可以做得更好。我认为,在年轻的天真中,我们每天都在运转,每周按小时计算任务,回顾我们在这方面花费的时间,我认为提早点更好。或者去一家雇佣机械工程师三周的公司工作吧,我认为那是非常有价值的,可以替代类似的数百个用户访谈中的一些。 Garry Tan: 我猜除此之外,你还在训练自己的模型来做到这一点,使用强化学习,这非常有用。同时学习如何启动大型集群来实际训练这些模型。 Michael Truell: 是的,我们当时并不知道。但是,是的,我们在那里做的一些事情最终对我们有用。它做了很多行为克隆,更少的 RL,但是在寻找人类所做的好的例子,然后训练 AI 去做这些事情。训练数百亿参数的大型语言模型并不是当时很多人在做的事,而且老实说,现在也没有那么多人训练超过 100 亿的参数规模、大型语言模型和机器学习模型。 因此,基础设施的状态非常非常早。我们正在做像 4k Megatron LM 或微软这样的事情,剥离内部结构,部署用于训练的东西,甚至在推理方面,在那个时期,我们大规模运行了几件事情。现在在 Curosr 中,我们每天通过自己的推理进行超过 5 亿个模型调用,并且了解当时进行推理的一些经验,并且当时的训练对于 Curosr 体验绝对是非常有用的。 Garry Tan: 所以,有一件事我觉得既非常勇敢、又非常有远见,那就是你们在某个时刻停下来,说:「其实我们对 CAD 了解得还不够,我们需要换一条路。」 当时是从训练 CAD 模型开始的吗?是不是最初的路径是:看到大模型实验室已经掌握了扩展能力,而 CAD 是一个可以深入的领域,于是就朝那个方向走下去?然后你们意识到,其实需要做的是别的事情。那么,真正让你们转向现在这个方向的那个契机是什么? Michael Truell: 这并不是一时兴起的想法。我们本身就是程序员,也受到像 Copilot 这样的产品和早期 Codex 论文的启发。我还记得,当时我们为了说服投资人支持我们这个听起来有点疯狂的 CAD 点子,做过一件事:我们算了一下训练 Codex,第一个代码模型,大致需要多少钱。按我们的粗略计算,大概只需要九万美元或者十万美元左右。这个数字当时让投资人非常吃惊,也在某种程度上帮助我们筹到了足够的资金去推进 CAD 项目——因为那个项目一上来就得开始训练模型。 我们其实一直都很关注编程方向,也一直对 AI 会如何改变编程这件事感到兴奋。但当时我们对投身这个领域还是有些顾虑,因为已经有很多人在做了,Copilot 本身就很厉害,还有几十家其他公司也在做类似的事。 我们后来决定放下 CAD 项目——那个方向本身相对独立,但科学上不太顺利,我们自己对那个领域也逐渐失去了兴趣。而真正让我们重新回到编程方向的,是我们自身的兴趣,而支撑我们继续走下去的信心,则来自两方面: 一是我们看到过去九个月左右,其他人在这个领域的进展似乎没有我们想象中那么快;二是我们认真想了一下,如果我们真的相信自己的判断,那么五年之内,所有的编程都会通过这些模型完成,编程这件事的本质会彻底改变。要走到那一步,无论是产品层面还是模型层面,都还需要迈出很多关键的跃迁,而这个方向的天花板实在太高了。 与此同时,我们也观察到,现有的一些参与者好像并没有真正立志去实现一种「全然不同的编程方式」,他们的野心并不在那个层面,也缺乏真正去实现那个目标的执行力。 第一次的经验告诉我们,建立一家公司很难,所以不妨去做你真正兴奋的事情。那个时候,我们开始着手研究公司的未来。 Garry Tan: 听起来你们当时的判断格外有远见。大概一年前,Sam Altman 也坐在这把椅子上说过类似的话:如果你在赌模型不会变得更聪明,那就是个糟糕的赌注。你应该始终相信模型在接下来的 12、18、24 个月里会变得更聪明——而事实也确实越来越印证了这一点。 而你们听起来是在他这么说之前整整提前了 12 个月,就已经下定了这个赌注。 Michael Truell: 是的,当时我们内部有一句话叫做 「follow the line」——意思就是始终要沿着那条进步的曲线前进,并为它的走向做规划。 这个理念其实可以追溯到「扩展法则」(scaling laws):只要你沿着这条线走,这些模型就会不断变得更好、更强、更聪明。我们相信这条曲线不会停,所以产品设计和路线规划也得始终对准它,提前为模型的飞跃做准备。 Garry Tan: 彼得·蒂尔有句经典的问题是:「你相信什么,而别人都不相信?」而你们当时相信了这件事——而且事实证明你们是对的。也正因为如此,你们才能走到那个「冰球即将落点」的地方。 Michael Truell: 是的,我想这是我们当时的一个优势。虽然现在这些观点已经变得非常主流了,但回到当时——比如说 2022 年,那真的是一个疯狂且关键的转折点。 那一年年初,几乎没人真正谈论 AI。GPT-3 是前一年发布的,Copilot 当时刚处在测试阶段(2021 年),可能 2022 才正式上线。之后才慢慢开始引起注意。我们还清楚地记得当时一系列产品的发布,比如 InstructGPT,它通过指令微调让 GPT-3 更好用了一点;夏天的时候是 DALL·E,那次发布非常直观地打动了一些原本并不关注这个领域的人,让他们开始正视 AI 的发展。 再接下来是 PaLM 和 Stable Diffusion,然后是 RLHF(人类反馈强化学习)、GPT-3.5 的出现。这些模型的能力提升非常快,却并没有伴随训练成本的大幅上涨,这点非常引人注意。 有传言说,从 GPT-3 到 ChatGPT(也就是大家真正关注的爆发点)之间,训练成本只增长了大约 1%。这太疯狂了。而促成这巨大跃升的,是对指令的微调(instruction tuning)、RLHF,以及一些其他细节调整。 Garry Tan: 你还记得有没有哪些具体的产品功能或路线上的决策,是基于你们相信模型不仅会变得更聪明,而且会变得非常非常聪明这一前提做出的?这些决策后来有没有真的成为让你们「赢下比赛」的关键? 因为你之前也提到,其实当时这个领域里确实还有十几家很不错的公司在做类似的事——但最终你们走到了前面,是不是和你们在早期就押注模型飞跃式进化、并据此做出不同产品路线有关? Michael Truell: 我们当时做出的一个不那么显而易见的产品决策,就是不做浏览器插件(extension),而是选择从头构建一个编辑器(editor)。在当时,这个选择对很多人来说并不直观,甚至有点反常。 但它背后的逻辑其实来自我们对未来的激进设想——我们相信所有编程最终都会通过这些模型完成,而且整个编程的样貌会完全不同。要实现那种形态,你就必须对用户界面(UI)有完全的控制权,不能受限于现成的平台或接口。所以我们从一开始就决定构建自己的编辑环境,而不是附着在别人的系统里。 Garry Tan: 2025 年了,我觉得我们其实才刚刚踏入「智能时代」的序幕,真的是一场彻头彻尾的革命。你个人现在最让你兴奋、最期待的是什么? Michael Truell: 我觉得未来这十年,大家的「创造力」都会被极大放大——那些一直活跃在创作第一线的人会更有力量,而更多之前没机会动手的人,也会变得触手可及。
炸裂!Claude以第一作者写论文反驳苹果“推理模型根本没有推理能力”:苹果有三大错误
前几天苹果写了一篇名为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》论文,在这篇paper中苹果试图证明:DeepSeek R1,OpenAI o3, Anthropic Claude 等推理模型根本没有推理能力 这篇论文一经上线就在全网引起了很多争议,有的人认为苹果是因为AI落后了,才写出了这篇文章,现在更精彩的的来了,这次反击苹果的不是人类,而是Anthropic最新的模型 Claude Opus,Claude Opus作为第一作者写了一篇反驳论文《思维幻觉的幻觉(The Illusion of the Illusion of Thinking)》 这篇发表在科研预印本网站 arXiv 上Claude Opus写的论文,逐一驳斥了苹果论文的核心论点,指出其所谓的“推理崩溃”更多是源于实验设计的局限性,而非AI本身存在根本性的推理缺陷 苹果的论点:AI存在“推理崩溃”的硬上限 在苹果的《思维的幻觉》论文中,研究人员通过一系列规划类谜题(如汉诺塔、过河问题)对大语言模型(LRMs)进行测试。他们发现,当问题的复杂度超过某个阈值后,模型的准确率会“断崖式”地跌至零。由此,他们得出结论:AI的推理能力存在一个根本性的上限,这是一种“思维的幻觉”。 Claude的反击:不是推理崩溃,而是实验设计的“幻觉”** 由Claude Opus撰写的《思维幻觉的幻觉》一文,像一位严谨的科研人员一样,指出了苹果研究中的三大关键问题: 1. 混淆了“推理失败”与“输出截断” 苹果在测试“汉诺塔”问题时,要求模型完整输出所有移动步骤。汉诺塔问题的步骤数随盘片数量(N)呈指数级增长(2^N - 1),很快就会产生极长的答案 C. Opus的论文指出,模型并非在推理上失败,而是触发了输出token(字符)的数量上限。更有力的证据是,在一些复现实验中,模型会明确表示:“模式还在继续,但为了避免内容过长,我将在此停止。” 这表明,模型完全理解解题的递归模式,只是因为实际的输出限制而选择截断。苹果的自动化评估系统无法区分“我不会解”和“我选择不完整列出”,从而错误地将其判定为“推理崩溃”。 2. 用“无解题”来测试并判定模型失败 这篇反驳论文最尖锐的批评,直指苹果在“过河问题”实验中的一个致命错误 论文指出,苹果测试了当参与者数量 N≥6 且船容量 b=3 的情况。然而,根据早已被证明的数学结论,这种设定下的过河问题是无解的。 苹果的研究人员让AI去解决一个数学上不可能解决的问题,然后因为AI没能给出解决方案,就给它打了零分。C. Opus犀利地评论道:“这相当于因为一个SAT求解器在面对一个无解的公式时返回‘无法满足’,就惩罚这个求解器。” 3. 对“问题复杂度”的衡量标准存在偏差 苹果的论文主要使用“解题步骤的长度”(即 compositional depth)来衡量问题的复杂度,但这并不能完全反映解决问题所需的“智力”水平 C. Opus的论文对此进行了澄清: 汉诺塔:虽然解题步骤非常多(呈指数级增长),但每一步的决策逻辑极其简单(O(1)的复杂度),几乎不需要搜索 过河问题与积木世界:解题步骤相对少得多,但每一步都需要进行复杂的约束满足和搜索,属于NP-hard或PSPACE级别的难题 因此,模型能解决上百步的汉诺塔,却在几步的过河问题上失败,这恰恰反映了不同问题在计算复杂度上的本质差异,而非一个统一的“推理能力上限” 换个问法,AI的能力瞬间“恢复” 为了进一步证明其观点,C. Opus进行了一项关键的补充实验。不再要求模型输出汉诺塔N=15时的所有步骤(这需要海量的token),而是改变了提问方式: “请解决15个盘片的汉诺塔问题。输出一个Lua程序,当调用该程序时,它会打印出解决方案。” 结果,包括Claude、GPT-4o、Gemini在内的多个模型,都轻松地生成了正确的递归算法程序,并且只用了不到5000个token。这有力地证明了,模型完全理解问题的核心逻辑,只是被最初那种“必须穷举输出”的死板评估方式所束缚。 结论:我们需要更聪明的评估方法 《思维幻觉的幻觉》在结论中写道,苹果的研究所揭示的,并非AI基础推理能力的局限,而是现有评估方法的一些工程性问题:模型无法输出超过其上下文长度的内容、自动评估脚本可能存在漏洞、解题步骤的长度并不能准确衡量智力难度 如果用一句话总结Claude Opus的反驳就是: “问题的关键不在于大模型能否推理,而在于我们的评估方法能否将真正的‘推理能力’与简单的‘打字输出’区分开来。”
红果做社区,与小红书终有一战
小红书与红果,走到了“短兵相接”的阶段。 自5月20日正式上线以来,小红书独家首发的短剧《痴人说爱》已超过7516万次播放,两周讨论曝光破2亿,打破了站内短剧记录。尽管与红果短剧4天播放量破10亿的记录相比仍有差距,但已展现出不小的潜力。 在小红书加码短剧想要分红果“蛋糕”的同时,红果悄然测试的社区功能,则昭示着两者之间的战线正在双向延伸。 近日,红果APP开始小范围内测社区功能并发布图文的激励计划,只要成功发布1条优质图文即可获得1万金币(按红果金币兑换规则,1万金币约为1元钱)激励,超10条优质图文可获得20万金币奖励,金币数量达到一定数额就可直接进行提现。 红果对于社区板块的重视从展示位的排布上就可以窥知一二。对比红果短剧APP的新旧版本,“社区”功能入口位于红果短剧App“剧场”页上方的导航栏,在排序上仅次于“找剧”之后,排在第二位。 这场“以己之短攻彼之长”的较量,尽管胜负尚未可知,但双方对于寻求新用户的流量焦虑都已经藏不住了。而在双方的互相渗透之中,市场格局也正在悄然发生改变。 红果版“小红书”想要什么? 凭借“免费短剧+看剧赚钱”组合拳打开市场的红果短剧,尽管早已是短剧市场当之无愧的“一哥”,仍希望通过打造“站内小红书”将“流量”转化为更多“留量”。 与小红书界面相似,红果社区板块采取双信息流排列模式,一屏大致可呈现四格内容。在内容形式上,红果社区可支持用户发布视频和图文,目前更强调社区图文对于站内短剧的导流作用。 据目前测试阶段已发布的社区内容来看,图文类内容主要聚焦于讨论短剧剧情、短剧演员。在图文内容展开页的左下角还设置有“一键看剧”按钮,支持用户一键跳转至对应短剧的观看页面。视频类内容则主要以短剧高光片段为主,目前的发布者多为短剧版权方和演员。 事实上,尽管短剧可以通过发布评论或者弹幕来表达观点,但用户仍需要更多表达空间来讨论剧情,而社区功能正好就是一个载体,且短剧演员与剧方的入驻同样能够提高互动率,进而有望提升用户的留存和活跃度。 这一路径在小红书独家首发的女频短剧《痴人之爱》上也已经被验证。该剧7000多万的播放量已经撬动起2亿多的讨论,其中,“痴人之爱女主同款发圈”、“痴人之爱女主同款高跟鞋”等话题均有上两千条讨论。 另一方面,种草内容对购买行为的影响力已被市场广泛认可。小红书依托原生社区氛围,实现的“种草—转化”的链路,同样为红果在商业化变现上,提供了范本。 目前,红果主要通过广告收益来实现商业化,即在短剧单个内容间引导观众观看广告来免费解锁下一集内容。但红果显然不仅仅只想从信息流广告上赚钱,尽管红果短剧内还没有电商的一级入口,但电商体系已和抖音打通,使用抖音账号登录后,可直接在红果短剧内查看购物车或下单购物。 社区生态,正是能链接短剧内容和电商购物的关键一环。平台不仅能通过社区讨论驱动短剧同款好物周边消费,还可以吸引品牌定向投放广告(如剧中同款商品)进一步提高变现效率。 不过,想要打造一个稳定的内容社区和氛围,并不容易。 在红果之前,抖音系已经推出过多款种草社区App如新草、可颂、Lemon8等,但效果大多平平,红果能否凭借短剧自带的剧情话题打造出抖音系首个能赶超小红书的社区生态,对其运营能力的考验可谓不小。 “狙击”红果,小红书上“细糠” 小红书对红果的突围,早在爆款《痴人之爱》之前。 今年1月22日,小红书正式入局短剧赛道,并将“短剧”频道自动置入至“发现”栏目中前三的位置,与“推荐”“直播”并列,都无法自行编辑删除,用户点击即可进入该频道观看短剧。 如今打开小红书的短剧页面,优先展示的是四部小红书独播短剧,《痴人之爱》、《夏娃之女》、《她早就知道》、《007通关怪谈》,且这四部短剧均为固定展示位,不会由于页面刷新而变动位置,意味着小红书主推的仍是站内独播剧集。 (左图:小红书将“短剧”入口嵌入发现页;右图:四部小红书独播短剧在固定展示位) 在推广短剧内容上,小红书用“真金白银”来吸引观众。在今年春节档,小红书一口气发布了100部短剧,其中包括10部平台独家出品的新剧,全部采用免费观看模式,还采用了抽奖送礼等多种运营方式来吸引更多用户参与观看。 近日,小红书还联合FIRST推出了“红镜短剧创投计划”,该计划将从短剧和剧本两个赛道进行招募,提供百万奖池金、小红书千万级流量扶持以及FIRST影展官方资源和名导监制,资金资源双加码,寻找短剧爆款。 可以看出,无论是在入口设置还是在战略布局上,小红书都已经做好了高举高打的架势,想要打响“小红书短剧”的名号。 在短剧内容上,小红书重点放在了“虐恋情深+女性力量”赛道,一方面符合小红书站内超7成女性用户的调性,一方面女频剧也是短剧爆款中最为突出的一类剧情,在红果热榜中也稳坐头把交椅。 (女频短剧剧情在短剧题材中表现最为突出) 在剧情画质上,小红书与红果形成了差异化。比起“红果都不嫌我穷,我为什么要嫌它low”的调侃,小红书主打“细糠”的精致感,与站内人群调性保持一致。短剧制作公司制片人晨阳曾在媒体采访中表示:“小红书的辨识度特质来源之一是物料的质感,作为依赖图文营造精致氛围感的平台,用户也更青睐于此。” 不过,作为“短剧一哥”,红果早已抢占了用户“看短剧用红果”的心智,小红书想要培养用户看短剧用小红书的心智仍需要一段时间。另外,小红书短剧主打的精品化路线,在成本和制作周期上并不占据优势。小红书仍需要更多高口碑的作品来为自己证明。 一场无法避免的争夺战 这场争夺战,其实并不意外。 在存量竞争时代,“争夺用户的注意力”已经成为各大平台之间难以避免的较量。而短剧,无疑是这两年来最为热闹的风口之一,短剧的流量和人气,仍在飙升。 《中国网络视听发展研究报告(2025)》显示,截至2024年12月,微短剧的用户规模达6.62亿人,微短剧独立应用的人均单日使用时长从90分钟涨到101分钟,接近2小时,已经追平即时通信。 红果诞生于2023年5月,起初被嵌入在抖音生态中,三个月后,成为独立APP正式上线,自此步入高速发展的轨道,2024年9月,月活跃用户增至1.2亿,同比增长1045.9%,增速稳居行业第一。QuestMobile最新《2025中国移动互联网春季报告》显示,红果短剧3月的月活用户数达到1.73亿,同比增长220.28%,位列在线视频行业第六,即将赶超优酷。 除了用户活跃度之外,红果的赚钱能力也同样让人“眼红”,据官方数据显示,今年3月和4月红果短剧连续两个月单月分账(分账,指平台与内容创作者、制作方或版权方等主体,依据既定规则和比例,对短剧产生的收益进行分配的合作模式)金额超5亿。 除了要应对小红书的突围外,红果的处境早已是四面烽火。 年初时,百度推出 “百剧计划” 和 “短剧星耀计划”,宣布2025 年计划出品超 300 部精品微短剧,投入上亿预算和百亿流量资源;拼多多升级“多多有好剧”计划,补贴力度翻倍;京东、美团也都加码了对短剧的扶持力度。 比起互联网巨头们只是为了分一杯羹的心情,“爱优腾”等视频平台则更为急迫地想要打一场反击战来赢回观众。 去年年底,腾讯视频便宣布要将10%—20%的剧集预算投入横屏短剧后,上线了主打免费短剧模式的“火星短剧社”小程序,与站内短剧板块、阅文短剧三板块并行。爱奇艺宣布“爱奇艺极速版”更名为“爱奇艺微短剧”,推出“千部微短剧计划”,最新财报显示,从2024年12月到2025年4月,爱奇艺微剧的重度用户增长3倍。 这也意味着,小红书想要做好短剧,除了红果之外,也有着不少对手。但不能忽视的是,小红书拥有着天然的女性用户优势,在一定程度上为平台短剧提供了赖以生长的土壤。而早已在站内实现的“种草—购买”的消费链路,或许有望率先在业内实现“观看—种草—购买”的商业闭环。 另一方面,红果目前对于社区的规划也主要围绕在短剧垂类之中,还无法在短时间内成长为像小红书这样全民种草氛围的生活社区。总之,小红书与红果之间的争夺不会出现速战速决的结局,市场也足够容纳双方继续成长。用户的选择将成为最终的裁判,未来的胜负或将取决于谁能更高效地整合内容、社交与商业场景。
张朝阳“后悔送回”的labubu,被胡润换了一台车
近日,#张朝阳后悔送回绝版Labubu# 冲上热搜。 6月15日,胡润发视频透露了这个绝版Labubu的新去向。视频中,胡润将Labubu给了小马智行联合创始人兼CEO彭军。作为交换,彭军将公司第一辆在公共道路上路的自动驾驶汽车送给了胡润。 据彭军说,这辆车价值30多万。在签名照片中,彭军写道:中国第一辆无人车。 彭军与胡润 此前,6月8日,胡润使用一枚人造蓝宝石与泡泡玛特创始人王宁交换了Labubu。 王宁称“这是公司最后一个”,同时在耳朵附上了签名。 随后,按照交换规则,这个绝版的Labubu又到了搜狐创始人张朝阳手里,但张朝阳后续又将该玩偶送回胡润。 6月10日,在永乐2025春季拍卖会上,一款初代藏品级薄荷色的LABUBU最终以108万元的价格拍卖成交,买家身份未披露。拍卖直播备注栏标注,这是香港艺术家龙家升作品,尺寸为高131cm,是“全球唯一一只”。 除此之外,一款全球限量15版棕色LABUBU以82万元成交。 6月11日,搜狐创始人张朝阳转发Labubu拍卖新闻时表示,他此前曾将《胡润百富》创始人胡润转赠的签名版Labubu送回。张朝阳称:“后悔送回去了。” 据悉,Labubu是中国香港艺术家龙家升创作的北欧森林精灵形象,是“The Monsters”精灵天团的成员。它有9颗牙齿和直立的尖耳朵,表情可爱搞怪。由泡泡玛特签下后,推出Labubu系列潮流玩具,逐渐在全球引起抢购热潮。 微信编辑:凌山 审核:林夕合

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。