行业分类:
加载中...
头条分类:
加载中...
扎克伯格与Meta股东和解,了结80亿美元脸书隐私案
扎克伯格 凤凰网科技讯 北京时间7月18日,据路透社报道,一名Meta股东律师周四向特拉华州法官表示,Meta CEO马克·扎克伯格(Mark Zuckerberg)以及该公司现任和前任董事、高管,已在周四同意就一桩隐私索赔案达成和解。该诉讼指控他们放任脸书用户隐私屡遭侵犯给公司造成了损失,索赔金额达80亿美元。 各方并未披露和解协议的具体细节,辩护律师也未向特拉华州衡平法院法官凯瑟琳·麦考密克(Kathaleen McCormick)陈词。麦考密克在庭审进入第二天之际宣布休庭,并对双方达成和解表示祝贺。 原告律师萨姆·克洛西克(Sam Closic)表示,该和解协议达成的过程十分迅速。亿万富翁风险投资家马克·安德森(Marc Andreessen)是此次庭审的被告之一,同时也是Meta的董事,他原定于周四出庭作证。 Meta股东起诉了扎克伯格、安德森以及其他前公司高管,包括前首席运营官谢丽尔·桑德伯格(Sheryl Sandberg),希望让他们为公司近年来支付的数十亿美元罚款和法律费用承担责任。2019年,美国联邦贸易委员会因发现脸书未能遵守2012年与监管机构达成的保护用户数据协议,对其处以50亿美元罚款。 Meta股东希望11名被告使用个人财富来补偿公司。被告否认了这些指控,称其为“极端主张”。脸书在2021年更名为Meta,该公司本身并非被告,并拒绝发表评论。Meta在其官网上表示,自2019年以来已投入数十亿美元用于保护用户隐私。 截至发稿,被告律师不予置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
古老昆曲如何做到青春永驻
北方昆曲剧院排演的《牡丹亭》中的花神一幕。资料图片 《桃花扇》古本剧本。资料图片 改编自《牡丹亭》的新编昆曲《游园·惊梦》。资料图片   昆曲既古老又年轻。说它古老,是因它作为中国经典艺术形式,诞生于数百年前;说它年轻,是因它始终保有与时代同频的生命力。可以说,昆曲源于创新,也始终坚守创新,至今仍因创新而生机勃勃;同时,它孕育于深厚的文化传统,始终守护传统,时至今日仍是中华优秀传统文化无可争辩的代表之一。昆曲所闪耀的传统与创新的双重光辉,恰恰彰显了中华优秀传统文化的无限生命力——以传统为沃土,深深植根于此,方能绽放创新之花。在当下,昆曲依然印证着这一道理。   经过戏曲家改良而诞生的昆曲,被赋予兼容并包的艺术视野   不同于许多脱胎于乡土民歌、在漫长岁月中自然演化的戏曲形式,昆曲的源起清晰烙印着主动“创制”的印记——它是由以魏良辅为代表的戏曲革新家们,凭借非凡的艺术智慧与明确的创新目标,精心设计、系统构建而成的艺术结晶。   被尊为“昆曲之祖”的明朝戏曲改革家魏良辅,凭借其精深的传统音乐造诣和丰富的实践经验,敏锐洞察到当时文化审美的演进需求。他与志同道合的戏曲家们,在南戏的原有声腔基础上,经过反复切磋琢磨,最终创造性地提炼、升华出一种全新的声腔艺术——“水磨腔”。“水磨腔”细腻婉转、流丽悠远,成为昆曲标志性的唱腔。   可以说,昆曲的诞生,在主观上依赖于魏良辅及其同道者们卓越的艺术综合素养:深厚的传统音乐修养赋予他们创新的基础;广博的文化修养提供了审美的高度与方向感;而共同的艺术理想则凝聚了力量,驱动着这场目标明确的艺术实验。在客观上,则是深深植根于当时社会既有的传统文化积淀,特别是当时形态各异、生机勃勃的民间曲调唱法。没有对民间音乐精华的广泛吸收,魏良辅不可能凭空构建出他心目中理想的“新声”。而若无优秀传统文化的滋养,这种艺术形式也不可能一出现便风靡全国。   经过戏曲家改良而诞生的昆曲,在诞生之初就被赋予了全国性的艺术视野与通行潜力。昆曲虽然是依托当时流行于南方的南戏创造而成的,但魏良辅并不囿于南方唱腔,而是积极研习北曲,依据对南北曲各自艺术特征的深入思考,将两者熔于一炉,统一纳入昆曲的宏大音乐体系之中。在至关重要的声韵规范上,他也摒弃了地域性的局限,有意识地选择了当时最具广泛接受度的语音标准——《中原音韵》作为基础。这种先天的“通行性”设定,是昆曲能够迅速突破地域限制,赢得全国性赞誉的关键所在。   从“水磨腔”的精妙创制,到对南北曲的兼容并蓄,再到声韵标准的通盘考量,这一系列的深远思考与精巧设计,彰显了非凡的创造性与体系建构能力。可以说,创造性是昆曲的初始基因,正因如此,它方能在“横空出世”后历经岁月变迁,至今仍保有活力。   比起其他戏曲形式,雅致的昆曲集合着更多的文学样式   在曲调、唱腔、发音等听觉系统层面之外,在文本层面,昆曲兼容了高度的文学性。一部成熟的古典文学剧本,本身就是诸多古典文学形式的集合,比起其他戏曲形式,雅致的昆曲集合着更多的文学样式,它可被视为古典文学体裁的“百科全书”——其中包含诗、词、韵文、白话、集句等诸多文学体裁,而最重要的当属曲,即昆曲的唱词。这些文学体裁各有自身要求,有能力的作者能让诸多体裁都在昆曲中得到充分体现。也正因这份文学性,昆曲激发了历史上无数作者的创作热情,催生了《牡丹亭》《长生殿》《桃花扇》等经典名剧。   昆曲的文学性还促使昆曲所表现内容往往与时俱进。明清之交,出现了讲述明末农民战争的《铁冠图》;清初,诞生了以南明历史为背景的经典史诗《桃花扇》;清末反清反帝浪潮风起云涌之际,吴梅创作《风洞山》传奇,借明末抗清名士瞿式耜的事迹回应社会风潮,鼓舞革命斗志。   除了剧本,在舞台表演方面,昆曲也展现出高度的综合性。它在发展过程中吸收融合了当时已有的许多不同门类的表演艺术,如舞蹈、歌唱甚至今天归入杂技、曲艺的诸多艺术门类,并且将之融汇一体,为之后成为中国戏曲典型特征的“唱念做打舞”奠定了丰厚而坚实的基础。   到了清中期,具有高度文学性的昆曲渐渐开始注重表演,由此催生了各种更适用于演出的新变化。昆曲折子戏演出本集成《缀白裘》中记录了当时丰富的昆曲演出形式。而在诸多新戏曲剧种兴起的时代,昆曲的唱腔、剧本、表演等方面,又自然成为这些戏的参照与依据,昆曲也以此身份融入新戏曲的发展,为自己赢得了“百戏之祖”的地位。   这一阶段,昆曲在守正与创新的征程中,涌现出许多总结性著作,如曲唱领域的力作《纳书楹曲谱》。这类总结性、规范性著作,与当时注重总结规范的学术及社会风气相契合,既是昆曲对时代精神的呼应,也是其与时俱进的体现。    能历经数百年沧桑而依然富有活力,在于守正创新的精神   昆曲总能在不同历史阶段展现强大的创造力,承载时代精神,实现新发展,并且根基始终植于深厚的文化土壤与传统艺术积淀之中。   正是这种立足传统、守正创新的文化态度与生长方式,使得昆曲既能代表中国经典传统文化艺术,又具备与时俱进的特质和面向未来的创造性。适应时代、持续创新,早已融入昆曲的核心基因。   今天,我们在传承昆曲时,应当意识到,除了传承昆曲艺术的程式与规范,也应秉持昆曲一以贯之的守正创新精神。   今天我们所熟知的汤显祖的《牡丹亭》中,广为流传的“游园惊梦”及“拾画叫画”等经典折子,实则是自汤显祖之后,后世不同时代的艺人反复调整、修改与叠加的成果。   其中唱词、表演方面的变化不胜枚举,甚至衍生出新的内容场景。比如突出十二个月花神、极具舞台表演效果的“堆花”,便是清代昆曲艺人在《牡丹亭》“惊梦”一折“花神入梦”基础上的进一步改编。   如今我们所见《牡丹亭》的诸多唱词,都是历经不同时代的调整与创作累积而成的,不少内容已与汤显祖原著形成显著差异。这些历代叠加的痕迹,正是后人观察、理解《牡丹亭》内核的重要维度。   昆曲能历经数百年沧桑而依然青春,并令人可期于未来,根本在于一代代昆曲人始终坚持的守正创新精神,这也是昆曲乃至其他戏曲剧种传承所应遵循的精神。   这也启示我们,应效法魏良辅创制昆曲的智慧——他并非凭空创造,而是从当时流传的多种声腔中择取精华,调整优化,最终化育出源于传统又立足时代的崭新艺术。这种从丰厚经典材料中汲取灵感、选择重构的创作理念,至今仍具现实意义。   (作者:王一舸,系剧作家,艺术评论人)
思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
编辑:KingHZ 【新智元导读】离开OpenAI,只是为了Meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往! 硅谷人才争夺战,火热升级! 过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。 顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价! 思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到Meta。 在AI领域,Jason Wei非常高产。 根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。 离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开 意外的是,这些灵感都来自强化学习! RL之人生启示 天生我材必有用 过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。 RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。 当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。 一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。 人生也一样。 我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。 研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。 强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。 他举两个他自己更享受、却相对小众的习惯: 读大量原始数据。 做消融实验,把系统拆开看每个部件的独立作用。 有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。 今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。 更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。 所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板😄 AI的未来 验证非对称性,意指某些任务的验证远比求解更为简单。 随着强化学习(RL)的突破,这一概念正成为AI领域最重要的思想之一。 细察之下,验证非对称性无处不在: 数独和填字游戏:解决数独或填字游戏非常耗时,要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常简单,只需检查是否符合规则即可。 开发网站:比如开发一个像Instagram这样的网站,需要工程师团队数年之功。但验证网站是否正常运行,普通人只需几分钟就能完成,比如浏览页面、检查功能是否可用。 BrowseComp问题:要解决这类问题,通常需要浏览数百个网站,但验证给定答案却要快得多,因为可以直接搜索答案是否符合约束条件。 有些任务的验证耗时与求解相当。例如: 验证两个900位数字相加的结果,和自己计算的时间几乎一样。 验证某些数据处理程序的代码是否正确,可能和自己编写代码的耗时相当。 有些任务验证比解决还费时。例如: 核查一篇文章中的所有事实,可能比写文章本身更耗时(引用Brandolini定律:「辟谣所需的精力比制造谣言大一个数量级」)。 提出一个新的饮食疗法只需一句话:「只吃野牛肉和西兰花」,但要验证它对普通人群是否健康,却得做多年大规模实验。 通过前置研究,可以让验证变得更简单。例如: 数学竞赛问题:如果有解答要点,验证答案是否正确非常简单。 编程问题:阅读代码去验证正确性,这很麻烦。如果你有覆盖充分的测试用例,就可以快速检查任何给定的解决方案;实际上,Leetcode就是这样做的。在某些任务中,可以改善验证但不足以使其变得简单。 部分改进:比如「说出荷兰足球运动员的名字」,提前备好名单能大幅加速验证,但仍需人工核对某些冷门名字。 为什么验证非对称性如此重要? 深度学习史证明:凡是能被测量的,都能被优化。 在RL框架下,验证能力等同于构建训练环境的能力。由此诞生验证者定律: AI解决任务的训练难度,与任务可验证性成正比。所有可解且易验证的任务,终将被AI攻克。 具体来说,AI训练的难易程度取决于任务是否满足以下条件: 客观真相:所有人对什么是“好答案”有共识。 快速验证:验证一个答案只需几秒钟。 可扩展验证:可以同时验证多个答案。 低噪声:验证结果与答案质量高度相关。 连续奖励:可以对多个答案的质量进行排序。 过去十年,主流AI基准测试均满足前四项——这正是它们被率先攻克的原因。尽管多数测试不满足第五项(非黑即白式判断),但通过样本平均仍可构造连续奖励信号。 为什么可验证性重要? 根本原因是:当上述条件满足时,神经网络每一步梯度都携带高信息量,迭代飞轮得以高速旋转——这也是数字世界进步远快于物理世界的秘诀。 AlphaEvolve的案例 谷歌开发的AlphaEvolve堪称「猜想-验证」范式的终极形态。 以「求容纳11个单位六边形的最小外接六边形」为例: 完美契合验证者法则五项特性 虽看似对单一问题的「过拟合」,但科学创新恰恰追求这种训练集=测试集的极致优化——因为每个待解问题都可能蕴含巨大价值 悟透此理后,方觉验证之不对称,宛如空气无孔不入。 试想这样一个世界:凡能衡量的问题,终将告破。 智能的边界必将犬牙交错:在可验证任务中,AI所向披靡,只因这些领域更易被驯服。 这般未来图景,怎不令人心驰神往? 参考资料: https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning
马云夜骑西湖被网友偶遇,同款自行车卖1.85万元
自动播放 7月17日,有网友晒视频称在西湖夜游时偶遇骑车的马云,引发关注。 视频中,网友认出了骑车的马云,激动到语无伦次地向他打招呼:“是马老师吗?”马老师则回头微笑着和网友打招呼,并回复“很凉快”。 马云还提醒网友注意安全。视频发布后,有网友回忆起马老师年轻时的一段往事:“在西湖边骑车还见义勇为抓过正在偷窨井盖的小偷”。有人晒出了马老师同款自行车,还有网友回忆起少年马云在西湖边免费当导游的日子。 网友发布视频截图。 有网友在留言区提到,“西湖边有六公园英语角,是梦开始的地方。”杭州西湖边“六公园英语角”曾是杭州最大的市民英语角,也是青年马云交朋友、看世界的起点。 评论区还有有网友晒出马云同款折叠自行车,品牌为BROMPTON,售价1.85万元。 马云近期已多次现身杭州 今年5月9日,马云现身阿里总部“创业公寓”湖畔小屋,现场鼓励员工坚持创业精神,持续创新。阿里巴巴集团CEO吴泳铭也在现场。 湖畔小屋是刚刚于阿里全球总部亮相的一座复刻版“创业公寓”,它等比例复刻了1999年马云和创始团队开启创业的湖畔花园16幢1单元202室,阿里员工称它为“湖畔小屋”。 据21世纪经济报道,从2024年底至今,马云已多次在杭州露面。去年12月8日,马云亮相蚂蚁园区,并在支付宝和蚂蚁集团二十周年活动现场致辞,着重提及了对于AI的思考。 2025年2月11日,马云现身阿里杭州园区。据消息人士透露,马云前往了阿里园区A区1号楼闲鱼工位。 2025年4月10日,阿里云新财年启动会在杭州云谷园区举行,马云到场发表演讲。他表示,高科技绝不仅是征服星辰大海,更应该呵护人间烟火。科技人员的责任,不是让AI取代人类,而是让AI更懂人类、更好地服务人类。 编辑|程鹏 盖源源 校对|赵庆 封面图片来源:截图
亚马逊承认云业务裁员:是AI替代,还是增长焦虑?
财联社7月18日讯(编辑 赵昊)亚马逊周四(7月17日)证实,公司正在裁减其关键业务——云计算部门的一部分员工。 先前,两位消息人士透露,亚马逊在AWS部门裁员至少数百人。几名员工告诉媒体,他们在周四早上收到电子邮件,告知他们已被解雇,并且他们的电脑将被停用。 发稿前不久,亚马逊发言人Brad Glasser表示:“在对我们组织架构、优先事项以及未来的工作重点进行了全面审查之后,我们做出了一个艰难的商业决定——在AWS的特定团队中裁撤部分职位。” Glasser强调,“我们并非轻率做出这一决定,我们也承诺会在员工过渡期间给予支持。” 亚马逊还表示,此次裁员并非主要由于人工智能方面的投入,而是公司持续精简人力、聚焦关键优先事项的结果。公司强调,AWS仍在持续招聘。 而就在一个月前,公司首席执行官安迪·贾西(Andy Jassy)警告称,采用生成式人工智能(AI)工具将引发裁员。 当时贾西在官方博客撰文写道,“虽然难以精确预期长期净影响,但在未来几年,随着全公司广泛运用AI提升效率,我们预计企业整体的员工规模将会缩减。” 当下,许多公司正使用AI为其软件编写代码,并采用AI代理来自动执行日常任务,以节省成本并减少对人的依赖。 除了AWS,亚马逊在其他部门也一直在进行零星的裁员,最近裁员的是图书、设备和服务部门,以及Wondery播客业务。 年内早些时候,贾西在泄露的一次内部全体员工会议录音中,重申了他对精简管理层级的决心,他认为这一举措将减少公司现在的官僚主义。 公司5月公布的季度业绩显示,AWS连续第三个季度收入未达预期,虽然同比增长17%至292.7亿美元,但增速低于前一季的18.9%,也低于微软和谷歌的竞品。
大模型转行土木工程!首个“打灰人”评估基准:检验读、改工程图纸能力
编辑:LRST 【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。 在AI竞速的今天,大语言模型(LLM)早已不满足只在象牙塔里「背书解题」。 当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后,LLM必须直面一个更现实的问题: 这些号称「专家级」的大模型,能不能真的下工地?能不能帮工程打工人减负?在钢筋水泥的图纸世界里,它们是得力助手,还是纸上谈兵? 答案尚未揭晓,但DrafterBench迈出了评估的第一步。 来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校(UCSB)合作,正式推出面向工程自动化任务的大模型评估基准——DrafterBench。 这是首个针对「一线工程图纸修改任务」设计的大规模评测套件,旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。 论文链接:https://arxiv.org/abs/2507.11527 代码链接:https://github.com/Eason-Li-AIS/DrafterBench 数据链接:https://huggingface.co/datasets/Eason666/DrafterBench 为什么需要DrafterBench? 工程图纸修改,是土木工程、建筑设计等领域最耗时间、最高频的任务之一,也是自动化改造迫切程度极高的一环。 每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。 这类工作往往工作量大、标准高、容错低,但技术门槛不高,对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。 于是研究团队提出问题: 如果大模型能读懂图纸指令,调用工具链,精确修改图元,它就不只是「写PPT的高手」,更是「工程打工人福音」。 DrafterBench怎么做的? DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个高质量任务,涵盖12类指令类型,模拟了各种难度、不同风格的真实工程命令。 DrafterBench不仅让模型「按部就班」,而是全面考察以下四大任务能力维度。 结构化数据理解能力:模型是否能从不同风格语句中准确提取出关键细节; 工具调用能力:模型能否组合多个工具形成有效的操作链,并正确调用顺序与参数; 指令跟随能力:面对一条包含多个修改目标的长指令,是否能做到任务不漏项、执行不断链; 批判性推理能力:模型能否识别指令中的信息缺失、不合理内容,并尝试补全模糊的细节、完成修正。 这不是纸面作文,是工程实战。 DrafterBench如何评估模型? 在DrafterBench中,模型要以「代码调用工具」的方式完成任务。 这些工具涵盖图元编辑、标注调整、绘图逻辑等,彼此之间还有输入输出依赖,形成一个「工程任务链」。 但问题来了: 工具调用是否正确?是否合理组合? 中间步骤是否成功传递?是否使用了冗余或错误命令? 直接看图纸输出无法判断。因此DrafterBench设计了一整套对偶工具系统(Dual function system)。 所有工具都有一份「替身」,不实际修改图纸,但记录调用顺序、参数值、变量状态,并以结构化JSON形式输出,清晰还原模型「行动路径」。 DrafterBench不只看模型有没有答对,而是看它「为什么答错,哪一步出错,错在哪里」。 模型表现如何? 喜忧参半! DrafterBench评测了主流SOTA大语言模型,分别为:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。 综合来看,这些模型表现都达到一定水准,得分普遍超过65分。 其中,OpenAI o1以79.9的综合分领跑,Claude3.5 Sonnet和Deepseek-V3-685B表现也非常接近,分别为73.79和73.09。 这说明当前主流大模型具备一定的工程任务处理能力,尤其在简单指令执行上表现稳定。 但与此同时,模型整体水平仍远未达到工业一线对执行精度、流程完整性的实际要求。 更重要的是,不同模型在四大能力维度上呈现出显著差异。 比如,在结构化数据理解任务中,模型整体表现稳定,对语言风格的鲁棒性较强。 但在工具调用方面,准确率波动明显,平均可达9个百分点。对于指令跟随能力,部分模型表现出较强的任务承载能力,如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好,能保持基本的任务完整性。 而在批判性推理任务中,模型间能力分化尤为显著。 OpenAI o1在识别指令中信息缺失、筛选关键信息方面表现突出,而Qwen2.5则在细节补充上更具优势。 其余模型则在这两个维度中存在大幅度波动,表现不一。 研究团队进一步使用自动化错误分析工具,对每一个任务的失败原因进行结构化溯源。 结果表明,模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。 更关键的是,即便多个步骤执行正确,只要某一关键环节出现偏差,就会导致最终图纸修改失败。 这也解释了为何多数模型的单项能力准确率维持在60%左右,但整体目标修改完成度却显著偏低,仅在40%左右。 结论与展望 这些评估结果说明,尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具,但它们仍难以稳健掌握完整任务链的所有细节,对实际场景的适应能力尚不足以支撑工程一线需求。 如果说过去的大模型评测多数还停留在「会不会」,那么DrafterBench的贡献在于首次让模型接受了「干不干得好」的落地考核。 工程现场需要的是高容错、强判断、懂规则、能执行的助手,而DrafterBench正是在为这一目标提供数据支持与路径验证。 接下来,研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景,持续拓展模型能力边界。 你有模型,DrafterBench有任务。 看看你的模型,能不能真在图纸上动真格。
科学家发现行星宜居性新标准:表面水含量至少需达地球的20%
IT之家 7月17日消息,在寻找外星生命的过程中,科学家们一直将“宜居带(即温度适宜液态水存在的区域)”作为关键指标,认为只要行星位于恒星周围适宜液态水存在的区域,就有可能孕育生命。然而最新研究显示,仅仅处于宜居带可能并不足以使行星具备宜居性,其表面水含量才是决定性因素。 据IT之家了解,美国华盛顿大学的哈斯凯尔・怀特 - 吉安内拉(Haskelle White-Gianella)及其团队通过约1万次模拟实验发现,行星地表水含量至少要达到地球的 20%,才有可能维持稳定的气候,从而具备潜在的宜居性。这是因为降水在岩石中引发化学反应,将二氧化碳储存于地下。如果降水不足,大气中的二氧化碳就会不断积累,导致行星温度急剧上升,超过126℃,远超已知生命形式的耐受极限。 怀特 - 吉安内拉在7月10日于捷克布拉格举行的戈德施密特地球化学会议上表示,行星的地质历史对其宜居性至关重要。这一发现或许也能解释金星如今的炽热、不宜居状态,尽管太阳亮度不断增加被认为是金星大气流失和温度升高的主要原因,但这一解释并不全面。怀特 - 吉安内拉团队将模拟模型调整为金星所接收到的恒星光照量后发现,即使拥有与地球相当的水量,行星也可能因二氧化碳流失过多而变得不宜居。 加拿大卡尔加里大学的本杰明・图托洛(Benjamin Tutolo)认为,这一解释为金星等行星的高温现象提供了有力依据,但如果行星随时间推移产生的二氧化碳减少,情况可能会更复杂,这从火星的地质记录中可见一斑。火星的液态水吸收了过多二氧化碳,并以碳酸盐矿物形式储存于地下,导致其大气层变薄,行星温度降低。怀特 - 吉安内拉表示,其团队的模拟主要针对类似地球大小和距离的行星,火星这类行星的情况可能有所不同。 该研究表明,在寻找宜居行星时,不能仅依赖于其是否处于宜居带,还需综合考虑行星的水含量及地质历史等多方面因素。
无需驾照!小牛电动新国标旗舰车FXT Ultra 2025发布:11999元
快科技7月18日消息,近日,小牛电动发布了两款新国标旗舰电动车,除了刚刚介绍过的NXT Ultra 2025,另一款就是FXT Ultra 2025,价格同样定在了11999元。同时还提供多款减配车型。 不同于NXT(长宽高1790*750*1100mm,踏板宽度410mm),FXT尺寸更紧凑,长宽高1742*730*1093mm,踏板宽度380mm,整车线条硬朗,具有机甲风,还使用了电摩同款的鹰眼大灯,也提供五种配色。 配有5英寸LED智能仪表,可显示车辆关键数据,还支持多种无钥匙解锁方式,骑行更便捷。 配备31芯前减震,5级手动可调后减震,可有效过滤路面颠簸,长时间骑行也不易疲劳,后轮胎宽达到110mm,更加利于弯道控制。 制动方面采用前后碟刹,搭配双通道ABS、TCS牵引力控制系统,可防止车辆在湿滑路面或紧急制动时打滑,并搭载了毫米波雷达和胎压监测,进一步提供主动和被动安全能力。 动力系统方面,该车同样配备了一台400W电机,配有新能安48V 30Ah锂电池,且标配一块送一块,标称续航为105km,且耐低温。 整车还支持全场景智能辅助骑行,具备定速巡航、坡道驻车、助力推行、倒车档、边撑感应驻车等功能。 除了Ultra版,该车还提供多个减配车型,包括FXT Citi ABS、FXT Citi (LI)、FXT Sport ABS和FXT Sport,售价从7299-4899不等,具体可见下图。 责任编辑:落木
刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻
过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。 几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。 就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。 通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。 发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道:: 观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。 亮点如下: ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; 在多项基准测试中表现领先,综合性能位居行业前列; Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。 ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了 今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。 只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。 整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。 在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。 比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。 更重要的是,用户可以随时中断任务。 比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。 同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。 「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。 这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。 ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。 用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。 任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。 当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。 通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。 一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。 这类自动化能力,都是 Agent 深度嵌入工作流的体现。 不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。 需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。 The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。 而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。 对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线 Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。 全线刷新「跑分」记录,Agent 战场迎来最强对手 ChatGPT Agent 能力的提升,也体现在「跑分」环节。 在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。 在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。 在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。 在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。 此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。 从平台视角看,Agent 能力的底层接口,正是浏览器。 在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。 不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。 浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。 在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。 如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。 当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。
OpenAI史上最强ChatGPT智能体发布:逛网站、做PPT样样精通
IT之家 7月18日消息,OpenAI今日凌晨宣布将在ChatGPT中推出一款通用型AI智能体,该公司表示该智能体可以帮助用户完成各种基于计算机的任务。 OpenAI介绍称,该智能体可以自动生成可编辑的演示文稿和幻灯片、查看用户的日历来简要介绍即将到来的客户会议、计划并购买制作家庭早餐的食材,以及运行代码等。 该工具名为ChatGPT agent,结合了OpenAI之前多种智能体工具的功能,包括Operator点击网站的能力,以及Deep Research从数十个网站中综合信息生成简洁研究报告的能力。OpenAI表示用户只需通过自然语言提示ChatGPT即可与该智能体进行交互。 为了开发这个新工具,OpenAI将其背后的Operator和Deep Research团队合并为一个统一的团队。外媒The Verge报道称,这个新团队由产品和研究部门共20~35人组成。 OpenAI今日起将向Pro、Plus和Team计划的订阅用户推出ChatGPT智能体,今年夏末向ChatGPT企业和教育用户开放。要激活该工具,用户可以在ChatGPT的工具下拉菜单中选择“智能体模式(agent mode)”。 OpenAI表示ChatGPT智能体比其之前的任何产品都要强大得多,可以访问ChatGPT连接器,允许用户连接像Gmail和GitHub这样的应用,智能体可以根据用户的提示找到相关信息。此外,OpenAI表示ChatGPT智能体可以访问终端,并可以使用API来访问某些应用。 根据OpenAI的说法,ChatGPT智能体的底层模型在多个基准测试中提供了最先进的性能。ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%,这是一项由数千个问题组成的、涵盖超过一百个学科的困难测试。这个分数大约是OpenAI o3和o4-mini得分的两倍。 在已知最难的数学基准测试之一FrontierMath中,OpenAI表示,当ChatGPT智能体可以访问工具(IT之家注:如用于代码执行的终端)时,其得分为27.4%,之前的最佳分数来自o4-mini(得分仅为 6.3%)。
OpenAI深夜发布ChatGPT Agent:能主动思考、自选工具,智能体赛道大变天
今天凌晨1点,OpenAI进行了技术直播发布了重磅产品ChatGPT Agent。 ChatGPT Agent具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,包括Operator、 Deep Research和ChatGPT来完成各种超复杂任务。 例如,用户可以要求 ChatGPT Agent分析三个竞争对手并制作幻灯片演示文稿等请求。ChatGPT会智能地浏览网站、选择日期、筛选结果、运行代码,甚至自动生成经过润色的幻灯片演示文稿或电子表格。 也就是说你只需要一个提示,ChatGPT Agent就会帮你完成所有工作等待结果就好。 自动播放 完整技术直播 OpenAI首席执行官Sam Altman还非常罕见地发表了一篇长文来说明ChatGPT Agent: 今天 我们推出了一款名为 ChatGPT Agent 的新产品。 Agent代表着 AI 系统能力的新高度,可以借助自身的计算机为你完成一些出色的复杂任务。它融合了Deep Research和 Operator 的核心优势,但实际功能比听起来更强大,它能进行长时间思考、使用多种工具、进一步思考、采取行动,之后再深入思考,如此循环。 例如,在发布会上,我们展示了一个为朋友婚礼做准备的演示:购买服装、预订行程、挑选礼物等。我们还展示了一个工作场景的案例:分析数据并制作演示文稿。 尽管它的实用性很强,但潜在风险也不容忽视。 我们在其中内置了大量安全保障和警示机制,并且部署了比以往任何时候都更全面的风险缓解措施,从强化训练、系统防护到用户控制等方方面面都有覆盖,但我们无法预判所有情况。本着迭代部署的原则,我们会向用户发出重点警示,同时给予用户自主选择的空间,让他们可以谨慎地使用各项功能。 如果要向我的家人解释这款产品,我会说它处于技术前沿,尚在试验阶段;是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用它处理高风险事务或涉及大量个人信息的场景。 我们并不确切知道它会产生哪些影响,但不良分子可能会试图 “欺骗” 用户的 AI 代理,让它们泄露不应泄露的隐私信息,或执行不应执行的操作,而这些手段是我们无法预知的。我们建议,为了降低隐私和安全风险,仅向代理提供完成任务所需的最低权限。 比如,我可以让 Agent 访问我的日历,以便为团体晚餐找到合适的时间。但如果只是让它帮我买些衣服,就不需要授予任何额外权限。 像查看我昨晚收到的邮件,并自主处理所有需要处理的内容,无需进一步询问这类任务,风险会更高。这可能导致恶意邮件中的不可信内容欺骗模型,造成你的数据泄露。 我们认为,从实际应用中学习至关重要,同时人们也应在我们更好地量化和缓解潜在风险的过程中,谨慎、逐步地采用这些工具。与其他新的能力层级一样,社会、技术以及风险缓解策略需要协同发展。 技术架构方面,ChatGPT Agent通过其虚拟计算机处理任务,能够流畅地在推理与执行之间切换。在面对复杂任务时,不仅能够进行逻辑推理,还能够实际执行任务,从而独立完成复杂的多步骤任务。 例如,当用户要求 ChatGPT Agent“查看我的日历,并根据最新动态简要汇报即将举行的客户会议”时,能够理解任务需求,主动从日历应用中获取信息,并整理出简洁的汇报内容。 ChatGPT Agent另一个重要功能模块是其多工具集成能力,将 Operator 的网站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度对话能力融合在一起,形成统一的智能体系统。 Operator的能力使得 ChatGPT 智能体能够在网页上滚动、点击和输入文本,从而与网站进行直接互动;而Deep Research则擅长分析和总结信息,能够帮助 ChatGPT 智能体处理复杂的多步骤任务。 此外,ChatGPT Agent还配备了多种网络工具,包括可视化浏览器、文本浏览器和直接API 访问权限。这些工具为 ChatGPT 智能体提供了不同的网络信息访问与交互途径,使其能够选择最优路径以最高效地完成任务。 例如,可以通过 API 快速获取财务数据或体育赛事比分,同时也能与主要面向人类设计的网页进行视觉交互。所有这些操作均通过 ChatGPT 自身的计算环境完成,无论采用何种工具组合,任务全程的相关背景信息均会共享。 自动播放 在执行任务时,ChatGPT 智能体能够动态学习并优化其工作方式。通过强化学习,模型在执行任务时会根据结果调整其策略,从而不断改进其性能。这种动态学习能力使得 ChatGPT 智能体能够根据不同的任务需求灵活调整其行动策略,提高任务完成的速度和准确性。 ChatGPT Agent还专为迭代式、协作式工作流程设计,显著提升了其交互性和灵活性。在任务执行过程中,用户可以随时中断对话以澄清指令、重新定位任务方向,或引导其朝向预期结果。ChatGPT 智能体会从中断处继续,同时整合新信息,但不会丢失先前进展。使得用户能够在任务执行过程中随时调整任务方向,确保任务结果符合用户的预期。 自动播放 在安全性方面,ChatGPT 智能体的设计也充分考虑了用户的安全需求。在执行涉及敏感或重要操作前,ChatGPT会明确征得用户的授权,确保用户始终掌握控制权。此外,ChatGPT 智能体还具备主动监督和风险缓解功能,能够主动拒绝高风险任务,例如,金融交易或敏感法律互动。 根据OpenAI公布的测试数据显示,ChatGPT Agent 在多项测试中表现优异。在 “人类终极考试” 中,单次尝试通过率达41.6的新SOTA成绩,采用并行策略时分数提升至44.4;在“前沿数学”基准中,准确率达27.4%,大幅超越以往模型。 在模拟复杂现实世界任务的内部基准测试中,针对复杂且具经济价值的知识型工作任务,其输出在约一半案例中与人类相当或更好,显著优于o3和o4-mini,涵盖多种现实专业工作。 在DSBench 中表现显著超越人类;在SpreadsheetBench 中大幅优于现有模型,被赋予直接编辑电子表格能力时得分达 45.5%,远超 Excel 中Copilot 的 20.0%。 在衡量投资银行分析师建模任务能力的内部基准中,显著优于深度研究和 o3,涉及多种建模任务,均按数百项标准评分。 在BrowseComp基准中以68.9% 的成绩创SOTA,比深度研究高17.4 %;在WebArena中表现优于由o3驱动的CUA。 有网友表示,ChatGPT Agent更像是Manus 2.0。Manus刚推出时概念确实很有意思,但它太不稳定了,根本没法好好用。 很期待体验 ChatGPT Agent,看看它是否能配得上这些热度,这算是向 AGI又迈进了一步吗? 这真的太令人兴奋了,已经迫不及待想尝试了。而且我完全认同这种做法:“强大的智能体可能拥有超强能力,但同时也伴随着巨大风险。风险不仅来自恶意攻击者,还包括幻觉问题。让我们一起探索,去理解其中的深层影响吧。 团队这次更新太棒了,对此我非常期待。盼着能用起来,也期待着它会随着时间推移变得更强大。 我很欣赏你们把它交到我们手中的做法,没有等到那个遥不可及的零风险高标准才发布。在我看来,带着提醒和注意事项去信任用户,这做法非常好。 这太不可思议了!看着人工智能真的能浏览网站、完成实际任务,感觉就像科幻小说照进了现实。我已经在琢磨,这能如何为内容创作者和小企业简化工作流程了。生产力革命,从现在开始! 本文素材来源OpenAI,如有侵权请联系删除
刚刚,OpenAI发布ChatGPT版Manus!奥特曼:感受AGI时刻
过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。 几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合任务流。 就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。 通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。 看到这,你或许有种似曾相识的感觉。ChatGPT 这个新功能其实与 3 月份大火的 Manus 在体验层面颇为相似,而 Manus 也正面回应了 OpenAI 这位竞争对手的入场。 凌晨发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道: 观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。 亮点如下: ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统; 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; 在多项基准测试中表现领先,综合性能位居行业前列; Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额; ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了 今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。 输入你想完成的任务,ChatGPT Agent 就能浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,PPT、电子表格等任务也都能信手拈来。 整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动接管浏览器继续操作,确保任务始终符合你的目标和需求。 在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。 比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。 在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求,而执行这样一个任务只需十分钟左右。 更重要的是,用户还可以随时中断任务。 比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。 同样地,当 Agent 认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。 「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。 这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。 ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。 用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。 任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制 500 份贴纸的下单明细。 当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。 通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。 一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成 PPT。收到命令后,Agent 成功调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并完成任务。 这类自动化能力,都是 Agent 深度嵌入工作流的体现。 不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。 需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。 The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。 而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。 对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版和教育版将在未来几周内陆续上线。 Pro 用户每月可使用 400 次,主打一个量大管饱,而其他付费用户每月可使用 40 次,并可通过弹性积分方案购买更多额度。 全线刷新「跑分」记录,Agent 战场迎来最强对手 ChatGPT Agent 能力的提升,也体现在「跑分」环节。 在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,ChatGPT Agent 以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。 在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。 在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。 在一个内部的投行建模任务基准中,ChatGPT Agent 的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。 此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。 从平台视角看,Agent 能力的底层接口,正是浏览器。 在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。 不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。 浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。 在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。 如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。 当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。
全球首个!优必选Walker S2人形机器人实现自主换电 7*24小时打工
快科技7月18日消息,日前,国产机器人公司优必选宣布,其新一代工业人形机器人Walker S2全球首创热插拔自主换电系统。 该技术无需人工干预或关机,机器人可在3分钟内极速自主换电,使得Walker S2具备7*24小时不间断工作能力。 据了解,人形机器人热插拔自主换电系统有3大核心技术亮点。 原创双电池动力平衡技术 通过实时电量监测与动态电能均衡技术,实现双电池同充同放,电池更换无缝切换,支持电池带电热插拔且防止冲击电流和拉弧,进而保障人形机器人安全稳定持续运行。 标准化电池仓快换技术 设计标准化的电池模块和零间隙分仓结构,不仅让电池作为能源组件可以快速自由更换,更成为机器人身体结构中的一部分。采用自定位夹持方式解锁电池仓,灵活切换双电池续航或单电池工作模式。 双臂协同精准换电技术 人形机器人通过双臂协同,利用本体定位精度和柔顺控制算法,实现电池与仓体的精确对准。 该技术允许机器人在无需关机或人工干预的情况下,自主完成电池的更换,一方面避免了因充电停机导致的任务中断,让人形机器人拥有连续作业能力。 另一方面,人形机器人自主换电可以减少人力维护成本,提升整体生产效率。
华尔街日报:特朗普将在下周公布AI行动计划
特朗普 凤凰网科技讯 北京时间7月18日,据《华尔街日报》报道,美国总统特朗普预计将于下周发布多项行政命令,概述特朗普赢得与中国AI竞赛的愿景。届时,特朗普预计会谈到他的AI“行动计划”。 知情人士称,其中一项行政命令预计将通过美国进出口银行等机构推动美国芯片和AI工具的出口。对于美国政府来说,向与该国友好的国家出口技术是其优先事项,目的是确保这些国家的AI系统运行在美国的AI技术之上,而不是中国的产品。 白宫AI事务主管大卫·萨克斯(David Sacks)和白宫高级AI政策顾问斯里拉姆·克里希南(Sriram Krishnan)一直在主导一项努力,加快将英伟达的高性能AI芯片出口到阿联酋等国家。 美国政府预计还将重点加快用于训练模型的数据中心的审批流程,并为这些数据中心加快能源生产。本周早些时候,特朗普、萨克斯及其他政府官员在匹兹堡对这类项目的数百亿美元投资进行了称赞。 据知情人士透露,白宫官员还在准备一项行政命令,针对是那些他们认为拥有“觉醒”AI模型的科技公司,这是白宫打击多元、平等与包容(DEI)文化的最新行动。 该命令将要求获得联邦合同的AI公司在其模型中保持政治中立和无偏见,对抗政府官员所认为的部分模型中存在的自由派偏见。随着谷歌Gemini等AI聊天机器人近年来快速普及,一些保守派人士认为它们存在政治自由主义倾向。部分公司因其聊天机器人在特定提问下的回应激怒消费者,或因生成的图像将历史人物错误地描绘为有色人种而遭到批评。去年,谷歌就因其Gemini AI助手生成黑人版乔治·华盛顿(George Washington)以及种族多元化的纳粹士兵形象而受到抨击。 由于几乎所有大型科技公司都在争取让其AI工具被联邦政府采用,这项行政命令可能产生深远影响,并迫使开发者在模型的开发方式上格外谨慎。 截至发稿,白宫尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
7年2万亿欧元!欧盟长期预算案遭德国反对
  欧盟委员会16日公布一项规模约2万亿欧元的长期预算案,预算案资金重点用于国防、科研和农业领域的投入,向乌克兰提供援助,以及应对气候变化和保护生物多样性等。预算案还计划改革农业补贴和经济发展资助等相关规则。   这项预算案涵盖2028年至2034年7年时间,旨在通过确立欧盟中长期政策优先领域和投资方向,为提升欧盟整体市场竞争力、缩小成员国间发展差距提供战略指引和资金支持。   路透社报道截图   欧盟委员会主席冯德莱恩说,这是“新时代的预算”,更具战略性、更灵活。她还表示,该预算案将调整欧盟筹集资金的方式,同时保持成员国出资水平基本不变。   按照欧盟相关程序,预算案需获得27个成员国一致同意,并经欧洲议会批准后才能实施。   然而,预算案公布之后,很快遭到包括德国在内的一些成员国的反对。德国政府发言人16日表示,不能接受全面增加欧盟预算,尤其在所有成员国都在为巩固国家预算作出相当努力的时候。   彭博社报道截图   北京语言大学“一带一路”研究院副研究员董一凡分析认为,从最新公布的欧盟预算草案来看,其资金配置既延续了传统议程,又积极应对新兴议题。   在传统支出领域,共同农业政策仍占据最大比重,约占总预算的三分之一,这一安排既延续了对农民补贴的长期政策以稳固基本盘,也体现了欧盟内部发展逻辑的一贯性,同时兼顾了绿色可持续理念的投入。   欧盟未来预算展现出推动绿色发展、应对地缘政治挑战和提升竞争力的新特点,其中地缘政治板块特别设立了防务基金和发展援助项目,这些投资将服务于欧盟的对外行动和全球战略布局。在绿色产业方面,预算将进一步推动绿色新政实施。   董一凡表示,欧盟每次提出的所谓多年期预算,实际上都是各方博弈与妥协的产物。这份预算案难以让任何一方全然满意,而这恰恰折射出各个国家立场的差异。   北欧财政节俭国家认为欧盟对较贫穷成员国的补贴过多,挤占了本应支持自身发展的资金,同时质疑这些补贴性支出能否真正提振成员国经济或提高资金使用效率。   以法国和中东欧国家为代表的农业大国则格外关注共同农业政策等领域的资金分配。   此外,成员国间对欧盟未来在科技创新、高新技术和产业政策等领域的资金投入效果也存在争议。   素材来源丨总台环球资讯广播《环球新闻眼》   记者丨樊梦   编辑丨 王洹星   签审丨李修莉 康炘冬
一个夏天800亿,外卖市场已经扭曲了
摘要: 短短三个月不到时间,外卖市场涌入近800亿补贴资金,如果按照4-12月为周期统计,意味着仅此两家便每天向外卖市场投放超过3亿补贴。而2024年,整个外卖行业的总利润规模不过300亿。 凤凰网科技 出品 作者|Dale 编辑|董雨晴 3个月,800亿 战火是从一个周末燃起来的。 进入7月的第一个休息日,全国各地的奶茶店里上演了一出“抢茶大战”——“抢到什么算什么”“骑手自己上阵打包奶茶”。有一点点店员对凤凰网科技表示,为了应对订单量激增,“已经比平时早2个小时到店上班了”。 来自北京融科望京中心美团作战室、杭州西溪园区淘宝闪购作战室的两伙人,堪称“隔空互搏”。 激战在7月12日这天到达巅峰,当晚11时,一封战报从美团北京总部传出:美团零售日订单量超过1.5亿。 有传言称,为了达成这个成绩,美团一天花了8亿,但美团外卖反击战的指挥者,美团核心本地商业CEO王莆中在接受《晚点LatePost》采访时称,“我们没有花8个亿,实际投入远比阿里少”。界面在援引知情人士消息则写到,美团这一天的补贴投入是3亿-4亿,淘宝闪购的补贴则达到了12亿。双方均未对此数字置评。 实际上,王莆中在这次访谈中还反复重申了一个观点:美团不想打仗,但美团不怕打仗。“我是想告诉大家,以我们的体系能力,如果用对方的方式做补贴,我们想做多少单就可以做多少单。我们做了 1.5 亿,要做到 1.6 亿、 2 亿都可以”。 尽管阿里与美团火拼交锋更为出圈,但这场战役的最早发起者实际是京东,今年2月11日,京东宣布进军外卖市场,此后便开启了对餐饮商家和骑手的招募。 4月10日,京东外卖百亿补贴上线,宣布一年投入超100亿。不到两个月后,京东外卖宣布日订单量已突破2500万单。 “内部管理层也没有想到这个数据来的这么快”,有接近京东的人士告诉凤凰网科技。 阿里是在五一劳动节加入的,淘天旗下“小时达”变身“淘宝闪购”,还拿下淘宝App首页一级流量入口。五天后,其宣布来自淘宝闪购的单日外卖订单量已经超过1000万单。 自此,三方大战正式开启。 据凤凰网科技不完全统计,今年4月以来,京东先后两次共向市场投放超200亿补贴,阿里计划投放600亿元补贴(饿了么超百亿、淘宝闪购500亿)。短短三个月不到时间,外卖市场涌入近800亿补贴资金,如果按照4-12月为周期统计,意味着仅此两家便每天向外卖市场投放超过3亿补贴。而2024年,整个外卖行业的总利润规模不过300亿。 阿里、京东所在的电商行业,是互联网利润的策源地之一,去年,电商行业的总利润规模超过6000亿。电商头部平台用高利润来冲击外卖行业,掀起了一场史无前例的战役。正是在此冲击之下,7月初,美团被迫应对,也“卷”入到这场超大规模的低价竞争之中。 另据凤凰网科技了解,除了7月5日的大规模投入是有预谋的发起冲锋,此后的又一个周末,无论是美团还是阿里,搞得都是突然袭击:“内部没有提前得到通知”,有接近美团、阿里的人士表示。 不仅员工们被动,到此时商家也是“身不由己”,他们面临的是原材料配货难,店员崩溃等现实问题,有商家告诉凤凰网科技,“出单的小票快做成帘子了,但不敢不从,谁也不想得罪平台”。 近两个周末,有热门茶饮商家也告诉凤凰网科技,“现在不建议大家周末在线下下单,最近两个周末都是一单要等50分钟到1小时,体验非常差,如果有人来下单,我们都直接告诉他们,不要下单”。 一种极度复杂的情绪在这个夏天开始蔓延:“消费者希望优惠不要停,商家极度疲倦,平台方被迫应战”,似乎每一环都很焦虑。 大战赢得了什么? 如此大费人力、财力的投入,参战方会得到什么?是市场占有率、新用户还是订单增长?唯一可以确定的是,他们都会获得流量。 京东最先打美团,所图也不是外卖本身。 刘强东曾在今年618期间的媒体沟通会上表示,大家看到我们跟兴哥(美团创始人王兴)的这种“外卖之争”,是老百姓点餐的生意,但其实我们做的逻辑是背后的生鲜供应链,这才是我所真正想要的。“前端卖饭菜,我可以永远不赚钱,我只要靠供应链赚钱就可以了。然后等客户过来的时候,我们现在有40%属于交叉销售,他们就可以去买我们电商(平台的商品)。所以我们亏的钱,相比去抖音、腾讯买流量的钱还是要划算的”。 回归到互联网创业的本质,玩家所争的都是流量。所有新业务都需要先有流量扶持,而后才会有转化,最终再赢下市场。 近几年,流量也越来越贵。在阿里和抖音断线前,仅2020 年度,双方进行年框谈判时,金额就已经达到了 200 亿。当时抖音DAU刚刚突破6亿。现在,QuestMobile统计的数据显示,抖音DAU突破8亿。 2022年4月起,淘系核心指标已从年活跃买家(AAC)改为日活跃用户(DAU)。2025年Q1财报显示淘宝DAU达4.02亿,同比增长6.5%。这些年,阿里与腾讯互联互通,与小红书打造红猫计划,都是为了找新流量。 凤凰网科技了解到,阿里加入外卖大战,本质上也是拉新和激活现有流量。据淘宝闪购7月14日表述,其日活跃用户数在突破2亿基础上,本周又环比净增15%。 但流量玩法,真的能成就外卖这门生意吗? 有行业人士告诉凤凰网科技,外卖是本地供给生意,不是流量生意。这也意味着,用电商的方式做本地生意,要面临很多“水土不服”的问题。 而现阶段的现金大规模补贴逻辑非常清晰,前述行业人士认为,“就是用补贴换流量。在链路上,两家新品牌都是补贴换峰值、峰值换转化/心智、转化换市占率,这在电商零售甚至是其他标准品领域,都是无懈可击的”。 但也存在一定问题,外卖不是电商,没办法完全照搬大促的玩法: 同样以外卖这一品类来说,供给端是有限的短时供给,不管是奶茶店还是餐厅,单日产能有限,且时间窗口极短,很难做到像电商一样提前盘流量、通知工厂备货,在某个周期内实现批量爆发。短期冲峰值可以,但长期靠补贴刺激,后端的产能是接不住的,最直接的就是卡餐;也很难像标品网络零售一样摊薄成本,实现薄利多销,规模效应的优势并不显著。 其次是运力和履约。“即便解决了供给产能问题,还要过履约关。需求在短时期(餐时)集中爆发,时效卡在30分钟内,且还要以较低成本履约,这个门槛是非常之高的”,前述行业人士对凤凰网科技表示。 这也意味着,京东和阿里都擅长制造“双11”这样的峰值,在供给和履约上,美团与饿了么这些曾经做过基础的平台相当更有优势,新进入者,必然要交更多学费。 实际上,即便是大举进攻的淘宝闪购,意也不完全在餐饮外卖,淘宝闪购在披露日8000万订单之时,特别强调了非餐品类:非餐订单达到1300万,超3700个非餐饮品牌订单翻倍。 很可能是四方皆输 2014年的夏天,相似的故事曾经上演。彼时,美团、饿了么、百度外卖三国杀,累计投入金额超300亿元,用户们津津乐道的是“1分钱吃炸鸡”“满20减19”。 但当时的商战,往往更加狠辣。从二选一,到地推巷战,蓝黄两大阵营曾多次引发冲突。上一轮外卖大战,也以数千中小平台倒闭,死亡率67%,百度外卖作价5亿美元卖身饿了么告终。 彼时,易观智库统计2015年外卖交易额只有1250亿,但是整个餐饮全年收入是3.2万亿,连个零头都不到。美团、饿了么日均巅峰单量只有300万。 这场外卖大战是有必要的——最终培养了数十万骑手,还沉淀下了消费者的外卖习惯。 到2025年,餐饮线上渗透率已经达到了45%。外卖业务占线上餐饮收入的 70%(约占总餐饮收入的30%),外卖市场规模已达1.2万亿。占餐饮总收入(6.2万亿元)的19.4%。 市场已经十分稳固,有知情人士告诉凤凰网科技,美团去年夏季单日订单最高峰突破了9000万单,去年单日峰值就接近破亿。并且从第三方披露信息来看,今年6月以来,美团即时零售的订单已经连续保持在9000万单以上,尤其是餐食类订单的市场份额始终保持在70%左右。 实际上,外卖本质上仍是一个三方撮合的生意,供给、履约、用户,三方只有处于均衡态,用户体验才会最佳。单独的价格补贴大战,只是补贴了需求,供给不够、履约不稳,都会导致结构性失衡。 区别于电商的标品+全国生意,外卖是非标品+本地化的生意,终究要回归地面战争,甚至是回归商圈的巷战。淘宝闪购目前也意在此,核心是要在“消费+供给+履约”这张网上有所突破。 美团上一场战役是对垒抖音,后者最大的优势是流量,前者是地面铁军。“美团在本地化上的部署深入毛细血管,小到一些小店铺的收银台,这是抖音攻不下的”,当时有外卖行业BD告诉凤凰网科技。 这也注定意味着,超大补贴,补不出来“双11”和“618”,只会让餐饮产业遭遇冲击,最终扭曲。过度依赖价格战的短期行为,会对餐饮产业上下游带来巨大冲击:电商平台为了抢占份额,短期内将资金补贴和运力倾斜向头部大连锁商家,而且联手制造出远低于餐饮成本临界值的价格,这对餐饮上游的中小实体商家造成剧烈冲击。 甚至还可能有众多意想不到的负面效果,前述行业人士对凤凰网科技表示,“外卖是个微利且脆弱的商业系统,消费者、骑手、商家、平台长期处在一个微妙的动态平衡之中。天平稍微倾斜一点,都会导致系统的崩塌,最终极有可能是平台、消费者、商家和骑手四方皆输”。其认为,现阶段高成本补贴来的很多是低价值用户,也就是所谓的“羊毛党”。 “想想看,你双11可以囤货,奶茶能囤几杯”,另有行业人士认为,超规模补贴在餐饮外卖行业注定走不通,“压力只会传导给原材料产业上游,出现柠檬这类大宗商品产品的价格波动”。
拿下2亿用户,张一鸣又出爆款
作者:信瀚 来源:正商参阅(ID:zhengshangcanyue) 2025年上半年,短剧彻底杀疯了 两年不到,一个短剧App轰然崛起:月活逼近2亿,即将超越优酷。 在用户尚未疲劳、监管尚未落锤的窗口期里,张一鸣的操盘下的“红果短剧”平台已悄然登顶行业流量榜单,成为最快破亿的短剧App。近日,据多家渠道测算,其月活已逼近2亿,单月播放量超70亿,爆款剧集上线一周吸金千万,日充值峰值逼近小型手游。 01 在短剧领域,红果短剧已从一骑绝尘走到了一家独大。 QuestMobile数据显示,红果短剧的月活跃用户数已达到1.992亿,仅比优酷的1.998亿少约55万,两者差距几乎可以忽略不计。这意味着,红果短剧在不到两年的时间里,用户规模已接近优酷十余年的积累。从2024年12月的1.58亿月活跃用户,到2025年5月的1.99亿,红果短剧的增长速度令人瞩目。 这场“弯道超车”背后,有三股力量在合力推动。 先说流量端,红果从一开始就没跑,它打入抖音生态,用推荐算法精准推送,把抖音里1.19亿重合用户直接拉进来看剧的阵地。你刷视频的时候,推荐里突然蹦出一集短剧,点进去笑两句,下一集就刷得停不下来,用算法挖掘用户潜在“刷剧”欲。 接着是变现逻辑,红果干掉了付费门槛,全剧免费观看,靠广告分账养创作者,结果2024年6月分账就冲破1亿元,到了9月破2亿元,11月直接破3亿元。这么一来,平台不愁内容供给,创作者不怕成本回不来,而观众无需买单,正中“想看又懒花钱”的市场红心。 此外,红果短剧还借助“果燃计划”发布精品短剧片单,涵盖各类创新题材,推动短剧从流量快消品向可持续文化消费品转型,这些因素共同促进了红果短剧的快速发展。 不同于传统影视动辄上千万制作投入、回本周期漫长,红果平台上的短剧往往10万元即可启动制作,周期短、可试错、快速上线验证效果,极大降低了内容投资门槛。 最后,它对优酷等平台构成了实打实的降维打击,不是说差几千万用户而已,而是“玩法不一样、成本不一样、增速不一样”。优酷还在靠会员费+版权买断,红果则是流量+广告+爆款内容的组合拳,把短剧当入口、当主菜、当盈利方式来做,打出一种“快节奏、可看、可变现”的完整内容逻辑。 这么看,红果的爆发就像把三条路打通了,抖音的流量入口,广告分账的变现路径,还有让用户真上瘾的内容阵列。 02 短剧不仅是年轻人的娱乐时间,更是资本聚焦的新战场。 这一点,从红果的爆发式增长中就能看得很清楚。它不是第一个做短剧的平台,但却是第一个把短剧做成“流量-广告-电商”闭环的选手,区别于传统内容平台靠会员和单片付费维系收入,红果用分账广告撑起了自己的商业模型。 一个月一部剧、每部十几分钟、用户刷剧连贯无停顿,看似轻巧随意的消费节奏背后,其实已经完成了算法主导的精准投放、品牌植入、付费转化的整套商业路径。从这点看,红果不是靠剧情打动人,而是靠机制把“能不能赚到钱”这个问题提前解决了。 这种由算法精确切割用户兴趣并不断递送内容的推荐逻辑,使得短剧天然拥有“快刷”习惯的土壤。不像长视频需要动脑判断是否值得花两个小时,短剧的进入门槛低、情节密度高、叙事节奏快,非常适配信息流里无目的的滑动行为。 平台只需将单条剧集包装为“内容+广告+转化”的复合单元,再靠系统动态调整流量倾斜,就能实现从曝光到变现的快速闭环。这种结构让广告主找到了性价比极高的内容投放渠道,也让资本看到了短剧产品具备“算法驱动增长”的确定性路径。 有投资人直接指出,在长视频增长乏力、直播电商成本飙升的当下,短剧提供了一种“轻量但高效”的投放场景,具备天然的用户拉新能力,也能承接品牌内容诉求。典型案例是,多个美妆、服饰类品牌开始通过定制剧情植入、人物设定产品绑定等方式,推动短剧直接转化为电商销量。 这类“剧情电商”路径还远未成熟,但已展现出强烈的可塑性,剧情既是广告,又不止于广告。 当然,这种增长也不是没有风险。短剧内容审核目前仍处于灰色地带,尤其是围绕感情、暴富、悬疑等题材的模糊表达,极易踩中红线。 与此同时,短剧赛道的进入门槛低,已经出现大量“模仿式制作”跟风行为,不少平台内容同质化严重,严重依赖买量维持流量,一旦算法调整或监管加强,极有可能出现用户流失和变现下滑。 但即便如此,从整体趋势来看,短剧的确定性增长机会已经成型。有数据预估2025年短剧市场规模将突破600亿元,到2027年有望迈入千亿级别。而红果作为目前市占率最高、分账效率最优的平台,已经在内容供应链、广告客户和用户黏性三方面建立起护城河。 对用户来说,它提供的是“十分钟沉浸式娱乐”;对资本而言,它释放的是“可预测的收益模型”。 这正是红果的价值所在。 03 在内容消费的演化周期里,张一鸣从未缺席。 短视频之后,字节跳动的重心正悄然向“短剧”倾斜,而红果短剧已然成为张一鸣手中的第二张“王炸牌”。它背后既有抖音系的全域流量,也有AI驱动的高效内容生产,还有可复制、可出海、可商业化的系统打法。 抖音在流量获取和用户留存上已近天花板,红果的诞生,正是用内容厚度填补消费时长的缺口,因此它本质上是对抖音体系的一次内容加码,这一点从红果上线初期就能看出,它几乎复刻了当年抖音崛起时的策略路径,先从流量扶持入手,再在“平台—创作者—广告主”三角结构中打通供需闭环。 只是这一次,张一鸣没有照搬爱奇艺、腾讯视频那一套“剧集先行+会员变现”的老路,而是用AI加速剧本生产效率,通过平台端预判流量偏好,提前为创作者配比资源、分发策略和广告预算,把短剧变成可批量生产、快速验证的流量产品。 这种反向驱动的“爆款机制”,本质上是一次对传统影视创作范式的颠覆,也解释了为什么红果在上线不久后就能推出多个播放量破亿的项目。 更重要的是,这种打法的“弹性”极强,可在低成本模型下快速复制,有效应对平台内容生命周期短、观众注意力转移快的结构性问题。而一旦某个IP表现出穿透能力,抖音广告体系、星图商业化产品甚至电商转化路径都可以无缝介入,实现从内容到消费的闭环变现。 这种协同效应并不局限于中国市场。事实上,红果背后所代表的“短剧工厂模式”正在成为字节国际业务布局的跳板。TikTok已经在海外市场试水短剧内容分发,未来如果红果的运营经验可以在全球范围内被本地化复制,那么张一鸣等于在海外市场复制出一个“更灵活的Netflix”。 然而,这条路径并非没有风险。短剧行业仍处于高速试错阶段,从内容管控到版权管理,从观众审美疲劳到平台内容同质化,一旦平台不能持续输出高质量的“情绪型”爆款,用户流失和广告预算下滑将迅速传导至平台基本面。 所以说,红果的核心挑战不在于流量,而在于能否建立稳定、可控、可规模化复制的内容供给体系。张一鸣显然看到了这个问题,所以字节的“版权交易中心”正在上线,尝试用系统化手段提前锁定优质剧本和团队,用平台规则保障创作正向循环。 未来,内容能否持续出爆款?广告主是否愿意买单?用户是否厌倦这种“流水线爱情”?这些都是悬在头顶的问号。但从目前来看,张一鸣显然有更大的雄心。 他似乎并不满足于再造一个短剧平台,他要建立的是一个新的内容消费帝国,一个将流量、内容、工具、算法全面打通的新型娱乐工业体系。 红果只是开场,属于张一鸣的“第二张王炸牌”,才刚刚翻面。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。