行业分类:
加载中...
头条分类:
加载中...
莱茵-鲁尔大运会在德国杜伊斯堡开幕
  新华社德国杜伊斯堡7月16日电(记者韦骅、张荣锋)雨势渐息,天空放晴。16日晚,在数万名观众见证下,2025年莱茵-鲁尔世界大学生夏季运动会在杜伊斯堡开幕。 图为开幕式现场。新华社记者 连漪 摄   22时许,国际大学生体育联合会主席雷诺·艾德致欢迎词,祝运动员们在大运会期间留下美好的回忆。随后,德国劳工部长巴贝尔·巴斯宣布运动会开幕。   当晚,在刘贝、崔赫宸两位旗手的引领下,中国大学生体育代表团入场。此次大运会,中国代表团由二百余人组成,将参加羽毛球、篮球、排球等14个大项、90余个小项的比赛。 7月16日,中国代表团在开幕式上入场。新华社记者 胡星宇 摄   错落有致的绚烂光束、相互交织的古典与流行乐,将开幕式打造成一场属于年轻人的聚会。杜伊斯堡所在的鲁尔区是世界著名的传统工业区,曾以煤矿闻名,这一元素也得到充分体现。矿洞、矿工、矿车……在舞台两边的六根烟囱造型的LED大屏上,一张张照片讲述着鲁尔区的历史。   在点燃圣火环节,曾在1972年慕尼黑奥运会摘得两金一银的德国运动员罗森达尔手持火炬入场,六根“烟囱”又转为“灯塔”,被六名运动员同时点燃。此时,体育场顶棚的烟花升起,照亮杜伊斯堡的墨色苍穹,将整个开幕式推向高潮。随后,圣火被收集进六个小矿灯当中,由本次大运会的六个举办城市分别保存。 这是7月16日拍摄的开幕式火炬。新华社记者 王曦 摄   莱茵-鲁尔大运会于7月16日至27日在德国的柏林、杜伊斯堡、埃森、波鸿、哈根、鲁尔河畔米尔海姆举行,共设羽毛球、篮球等18个大项,并首次在三人篮球项目中为残疾人设项。根据组委会14日公布的数据,超过150个国家和地区的约9200人参加本届大运会。
避暑气候旅游发展大会在阿尔山举办
游客在内蒙古阿尔山国家森林公园石塘林景区游玩。新华社记者 贝 赫摄   人民日报电:近日,避暑气候旅游发展大会在内蒙古兴安盟阿尔山市举办。本次会议以“挖掘避暑气候资源价值 助力文旅经济高质量发展”为主题,旨在深化气象与文旅合作,为文旅经济注入新动能。   中国气象局副局长熊绍员在致辞中表示,气候资源是旅游发展的核心要素。近年来,气象部门通过科技创新构建气候资源评价体系,推动气候生态产品价值转化,联合文旅部推出“避暑旅游路线”“冰雪旅游路线”等特色产品,将气象景观转化为旅游资源,助力地方打造绿色发展模式。气象服务已成为旅游安全的“智慧护盾”,全国228家5A级景区已建成425个气象观测站点,多要素融合气象服务平台覆盖5万余个景点,累计向导游推送预警信息2.4万余条,服务旅游团超22万个。   国家气候中心副主任肖潺介绍了2025年全国暑期避暑旅游推荐路线。该路线综合夏季气候趋势、温湿度、日照等指标,结合生态与交通要素,推荐16条兼具舒适性与吸引力的避暑线路,为游客提供参考。   会上,内蒙古兴安盟全域获评“避暑旅游目的地”,阿尔山市获评“中国气候生态市”。兴安盟、四川大邑、广西河池等地还分享了气候资源转化经验,如依托森林康养、冰雪旅游等业态打造生态品牌,通过星空旅游、温泉度假等产品实现生态与经济双赢。   下一步,中国气象局将联合文旅部门优化气候评价体系,拓展气象服务场景,并通过开展文化活动多维展现生态价值。熊绍员呼吁各方凝聚共识,探索气候生态价值实现新路径,为文旅高质量发展注入持久动力。随着气候资源潜力持续挖掘,避暑旅游有望成为推动区域经济、促进生态转化的绿色引擎,助力地方特色文旅产业发展。(记者 朱金宜)
水稻播种用上“3D打印”
图为育秧中心工作人员在操作印刷播种机。张富锋摄(人民视觉)   水稻播种也能用上“3D打印”?   7月15日,江西万载县妈妈家生态农业发展有限公司育秧中心,公司负责人常垂明和员工们正加紧为晚稻育秧做着准备。   把水稻种子倒入精量定位的印刷播种机,将育秧纸铺放在传送带起始端,种子从上方漏下,部分被粘住,其余的随着传送带震动被筛出纸面……就这样,稻种被“打印”在育秧纸上。   “直接把种子撒下去不就好了?多此一举!”围观的种植户中,有人质疑。   用“3D打印”好在哪?   常垂明回忆,几年前他刚开始做农事服务时,便发现育秧操作有改进空间——秧盘直接进入传送带,稻种无序落入秧盘孔洞,多的八九粒,少的一粒没有。“有效苗少,一亩田要六七十张秧盘,得用四五斤种子。同一个孔里种子多了,还会影响发芽、生长。”常垂明说。   偶然一次机会了解到“3D打印”水稻播种技术,常垂明很兴奋:“育秧纸上每排42个胶水点,每个点粘一两粒种子,和秧盘上的孔洞一一对应,种子分布不均匀的问题就解决了。而且,胶水用淀粉、葛根粉等原料制成,很安全。”   江西省农业科学院农业工程研究所研究员吴罗发介绍,“3D打印”水稻播种,将稻种精准排列并粘在食用原料制成的可降解育秧纸上,可实现精量化、机械化育秧,降低种植成本,提升水稻产量。   说试就试,常垂明开始了试验:把育秧纸铺在秧盘上,洒水浸润,薄薄的纸张遇水软化,粘在反面的种子慢慢脱落,掉入秧盘。   “90%以上的孔里都有种子!”“育秧纸覆盖两天左右分解,能够保湿保温、提高种子发芽率。”试验结果令人满意,常垂明很开心。   常垂明和村民们商量后,决定在一部分水稻田上试种。   “苗壮,插下去比普通秧苗提前5天左右返青。”参与试种了100亩田的双桥镇龙田村村民朱广平说。   “不仅苗壮,还省种!”常垂明指着运转的印刷播种机说,现在一亩田只用3斤种,少花五六十块钱。   过去,每逢抢收早稻、抢种晚稻的“双抢”时期,苗等田,如果不尽早将秧苗从秧盘移栽到田里,就有可能徒长——“表现为秧苗细弱、茎秆纤长、叶片发黄,根系发育不良,老百姓俗称‘高脚苗’‘黄化苗’,严重影响移栽后成活率和产量。”吴罗发说。   因此,每年“双抢”时,得赶在晚稻育秧后的20来天内,完成早稻收割、晚稻插秧。“掐算好时间非常关键。”常垂明说。   使用“3D打印”水稻播种技术,育秧灵活性提高了。“‘打印’好的育秧纸卷成筒,储藏好,放上小半年都没问题,随用随取。”常垂明说,“不仅如此,‘印刷’播种,能实现稀播、匀播,秧盘里的秧苗,哪怕过个二三十天,也基本不会出现徒长。”   “看似增加了一道工序,实际上却为‘双抢’留足了时间,后面省下来的工序、带来的效益多着呢!”常垂明说。
“七下八上”来了 河南如何应考?
防汛演练现场的便携式防洪墙。杨其格 摄 石漫滩水库。彭可 摄   当前,河南已进入“七下八上”防汛关键期。   气象上,“七下八上”一般是指每年的7月16日到8月15日,这是我国华北、东北地区降水最为集中的一段时期,又被称为“华北雨季”。以郑州市为例,7月至8月全市降水量就占全年的43%以上。   降水与防汛环环相扣。据气象部门预测,今年汛期河南气候状况总体偏差,全省降水偏多,气温偏高,旱涝风险叠加,水旱灾害防御面临多重考验。尽管气候复杂多变,但防洪工程、监测预报、数字孪生等一系列科学有效的防汛组合拳,正大大提升我们抵御洪水侵袭的能力。不妨随记者深入水利防汛一线,看看这份“七下八上”的防汛考卷,河南如何作答。   筑基 流域防洪工程坚如磐石   “距水库汛限水位只差0.15米!”6月18日至21日,信阳市迎来一轮强降雨天气,出山店水库出现较大洪水过程,水库水位由84.97米上涨至85.85米,入库流量达到洪峰410立方米/秒。   一场防汛会商紧急召开。通过分析水文、气象等信息,出山店水库运行中心对水库超汛限水位风险和水库圩区内涝风险进行研判,并根据省水利厅调度指令,适时调整下泄流量。整个降雨过程共拦蓄洪水1248.75万立方米,削峰率达76%。   水库是防洪的“王牌”。作为淮河干流上游唯一一座大(Ⅰ)型水库,出山店水库拥有防洪库容6.19亿立方米,拦蓄能力相当于50个西湖。2019年建成下闸蓄水后,淮河干流王家坝以上的防洪标准由不足10年一遇提高到近20年一遇。   但放眼全国,像出山店这样“年轻”的水库却是少数。我国现有9.8万多座水库,90%以上建于20世纪50年代至70年代,标准偏低、设施老化等问题普遍存在,坝体渗水、坝身薄弱等现象仍然存在,汛期险情时有发生。   河南横跨长江、淮河、黄河、海河四大流域,处于南北气候和山区向平原的两个过渡带,历来水旱灾害频繁,为病险水库除险加固,亦是当务之急。   7月14日,阳光晴好。记者登上“焕然一新”的白龟山水库大坝。   经过半年多的紧张施工,白龟山水库除险加固工程关键控制性节点——新建泄洪闸110.4米高程以下部分施工已经完成,并具备泄流条件。   “相比以前,最大泄洪量提高了30%。相当于为大坝披上了坚固的铠甲。”白龟山水库除险加固工程建管局总工程师张志军说。   去年,河南省有出山店水库灌区、前坪水库灌区、故县水库灌区、昭平台水库扩容、白龟山水库除险加固等41个重点工程开工,重现生机活力的病险水库,正从防汛抗洪的“心患”变成“重器”,在科学调度下发挥着拦洪、蓄洪、削峰、错峰的重要作用。   但水工程调度并非一个水库的单打独斗,只有以流域为单元,统筹上下游、左右岸、干支流,统筹当前和长远,坚持系统、科学、安全、精准调度流域防洪工程体系,方能发挥其整体作用。   河南省水利厅水旱灾害防御处有关负责人介绍,流域防洪工程体系包含水库、河道及堤防、蓄滞洪区三个要件,通过上蓄、中滞、下排等措施有效治洪。目前,全省有水库2540座,5级及以上堤防1.74万公里,大中型水闸378座,设有14处蓄滞洪区。通过日常维修养护和除险加固,全省水利工程运行状况总体良好,能够发挥应有的防洪功能和减灾效益。   而今,河南流域防洪工程体系持续完善——   去年,小浪底北岸灌区、赵口引黄灌区二期、郑开同城供水等工程建成达效;袁湾、汉山、鸡湾水库建设稳步推进;桃花峪洪水控制工程、赵口引黄灌区现代化改造等7个重大项目和河道治理、水库(闸)除险加固等项目前期工作全面铺开。   今年,昭平台水库扩容等大型水库工程建设加快推进;15座病险水库、64座大中型病险水闸实施除险加固;伊洛河、唐白河、卫河(共产主义渠)、洪汝河等38条河道开展治理;海河流域良相坡、柳围坡等9处蓄滞洪区建设有序推进……流域防洪能力不断提升。   把脉 雨水情监测预报“耳聪目明”   2023年7月28日至8月2日,受第五号台风“杜苏芮”影响,河南省卫河淇门段,共渠黄土岗段、刘庄段出现洪水过程,安阳河出现涨水过程,海河流域先后有2座大型水库、13座中型水库超汛限水位。   比洪峰更早抵达的,是水文部门的“未卜先知”:7月26日12时,河南省启动水旱灾害防御Ⅳ级应急响应;7月28日12时,多个水库开展预泄,腾库迎洪,18时将水旱灾害防御Ⅳ级应急响应提升至Ⅲ级应急响应,并发布山洪灾害预警……最大程度保障人民群众生命财产安全。   暴雨洪水往往来得快、来得急,水情瞬息万变,灾情转瞬即至。对中小河流而言,传统“雨后算账”式预报效果不佳。   此题何解?河南给出的答案是:通过“天空地”立体监测手段,构建起雨水情监测预报的“三道防线”。   “第一道防线”是对“云中雨”进行预估,由气象卫星+测雨雷达+降雨预报模型等组成,是延长洪水预见期的重要举措。   “第二道防线”是对“落地雨”进行评估,由雨量站+产汇流水文模型等组成,对接“第一道防线”的监测预报成果,是在洪水发生之前对洪水过程作出预报的重要环节。   “第三道防线”是对“洪水”演进进行监测预报,由水文站+洪水演进水动力学模型组成,对接“第二道防线”,是提高预报精度的重要手段。   目前,全省已设立省级水文水资源测报中心及18个测报分中心,共有各类水文监测站8266处,在重要防洪区域布设了982处北斗卫星双信道测站,建立了全省山洪灾害监测预警系统,基本形成覆盖全省、系统可靠的水旱灾害监测预警体系。   “三道防线”实时捕捉着中原大地的雨水情脉动,并通过河南省水文信息综合服务平台实时传递。省水文水资源测报中心负责人介绍,目前,河南省已实现报汛站雨水情信息10分钟内集齐,30分钟内上传至国家部门。   不断加快构建雨水情监测预报“三道防线”,今年河南省还将建设测雨雷达14部,升级改造水文站10处,新建、改建雨量站150处;进一步优化水文模型,延长洪水预见期,提高预报精准度;同时,强化山洪监测预警,实现2个山洪灾害重点小流域数字化场景预演和预案等功能。   引领 智慧防汛打造“最强大脑”   “堤坝出现渗水险情!”接到指令,一个行李箱大小的水下机器潜入水中,通过自带摄像头对水库泄洪洞闸门进行检查,很快便确定了渗水位置。   “水库堤防出现管涌!”又一处险情发生,一台搭载了测绘级激光雷达、高分辨率相机和热红外相机的无人机迅速起飞,巡查数据通过网络同步传输至地面控制中心……   这些场景来自河南省水利厅2025年防汛抢险演练的现场。险情惊心动魄,设备“机智过人”,队员“身手不凡”。   宁可备而无汛,不可汛而无备。应对汛期,河南早有准备:自今年1月起,河南省水利厅就提前印发了汛前准备通知、水旱灾害防御工作要点等指导文件,随后又召开全省水旱灾害防御工作视频会议和2025年全省水库安全度汛视频会议推进工作落实。为切实做好“七下八上”防汛关键期各项工作,7月14日,河南省水利厅以视频形式对全省水利系统干部职工进行防汛工作培训,省水利厅党组书记、厅长申季维作专题授课。   截至目前,全省已建立起覆盖96198人的三级防汛责任体系,责任人信息实现动态更新和公开公示。针对山洪灾害易发区,组织134场专项培训、361次实战演练,更新“县、乡、村、组、户”五级责任人信息库。   防汛物资是防汛工作的重要支撑。全省各级水利部门已储备5个类别60个品种防汛抗旱物资,在河道险工险段、水库大坝、水闸等731处重要防洪工程现场存放砂石料16.78万立方米、块石26.50万立方米,组建119支、1万余人的行业抢险队伍。   在错综复杂又瞬息万变的汛情面前,怎样调度运用最科学最安全十分考验指挥决策部门的智慧和胆识,事实上,与每一场洪水的较量,都离不开“最强大脑”的硬核支持。   夜幕降临,贾鲁河畔的智慧监测屏闪烁蓝光,水位、水质、生物多样性数据实时显示。人工智能+治水、卫星遥感监测等新技术,让这条千年古河拥有“数字孪生体”。   “所谓数字孪生,就是通过对贾鲁河流域基础数据采集,搭建三维模型,再叠加上水情、雨情和工情等实时感知数据,开发流域产汇流模型实时滚动分析,模拟出贾鲁河未来的洪水演进过程,提前发出预报预警,辅助工程调度和避险转移,确保人民生命财产安全。”工作人员介绍。   实例为证。2024年7月7日至8日,郑州市全市平均降水量135.9毫米,24座水库超汛限水位,数字孪生贾鲁河系统精准预报,并结合预报结果给出了后曹闸不需控泄、瓦灰郭不需分洪的结论,支持了该场洪水的科学调度。   “防汛调度要下足绣花功夫,一个流量、一方库容的精打细算,实现厘米级水位精细调度。依托数字孪生技术,构建具有‘四预’(预报、预警、预演、预案)功能的智慧防洪体系,可以为科学决策调度提供可靠遵循。”省水利厅水旱灾害防御处工作人员说。   如今,河南数字孪生水网建设有序启动,以“一河一库一灌区一调水工程”等重点项目为示范的一大批数字孪生工程相继落地实施,河南省省级水利数字孪生平台(一期)建设提速,有效提升着洪水预报预见期、精准度,让防汛体系更加智慧、更有底气。   在这场年复一年的汛期大考中,河南正以更科学、更精准、更高效的手段,为中原大地构筑一道面向未来、更可靠的水安全防线。(记者 赵一帆 河南日报通讯员 郭安强)
OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布
2025 年 7 月 18 日北京时间凌晨 1 点,OpenAI 进行了一场直播,介绍了他们最新、最强大的模型。 他们将 DeepResearch 和 Operator 功能合并到一起,打造了一个同时能够做深度研究和 Browser-Use 的 AI Agent —— ChatGPT Agent。 或者,你可以更简单地理解为,OpenAI 发布了一个属于他自己的 “ Manus ”。 由 OpenAI 打造的 AI Agent,按过往经验来看是面向通用型需求的,无论是从成本角度还是技术角度,预计都会对同一赛道中的对手形成降维打击。 在直播中,Sam Altman 和四位 Agent 项目的研究员( 此前分别是 Operator 和 DeepResearch 的项目成员 )通过参加婚礼策划等演示展示了 ChatGPT Agent 的功能,以及在基准测试中的表现。 使用该 Agent 的模式很简单,只需在 ChatGPT 用户端点击工具菜单并选择 “ Agent ” 就可以。 ChatGPT Agent 可以独立使用虚拟计算机来执行复杂的任务,能够无缝地从思考切换到行动,以及使用各种工具,比如在终端上写代码,执行网页浏览,制作 Excel 和 PPT 等等。 首先来一个日常生活的演示:为参加朋友婚礼做准备。 研究员不仅写明了详细的需求,还给ChatGPT提供了婚礼网站,以及预订酒店的网站。 提示词: 我们的朋友今年晚些时候要结婚了!这就是婚礼网站:XXX 你能帮我找到以下物品吗: 一套符合所有场合着装要求的服装(男士)- 推荐五个方案。服装要包含一些不错的、中等奢华的物品,要与场地和天气相符。 帮我找一些可以提前几天预订的酒店 - 使用 booking.com 预订,并确保查看空房情况和当前价格。 还有,别忘了给他们挑选一份礼物,最好在 500 美元以下 写一份漂亮的报告 收到提示词后,ChatGPT Agent 立马开始执行。 因为需要使用电脑,所以一开始,它需要设置环境,这一步通常需要一两分钟,快的话甚至不到 5 秒钟( 实际演示中为 7 秒 )。准备好环境并理解了提示之后,ChatGPT Agent 会向用户确认自己的理解是否准确,用户点击 “ continue ”,ChatGPT Agent 就会开始工作。 在 ChatGPT Agent 执行任务的时候,用户可以同步看到它操作计算机屏幕的过程,以及每一步操作相关的思维链。 在这个任务中,ChatGPT Agent 最终提供了一份相当全面的报告。 它会根据链接确定日期和婚礼场地,并以此来确定西装的推荐,以及在哪里可以买到,还有房源信息等,它还会提供关于礼物的建议。特别是,ChatGPT Agent 还提供浏览结果的屏幕截图。 在 ChatGPT Agent 执行完任务之后,用户还可以通过视频的方式回顾它的执行过程。 ChatGPT Agent 可以使用两种不同的方式来浏览互联网。一个是文本浏览器,类似于 DeepResearch,可以非常高效快速地阅读和搜索大量网页。另一个是可视化浏览器,类似于 Operator,使得它能够与网页 UI 进行实际交互。使用该浏览器,ChatGPT Agent 可以执行拖动网页、使用光标点击、打开 UI 组件、填写表单、输入文本等操作。 OpenAI 团队表示,这两个工具互补性很强。 OpenAI 在一月份发布了 Operator,可以执行预订和发送电子邮件等在线任务。两周后,OpenAI 又发布了 DeepResearch,可以进行深入的互联网研究,并输出高质量的研究报告。 后来,OpenAI 意识到这两种方法实际上是深度互补的。一方面,Operator 在阅读超长文章时会遇到一些困难,因为需要滚动,所以很耗时,但这正是 DeepResearch 的强项。另一方面,DeepResearch 在与网页、交互元素、视觉效果( 高度可视化的网页 )交互方面又不如 Operator。 OpenAI 在用户反馈中也了解到,大家最期待的 DeepResearch 功能之一就是能够登录网站并访问经过身份验证的来源,而 Operator 可以做到这一点。此外,很多用户在使用 Operator 时的提示,实际上和 DeepResearch 类型的提示很相似。 ChatGPT Agent 的一个关键能力是允许随时打断执行,并补充新的任务指示。这对于执行复杂且耗时很长的任务来说特别重要,很多时候一开始输入的提示是不完整的。比如在准备参加婚礼的这个任务中,你可以中途提示模型:你能再帮我找一双9.5码的男士黑色鞋吗? ChatGPT Agent 也可能会在执行过程中主动要求用户澄清和确认一些细节。 OpenAI 介绍道,与 Agent 合作过程中要注意的一个关键是,模型有时会犯错误,“ 这就是为什么训练模型在重要步骤的最后一步请求用户的确认很重要。” 例如,在它发送电子邮件之前,它会要求用户查看草稿,内容是否合理,是否有拼写错误等。如果有,你可以要求它修改,或者直接接管浏览器,进入 Agent 的环境自行修改。 所以,ChatGPT Agent 鼓励的不是完全自主的执行,而是与用户的深度协作。 ChatGPT 还拥有自己的终端来运行代码,并能用于生成和分析 PPT、Excel 等文件。 通过终端,它还可以调用 API,包括公共 API 和用于访问用户私有数据源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至还可以让 ChatGPT 调用图像生成 API 来生成图像,这样就可以为 PPT 等内容打造精美的视觉效果。类似 Deep Research Connector,只有当用户明确连接这些 API 时,它才能使用。 在演示中,OpenAI 的研究员通过让 ChatGPT Agent 调用 API 操作,生成了 ChatGPT Agent 的基准测试报告。 提示词: 从我们的 Google Drive 中提取你的评估编号,并制作一些幻灯片。形式保持简单,没有引言,没有结论,只用图表呈现结果。 模型连接到了 Google Drive API,然后在 API 内进行搜索。第一个结果是相关的,于是模型开始详细地读取第一个结果,然后编写代码,并使用图像生成模型来为 PPT 生成图片。 最终模型生成了一个 PPT 文档,可以下载并在本地打开。 我们来具体看看 ChatGPT Agent 的基准测试结果。 在 “ 人类最后考试 ”( Humanity's Last Exam,HLE,一个面向人类知识前沿的多模态基准测试 )基准测试中,拥有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(拥有 browser use 和 python 代码能力)、o3( 拥有 browser use 和 python 代码能力 ),其性能相比后两者几乎翻了一番,达到 42% 的通过率,而没有工具使用能力的 ChatGPT Agent 和 o3 则是垫底。 FrontierMath 基准测试用于衡量高级数学推理能力,ChatGPT Agent 在这个基准测试中达到了 27% 的通过率,超越了拥有 Python 编码能力的 o4-mini 和 o3 。 在 WebArena 基准测试中,ChatGPT Agent 的表现已经很接近人类,并高于 o3 和 4o 。 在 OpenAI 年初推出的 BrowserComp 基准测试( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 显著优于 o3 和 DeepResearch 模型。 Spreadsheet Bench 基准测试衡量一定程度上的创建和编辑电子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已经可以完成 30% 的任务,当赋予模型访问终端中原始 Excel 文件的权限时,性能进一步提升至 45% 。 Internal Banking Benchmark 基准测试评估模型执行 1 到 3 年经验投资银行分析师任务的能力,例如为一家财富 500 强公司构建一个三表财务模型。在这项基准测试中,ChatGPT Agent 的表现显著优于 DeepResearch 和 o3 。 OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最强大的模型之一,不仅在基准测试中表现出色,而且还能够推理、浏览和处理现实世界的任务,“ 其水平是我们三个月前无法想象的。而它的强大很大程度上来自于浏览互联网的能力。” OpenAI 官方还强调,从安全方面来看,让 AI Agent 执行网页浏览仍然是有风险的,“ 互联网仍然是一个可怕的地方,各种各样的网络攻击、诈骗和网络钓鱼试图窃取人们的信息,而 Agent 模型也无法幸免于所有这些攻击。” “ 我们特别担心一种叫做 ‘ prompt injection ’ 的新攻击。假设你让智能体帮你买书,并输入你的信用卡信息,智能体可能会偶然进入一个恶意网站,要求它输入信用卡信息,而这时它可能会照做。” “ 我们做了很多工作来防止这种情况发生,比如训练模型忽略可疑网站上的可疑指令,还设置了多层监视器,可以监视 Agent 的运行。我们甚至可以实时更新这些信息,以防范新的攻击。” OpenAI 表示,不可能阻止所有风险,所以用户自己意识到风险的存在仍然是必要的,比如尽量不要分享高度敏感的信息,或合理地使用接管模式。 OpenAI 还提供了一个有趣的演示,让 ChatGPT Agent 制定一个最佳行程,以游览所有 30 个 MLB 球场,最后以详细的电子表格形式呈现最终计划。 有趣的是,ChatGPT Agent 真的使用了代码构建地图,并成功实现了。 最后,OpenAI 表示,ChatGPT Agent 将为 Pro、Plus 和 Team 用户上线。Pro 用户每月将获得 400 次查询,Plus 和 Team 用户每月将获得 40 次查询。Pro 版的部署预计将于本月底完成,Plus 版也将很快完成,Team 版将争取在本月底前上线企业版和教育版。 “ 我们希望你们会喜欢它。虽然现在还处于初期阶段,但我们会迅速改进它,并且我们非常期待看到它后续的发展。” OpenAI 团队表示。 撰文:流大古 编辑:大饼
大暑将近,中国电影暑期档竞争加剧
  中国传统节气“大暑”将于7月22日到来,这通常是一年中最炎热时段的标志。而在此之前的十天里,中国内地影院迎来一波新片集中点映和公映潮,暑期档热度迅速升高,竞争加剧。   根据排片信息,7月18日至19日两天内,超过10部影片集中上映。其中,由大鹏编剧、导演并主演,改编自马伯庸小说的《长安的荔枝》,以及姜文执导的喜剧片《你行!你上!》均提档至7月18日。同日上映的还有奇幻动画续集《罗小黑战记2》和由张子枫、马伊琍主演的悬疑剧情片《花漾少女杀人事件》等。多部影片提前开启大规模点映。   由陈佩斯自编自导并主演的喜剧片《戏台》,于7月25日正式上映,自7月12日起开始点映。   电影《长安的荔枝》剧照(资料照片)。新华社发   据电影数据平台的数据显示,截至7月13日,今年中国内地累计总票房已达305亿元人民币,较2024年提前29天达到该节点。不过,暑期档票房表现迄今仍较为平淡。2023年暑期档总票房创下206亿元新高,而2024年则回落至116亿元。今年截至7月15日,暑期档票房接近34亿元,业内对即将上映的国产高热度新片寄予厚望。   目前,暑期档票房排名前十的影片中,进口片仍占据主导地位。7月2日上映的《侏罗纪世界:重生》以4.7亿元票房暂居首位;陈可辛执导的《酱园弄·悬案》自6月21日上映以来累计票房达3.7亿元,位列第二。紧随其后的是《名侦探柯南:独眼的残像》和《碟中谍8》,两部影片票房均突破3.5亿元,前者更刷新了柯南系列在中国内地的单片票房纪录。其他上榜影片还包括《F1:狂飙飞车》《新·驯龙高手》以及7月5日上映、由陈思诚监制的国产悬疑片《恶意》。   从定档信息来看,接下来备受关注的国产新片还包括7月31日上映的历史题材影片《731》、8月2日上映的动画喜剧《浪浪山小妖怪》、8月8日上映的战争题材影片《东极岛》等。   据数据分析师陈晋介绍,暑期档过去两周的单周票房已连续突破6亿元,显示市场热度正在逐步回升。“7月中旬是暑期档的高峰期,影片集中上映,竞争也将进入白热化阶段。”他说,去年此时上映的《抓娃娃》曾快速点燃观影热情,本周多部备受期待的国产影片上映,希望它们能带来观影热潮。   随着暑期档进入中段,业界希望这一轮上映潮能为中国电影市场注入更多动能,为全年票房的稳定增长奠定基础。(张云龙)
拯救视效大片:让叙事成为奇观的动力引擎
《碟中谍8:致命清算》剧照   近年来,多部重磅视听大片的市场表现持续低迷,例如漫威的《毒液:最后一舞》《惊奇队长2》《美国队长4》,以及经典动作系列新作《碟中谍8:致命清算》等。这些影片的票房成绩普遍未达预期,有的甚至远不如系列前作,引发了业内对类型疲劳、视觉奇观失效等问题的反思。曾被视为商业大片标配的高成本制作与炫目场面,似乎正逐渐失去对观众的吸引力。视觉奇观的审美效力正在被削弱,甚至引发愈加普遍的感官疲劳。   这种趋势促使我们重新提出几个关键问题:为什么当代许多视效大片越来越侧重奇观而忽略叙事?脱离叙事结构的视觉奇观是否仍具有吸引力?究竟什么才是“好的”视觉奇观?何者又只是空洞的技术炫技?   要回答这些问题,必须回到电影美学的深层结构,重新审视视觉奇观与叙事之间长期存在的紧张关系。   叙事与奇观,真的对立吗?   纵观电影史,叙事电影虽然长期被视为正统范式占据主流位置,但事实上,叙事与奇观始终处于一种权力的争夺中,时而相辅相成,时而相互牵制。从汤姆·冈宁所提出的“吸引力电影”概念出发,我们可以看到早期电影并非以讲故事为核心,而更倾向于用运动、机械与视觉冲击吸引观众。   20世纪10年代至60年代,经典叙事范式逐渐确立其主导地位,强调线性结构、因果关系、人物动机与情节推进。然而70年代,随着特效技术的快速发展,《大白鲨》《星球大战》等标志性作品带动了一场奇观主导的工业变革。当时已有学者批评,高预算影片愈加依赖暴力、爆炸和视觉冲击,削弱了情节复杂性,导致叙事功能的退化。视觉奇观逐渐从叙事的辅助工具,转变为吸引观众的主导机制。   90年代,“心智游戏电影”如《罗拉快跑》《记忆碎片》等,以非线性、非因果的复杂叙事方式回应主流大片在叙事层面的单一性和乏味性。这类作品被视为对视听大片叙事僵化的一种纠偏和反动,试图在视觉语言之外恢复观众对故事结构、角色内在动因与心理深度的兴趣。   而进入新世纪,尤其是漫威宇宙崛起之后,视效叙事似乎迎来了一个奇观主导的高峰期。早期漫威作品(如《钢铁侠》《复仇者联盟》)一度成功实现了动作场面与角色成长、宇宙设定之间的有机整合。但随着系列的扩张、作品数量的激增,创意重复、叙事结构公式化问题日益凸显。近年来漫威影片在奇观场面上愈发依赖模板化剪辑与视觉堆叠,却缺乏令人信服的情节动因与人物弧光。观众对其“炫技空洞”“缺乏情感张力”等批评不断加剧,也强化了一种长期存在的刻板印象:视觉奇观是对叙事的替代甚至削弱。   这种思维方式背后,是一种根深蒂固的二元对立逻辑——将叙事与奇观视为彼此消解的力量,认为强化视觉表现必然以牺牲叙事复杂性为代价,反之亦然。这种对立在理论层面构建了“叙事/图像”“文本/技术”的二元范式,在实践层面则导致创作者无法打通形式与内容的融合路径,最终令电影在艺术完整性上陷入撕裂。   奇观与叙事可以互相激活   这种撕裂在当下大量商业大片中表现得尤为明显。一些作品,尤其是近年部分漫威电影,几乎完全依赖连场打斗、爆破、追逐、转场等特效场景来支撑观众注意力,而叙事则被简化为一条仅用于贯穿奇观段落的功能性结构,缺乏真实的故事张力与人物层次。   比如《惊奇队长2》,其快速堆叠的战斗场面虽然在视觉风格上力图创新,但故事本身缺乏足够动机支撑与人物成长弧线,使得动作成为孤立空洞的展示。《碟中谍8:致命清算》也被批评为“剧作薄弱、叙事断裂”,成为一场“炫技的中场表演”而非完整叙事。在这种语境下,奇观沦为悬浮于叙事之上的“展品”,难以激发观众情感共鸣。长期的过度视觉消费反而削弱了奇观本身的冲击力,观众陷入一种“审美过载”与“奇观疲劳”。   电影中的叙事与奇观之间的对立,实则可类比于文学作品中“叙述”与“描写”的区分。在叙事学框架中,“叙述”通常承担推动事件发展、建立因果链条和时间线索的功能;而“描写”则暂停时间流动,聚焦于对场景、人物或氛围的呈现,往往带有视觉性和瞬间性的特征。这一区分反映出一种更为本质的张力:叙事的线性推进性与奇观的瞬间呈现性之间的形式冲突。换言之,叙事强调时间的延续与因果性,而奇观则偏向空间化、直观性与非线性体验。这也解释了为何在许多当代电影中,叙事与奇观难以真正融合,而总处于一种相互削弱的状态。   然而在文学传统中,叙述与描写从来不是相互排斥的力量。它们分别构成故事的“骨骼”与“血肉”,彼此协作、不可分离。同理,电影中的叙事与奇观也并非天然矛盾。真正打动人心的奇观,往往是在叙事结构中被赋予了情感张力、角色动因或戏剧意义,从而成为具有内在逻辑的“叙事性奇观”。   事实上,电影美学的发展正是在叙事与奇观的不断交替与重新组合中获得活力:当古典叙事范式趋于程式化,奇观电影为观众提供了新的感官刺激;当奇观电影陷入形式重复,心智游戏电影又以结构复杂性恢复了故事的张力;而漫威早期影片,则在两者之间寻求融合路径。不同阶段的电影类型轮替与模式革新,恰恰证明了二者并非对立,而是可以互为激活的动因。   “叙事性奇观”的四种打开方式   真正持久有效的奇观,往往是“叙事性奇观”——它们不仅具备技术层面的视觉震撼,更在叙事结构中承担了推动情节、深化角色、释放情感的作用。从《星球大战》《银翼杀手》到《侏罗纪公园》《泰坦尼克号》,再到《哈利·波特》《阿凡达》系列,这些作品之所以成功,不仅在于技术上的特效革新,更在于它们将奇观纳入叙事轨道,使之服务于角色命运、情节高潮与情感释放。   反观近年许多票房失利的大片,则常陷入一种误区:误以为视觉奇观本身即具观赏价值,而无需叙事的支撑。但在奇观泛滥、模式同质的背景下,观众对于单纯依赖动作、爆破、CG特效所制造的感官刺激,已经逐渐失去了新鲜感,甚至产生了逆反心理。奇观脱离叙事,就会迅速沦为空洞乏味的鸡肋装饰。因而,回到叙事,是重建奇观效力的必由之路。   第一种方式是在叙事推进中设定奇观节点,使其承载情绪爆发或命运转折的功能。例如《E.T.外星人》中,孩子骑着自行车飞跃天空的场景,并非复杂的视效操作,但借由此前叙事铺垫所累积的紧张与情感,这一奇观瞬间具备了震撼人心的力量。由此可见,同一个视觉场景,在不同叙事结构中的呈现,其情感效果可能截然不同。   第二种方式是在奇观场景中引入悬念机制,增强其戏剧性与观看张力。如斯皮尔伯格在《大白鲨》《侏罗纪公园》《夺宝奇兵》等片中所展现的场面调度技巧,便是在视觉奇观中植入悬念节奏,使得观众在视觉震撼之余,也被情节的不确定性牢牢吸引,奇观因而获得了延展的时间性与心理效应。   第三种方式是通过叙事构想本身的独创性,建构出“类型上的奇观”。以《瞬息全宇宙》为例,影片不仅在视觉形式上呈现出超现实的多元宇宙,更重要的是,通过母女关系这一核心情感线索,将混乱的宇宙转场与人物心理的裂变巧妙结合。又如《芭比》中的芭比乐园,也是建立在对文化符号与性别政治的深度书写之上,才让那种粉色幻想空间具有现实反思力。   第四种方式是在奇观内部嵌入叙事结构,使视觉奇观本身成为戏剧事件。这一策略在近期热映的赛车题材影片《F1:狂飙飞车》中展现得尤为典型。乍看之下,《F1:狂飙飞车》延续的是赛车片的经典模型:一个自我成长的主角,一条由比赛串联起来的行动,人物、剧情设定看似都中规中矩,甚至略显套路。然而,该片的真正创新之处,并不在于对传统故事类型的颠覆,而在于它在视觉奇观内部结构中植入了心智文本支撑的强叙事性,以一种“微型剧场化”的策略,重塑了奇观的叙事功能。   影片并未将赛车场面视为剧情的插曲或展示高潮,而是对每一场比赛进行了细致的叙事建构:每场赛事都被设定为一个拥有完整戏剧节奏的叙事单元,有清晰的起承转合结构——从出发前的心理预设、比赛中的策略选择、遭遇技术或情境上的障碍,到最终反转、逆转或失败。这种处理方式,几乎将每场赛车场面构建为一部三幕剧或四幕剧,其内在张力远超普通赛车片单一的速度冲击或视觉刺激。   更为重要的是,这种叙事性并非仅仅附着于角色之间的情感动因或故事走向,而是内嵌于视觉动作本身。在高速飞驰的过程中,观众不仅看到的是“炫技”的奇观,更是在体验一场包含心理博弈、技术判断与意志比拼的“行动剧”。也就是说,视觉奇观不再是“讲完故事之后的呈现”,而是本身就“讲述着故事”。   这种处理方式不仅增强了每场比赛的观赏强度,也为奇观赋予了持续的戏剧生命力。这标志着一种对传统奇观观念的突破:从“叙事+奇观”的附加式结构,转向“奇观即叙事”的内聚式结构。视觉奇观因此不再是叙事的延迟快感或背景渲染,而是成为一种富有戏剧能量与结构完整性的事件本体。可以说,这是一种新的视觉建构方式,也是一种新的叙事策略,代表着当代商业电影中“叙事性奇观”的重要探索方向。   失败的奇观电影,常常源于创作者对奇观的误判——高估了其表层冲击力,低估了其构建难度,忽视了情感结构与叙事节奏对奇观效果的决定作用。真正有效的视觉奇观,必须建立在叙事策略、节奏控制与情感逻辑的基础之上。   因此,开拓当代商业电影的新路径,关键不在于在叙事与奇观之间择一而从,而在于打破它们之间的结构对立,探索更深层次的融合逻辑。奇观可以成为叙事的触发机制,叙事亦可成为奇观的动力引擎。《哪吒之魔童闹海》正是凭借宏大视觉场面与情感叙事的深度融合,成功实现了奇观的叙事化转化。只有在情节与视觉、心理与感官、结构与冲击之间实现高度协同,电影才能实现真正的美学创新,重新赢得观众的情感共鸣与观看信任。   (作者刘起,中国文联电影艺术中心副研究员)
中国女篮大胜新西兰队 挺进亚洲杯四强
  新华社深圳7月16日电(记者李博闻、曹奕博)在16日进行的2025国际篮联女篮亚洲杯小组赛中,中国女篮以85:51大胜新西兰队,以小组赛三战全胜的战绩直接晋级四强。   此役中国女篮所有球员均有得分,张子宇出战10分钟得到全队并列最高的12分,杨舒予也贡献12分,韩旭得到10分和5个篮板,罗欣棫和黄思静各入账8分。新西兰队只有一人得分上双,惠特克得到全队最高的10分,另有5个篮板,道尔顿取下9分。 7月16日,中国队球员庆祝胜利。新华社记者 肖恩楠 摄   凭借首节后半段一波11:2的攻势,中国女篮在半场结束时确立了42:23的领先优势。第三节后半段,中国女篮多点开花,罗欣棫、韩旭相继得分,率队打出一波8:0,中国女篮以28分优势进入最后一节,并最终以34分的优势取胜。   宫鲁鸣赛后表示,这是小组赛最后一场,双方都在试队员、试阵容、试打法,为后面的比赛做准备。目前的中国女篮是老中青结合的队伍,球队通过之前的热身赛和三场小组赛一直在磨合中,细节还有很多不足之处,需要认真总结经验,也希望在未来训练中能够不断改进。 7月16日,中国队主教练宫鲁鸣(左)在比赛前观看球员张子宇热身。新华社记者 肖恩楠 摄   小组赛中,中国女篮先后战胜了印度尼西亚队、韩国队和新西兰队,将在19日的半决赛中迎战日本队和新西兰队之间的胜者。
扎克伯格与Meta股东和解,了结80亿美元脸书隐私案
扎克伯格 凤凰网科技讯 北京时间7月18日,据路透社报道,一名Meta股东律师周四向特拉华州法官表示,Meta CEO马克·扎克伯格(Mark Zuckerberg)以及该公司现任和前任董事、高管,已在周四同意就一桩隐私索赔案达成和解。该诉讼指控他们放任脸书用户隐私屡遭侵犯给公司造成了损失,索赔金额达80亿美元。 各方并未披露和解协议的具体细节,辩护律师也未向特拉华州衡平法院法官凯瑟琳·麦考密克(Kathaleen McCormick)陈词。麦考密克在庭审进入第二天之际宣布休庭,并对双方达成和解表示祝贺。 原告律师萨姆·克洛西克(Sam Closic)表示,该和解协议达成的过程十分迅速。亿万富翁风险投资家马克·安德森(Marc Andreessen)是此次庭审的被告之一,同时也是Meta的董事,他原定于周四出庭作证。 Meta股东起诉了扎克伯格、安德森以及其他前公司高管,包括前首席运营官谢丽尔·桑德伯格(Sheryl Sandberg),希望让他们为公司近年来支付的数十亿美元罚款和法律费用承担责任。2019年,美国联邦贸易委员会因发现脸书未能遵守2012年与监管机构达成的保护用户数据协议,对其处以50亿美元罚款。 Meta股东希望11名被告使用个人财富来补偿公司。被告否认了这些指控,称其为“极端主张”。脸书在2021年更名为Meta,该公司本身并非被告,并拒绝发表评论。Meta在其官网上表示,自2019年以来已投入数十亿美元用于保护用户隐私。 截至发稿,被告律师不予置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
古老昆曲如何做到青春永驻
北方昆曲剧院排演的《牡丹亭》中的花神一幕。资料图片 《桃花扇》古本剧本。资料图片 改编自《牡丹亭》的新编昆曲《游园·惊梦》。资料图片   昆曲既古老又年轻。说它古老,是因它作为中国经典艺术形式,诞生于数百年前;说它年轻,是因它始终保有与时代同频的生命力。可以说,昆曲源于创新,也始终坚守创新,至今仍因创新而生机勃勃;同时,它孕育于深厚的文化传统,始终守护传统,时至今日仍是中华优秀传统文化无可争辩的代表之一。昆曲所闪耀的传统与创新的双重光辉,恰恰彰显了中华优秀传统文化的无限生命力——以传统为沃土,深深植根于此,方能绽放创新之花。在当下,昆曲依然印证着这一道理。   经过戏曲家改良而诞生的昆曲,被赋予兼容并包的艺术视野   不同于许多脱胎于乡土民歌、在漫长岁月中自然演化的戏曲形式,昆曲的源起清晰烙印着主动“创制”的印记——它是由以魏良辅为代表的戏曲革新家们,凭借非凡的艺术智慧与明确的创新目标,精心设计、系统构建而成的艺术结晶。   被尊为“昆曲之祖”的明朝戏曲改革家魏良辅,凭借其精深的传统音乐造诣和丰富的实践经验,敏锐洞察到当时文化审美的演进需求。他与志同道合的戏曲家们,在南戏的原有声腔基础上,经过反复切磋琢磨,最终创造性地提炼、升华出一种全新的声腔艺术——“水磨腔”。“水磨腔”细腻婉转、流丽悠远,成为昆曲标志性的唱腔。   可以说,昆曲的诞生,在主观上依赖于魏良辅及其同道者们卓越的艺术综合素养:深厚的传统音乐修养赋予他们创新的基础;广博的文化修养提供了审美的高度与方向感;而共同的艺术理想则凝聚了力量,驱动着这场目标明确的艺术实验。在客观上,则是深深植根于当时社会既有的传统文化积淀,特别是当时形态各异、生机勃勃的民间曲调唱法。没有对民间音乐精华的广泛吸收,魏良辅不可能凭空构建出他心目中理想的“新声”。而若无优秀传统文化的滋养,这种艺术形式也不可能一出现便风靡全国。   经过戏曲家改良而诞生的昆曲,在诞生之初就被赋予了全国性的艺术视野与通行潜力。昆曲虽然是依托当时流行于南方的南戏创造而成的,但魏良辅并不囿于南方唱腔,而是积极研习北曲,依据对南北曲各自艺术特征的深入思考,将两者熔于一炉,统一纳入昆曲的宏大音乐体系之中。在至关重要的声韵规范上,他也摒弃了地域性的局限,有意识地选择了当时最具广泛接受度的语音标准——《中原音韵》作为基础。这种先天的“通行性”设定,是昆曲能够迅速突破地域限制,赢得全国性赞誉的关键所在。   从“水磨腔”的精妙创制,到对南北曲的兼容并蓄,再到声韵标准的通盘考量,这一系列的深远思考与精巧设计,彰显了非凡的创造性与体系建构能力。可以说,创造性是昆曲的初始基因,正因如此,它方能在“横空出世”后历经岁月变迁,至今仍保有活力。   比起其他戏曲形式,雅致的昆曲集合着更多的文学样式   在曲调、唱腔、发音等听觉系统层面之外,在文本层面,昆曲兼容了高度的文学性。一部成熟的古典文学剧本,本身就是诸多古典文学形式的集合,比起其他戏曲形式,雅致的昆曲集合着更多的文学样式,它可被视为古典文学体裁的“百科全书”——其中包含诗、词、韵文、白话、集句等诸多文学体裁,而最重要的当属曲,即昆曲的唱词。这些文学体裁各有自身要求,有能力的作者能让诸多体裁都在昆曲中得到充分体现。也正因这份文学性,昆曲激发了历史上无数作者的创作热情,催生了《牡丹亭》《长生殿》《桃花扇》等经典名剧。   昆曲的文学性还促使昆曲所表现内容往往与时俱进。明清之交,出现了讲述明末农民战争的《铁冠图》;清初,诞生了以南明历史为背景的经典史诗《桃花扇》;清末反清反帝浪潮风起云涌之际,吴梅创作《风洞山》传奇,借明末抗清名士瞿式耜的事迹回应社会风潮,鼓舞革命斗志。   除了剧本,在舞台表演方面,昆曲也展现出高度的综合性。它在发展过程中吸收融合了当时已有的许多不同门类的表演艺术,如舞蹈、歌唱甚至今天归入杂技、曲艺的诸多艺术门类,并且将之融汇一体,为之后成为中国戏曲典型特征的“唱念做打舞”奠定了丰厚而坚实的基础。   到了清中期,具有高度文学性的昆曲渐渐开始注重表演,由此催生了各种更适用于演出的新变化。昆曲折子戏演出本集成《缀白裘》中记录了当时丰富的昆曲演出形式。而在诸多新戏曲剧种兴起的时代,昆曲的唱腔、剧本、表演等方面,又自然成为这些戏的参照与依据,昆曲也以此身份融入新戏曲的发展,为自己赢得了“百戏之祖”的地位。   这一阶段,昆曲在守正与创新的征程中,涌现出许多总结性著作,如曲唱领域的力作《纳书楹曲谱》。这类总结性、规范性著作,与当时注重总结规范的学术及社会风气相契合,既是昆曲对时代精神的呼应,也是其与时俱进的体现。    能历经数百年沧桑而依然富有活力,在于守正创新的精神   昆曲总能在不同历史阶段展现强大的创造力,承载时代精神,实现新发展,并且根基始终植于深厚的文化土壤与传统艺术积淀之中。   正是这种立足传统、守正创新的文化态度与生长方式,使得昆曲既能代表中国经典传统文化艺术,又具备与时俱进的特质和面向未来的创造性。适应时代、持续创新,早已融入昆曲的核心基因。   今天,我们在传承昆曲时,应当意识到,除了传承昆曲艺术的程式与规范,也应秉持昆曲一以贯之的守正创新精神。   今天我们所熟知的汤显祖的《牡丹亭》中,广为流传的“游园惊梦”及“拾画叫画”等经典折子,实则是自汤显祖之后,后世不同时代的艺人反复调整、修改与叠加的成果。   其中唱词、表演方面的变化不胜枚举,甚至衍生出新的内容场景。比如突出十二个月花神、极具舞台表演效果的“堆花”,便是清代昆曲艺人在《牡丹亭》“惊梦”一折“花神入梦”基础上的进一步改编。   如今我们所见《牡丹亭》的诸多唱词,都是历经不同时代的调整与创作累积而成的,不少内容已与汤显祖原著形成显著差异。这些历代叠加的痕迹,正是后人观察、理解《牡丹亭》内核的重要维度。   昆曲能历经数百年沧桑而依然青春,并令人可期于未来,根本在于一代代昆曲人始终坚持的守正创新精神,这也是昆曲乃至其他戏曲剧种传承所应遵循的精神。   这也启示我们,应效法魏良辅创制昆曲的智慧——他并非凭空创造,而是从当时流传的多种声腔中择取精华,调整优化,最终化育出源于传统又立足时代的崭新艺术。这种从丰厚经典材料中汲取灵感、选择重构的创作理念,至今仍具现实意义。   (作者:王一舸,系剧作家,艺术评论人)
思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
编辑:KingHZ 【新智元导读】离开OpenAI,只是为了Meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往! 硅谷人才争夺战,火热升级! 过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。 顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价! 思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到Meta。 在AI领域,Jason Wei非常高产。 根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。 离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开 意外的是,这些灵感都来自强化学习! RL之人生启示 天生我材必有用 过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。 RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。 当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。 一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。 人生也一样。 我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。 研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。 强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。 他举两个他自己更享受、却相对小众的习惯: 读大量原始数据。 做消融实验,把系统拆开看每个部件的独立作用。 有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。 今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。 更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。 所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板😄 AI的未来 验证非对称性,意指某些任务的验证远比求解更为简单。 随着强化学习(RL)的突破,这一概念正成为AI领域最重要的思想之一。 细察之下,验证非对称性无处不在: 数独和填字游戏:解决数独或填字游戏非常耗时,要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常简单,只需检查是否符合规则即可。 开发网站:比如开发一个像Instagram这样的网站,需要工程师团队数年之功。但验证网站是否正常运行,普通人只需几分钟就能完成,比如浏览页面、检查功能是否可用。 BrowseComp问题:要解决这类问题,通常需要浏览数百个网站,但验证给定答案却要快得多,因为可以直接搜索答案是否符合约束条件。 有些任务的验证耗时与求解相当。例如: 验证两个900位数字相加的结果,和自己计算的时间几乎一样。 验证某些数据处理程序的代码是否正确,可能和自己编写代码的耗时相当。 有些任务验证比解决还费时。例如: 核查一篇文章中的所有事实,可能比写文章本身更耗时(引用Brandolini定律:「辟谣所需的精力比制造谣言大一个数量级」)。 提出一个新的饮食疗法只需一句话:「只吃野牛肉和西兰花」,但要验证它对普通人群是否健康,却得做多年大规模实验。 通过前置研究,可以让验证变得更简单。例如: 数学竞赛问题:如果有解答要点,验证答案是否正确非常简单。 编程问题:阅读代码去验证正确性,这很麻烦。如果你有覆盖充分的测试用例,就可以快速检查任何给定的解决方案;实际上,Leetcode就是这样做的。在某些任务中,可以改善验证但不足以使其变得简单。 部分改进:比如「说出荷兰足球运动员的名字」,提前备好名单能大幅加速验证,但仍需人工核对某些冷门名字。 为什么验证非对称性如此重要? 深度学习史证明:凡是能被测量的,都能被优化。 在RL框架下,验证能力等同于构建训练环境的能力。由此诞生验证者定律: AI解决任务的训练难度,与任务可验证性成正比。所有可解且易验证的任务,终将被AI攻克。 具体来说,AI训练的难易程度取决于任务是否满足以下条件: 客观真相:所有人对什么是“好答案”有共识。 快速验证:验证一个答案只需几秒钟。 可扩展验证:可以同时验证多个答案。 低噪声:验证结果与答案质量高度相关。 连续奖励:可以对多个答案的质量进行排序。 过去十年,主流AI基准测试均满足前四项——这正是它们被率先攻克的原因。尽管多数测试不满足第五项(非黑即白式判断),但通过样本平均仍可构造连续奖励信号。 为什么可验证性重要? 根本原因是:当上述条件满足时,神经网络每一步梯度都携带高信息量,迭代飞轮得以高速旋转——这也是数字世界进步远快于物理世界的秘诀。 AlphaEvolve的案例 谷歌开发的AlphaEvolve堪称「猜想-验证」范式的终极形态。 以「求容纳11个单位六边形的最小外接六边形」为例: 完美契合验证者法则五项特性 虽看似对单一问题的「过拟合」,但科学创新恰恰追求这种训练集=测试集的极致优化——因为每个待解问题都可能蕴含巨大价值 悟透此理后,方觉验证之不对称,宛如空气无孔不入。 试想这样一个世界:凡能衡量的问题,终将告破。 智能的边界必将犬牙交错:在可验证任务中,AI所向披靡,只因这些领域更易被驯服。 这般未来图景,怎不令人心驰神往? 参考资料: https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning
马云夜骑西湖被网友偶遇,同款自行车卖1.85万元
自动播放 7月17日,有网友晒视频称在西湖夜游时偶遇骑车的马云,引发关注。 视频中,网友认出了骑车的马云,激动到语无伦次地向他打招呼:“是马老师吗?”马老师则回头微笑着和网友打招呼,并回复“很凉快”。 马云还提醒网友注意安全。视频发布后,有网友回忆起马老师年轻时的一段往事:“在西湖边骑车还见义勇为抓过正在偷窨井盖的小偷”。有人晒出了马老师同款自行车,还有网友回忆起少年马云在西湖边免费当导游的日子。 网友发布视频截图。 有网友在留言区提到,“西湖边有六公园英语角,是梦开始的地方。”杭州西湖边“六公园英语角”曾是杭州最大的市民英语角,也是青年马云交朋友、看世界的起点。 评论区还有有网友晒出马云同款折叠自行车,品牌为BROMPTON,售价1.85万元。 马云近期已多次现身杭州 今年5月9日,马云现身阿里总部“创业公寓”湖畔小屋,现场鼓励员工坚持创业精神,持续创新。阿里巴巴集团CEO吴泳铭也在现场。 湖畔小屋是刚刚于阿里全球总部亮相的一座复刻版“创业公寓”,它等比例复刻了1999年马云和创始团队开启创业的湖畔花园16幢1单元202室,阿里员工称它为“湖畔小屋”。 据21世纪经济报道,从2024年底至今,马云已多次在杭州露面。去年12月8日,马云亮相蚂蚁园区,并在支付宝和蚂蚁集团二十周年活动现场致辞,着重提及了对于AI的思考。 2025年2月11日,马云现身阿里杭州园区。据消息人士透露,马云前往了阿里园区A区1号楼闲鱼工位。 2025年4月10日,阿里云新财年启动会在杭州云谷园区举行,马云到场发表演讲。他表示,高科技绝不仅是征服星辰大海,更应该呵护人间烟火。科技人员的责任,不是让AI取代人类,而是让AI更懂人类、更好地服务人类。 编辑|程鹏 盖源源 校对|赵庆 封面图片来源:截图
亚马逊承认云业务裁员:是AI替代,还是增长焦虑?
财联社7月18日讯(编辑 赵昊)亚马逊周四(7月17日)证实,公司正在裁减其关键业务——云计算部门的一部分员工。 先前,两位消息人士透露,亚马逊在AWS部门裁员至少数百人。几名员工告诉媒体,他们在周四早上收到电子邮件,告知他们已被解雇,并且他们的电脑将被停用。 发稿前不久,亚马逊发言人Brad Glasser表示:“在对我们组织架构、优先事项以及未来的工作重点进行了全面审查之后,我们做出了一个艰难的商业决定——在AWS的特定团队中裁撤部分职位。” Glasser强调,“我们并非轻率做出这一决定,我们也承诺会在员工过渡期间给予支持。” 亚马逊还表示,此次裁员并非主要由于人工智能方面的投入,而是公司持续精简人力、聚焦关键优先事项的结果。公司强调,AWS仍在持续招聘。 而就在一个月前,公司首席执行官安迪·贾西(Andy Jassy)警告称,采用生成式人工智能(AI)工具将引发裁员。 当时贾西在官方博客撰文写道,“虽然难以精确预期长期净影响,但在未来几年,随着全公司广泛运用AI提升效率,我们预计企业整体的员工规模将会缩减。” 当下,许多公司正使用AI为其软件编写代码,并采用AI代理来自动执行日常任务,以节省成本并减少对人的依赖。 除了AWS,亚马逊在其他部门也一直在进行零星的裁员,最近裁员的是图书、设备和服务部门,以及Wondery播客业务。 年内早些时候,贾西在泄露的一次内部全体员工会议录音中,重申了他对精简管理层级的决心,他认为这一举措将减少公司现在的官僚主义。 公司5月公布的季度业绩显示,AWS连续第三个季度收入未达预期,虽然同比增长17%至292.7亿美元,但增速低于前一季的18.9%,也低于微软和谷歌的竞品。
大模型转行土木工程!首个“打灰人”评估基准:检验读、改工程图纸能力
编辑:LRST 【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。 在AI竞速的今天,大语言模型(LLM)早已不满足只在象牙塔里「背书解题」。 当GPT-4o刷题通过物理奥赛、DeepSeek熟练搭建网站之后,LLM必须直面一个更现实的问题: 这些号称「专家级」的大模型,能不能真的下工地?能不能帮工程打工人减负?在钢筋水泥的图纸世界里,它们是得力助手,还是纸上谈兵? 答案尚未揭晓,但DrafterBench迈出了评估的第一步。 来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校(UCSB)合作,正式推出面向工程自动化任务的大模型评估基准——DrafterBench。 这是首个针对「一线工程图纸修改任务」设计的大规模评测套件,旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。 论文链接:https://arxiv.org/abs/2507.11527 代码链接:https://github.com/Eason-Li-AIS/DrafterBench 数据链接:https://huggingface.co/datasets/Eason666/DrafterBench 为什么需要DrafterBench? 工程图纸修改,是土木工程、建筑设计等领域最耗时间、最高频的任务之一,也是自动化改造迫切程度极高的一环。 每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。 这类工作往往工作量大、标准高、容错低,但技术门槛不高,对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。 于是研究团队提出问题: 如果大模型能读懂图纸指令,调用工具链,精确修改图元,它就不只是「写PPT的高手」,更是「工程打工人福音」。 DrafterBench怎么做的? DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个高质量任务,涵盖12类指令类型,模拟了各种难度、不同风格的真实工程命令。 DrafterBench不仅让模型「按部就班」,而是全面考察以下四大任务能力维度。 结构化数据理解能力:模型是否能从不同风格语句中准确提取出关键细节; 工具调用能力:模型能否组合多个工具形成有效的操作链,并正确调用顺序与参数; 指令跟随能力:面对一条包含多个修改目标的长指令,是否能做到任务不漏项、执行不断链; 批判性推理能力:模型能否识别指令中的信息缺失、不合理内容,并尝试补全模糊的细节、完成修正。 这不是纸面作文,是工程实战。 DrafterBench如何评估模型? 在DrafterBench中,模型要以「代码调用工具」的方式完成任务。 这些工具涵盖图元编辑、标注调整、绘图逻辑等,彼此之间还有输入输出依赖,形成一个「工程任务链」。 但问题来了: 工具调用是否正确?是否合理组合? 中间步骤是否成功传递?是否使用了冗余或错误命令? 直接看图纸输出无法判断。因此DrafterBench设计了一整套对偶工具系统(Dual function system)。 所有工具都有一份「替身」,不实际修改图纸,但记录调用顺序、参数值、变量状态,并以结构化JSON形式输出,清晰还原模型「行动路径」。 DrafterBench不只看模型有没有答对,而是看它「为什么答错,哪一步出错,错在哪里」。 模型表现如何? 喜忧参半! DrafterBench评测了主流SOTA大语言模型,分别为:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。 综合来看,这些模型表现都达到一定水准,得分普遍超过65分。 其中,OpenAI o1以79.9的综合分领跑,Claude3.5 Sonnet和Deepseek-V3-685B表现也非常接近,分别为73.79和73.09。 这说明当前主流大模型具备一定的工程任务处理能力,尤其在简单指令执行上表现稳定。 但与此同时,模型整体水平仍远未达到工业一线对执行精度、流程完整性的实际要求。 更重要的是,不同模型在四大能力维度上呈现出显著差异。 比如,在结构化数据理解任务中,模型整体表现稳定,对语言风格的鲁棒性较强。 但在工具调用方面,准确率波动明显,平均可达9个百分点。对于指令跟随能力,部分模型表现出较强的任务承载能力,如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好,能保持基本的任务完整性。 而在批判性推理任务中,模型间能力分化尤为显著。 OpenAI o1在识别指令中信息缺失、筛选关键信息方面表现突出,而Qwen2.5则在细节补充上更具优势。 其余模型则在这两个维度中存在大幅度波动,表现不一。 研究团队进一步使用自动化错误分析工具,对每一个任务的失败原因进行结构化溯源。 结果表明,模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。 更关键的是,即便多个步骤执行正确,只要某一关键环节出现偏差,就会导致最终图纸修改失败。 这也解释了为何多数模型的单项能力准确率维持在60%左右,但整体目标修改完成度却显著偏低,仅在40%左右。 结论与展望 这些评估结果说明,尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具,但它们仍难以稳健掌握完整任务链的所有细节,对实际场景的适应能力尚不足以支撑工程一线需求。 如果说过去的大模型评测多数还停留在「会不会」,那么DrafterBench的贡献在于首次让模型接受了「干不干得好」的落地考核。 工程现场需要的是高容错、强判断、懂规则、能执行的助手,而DrafterBench正是在为这一目标提供数据支持与路径验证。 接下来,研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景,持续拓展模型能力边界。 你有模型,DrafterBench有任务。 看看你的模型,能不能真在图纸上动真格。
科学家发现行星宜居性新标准:表面水含量至少需达地球的20%
IT之家 7月17日消息,在寻找外星生命的过程中,科学家们一直将“宜居带(即温度适宜液态水存在的区域)”作为关键指标,认为只要行星位于恒星周围适宜液态水存在的区域,就有可能孕育生命。然而最新研究显示,仅仅处于宜居带可能并不足以使行星具备宜居性,其表面水含量才是决定性因素。 据IT之家了解,美国华盛顿大学的哈斯凯尔・怀特 - 吉安内拉(Haskelle White-Gianella)及其团队通过约1万次模拟实验发现,行星地表水含量至少要达到地球的 20%,才有可能维持稳定的气候,从而具备潜在的宜居性。这是因为降水在岩石中引发化学反应,将二氧化碳储存于地下。如果降水不足,大气中的二氧化碳就会不断积累,导致行星温度急剧上升,超过126℃,远超已知生命形式的耐受极限。 怀特 - 吉安内拉在7月10日于捷克布拉格举行的戈德施密特地球化学会议上表示,行星的地质历史对其宜居性至关重要。这一发现或许也能解释金星如今的炽热、不宜居状态,尽管太阳亮度不断增加被认为是金星大气流失和温度升高的主要原因,但这一解释并不全面。怀特 - 吉安内拉团队将模拟模型调整为金星所接收到的恒星光照量后发现,即使拥有与地球相当的水量,行星也可能因二氧化碳流失过多而变得不宜居。 加拿大卡尔加里大学的本杰明・图托洛(Benjamin Tutolo)认为,这一解释为金星等行星的高温现象提供了有力依据,但如果行星随时间推移产生的二氧化碳减少,情况可能会更复杂,这从火星的地质记录中可见一斑。火星的液态水吸收了过多二氧化碳,并以碳酸盐矿物形式储存于地下,导致其大气层变薄,行星温度降低。怀特 - 吉安内拉表示,其团队的模拟主要针对类似地球大小和距离的行星,火星这类行星的情况可能有所不同。 该研究表明,在寻找宜居行星时,不能仅依赖于其是否处于宜居带,还需综合考虑行星的水含量及地质历史等多方面因素。
无需驾照!小牛电动新国标旗舰车FXT Ultra 2025发布:11999元
快科技7月18日消息,近日,小牛电动发布了两款新国标旗舰电动车,除了刚刚介绍过的NXT Ultra 2025,另一款就是FXT Ultra 2025,价格同样定在了11999元。同时还提供多款减配车型。 不同于NXT(长宽高1790*750*1100mm,踏板宽度410mm),FXT尺寸更紧凑,长宽高1742*730*1093mm,踏板宽度380mm,整车线条硬朗,具有机甲风,还使用了电摩同款的鹰眼大灯,也提供五种配色。 配有5英寸LED智能仪表,可显示车辆关键数据,还支持多种无钥匙解锁方式,骑行更便捷。 配备31芯前减震,5级手动可调后减震,可有效过滤路面颠簸,长时间骑行也不易疲劳,后轮胎宽达到110mm,更加利于弯道控制。 制动方面采用前后碟刹,搭配双通道ABS、TCS牵引力控制系统,可防止车辆在湿滑路面或紧急制动时打滑,并搭载了毫米波雷达和胎压监测,进一步提供主动和被动安全能力。 动力系统方面,该车同样配备了一台400W电机,配有新能安48V 30Ah锂电池,且标配一块送一块,标称续航为105km,且耐低温。 整车还支持全场景智能辅助骑行,具备定速巡航、坡道驻车、助力推行、倒车档、边撑感应驻车等功能。 除了Ultra版,该车还提供多个减配车型,包括FXT Citi ABS、FXT Citi (LI)、FXT Sport ABS和FXT Sport,售价从7299-4899不等,具体可见下图。 责任编辑:落木
刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻
过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。 几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。 就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。 通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。 发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道:: 观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。 亮点如下: ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; 在多项基准测试中表现领先,综合性能位居行业前列; Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。 ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了 今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。 只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。 整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。 在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。 比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。 更重要的是,用户可以随时中断任务。 比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。 同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。 「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。 这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。 ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。 用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。 任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。 当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。 通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。 一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。 这类自动化能力,都是 Agent 深度嵌入工作流的体现。 不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。 需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。 The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。 而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。 对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线 Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。 全线刷新「跑分」记录,Agent 战场迎来最强对手 ChatGPT Agent 能力的提升,也体现在「跑分」环节。 在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。 在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。 在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。 在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。 此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。 从平台视角看,Agent 能力的底层接口,正是浏览器。 在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。 不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。 浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。 在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。 如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。 当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。