行业分类:
加载中...
头条分类:
加载中...
OpenAI史上最强ChatGPT智能体发布:逛网站、做PPT样样精通
IT之家 7月18日消息,OpenAI今日凌晨宣布将在ChatGPT中推出一款通用型AI智能体,该公司表示该智能体可以帮助用户完成各种基于计算机的任务。 OpenAI介绍称,该智能体可以自动生成可编辑的演示文稿和幻灯片、查看用户的日历来简要介绍即将到来的客户会议、计划并购买制作家庭早餐的食材,以及运行代码等。 该工具名为ChatGPT agent,结合了OpenAI之前多种智能体工具的功能,包括Operator点击网站的能力,以及Deep Research从数十个网站中综合信息生成简洁研究报告的能力。OpenAI表示用户只需通过自然语言提示ChatGPT即可与该智能体进行交互。 为了开发这个新工具,OpenAI将其背后的Operator和Deep Research团队合并为一个统一的团队。外媒The Verge报道称,这个新团队由产品和研究部门共20~35人组成。 OpenAI今日起将向Pro、Plus和Team计划的订阅用户推出ChatGPT智能体,今年夏末向ChatGPT企业和教育用户开放。要激活该工具,用户可以在ChatGPT的工具下拉菜单中选择“智能体模式(agent mode)”。 OpenAI表示ChatGPT智能体比其之前的任何产品都要强大得多,可以访问ChatGPT连接器,允许用户连接像Gmail和GitHub这样的应用,智能体可以根据用户的提示找到相关信息。此外,OpenAI表示ChatGPT智能体可以访问终端,并可以使用API来访问某些应用。 根据OpenAI的说法,ChatGPT智能体的底层模型在多个基准测试中提供了最先进的性能。ChatGPT智能体模型在Humanity's Last Exam(pass@1)中得分率为41.6%,这是一项由数千个问题组成的、涵盖超过一百个学科的困难测试。这个分数大约是OpenAI o3和o4-mini得分的两倍。 在已知最难的数学基准测试之一FrontierMath中,OpenAI表示,当ChatGPT智能体可以访问工具(IT之家注:如用于代码执行的终端)时,其得分为27.4%,之前的最佳分数来自o4-mini(得分仅为 6.3%)。
OpenAI深夜发布ChatGPT Agent:能主动思考、自选工具,智能体赛道大变天
今天凌晨1点,OpenAI进行了技术直播发布了重磅产品ChatGPT Agent。 ChatGPT Agent具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,包括Operator、 Deep Research和ChatGPT来完成各种超复杂任务。 例如,用户可以要求 ChatGPT Agent分析三个竞争对手并制作幻灯片演示文稿等请求。ChatGPT会智能地浏览网站、选择日期、筛选结果、运行代码,甚至自动生成经过润色的幻灯片演示文稿或电子表格。 也就是说你只需要一个提示,ChatGPT Agent就会帮你完成所有工作等待结果就好。 自动播放 完整技术直播 OpenAI首席执行官Sam Altman还非常罕见地发表了一篇长文来说明ChatGPT Agent: 今天 我们推出了一款名为 ChatGPT Agent 的新产品。 Agent代表着 AI 系统能力的新高度,可以借助自身的计算机为你完成一些出色的复杂任务。它融合了Deep Research和 Operator 的核心优势,但实际功能比听起来更强大,它能进行长时间思考、使用多种工具、进一步思考、采取行动,之后再深入思考,如此循环。 例如,在发布会上,我们展示了一个为朋友婚礼做准备的演示:购买服装、预订行程、挑选礼物等。我们还展示了一个工作场景的案例:分析数据并制作演示文稿。 尽管它的实用性很强,但潜在风险也不容忽视。 我们在其中内置了大量安全保障和警示机制,并且部署了比以往任何时候都更全面的风险缓解措施,从强化训练、系统防护到用户控制等方方面面都有覆盖,但我们无法预判所有情况。本着迭代部署的原则,我们会向用户发出重点警示,同时给予用户自主选择的空间,让他们可以谨慎地使用各项功能。 如果要向我的家人解释这款产品,我会说它处于技术前沿,尚在试验阶段;是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用它处理高风险事务或涉及大量个人信息的场景。 我们并不确切知道它会产生哪些影响,但不良分子可能会试图 “欺骗” 用户的 AI 代理,让它们泄露不应泄露的隐私信息,或执行不应执行的操作,而这些手段是我们无法预知的。我们建议,为了降低隐私和安全风险,仅向代理提供完成任务所需的最低权限。 比如,我可以让 Agent 访问我的日历,以便为团体晚餐找到合适的时间。但如果只是让它帮我买些衣服,就不需要授予任何额外权限。 像查看我昨晚收到的邮件,并自主处理所有需要处理的内容,无需进一步询问这类任务,风险会更高。这可能导致恶意邮件中的不可信内容欺骗模型,造成你的数据泄露。 我们认为,从实际应用中学习至关重要,同时人们也应在我们更好地量化和缓解潜在风险的过程中,谨慎、逐步地采用这些工具。与其他新的能力层级一样,社会、技术以及风险缓解策略需要协同发展。 技术架构方面,ChatGPT Agent通过其虚拟计算机处理任务,能够流畅地在推理与执行之间切换。在面对复杂任务时,不仅能够进行逻辑推理,还能够实际执行任务,从而独立完成复杂的多步骤任务。 例如,当用户要求 ChatGPT Agent“查看我的日历,并根据最新动态简要汇报即将举行的客户会议”时,能够理解任务需求,主动从日历应用中获取信息,并整理出简洁的汇报内容。 ChatGPT Agent另一个重要功能模块是其多工具集成能力,将 Operator 的网站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度对话能力融合在一起,形成统一的智能体系统。 Operator的能力使得 ChatGPT 智能体能够在网页上滚动、点击和输入文本,从而与网站进行直接互动;而Deep Research则擅长分析和总结信息,能够帮助 ChatGPT 智能体处理复杂的多步骤任务。 此外,ChatGPT Agent还配备了多种网络工具,包括可视化浏览器、文本浏览器和直接API 访问权限。这些工具为 ChatGPT 智能体提供了不同的网络信息访问与交互途径,使其能够选择最优路径以最高效地完成任务。 例如,可以通过 API 快速获取财务数据或体育赛事比分,同时也能与主要面向人类设计的网页进行视觉交互。所有这些操作均通过 ChatGPT 自身的计算环境完成,无论采用何种工具组合,任务全程的相关背景信息均会共享。 自动播放 在执行任务时,ChatGPT 智能体能够动态学习并优化其工作方式。通过强化学习,模型在执行任务时会根据结果调整其策略,从而不断改进其性能。这种动态学习能力使得 ChatGPT 智能体能够根据不同的任务需求灵活调整其行动策略,提高任务完成的速度和准确性。 ChatGPT Agent还专为迭代式、协作式工作流程设计,显著提升了其交互性和灵活性。在任务执行过程中,用户可以随时中断对话以澄清指令、重新定位任务方向,或引导其朝向预期结果。ChatGPT 智能体会从中断处继续,同时整合新信息,但不会丢失先前进展。使得用户能够在任务执行过程中随时调整任务方向,确保任务结果符合用户的预期。 自动播放 在安全性方面,ChatGPT 智能体的设计也充分考虑了用户的安全需求。在执行涉及敏感或重要操作前,ChatGPT会明确征得用户的授权,确保用户始终掌握控制权。此外,ChatGPT 智能体还具备主动监督和风险缓解功能,能够主动拒绝高风险任务,例如,金融交易或敏感法律互动。 根据OpenAI公布的测试数据显示,ChatGPT Agent 在多项测试中表现优异。在 “人类终极考试” 中,单次尝试通过率达41.6的新SOTA成绩,采用并行策略时分数提升至44.4;在“前沿数学”基准中,准确率达27.4%,大幅超越以往模型。 在模拟复杂现实世界任务的内部基准测试中,针对复杂且具经济价值的知识型工作任务,其输出在约一半案例中与人类相当或更好,显著优于o3和o4-mini,涵盖多种现实专业工作。 在DSBench 中表现显著超越人类;在SpreadsheetBench 中大幅优于现有模型,被赋予直接编辑电子表格能力时得分达 45.5%,远超 Excel 中Copilot 的 20.0%。 在衡量投资银行分析师建模任务能力的内部基准中,显著优于深度研究和 o3,涉及多种建模任务,均按数百项标准评分。 在BrowseComp基准中以68.9% 的成绩创SOTA,比深度研究高17.4 %;在WebArena中表现优于由o3驱动的CUA。 有网友表示,ChatGPT Agent更像是Manus 2.0。Manus刚推出时概念确实很有意思,但它太不稳定了,根本没法好好用。 很期待体验 ChatGPT Agent,看看它是否能配得上这些热度,这算是向 AGI又迈进了一步吗? 这真的太令人兴奋了,已经迫不及待想尝试了。而且我完全认同这种做法:“强大的智能体可能拥有超强能力,但同时也伴随着巨大风险。风险不仅来自恶意攻击者,还包括幻觉问题。让我们一起探索,去理解其中的深层影响吧。 团队这次更新太棒了,对此我非常期待。盼着能用起来,也期待着它会随着时间推移变得更强大。 我很欣赏你们把它交到我们手中的做法,没有等到那个遥不可及的零风险高标准才发布。在我看来,带着提醒和注意事项去信任用户,这做法非常好。 这太不可思议了!看着人工智能真的能浏览网站、完成实际任务,感觉就像科幻小说照进了现实。我已经在琢磨,这能如何为内容创作者和小企业简化工作流程了。生产力革命,从现在开始! 本文素材来源OpenAI,如有侵权请联系删除
刚刚,OpenAI发布ChatGPT版Manus!奥特曼:感受AGI时刻
过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。 几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合任务流。 就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。 通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成 PPT 或表格等,并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。 看到这,你或许有种似曾相识的感觉。ChatGPT 这个新功能其实与 3 月份大火的 Manus 在体验层面颇为相似,而 Manus 也正面回应了 OpenAI 这位竞争对手的入场。 凌晨发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道: 观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。 亮点如下: ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统; 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果; 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流; 在多项基准测试中表现领先,综合性能位居行业前列; Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额; ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了 今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。 输入你想完成的任务,ChatGPT Agent 就能浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,PPT、电子表格等任务也都能信手拈来。 整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动接管浏览器继续操作,确保任务始终符合你的目标和需求。 在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。 比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。 在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求,而执行这样一个任务只需十分钟左右。 更重要的是,用户还可以随时中断任务。 比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。 同样地,当 Agent 认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。 「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。 这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。 ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。 用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。 任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制 500 份贴纸的下单明细。 当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。 通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。 一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成 PPT。收到命令后,Agent 成功调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并完成任务。 这类自动化能力,都是 Agent 深度嵌入工作流的体现。 不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。 需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。 The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。 而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。 对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版和教育版将在未来几周内陆续上线。 Pro 用户每月可使用 400 次,主打一个量大管饱,而其他付费用户每月可使用 40 次,并可通过弹性积分方案购买更多额度。 全线刷新「跑分」记录,Agent 战场迎来最强对手 ChatGPT Agent 能力的提升,也体现在「跑分」环节。 在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,ChatGPT Agent 以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。 在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。 在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。 在一个内部的投行建模任务基准中,ChatGPT Agent 的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。 此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。 从平台视角看,Agent 能力的底层接口,正是浏览器。 在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。 不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。 浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。 在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。 如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。 当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。
全球首个!优必选Walker S2人形机器人实现自主换电 7*24小时打工
快科技7月18日消息,日前,国产机器人公司优必选宣布,其新一代工业人形机器人Walker S2全球首创热插拔自主换电系统。 该技术无需人工干预或关机,机器人可在3分钟内极速自主换电,使得Walker S2具备7*24小时不间断工作能力。 据了解,人形机器人热插拔自主换电系统有3大核心技术亮点。 原创双电池动力平衡技术 通过实时电量监测与动态电能均衡技术,实现双电池同充同放,电池更换无缝切换,支持电池带电热插拔且防止冲击电流和拉弧,进而保障人形机器人安全稳定持续运行。 标准化电池仓快换技术 设计标准化的电池模块和零间隙分仓结构,不仅让电池作为能源组件可以快速自由更换,更成为机器人身体结构中的一部分。采用自定位夹持方式解锁电池仓,灵活切换双电池续航或单电池工作模式。 双臂协同精准换电技术 人形机器人通过双臂协同,利用本体定位精度和柔顺控制算法,实现电池与仓体的精确对准。 该技术允许机器人在无需关机或人工干预的情况下,自主完成电池的更换,一方面避免了因充电停机导致的任务中断,让人形机器人拥有连续作业能力。 另一方面,人形机器人自主换电可以减少人力维护成本,提升整体生产效率。
华尔街日报:特朗普将在下周公布AI行动计划
特朗普 凤凰网科技讯 北京时间7月18日,据《华尔街日报》报道,美国总统特朗普预计将于下周发布多项行政命令,概述特朗普赢得与中国AI竞赛的愿景。届时,特朗普预计会谈到他的AI“行动计划”。 知情人士称,其中一项行政命令预计将通过美国进出口银行等机构推动美国芯片和AI工具的出口。对于美国政府来说,向与该国友好的国家出口技术是其优先事项,目的是确保这些国家的AI系统运行在美国的AI技术之上,而不是中国的产品。 白宫AI事务主管大卫·萨克斯(David Sacks)和白宫高级AI政策顾问斯里拉姆·克里希南(Sriram Krishnan)一直在主导一项努力,加快将英伟达的高性能AI芯片出口到阿联酋等国家。 美国政府预计还将重点加快用于训练模型的数据中心的审批流程,并为这些数据中心加快能源生产。本周早些时候,特朗普、萨克斯及其他政府官员在匹兹堡对这类项目的数百亿美元投资进行了称赞。 据知情人士透露,白宫官员还在准备一项行政命令,针对是那些他们认为拥有“觉醒”AI模型的科技公司,这是白宫打击多元、平等与包容(DEI)文化的最新行动。 该命令将要求获得联邦合同的AI公司在其模型中保持政治中立和无偏见,对抗政府官员所认为的部分模型中存在的自由派偏见。随着谷歌Gemini等AI聊天机器人近年来快速普及,一些保守派人士认为它们存在政治自由主义倾向。部分公司因其聊天机器人在特定提问下的回应激怒消费者,或因生成的图像将历史人物错误地描绘为有色人种而遭到批评。去年,谷歌就因其Gemini AI助手生成黑人版乔治·华盛顿(George Washington)以及种族多元化的纳粹士兵形象而受到抨击。 由于几乎所有大型科技公司都在争取让其AI工具被联邦政府采用,这项行政命令可能产生深远影响,并迫使开发者在模型的开发方式上格外谨慎。 截至发稿,白宫尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
7年2万亿欧元!欧盟长期预算案遭德国反对
  欧盟委员会16日公布一项规模约2万亿欧元的长期预算案,预算案资金重点用于国防、科研和农业领域的投入,向乌克兰提供援助,以及应对气候变化和保护生物多样性等。预算案还计划改革农业补贴和经济发展资助等相关规则。   这项预算案涵盖2028年至2034年7年时间,旨在通过确立欧盟中长期政策优先领域和投资方向,为提升欧盟整体市场竞争力、缩小成员国间发展差距提供战略指引和资金支持。   路透社报道截图   欧盟委员会主席冯德莱恩说,这是“新时代的预算”,更具战略性、更灵活。她还表示,该预算案将调整欧盟筹集资金的方式,同时保持成员国出资水平基本不变。   按照欧盟相关程序,预算案需获得27个成员国一致同意,并经欧洲议会批准后才能实施。   然而,预算案公布之后,很快遭到包括德国在内的一些成员国的反对。德国政府发言人16日表示,不能接受全面增加欧盟预算,尤其在所有成员国都在为巩固国家预算作出相当努力的时候。   彭博社报道截图   北京语言大学“一带一路”研究院副研究员董一凡分析认为,从最新公布的欧盟预算草案来看,其资金配置既延续了传统议程,又积极应对新兴议题。   在传统支出领域,共同农业政策仍占据最大比重,约占总预算的三分之一,这一安排既延续了对农民补贴的长期政策以稳固基本盘,也体现了欧盟内部发展逻辑的一贯性,同时兼顾了绿色可持续理念的投入。   欧盟未来预算展现出推动绿色发展、应对地缘政治挑战和提升竞争力的新特点,其中地缘政治板块特别设立了防务基金和发展援助项目,这些投资将服务于欧盟的对外行动和全球战略布局。在绿色产业方面,预算将进一步推动绿色新政实施。   董一凡表示,欧盟每次提出的所谓多年期预算,实际上都是各方博弈与妥协的产物。这份预算案难以让任何一方全然满意,而这恰恰折射出各个国家立场的差异。   北欧财政节俭国家认为欧盟对较贫穷成员国的补贴过多,挤占了本应支持自身发展的资金,同时质疑这些补贴性支出能否真正提振成员国经济或提高资金使用效率。   以法国和中东欧国家为代表的农业大国则格外关注共同农业政策等领域的资金分配。   此外,成员国间对欧盟未来在科技创新、高新技术和产业政策等领域的资金投入效果也存在争议。   素材来源丨总台环球资讯广播《环球新闻眼》   记者丨樊梦   编辑丨 王洹星   签审丨李修莉 康炘冬
一个夏天800亿,外卖市场已经扭曲了
摘要: 短短三个月不到时间,外卖市场涌入近800亿补贴资金,如果按照4-12月为周期统计,意味着仅此两家便每天向外卖市场投放超过3亿补贴。而2024年,整个外卖行业的总利润规模不过300亿。 凤凰网科技 出品 作者|Dale 编辑|董雨晴 3个月,800亿 战火是从一个周末燃起来的。 进入7月的第一个休息日,全国各地的奶茶店里上演了一出“抢茶大战”——“抢到什么算什么”“骑手自己上阵打包奶茶”。有一点点店员对凤凰网科技表示,为了应对订单量激增,“已经比平时早2个小时到店上班了”。 来自北京融科望京中心美团作战室、杭州西溪园区淘宝闪购作战室的两伙人,堪称“隔空互搏”。 激战在7月12日这天到达巅峰,当晚11时,一封战报从美团北京总部传出:美团零售日订单量超过1.5亿。 有传言称,为了达成这个成绩,美团一天花了8亿,但美团外卖反击战的指挥者,美团核心本地商业CEO王莆中在接受《晚点LatePost》采访时称,“我们没有花8个亿,实际投入远比阿里少”。界面在援引知情人士消息则写到,美团这一天的补贴投入是3亿-4亿,淘宝闪购的补贴则达到了12亿。双方均未对此数字置评。 实际上,王莆中在这次访谈中还反复重申了一个观点:美团不想打仗,但美团不怕打仗。“我是想告诉大家,以我们的体系能力,如果用对方的方式做补贴,我们想做多少单就可以做多少单。我们做了 1.5 亿,要做到 1.6 亿、 2 亿都可以”。 尽管阿里与美团火拼交锋更为出圈,但这场战役的最早发起者实际是京东,今年2月11日,京东宣布进军外卖市场,此后便开启了对餐饮商家和骑手的招募。 4月10日,京东外卖百亿补贴上线,宣布一年投入超100亿。不到两个月后,京东外卖宣布日订单量已突破2500万单。 “内部管理层也没有想到这个数据来的这么快”,有接近京东的人士告诉凤凰网科技。 阿里是在五一劳动节加入的,淘天旗下“小时达”变身“淘宝闪购”,还拿下淘宝App首页一级流量入口。五天后,其宣布来自淘宝闪购的单日外卖订单量已经超过1000万单。 自此,三方大战正式开启。 据凤凰网科技不完全统计,今年4月以来,京东先后两次共向市场投放超200亿补贴,阿里计划投放600亿元补贴(饿了么超百亿、淘宝闪购500亿)。短短三个月不到时间,外卖市场涌入近800亿补贴资金,如果按照4-12月为周期统计,意味着仅此两家便每天向外卖市场投放超过3亿补贴。而2024年,整个外卖行业的总利润规模不过300亿。 阿里、京东所在的电商行业,是互联网利润的策源地之一,去年,电商行业的总利润规模超过6000亿。电商头部平台用高利润来冲击外卖行业,掀起了一场史无前例的战役。正是在此冲击之下,7月初,美团被迫应对,也“卷”入到这场超大规模的低价竞争之中。 另据凤凰网科技了解,除了7月5日的大规模投入是有预谋的发起冲锋,此后的又一个周末,无论是美团还是阿里,搞得都是突然袭击:“内部没有提前得到通知”,有接近美团、阿里的人士表示。 不仅员工们被动,到此时商家也是“身不由己”,他们面临的是原材料配货难,店员崩溃等现实问题,有商家告诉凤凰网科技,“出单的小票快做成帘子了,但不敢不从,谁也不想得罪平台”。 近两个周末,有热门茶饮商家也告诉凤凰网科技,“现在不建议大家周末在线下下单,最近两个周末都是一单要等50分钟到1小时,体验非常差,如果有人来下单,我们都直接告诉他们,不要下单”。 一种极度复杂的情绪在这个夏天开始蔓延:“消费者希望优惠不要停,商家极度疲倦,平台方被迫应战”,似乎每一环都很焦虑。 大战赢得了什么? 如此大费人力、财力的投入,参战方会得到什么?是市场占有率、新用户还是订单增长?唯一可以确定的是,他们都会获得流量。 京东最先打美团,所图也不是外卖本身。 刘强东曾在今年618期间的媒体沟通会上表示,大家看到我们跟兴哥(美团创始人王兴)的这种“外卖之争”,是老百姓点餐的生意,但其实我们做的逻辑是背后的生鲜供应链,这才是我所真正想要的。“前端卖饭菜,我可以永远不赚钱,我只要靠供应链赚钱就可以了。然后等客户过来的时候,我们现在有40%属于交叉销售,他们就可以去买我们电商(平台的商品)。所以我们亏的钱,相比去抖音、腾讯买流量的钱还是要划算的”。 回归到互联网创业的本质,玩家所争的都是流量。所有新业务都需要先有流量扶持,而后才会有转化,最终再赢下市场。 近几年,流量也越来越贵。在阿里和抖音断线前,仅2020 年度,双方进行年框谈判时,金额就已经达到了 200 亿。当时抖音DAU刚刚突破6亿。现在,QuestMobile统计的数据显示,抖音DAU突破8亿。 2022年4月起,淘系核心指标已从年活跃买家(AAC)改为日活跃用户(DAU)。2025年Q1财报显示淘宝DAU达4.02亿,同比增长6.5%。这些年,阿里与腾讯互联互通,与小红书打造红猫计划,都是为了找新流量。 凤凰网科技了解到,阿里加入外卖大战,本质上也是拉新和激活现有流量。据淘宝闪购7月14日表述,其日活跃用户数在突破2亿基础上,本周又环比净增15%。 但流量玩法,真的能成就外卖这门生意吗? 有行业人士告诉凤凰网科技,外卖是本地供给生意,不是流量生意。这也意味着,用电商的方式做本地生意,要面临很多“水土不服”的问题。 而现阶段的现金大规模补贴逻辑非常清晰,前述行业人士认为,“就是用补贴换流量。在链路上,两家新品牌都是补贴换峰值、峰值换转化/心智、转化换市占率,这在电商零售甚至是其他标准品领域,都是无懈可击的”。 但也存在一定问题,外卖不是电商,没办法完全照搬大促的玩法: 同样以外卖这一品类来说,供给端是有限的短时供给,不管是奶茶店还是餐厅,单日产能有限,且时间窗口极短,很难做到像电商一样提前盘流量、通知工厂备货,在某个周期内实现批量爆发。短期冲峰值可以,但长期靠补贴刺激,后端的产能是接不住的,最直接的就是卡餐;也很难像标品网络零售一样摊薄成本,实现薄利多销,规模效应的优势并不显著。 其次是运力和履约。“即便解决了供给产能问题,还要过履约关。需求在短时期(餐时)集中爆发,时效卡在30分钟内,且还要以较低成本履约,这个门槛是非常之高的”,前述行业人士对凤凰网科技表示。 这也意味着,京东和阿里都擅长制造“双11”这样的峰值,在供给和履约上,美团与饿了么这些曾经做过基础的平台相当更有优势,新进入者,必然要交更多学费。 实际上,即便是大举进攻的淘宝闪购,意也不完全在餐饮外卖,淘宝闪购在披露日8000万订单之时,特别强调了非餐品类:非餐订单达到1300万,超3700个非餐饮品牌订单翻倍。 很可能是四方皆输 2014年的夏天,相似的故事曾经上演。彼时,美团、饿了么、百度外卖三国杀,累计投入金额超300亿元,用户们津津乐道的是“1分钱吃炸鸡”“满20减19”。 但当时的商战,往往更加狠辣。从二选一,到地推巷战,蓝黄两大阵营曾多次引发冲突。上一轮外卖大战,也以数千中小平台倒闭,死亡率67%,百度外卖作价5亿美元卖身饿了么告终。 彼时,易观智库统计2015年外卖交易额只有1250亿,但是整个餐饮全年收入是3.2万亿,连个零头都不到。美团、饿了么日均巅峰单量只有300万。 这场外卖大战是有必要的——最终培养了数十万骑手,还沉淀下了消费者的外卖习惯。 到2025年,餐饮线上渗透率已经达到了45%。外卖业务占线上餐饮收入的 70%(约占总餐饮收入的30%),外卖市场规模已达1.2万亿。占餐饮总收入(6.2万亿元)的19.4%。 市场已经十分稳固,有知情人士告诉凤凰网科技,美团去年夏季单日订单最高峰突破了9000万单,去年单日峰值就接近破亿。并且从第三方披露信息来看,今年6月以来,美团即时零售的订单已经连续保持在9000万单以上,尤其是餐食类订单的市场份额始终保持在70%左右。 实际上,外卖本质上仍是一个三方撮合的生意,供给、履约、用户,三方只有处于均衡态,用户体验才会最佳。单独的价格补贴大战,只是补贴了需求,供给不够、履约不稳,都会导致结构性失衡。 区别于电商的标品+全国生意,外卖是非标品+本地化的生意,终究要回归地面战争,甚至是回归商圈的巷战。淘宝闪购目前也意在此,核心是要在“消费+供给+履约”这张网上有所突破。 美团上一场战役是对垒抖音,后者最大的优势是流量,前者是地面铁军。“美团在本地化上的部署深入毛细血管,小到一些小店铺的收银台,这是抖音攻不下的”,当时有外卖行业BD告诉凤凰网科技。 这也注定意味着,超大补贴,补不出来“双11”和“618”,只会让餐饮产业遭遇冲击,最终扭曲。过度依赖价格战的短期行为,会对餐饮产业上下游带来巨大冲击:电商平台为了抢占份额,短期内将资金补贴和运力倾斜向头部大连锁商家,而且联手制造出远低于餐饮成本临界值的价格,这对餐饮上游的中小实体商家造成剧烈冲击。 甚至还可能有众多意想不到的负面效果,前述行业人士对凤凰网科技表示,“外卖是个微利且脆弱的商业系统,消费者、骑手、商家、平台长期处在一个微妙的动态平衡之中。天平稍微倾斜一点,都会导致系统的崩塌,最终极有可能是平台、消费者、商家和骑手四方皆输”。其认为,现阶段高成本补贴来的很多是低价值用户,也就是所谓的“羊毛党”。 “想想看,你双11可以囤货,奶茶能囤几杯”,另有行业人士认为,超规模补贴在餐饮外卖行业注定走不通,“压力只会传导给原材料产业上游,出现柠檬这类大宗商品产品的价格波动”。
拿下2亿用户,张一鸣又出爆款
作者:信瀚 来源:正商参阅(ID:zhengshangcanyue) 2025年上半年,短剧彻底杀疯了 两年不到,一个短剧App轰然崛起:月活逼近2亿,即将超越优酷。 在用户尚未疲劳、监管尚未落锤的窗口期里,张一鸣的操盘下的“红果短剧”平台已悄然登顶行业流量榜单,成为最快破亿的短剧App。近日,据多家渠道测算,其月活已逼近2亿,单月播放量超70亿,爆款剧集上线一周吸金千万,日充值峰值逼近小型手游。 01 在短剧领域,红果短剧已从一骑绝尘走到了一家独大。 QuestMobile数据显示,红果短剧的月活跃用户数已达到1.992亿,仅比优酷的1.998亿少约55万,两者差距几乎可以忽略不计。这意味着,红果短剧在不到两年的时间里,用户规模已接近优酷十余年的积累。从2024年12月的1.58亿月活跃用户,到2025年5月的1.99亿,红果短剧的增长速度令人瞩目。 这场“弯道超车”背后,有三股力量在合力推动。 先说流量端,红果从一开始就没跑,它打入抖音生态,用推荐算法精准推送,把抖音里1.19亿重合用户直接拉进来看剧的阵地。你刷视频的时候,推荐里突然蹦出一集短剧,点进去笑两句,下一集就刷得停不下来,用算法挖掘用户潜在“刷剧”欲。 接着是变现逻辑,红果干掉了付费门槛,全剧免费观看,靠广告分账养创作者,结果2024年6月分账就冲破1亿元,到了9月破2亿元,11月直接破3亿元。这么一来,平台不愁内容供给,创作者不怕成本回不来,而观众无需买单,正中“想看又懒花钱”的市场红心。 此外,红果短剧还借助“果燃计划”发布精品短剧片单,涵盖各类创新题材,推动短剧从流量快消品向可持续文化消费品转型,这些因素共同促进了红果短剧的快速发展。 不同于传统影视动辄上千万制作投入、回本周期漫长,红果平台上的短剧往往10万元即可启动制作,周期短、可试错、快速上线验证效果,极大降低了内容投资门槛。 最后,它对优酷等平台构成了实打实的降维打击,不是说差几千万用户而已,而是“玩法不一样、成本不一样、增速不一样”。优酷还在靠会员费+版权买断,红果则是流量+广告+爆款内容的组合拳,把短剧当入口、当主菜、当盈利方式来做,打出一种“快节奏、可看、可变现”的完整内容逻辑。 这么看,红果的爆发就像把三条路打通了,抖音的流量入口,广告分账的变现路径,还有让用户真上瘾的内容阵列。 02 短剧不仅是年轻人的娱乐时间,更是资本聚焦的新战场。 这一点,从红果的爆发式增长中就能看得很清楚。它不是第一个做短剧的平台,但却是第一个把短剧做成“流量-广告-电商”闭环的选手,区别于传统内容平台靠会员和单片付费维系收入,红果用分账广告撑起了自己的商业模型。 一个月一部剧、每部十几分钟、用户刷剧连贯无停顿,看似轻巧随意的消费节奏背后,其实已经完成了算法主导的精准投放、品牌植入、付费转化的整套商业路径。从这点看,红果不是靠剧情打动人,而是靠机制把“能不能赚到钱”这个问题提前解决了。 这种由算法精确切割用户兴趣并不断递送内容的推荐逻辑,使得短剧天然拥有“快刷”习惯的土壤。不像长视频需要动脑判断是否值得花两个小时,短剧的进入门槛低、情节密度高、叙事节奏快,非常适配信息流里无目的的滑动行为。 平台只需将单条剧集包装为“内容+广告+转化”的复合单元,再靠系统动态调整流量倾斜,就能实现从曝光到变现的快速闭环。这种结构让广告主找到了性价比极高的内容投放渠道,也让资本看到了短剧产品具备“算法驱动增长”的确定性路径。 有投资人直接指出,在长视频增长乏力、直播电商成本飙升的当下,短剧提供了一种“轻量但高效”的投放场景,具备天然的用户拉新能力,也能承接品牌内容诉求。典型案例是,多个美妆、服饰类品牌开始通过定制剧情植入、人物设定产品绑定等方式,推动短剧直接转化为电商销量。 这类“剧情电商”路径还远未成熟,但已展现出强烈的可塑性,剧情既是广告,又不止于广告。 当然,这种增长也不是没有风险。短剧内容审核目前仍处于灰色地带,尤其是围绕感情、暴富、悬疑等题材的模糊表达,极易踩中红线。 与此同时,短剧赛道的进入门槛低,已经出现大量“模仿式制作”跟风行为,不少平台内容同质化严重,严重依赖买量维持流量,一旦算法调整或监管加强,极有可能出现用户流失和变现下滑。 但即便如此,从整体趋势来看,短剧的确定性增长机会已经成型。有数据预估2025年短剧市场规模将突破600亿元,到2027年有望迈入千亿级别。而红果作为目前市占率最高、分账效率最优的平台,已经在内容供应链、广告客户和用户黏性三方面建立起护城河。 对用户来说,它提供的是“十分钟沉浸式娱乐”;对资本而言,它释放的是“可预测的收益模型”。 这正是红果的价值所在。 03 在内容消费的演化周期里,张一鸣从未缺席。 短视频之后,字节跳动的重心正悄然向“短剧”倾斜,而红果短剧已然成为张一鸣手中的第二张“王炸牌”。它背后既有抖音系的全域流量,也有AI驱动的高效内容生产,还有可复制、可出海、可商业化的系统打法。 抖音在流量获取和用户留存上已近天花板,红果的诞生,正是用内容厚度填补消费时长的缺口,因此它本质上是对抖音体系的一次内容加码,这一点从红果上线初期就能看出,它几乎复刻了当年抖音崛起时的策略路径,先从流量扶持入手,再在“平台—创作者—广告主”三角结构中打通供需闭环。 只是这一次,张一鸣没有照搬爱奇艺、腾讯视频那一套“剧集先行+会员变现”的老路,而是用AI加速剧本生产效率,通过平台端预判流量偏好,提前为创作者配比资源、分发策略和广告预算,把短剧变成可批量生产、快速验证的流量产品。 这种反向驱动的“爆款机制”,本质上是一次对传统影视创作范式的颠覆,也解释了为什么红果在上线不久后就能推出多个播放量破亿的项目。 更重要的是,这种打法的“弹性”极强,可在低成本模型下快速复制,有效应对平台内容生命周期短、观众注意力转移快的结构性问题。而一旦某个IP表现出穿透能力,抖音广告体系、星图商业化产品甚至电商转化路径都可以无缝介入,实现从内容到消费的闭环变现。 这种协同效应并不局限于中国市场。事实上,红果背后所代表的“短剧工厂模式”正在成为字节国际业务布局的跳板。TikTok已经在海外市场试水短剧内容分发,未来如果红果的运营经验可以在全球范围内被本地化复制,那么张一鸣等于在海外市场复制出一个“更灵活的Netflix”。 然而,这条路径并非没有风险。短剧行业仍处于高速试错阶段,从内容管控到版权管理,从观众审美疲劳到平台内容同质化,一旦平台不能持续输出高质量的“情绪型”爆款,用户流失和广告预算下滑将迅速传导至平台基本面。 所以说,红果的核心挑战不在于流量,而在于能否建立稳定、可控、可规模化复制的内容供给体系。张一鸣显然看到了这个问题,所以字节的“版权交易中心”正在上线,尝试用系统化手段提前锁定优质剧本和团队,用平台规则保障创作正向循环。 未来,内容能否持续出爆款?广告主是否愿意买单?用户是否厌倦这种“流水线爱情”?这些都是悬在头顶的问号。但从目前来看,张一鸣显然有更大的雄心。 他似乎并不满足于再造一个短剧平台,他要建立的是一个新的内容消费帝国,一个将流量、内容、工具、算法全面打通的新型娱乐工业体系。 红果只是开场,属于张一鸣的“第二张王炸牌”,才刚刚翻面。
ChatGPT带来全新物种:一人公司的黎明到来了
北京时间今天凌晨,科技圈迎来了一个不眠之夜。OpenAI扔出重磅炸弹,发布了其研发已久的通用人工智能代理——ChatGPT Agent。 这不是又一次模型升级,而是一个全新的物种。 它不再仅仅是一个与你聊天的伙伴,而是一个能听懂复杂指令,并能独立调用浏览器、数据分析工具、乃至PPT制作软件来完成整个工作流的“数字雇员”。 在OpenAI官方发布的演示视频中,Agent流畅地展示了它如何根据一个模糊的需求——“帮我分析一下新能源汽车市场最近的趋势,并做一份给管理层汇报的PPT”,在几分钟内就自主完成了市场调研、数据分析、报告撰写和PPT制作的全套工作。 这个场景,让无数正在为类似工作而熬夜的白领们,感到了真实的寒意。一个“无需睡眠、不计薪酬、能力超群”的数字雇员已经到来。 一场围绕未来的深刻变革,正式拉开序幕。 作者 | 方远 编辑 | 小雨 谁的饭碗最先被端走? ChatGPT Agent的发布,最直接的冲击,指向了我们早已习惯的“工作”定义。它带来的,是一种前所未有的生产力解放,也同时是对传统白领岗位的一次精准“解构”。 过去,一名初级市场分析师接到任务,可能需要花一天时间在网上搜集资料,用半天时间清洗和整理数据,再用一天时间制作图表和撰写报告。 如今,Agent将这个流程压缩到了分钟级别。这种效率的指数级提升,引发的第一个问题便是:哪些岗位将被最先“平替”? 高盛在此前发布的一份报告中预测,随着生成式人工智能系统的突破,全球预计将有3亿个工作岗位被生成式AI取代。 而这一次,被推上风口浪尖的,不再是工厂里的蓝领,而是写字楼里的白领。 结合美国劳工统计局的数据与行业研究报告来看,有几类工作的核心任务与ChatGPT Agent展现出的能力高度契合,它们也因此被视作短期内最易受到冲击的领域。 那些围绕行程安排、会议纪要草拟、邮件撰写、文件归档展开的事务性工作,恰恰是Agent能精准驾驭的。当人们只需通过自然语言就能让AI完成会议室预定并同步通知所有参会者,传统 “上传下达” 型秘书工作的价值便会大幅缩水。 同样,财务报表的初步梳理、票据识别与录入、基础数据的清洗分析等重复性高、规则性强的工作,正是AI的强项。2024年初瑞士一家媒体分析公司计划用AI工具替代分析师引发的轩然大波,便成了这一行业变革的生动缩影。 而在客户互动场景中,超过80%的常见问题已能由AI客服解答,Agent的出现更让这种服务突破了被动回应的局限——它能主动查询订单状态、处理退货申请,甚至根据客户情绪调整沟通策略,进一步压缩了传统客服的生存空间。 至于市场部门的入门级工作,像社交媒体文案的批量创作、广告投放数据的初步分析、竞品信息的搜集整理等,也正被AI以极低的成本和极高的效率逐步覆盖,传统助理在这些基础工作中的不可替代性持续减弱。 美国一家人工智能公司的CEO曾发出警告,他认为在未来五年内,AI可能会取代高达50%的入门级白领岗位。 这并非危言耸听,而是一个正在加速到来的现实。这场变革的核心逻辑是:任何可以被清晰描述、分解为流程、并主要依赖于操作软件来完成的工作,都将被“数字雇员”接管。 从精通Office到精通“提问” Agent的普及,必然带来一场职场技能的“价值重估”。 过去二十年,熟练掌握Office三件套是白领的必备技能。一个能用Excel做出复杂数据透视表、用PPT做出精美动画效果的员工,常常被视为“业务骨干”。 但在Agent面前,这些“执行技能”正在快速贬值。当你只需要告诉AI“把这份数据做成一个季度销售分析看板”时,你是否还记得VLOOKUP函数,已经不再重要。 那么,未来的核心职场技能将转向何处? 综合多位人力资源专家与科技分析师的观点,精准提问的能力、专业的审核能力以及跨领域整合和创新决策能力将成为决定个人价值的关键。 与AI协作的核心,在于如何提出一个好问题。 同样是分析市场,一个模糊的“分析一下市场”指令,和一个“请你扮演一位资深市场分析师,搜集过去三个月中国区新能源汽车市场的销量数据、主要玩家的市场份额变化、相关的政策新闻以及消费者在社交媒体上的讨论热点”的指令,产出结果的质量将有天壤之别。精准、清晰、富有逻辑地向下达指令,将成为一种新的“编程语言”。 AI生成的内容,无论看起来多么完美,都可能存在事实错误、逻辑漏洞或隐藏的偏见。 AI负责生成初稿,而人负责审阅、修订和最终拍板。未来的职场人,需要像一位经验丰富的“总编辑”,能够快速识别AI产出中的“幻觉”,并结合自己的专业知识和行业洞察,对其进行修正和拔高。对结果的辨别力和判断力,将比执行能力本身更有价值。 当基础的信息搜集和分析工作被AI代劳后,人类员工将被解放出来,专注于更高层次的思考。 比如,AI可以告诉你市场上最受欢迎的三种产品设计,但它无法告诉你,将A产品的设计理念与B产品的技术架构相结合,是否能创造出一个全新的爆款。这种连接不同知识领域、进行颠覆式创新的能力,是人类独有的。 未来的“超级个体”,将是那些善于利用AI作为超级外脑,来进行创新和决策的人。 “一人公司”的黎明 Agent带来的颠覆,不止于个体的工作方式,更可能重塑未来的商业组织形态。 过去,一个有创意的个体想要创业,首先需要组建一个团队:你需要一个市场调研员、一个产品经理、一个程序员、一个营销推广人员……公司的本质,是通过雇佣关系,将不同职能的人聚集在一起,以降低协作成本。 如今,一个怀揣创意的个体,完全可能借助Agent集群打造属于自己的 “一人公司”。 想象这样一幅图景:市场分析Agent全天候监测全球市场动态生成战略晨报;围绕你的创意,产品设计Agent能快速产出产品原型;营销推广Agent主动运营社交媒体账号,实时分析营销效果;行政财务Agent则包揽合同处理、发票管理、记账核算与客户关系维护等事务。 在这个模式下,创业者本人,将从一个事必躬亲的“经理”,转变为一个指挥AI军团的“司令官”。 他的核心工作,是提出创意、设定目标、整合资源和做出最终决策。 这种“一人公司”的崛起,将极大地降低创业门槛,激发个体的创造力。未来的商业世界,可能不再完全由庞大的、等级森严的“金字塔”式企业所主导,而是会出现更多由“超级个体”组成的、灵活自由的“星群”式商业生态。 这些个体之间,可以通过项目制进行动态协作,聚散自如,形成一个更加敏捷和高效的创新网络。 “数字雇员”已经站在我们的办公室门口。这既是挑战,也是机遇。 它带来的冲击,本质上是用机器的“确定性”工作,去替代人类的“确定性”工作,从而将人类解放出来,去从事那些更需要智慧、情感和创造力的“不确定性”工作。 在这场浪潮面前,与其焦虑自己的工作是否会被取代,不如思考如何成为那个驾驭AI的人。告别重复性的执行任务,将自己升级为一名“提问者”、“审核者”和“创新者”,这或许才是通往未来职场的唯一路径。 毕竟,工具越强大,人的智慧才越显得珍贵。
xAI旗下Grok 4模型首度被越狱,被迫生成不当内容
xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容 IT之家 7 月 18 日消息,网络安全公司 NeuralTrust 宣布,他们已成功“越狱”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻击)”方法进行攻击。 IT之家获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演(让模型扮演祖母读激活码哄人入睡)”的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导 AI 模型生成不当内容回答。 在此次 Grok 4 的越狱测试中,NeuralTrust 首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导 AI 生成不当内容。 据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。
90%被大模型吃掉,AI Agent的困局
文|魏琳华 编|王一粟 “90%的Agent会被大模型吃掉。” 7月15日,金沙江创投主管合伙人朱啸虎一如既往地语出惊人,这次炮轰的是近一年AI圈最炙手可热的Agent。 在“Agent之年”进程过半的时候,最近传来的似乎却多是悲观的判断和信息。就在上周,Manus总部迁移至新加坡、国内裁员80人以及放弃国内版本上线的一系列动态,也让大众开始讨论起,Manus到底怎么了? 背后有身为美元基金的BenchMark领投、底层模型包含Gemini、Claude等一系列海外模型,加之曾陷入缺算力资源的传闻,Manus的出走,已经印证为形势所迫的转移和调整,而非经营失败导致的撤退。 但围绕以Manus为首的通用Agent,它们头顶的乌云尚未散去:一边是Manus、Genspark们收入变现的下滑,另一边是用户活跃度的下跌。 这种局面,揭示了当下通用Agent赛道的核心问题:在技术热潮和资本狂欢过后,产品尚未找到能让广大C端用户持续“忠诚”并为之付费的杀手级应用场景,只能被偶尔拿来做个半成品PPT、找几份报告。 通用Agent市场,正在被模型能力的溢出蚕食,也被垂类Agent抢走份额。 转战海外,Manus们怎么了? 通用Agent,陷入了一个尴尬的境地。 在几个月的时间里,通用Agent诞生时的惊艳不复存在:放在企业里,它无法和垂类Agent的精准比肩;拿到个人手上,它又没有找到更戳中用户需求的场景。 模型能力的提升,先对Agent们“砍了一刀”。 随着大模型能力的飞速发展,模型本身正在变得越来越“Agent化”,随着模型性能的溢出,用户可以直接调用模型来完成任务。 以目前进展更快的AI代码为例,Anthropic的Claude、谷歌的Gemini系列模型,模型本身的编码能力就在随着更新提升,其自研的编码工具(如Claude Code)不仅能给实现自主编程,优化种种产品体验之外,它的Max会员模式还支持用户随意调用自家模型,即使是每百万输出tokens收费75美元的Opus 4,单月200美元同样支持不限量使用。 对比Manus最贵的Pro会员每月199美元的付费模式,价格虽然接近,但Manus的最高档会员依旧是以积分制消费,Pro会员单月能获得每日赠送的积分+单月19900积分+限时19900积分,靠任务消耗积分制来服务。按照单个任务100积分估算,一天使用次数也就在10次左右。 制约Manus的成本问题,转嫁到用户身上,就是不可消除的高订阅价。 当模型本身就能提供接近Agent的体验时,用户会自然倾向于直接使用更便宜、更便捷的模型API或对话界面,而非额外付费使用一个功能重叠的通用Agent产品。这导致一部分市场份额被能力日益强大的基础模型直接“吃掉”。 面向用户来说,对比垂类Agent,通用Agent在企业端的应用效果不佳,从效率/成果衡量,都无法达到“数字员工”的高度。 朱啸虎说“90%的Agent市场会被吃掉”,但他所在的金沙江创投也参与了AI Agent项目融资,只是相比于通用Agent,他更看好能真正跑出效率和实际落地的产品。 金沙江投资的Head AI(原Aha Lab),就是一家靠AI Agent做自动化营销的公司,现在升级为AI营销产品。用创始人的话来说,只需告诉 Head 你的预算和网站,它就能自动搞定达人营销、联盟营销和 Cold Email——一个人解决一个市场部。 对于企业用户而言,准确度和成本是核心诉求。但通用Agent目前还无法与针对特定场景优化的垂类Agent相提并论。 如果把一样的任务交给通用Agent和企业内部的垂类Agent去做,前者只能靠搜索引擎结合需求给出结果,而后者则会连接到企业内部搭建好的知识库,根据内部信息贴合需求输出,相当于后者身上“绑”了个更充足的资料库,结果不言而喻。 企业在引入新技术时,对成本和风险的控制要求极高。通用Agent通常基于庞大而复杂的“黑盒”模型,其决策过程不透明,且输出结果存在一定的随机性(即“幻觉”问题)。对准确度要求更高的企业,显然无法接受通用Agent不稳定的输出质量。 一位Agent开发者告诉光锥智能,企业通常需要将Agent与内部知识库、业务流程系统深度集成,部分简单的工作则会通过工作流来确保任务准确执行。 夹在大模型和垂类Agent之间,通用Agent被两者各自瓜分走了一大块蛋糕。 没场景、待进化 Agent才走了个开头 在“用不起来”的情况下,用户对通用Agent热情也不复当初。 这也导致,以Manus们为代表的C端通用Agent正在面临增长放缓、甚至倒退的困境。 虽然从商业化上来说,通用Agent确实展现了足够吸金的一面。以Manus、Genspark等通用Agent为代表,近几个月的变现成绩证明了这个赛道的潜力:非凡产研数据显示,今年5月,Manus已经达到936万美元ARR(年化收入),Genspark更是在发布45天的情况下,达到3600万美元ARR。 但在短期的流量上涨过后,通用Agent产品们或多或少地出现了访问量和收入下降的情况。 6月,Manus访问量为1781万,和3月发布即登顶的访问量2376万相比,已经下跌25%;Genspark的访问量也处在来回浮动的状态,6月访问量为842万次,下降8%,昆仑万维天工超级智能体下降3.7%。 同样是在6月,两个商业化表现突出的产品Manus和Genspark出现不同程度的收入下跌。据非凡产研数据,Manus当月MRR(月度收入)为254万美金,环比下跌超过50%;Genspark当月MRR为295万美金,环比下跌13.58%。 上述数据说明,在一时的热度过后 ,通用Agent类产品的使用体验并没有能让用户持续付费的吸引力。同时,用户体验的频次也在减弱。 究其原因,还是因为Manus们没有找到足够让用户为之持续付费的Killer(杀手级)场景。 目前,市场上多数通用Agent都在卷几个固定的方向:做PPT、多模态能力、写报告(Deep Research),多聚焦于和办公强相关的场景。但对于用户来说,这些定位还难以让用户持续付费。 在没有找到确切的应用方向前,通用Agent赛道已经有一批公司先靠产品下水测试,意图先抢占市场。 变现和流量不稳定的情况下,大厂对自研Agent的精力投入有限,一般还是采取“两手抓”的模式,在开发自家Agent产品之外,目前更多地在推广自家Agent开发平台。比如阿里、字节和百度,推广平台的同时发福利、组织Agent开发比赛,聚焦开发者生态搭建。 市场似乎已经默认,通用Agent是小厂玩不起的生意。 可以看到,在国内市场,除去Manus和GensPark零星几家创业公司,多数通用Agent的开发公司都是手握自研大模型的公司: 其中,大厂不仅有模型,背后还有自家云做支援。通用Agent既是产品,也是他们作为B端平台,通过C端产品展示能力的一面镜子,以此招徕更多开发者。 大模型创业公司则本着“模型即Agent”的思路,更多在模型层就针对Agent对RL(强化学习)、长文本等需求钻研模型,才有了通用Agent产品。 国内通用Agent玩家的收费模式,也比出海的方式更卷。以百度、字节为代表的大厂有能力公开测试,免费提供服务。如MiniMax、天工智能体等则以限量使用或是购买积分使用的方式开放。和大厂免费不限量的手段相比,国内通用Agent赛道注定会越来越卷,商业化变现是一条看不到收益的路。 从场景来看,DeepResearch式的深度研究功能是更多产品选择主攻的方向,对于文档类Agent来说,调用工具的复杂程度相对较低,且文本生成的成本更低,算是一个更有性价比的方向。 在开发深度研究功能的基础上,各家Agent开始在多模态能力和应用场景上发力。一方面,在生成的文档中插入图片、视频等多模态能力,另一方面,把目前和Agent契合的场景植入到通用Agent中,比如做PPT,几乎成了办公Agent的标配。 但无论是拿来做报告,再用图文锦上添花,还是用Agent做PPT,背后都无法解决Agent输出效果一般的问题。比如一份深度研究报告,Agent最容易出现的是对事实信息检索的错漏,比如无法厘清Agent概念从而推荐大模型产品。 进一步的问题是输出的信息价值不高。一份报告,零星只有3-4个信源,更多内容从网络筛选得来,往往只能得到模棱两可的“废话”。比如要它介绍大模型公司的生存挑战,它把开公司可能存在的问题都列个遍,既没有针对性,也不具备有价值的增量信息。 于是,企业开始探索更多Agent能匹配的场景,试图吸引更多用户参与。Agent也难免后续变成自家公司产品的“集合入口”,被公司用各种方式把自家产品能力整合进去,比如MiniMax融入了海螺生视频的能力,百度心响在场景中接入了原有的智能体对话等。 除了找不到贴合场景,当前Agent能力有限,效果不一,也难以让用户为之买单。 通用Agent执行任务一般是拆解任务,再按照步骤执行。越复杂的任务,就意味着Agent执行的过程更多,其中只要有任何一个步骤跑出的结果有问题,就会导致整体输出结果质量不佳。所以,对于复杂任务来说,当前Agent执行的稳定性不足。 比如,输出对一家公司的分析,就要从财报信息抓取、公司网页介绍到各大信源的分析点评,其中有任何一个环节结果出错,整体报告的分析质量就会大打折扣。 当下,一些Agent开发者正试图通过技术创新来突破这些瓶颈。 比如MiniMax把年初发布的新的线性注意力机制用到了新模型M1中,其智能体产品以M1模型为基座模型。这样的好处是大幅扩展了智能体能够承载的文本量,支持100万的上下文输入,针对法律文书这类需要大量文本分析的场景效果更好。 月之暗面则强调“模型即Agent”,其基座模型是月之暗面基于端到端自主强化学习技术训练的新一代 Agent 模型。其中,RL(强化学习)成为这个深度研究Agent的亮点。 多数业内人曾在和光锥智能交流中肯定RL之于Agent的重要性。相比传统的监督学习或预训练模型在特定任务上表现出色,但其泛化能力往往受限于训练数据的分布。当Agent需要处理的任务场景多样化、环境动态变化时,预设规则或仅依赖一次性推理的Agent难以适应。 比如,在处理一些需要多个流程完成的任务中,传统模式可能在任一个环节中出现推测问题,进而影响到最终结果,但RL则是靠大量试错和奖励机制来提升泛化能力,对于需要多个步骤处理的复杂任务,表现效果更好。 Kimi-Researcher主动针对矛盾信息的处理 可以说,RL能够大幅提升Agent的能力上限。 Kimi-Researcher研究员冯一尘分享,在Humanity's Last Exam(HLE,人类的最后一场考试,衡量AI在各学科难题上的测试)榜单上,=gent模型得分从最初的8.6%跃升至26.9%,相比OpenAI Deep Research团队在相关工作上从20分左右(o3)提升到26.6分的成果,进一步证明了强化学习在Agent训练上的巨大价值。 在技术的天花板还够高的情况下,后来者正在拔高Agent的能力标准。今日(7月18日),OpenAI发布的通用Agent产品ChatGPT Agent跑出了一个漂亮的效果,在HLE 测试表现上,取得了41.6%的新SOTA 成绩。 通过强化学习,Agent有望从简单的“工具调用器”进化为真正具备“自主学习”和“环境适应”能力的智能体。届时,通用Agent或许才能真正找到杀手级场景,并让用户心甘情愿地为其买单。 Agent的路还很长,只有靠技术突破和场景深耕,才能成为真正帮得上忙的AI助手。
小吊梨汤“乘势而上”:借力淘宝闪购平台消费券,快速实现经营结果新突破
淘宝闪购联合饿了么近日发布数据显示,在订单结构向全品类深度拓展的同时,平台日订单量再次突破8000万创新高。淘宝闪购的500亿消费券计划,不仅持续激发了消费热情,也带动了不少特色餐饮品牌生意的强劲增长。 小吊梨汤就是其中的代表之一。这家以原创北京菜起家的品牌,在淘宝闪购平台上,通过持续优化产品结构、加强线上经营能力、持续提升客户服务,快速实现了外卖端营收同比增长约18%的稳定增长,收入和利润稳步提升。小吊梨汤作为地道北京菜品牌,也为餐饮商家提供了一个可复制的增长样本。 今年五月,小吊梨汤正式上线淘宝闪购平台,短短3个月内便实现外卖订单量快速增长,外卖平台的营收同比增长约18%。这一成绩的背后,是平台流量的精准导入,也是品牌主动拥抱新渠道的成果。 小吊梨汤刘正表示,小吊梨汤近期在外卖平台上的表现还不错,整体营收增长约两成,订单量和利润也同步上升,整体趋势显著向好。外卖单量在五月份上线闪购之后,六月增长最为显著,七月也保持了稳定增长。这种增长主要来自新客拉动和用户复购的双重推动,尤其是年轻用户群体的增加较为明显,目前约占整体外卖订单的20%-30%。 在刘正看来,要让这种增长具有可持续性和稳定性,背后的关键因素在于注重产品本身的优化和服务体验的提升。例如,在流量涌入后,针对当下的一人食消费场景,小吊梨汤推出了更灵活的套餐组合,满足了更多场景的用户需求,也提升了订单量。这让小吊梨汤很好地承接了平台的活动和流量扶持。 刘正表示:“上线平台后,我们发现,还有更多用餐场景之前并未触达到,比如说一人食的庞大用户群体。这说明,正餐品牌并非缺乏用户,而是没有完全打开触达用户的路径,而淘宝闪购正好帮助品牌打通了这条路径。” 数据显示,在淘宝闪购消费券上线第一周,有4124个餐饮连锁品牌突破了生意的历史峰值。在这些破峰的连锁品牌中,95%为城市区域连锁品牌,有效激发城市特色消费活力。此外,小吃、地方菜、快餐等中小连锁品牌商家占比超过五成。 “平台活动的补贴主要由平台承担,没有给商家带来额外成本,反而带来了收入和订单的提升。”小吊梨汤刘正坦言,这种平台发力、商家高度配合的模式,极大增强了商家参与活动的积极性。 对于这种类似平台消费券的补贴模式,中国烹饪协会服务委副主席王春平认为,这样的补贴模式对餐饮商家在经济筑底期间的收入增长起到了非常有利帮助。在这场类似国补的餐饮行业普惠性消费券投入下,更多餐饮经营者应该积极拥抱线上市场机遇,开辟第二增长曲线。 世界中餐联合会社区餐饮委秘书长曹盼盼也表示,每一位消费者,每一个餐饮商家,都能享受线上消费带来的便利与红利,这对餐饮行业长期稳定向好的发展,起到了积极正向作用。 针对近期各界市场高度关注的补贴问题,刘正表示:“对于商家来说经营都是有规则的,如果补贴能会造成对企业经营目标的负面影响,可以先不参与,把重心放在如何提升顾客满意度、如何能更好的适应新的营销体系里来”。他认为,淘宝闪购与商家之间的良性共赢关系,“通过平台的活动和流量扶持,小吊梨汤不仅获得新客流量池,也激活了顾客的多层触达,更重要的是,让品牌在新的消费趋势中保持了活力。” 而面对近期行业内,一些平台推出的“0元购”等激进促销手段,小吊梨汤选择不参加,坚持不卷价格战。刘正认为,0元购在短期内可能会促进一定的转化,但对于品牌进驻顾客心智没有明显助力。品牌的打造不是百米冲刺,而是场马拉松持久战。餐饮品牌应该投入更多精力,做长远的战略规划,在顾客感知层面持续迭代升级,在产品、用户体验、品牌传播等层面综合打造品牌竞争力,这样才能健康发展。
张朝阳对话物理学家David Tong:谈经典物理、场论革命和宇宙密码
凤凰网科技讯 7月18日,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳与英国剑桥大学教授、皇家科学院院士David Tong于7月17日进行了一场深度物理对话。在近三小时的交流中,双方围绕经典物理、场论革命、宇宙未解之谜及科学教育等核心议题展开探讨。 对话从经典物理学的基础切入。David Tong分享了牛顿在引力定律发现过程中的轶事,指出牛顿虽早于同时代科学家完成推导,却秘而不宣近二十年,直至哈雷登门才公布其关于行星椭圆轨道的证明。张朝阳补充强调了牛顿第二定律在统一理论中的关键作用。在讨论流体力学时,双方澄清了关于飞机升力的常见误解。David Tong指出,历史上因忽略纳维-斯托克斯方程中的粘性项,曾误判飞机无法飞行,正是普朗特后来认识到粘性导致的边界层效应才是升力产生的核心。他进一步表示,流体力学方程具有普适性,甚至可描述夸克-胶子等离子体运动,并对其在英国物理教育中受忽视表示遗憾。 关于理论物理的发展,David Tong高度评价了麦克斯韦方程组的持久稳定性,认为其整合电磁学并预言光速恒定是理论突破的典范,为相对论奠定基础。谈及量子力学建立,他指出海森堡1925年发表的矩阵力学具有奠基意义。张朝阳则强调量子力学的精髓在于能级的离散性,而非通俗化的比喻。 针对宇宙学话题,双方基于广义相对论的等效原理,探讨了时空的局部特性。在探讨地外生命可能性时,David Tong从统计学角度认为外星生命在浩瀚宇宙中应存在,但张朝阳补充指出,计算生命存在的概率时,需假定宇宙在大尺度上是均匀的,就像“流体”般连贯。地球存在生命,意味着其他星球也可能有生命,但这种均匀性只体现在百万光年的尺度上,因此外星生命与我们的距离必然极其遥远。二人一致认为,外星人或UFO抵达地球的可能性微乎其微,时空尺度的限制让这种星际造访几乎不可能实现。 对于科学推广,双方强调了严谨数学思维的重要性。David Tong分享其个人网站讲义广受欢迎的经历,但指出科普比教学更具挑战性,需谨慎使用比喻。他赞赏霍金在《时间简史》中坚持包含质能方程的做法。张朝阳则明确主张科学本质是数学与计算的结合,科学教育必须注入严谨数学思维。他以其《张朝阳的物理课》坚持硬核推导为例,诠释了自己的主张。
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一! 歪果网友们直接炸了,评论区秒变夸夸打卡现场: 今天,竞技场终于更新了Kimi K2的排名情况—— 开源第一,总榜第五,而且紧追马斯克Grok 4这样的顶尖闭源模型。 并且各类单项能力也不差,能和一水儿闭源模型打得有来有回: 连续多轮对话并列第一,o3和Grok 4均为第四; 编程能力第二,和GPT 4.5、Grok 4持平; 应对复杂提示词能力第二,和o3、4o位于同一梯队; …… 甚至眼尖的朋友也发现了,唯二闯入总榜TOP 10的开源模型都来自中国。(DeepSeek R1总榜第8) 当然了,即使抛开榜单不谈,Kimi这款新模型过去一周也确实火热—— K2过去一周真热啊 公开可查战绩包括但不限于下面这些: 从实打实的数据来看,发布这一周里,Kimi K2在开源社区就获得了相当关注度和下载量。 GitHub标星5.6K,Hugging Face下载量近10万,这还不算它在中国社区的应用。 连AI搜索引擎明星创企Perplexity CEO也亲自为它站台,并透露: Kimi K2在内部评估中表现出色,Perplexity计划接下来基于K2模型进行后训练。 甚至由于访问的用户太多了,逼得Kimi官方也出来发公告: 访问量大+模型体积大,导致API过慢。 …… 不过就在一片向好之时,人们关于“Kimi K2采用了DeepSeek V3架构”的质疑声再度升温。 对此,我们也找到了Kimi团队成员关于K2架构的相关回应。 总结下来就是,确实继承了DeepSeek V3的架构,不过后续还有一系列参数调整。 p.s. 以下分享均来自知乎@刘少伟,内容经概括总结如下~ 一开始,他们尝试了各种架构方案,结果发现V3架构是最能打的(其他顶多旗鼓相当)。 所以问题就变成了,要不要为了不同而不同? 经过深思熟虑,团队给出了否定答案。理由有两点: 一是V3架构珠玉在前且已经经过大规模验证,没必要强行“标新立异”;二是自己和DeepSeek一样,训练和推理资源非常有限,而经过评估V3架构符合相关成本预算。 所以他们选择了完全继承V3架构,并引入适合自己的模型结构参数。 具体而言,K2的结构参数改动有四点: 增加专家数量:团队验证了在激活参数量不变的情况下,MoE总参数增加仍有益于loss下降。 注意力头head数减半:减少head数节省的成本,刚好抵消MoE参数变大带来的开销,且效果影响很小。 只保留第一层Dense:只保留第一层为dense,其余都用MoE,结果对推理几乎无影响。 专家无分组:通过自由路由+动态重排(EPLB)可以应对负载不均衡,同时让专家组合更灵活,模型能力更强。 最终得到的推理方案就是,在相同专家数量下: 虽然总参数增大到1.5倍,但除去通信部分,理论的prefill和decode耗时都更小。即使考虑与通信overlap等复杂因素,这个方案也不会比V3有显著的成本增加。 就是说,这是一种更“精打细算”的结构调优。 而且这种放弃自己的模型架构路线,彻底走DeepSeek路线的做法,也被国内网友评价为“相当大胆”。 △ 来源:知乎网友@蛙哥 OK,以上关于Kimi和DeepSeek架构之争的问题落定后,我们再把目光拉回到这次最新排名。 开源追平or超越闭源ing 一个很明显的趋势是:「开源=性能弱」的刻板印象正在被打破,开源模型已经越来越厉害了。 不仅榜单上的整体排名在上升,而且分数差距也越来越小。 仔细看,模型TOP 10总分均为1400+,开源和闭源几乎可以看成位于同一起跑线。 而且这次拿下开源第一的Kimi K2,总分已经非常接近Grok 4、GPT 4.5等顶尖闭源模型了。 换句话说,以前我们可能还要在模型能力和成本之间作取舍,但随着开源力量的崛起,多思考一秒钟都是对开源的不尊重(doge)。 与此同时,越来越多的行业人士也表达了对开源崛起的判断。 艾伦人工智能研究所研究科学家Tim Dettmers表示: 开源击败闭源将变得越来越普遍。 Perplexity CEO也多次在公开场合表示: 开源模型将在塑造AI能力的全球扩散路径中扮演重要角色。它们对于因地制宜地定制和本地化AI体验至关重要。 而在已经逐渐崛起的开源模型领域,TOP 10中唯二开源、且都是国产模型的含金量还在上升。
哈苏全球市场总监确认:下一代中画幅相机对焦能力更强,而且更智能
IT之家 7 月 18 日消息,外媒 Techradar 今天发布了采访哈苏全球市场总监 Bronius Rudnickas 的内容,他表示,哈苏近期发布的 X2D 100C 中画幅相机配备了大疆提供的 1TB 内置固态硬盘。 在被问及哈苏未来是否会借助大疆的技术进一步提升相机性能时,他表示,下一代产品的自动对焦能力将会迎来改进。“肯定会更好,而且会更智能。” 今年早些时候,曾有消息称哈苏即将推出的中画幅无反相机 X2D 100C II 将搭载大疆的 LiDAR 自动对焦技术。 大疆的 LiDAR 激光雷达自动对焦系统已装备在 Ronin 4D 上,该系统通过光探测与测距技术增强对焦精度,彻底解决前代 X2D 100C 对焦迟缓的问题。 X2D 100C II 延续了前代的 100MP 传感器,提供业界领先的 8EV 机身防抖、16-bit 色深以及 15 档动态范围,适合工作室或户外拍摄。 相机新增了操控摇杆、优化按键布局,并内置高达 1TB 的 SSD 存储,搭配 CFexpress B 卡槽。其重量约 4.4 磅(IT之家注:约 2 千克),便于长时间手持拍摄,满足专业摄影师对便携性和耐用性的需求。 此外,爆料网站 Mirrorless Rumors 曾公布一款疑似 X2D II 的美国监管备案信息和早期产品图,还列出了一些基础参数。据称,这款新机将采用 1 亿像素传感器,画幅为 44×33 毫米,与富士 GFX100 II 等机型相同,同时具备 8 档图像防抖和 1TB 内建 SSD。但这些配置目前在 X2D 100C 上已经实现,因此新一代机型可能会在其他方面带来提升。
这两年靠AI毕业的朋友们,你们好么
又是一年毕业季。 为一纸毕业论文焦头烂额的时代过去了,再也没有了暑假前一天天常坐在图书馆、自习室、咖啡馆的状况。 如今的大学,就像是一块浸泡在AI大水桶里的海绵。 毕业论文的题是 Claude 开的,参考文献是 Perplexity 给的,正文是 ChatGPT 写的,图是 Gemini 配的,降重修改是 DeepSeek 做的。 在某种意义上说,这一届的大学毕业生,正是“论文靠 AI 原住民”。我们似乎早习以为常,但 ChatGPT 公开上线并突破百万用户也只是2022年底的事情——不足三年,比龙珠战士备战未来人造人的时间都短。 这也催生了一场大学校园内崭新的“猫鼠游戏”,学生与老师在技术与规则之间博弈,同时陷入要效率还是诚实的道德拉扯。 大学如逆旅,而 AI 早已是同路人。 我只会“亲自”学我感兴趣的那些 2022 年底,OpenAI 发布 ChatGPT,一周用户破百万。学生们迅速发现,这玩意儿比“百度+知乎+小红书”加起来还好使,堪比“赛博哆啦 A 梦”。 于是,先用上 AI 的人,先“享受”大学生活。 Alex 是一名纽约大学文科专业的本科生。他对《纽约客》记者坦言,要不是靠 ChatGPT 写的入学申请书,可能都考不进来。“我知道这很不诚实,但我现在已经在这里了。” 入学后,Alex 更是把 AI 用得出神入化。 课前教授布置预习作业,要求他们读完研究的著作并课上讨论,Alex 直接用 AI 给他精炼要点。“教授课堂上不让用屏幕,我就把 AI 生成的要点手抄在笔记本上。”(你说他钻空子吧,他还挺刻苦。) 得益于多模态技术发展,“应付”艺术史课的作业时,Alex 直接拍下博物馆展品的照片和墙上的说明文字,上传给 Claude,让它按教授要求吐出一篇论文。 “这是我不太喜欢的课,所以我尽量不多花时间。”理由充分,难以反驳。 第一次输出不满意,他就优化提示词、重新生成,最后的版本拿到了 A-。 “我大概知道文章讲了啥,但如果教授让我详细讲讲,我铁定凉凉。”但 Alex 耸耸肩,“但谁在乎呢?” 图片来源 Vox 他的同学 Eugene 听得目瞪口呆,他也用AI,但主要用来搞定商科的计算题。还不敢用 AI 写作业和论文,担心“能过了 AI 检测吗?” 结果两人拿着论文检测,一个平台显示是 28% 由 AI 生成的概率,另一个显示61%。“比我想象的低”,Eugene 感慨。 把这篇文章也去试了一下 AI 检测|GPTZero 期末结束,Alex 写两篇人文课程论文,总共花不到一个小时。放在以前,耗上一整个周末都搞不定。 “我现在根本记不得这两篇文章写了什么了,哈哈哈哈。”AI 帮他拿到了学分,一篇 A-,一篇 B+,没人追问,他自己也不觉得有什么问题。 这代表很多学生的真实心态:不是抗拒学习,而是只愿意“亲自”学那些真正感兴趣的。 不是所有大学生都像 Alex 一样,从入学到毕业都由“AI 包办”,但或多或少沾上了,就很难戒掉。 Eddie 是加州州立大学长滩分校的社会学专业学生,同时还要在课余兼职,他对 AI 的态度就有些模棱两可,“我只用它头脑风暴,或者用来辅助答题,真正写东西我还是自己来。” 但当面临课业和打工的时间压力时,Eddie 又妥协了“有时候上完班要赶一个小测验,我就直接用 AI 了……不是什么重要课程,我也不太有负罪感。” 这些学生们也知道用 AI 写作业是在“灰色地带”打擦边球。 但对他们来说,这没有引发“抄作业”的羞耻感,而是锻炼了“项目管理”的能力。 “虽然我写得少,但我管得多呀,是我,主导了整个流程。”学生自嘲道。 猫鼠游戏 最早的一批教师尝试用 GPTZero、Copyleaks、Originality.ai 等检测工具判断论文是否由 AI 生成,但发现效果参差不齐。就像 Alex 那篇艺术史论文,两个检测器给出结果相差甚远,老师不敢随便就给警告或挂科。 主流的 AI 检测工具 Originality.ai丨Originality.ai 此前德州农工大学一位教授用 ChatGPT 检测学生作业,结果全班被误判为“AI 作弊”,遭到学生反诉。因此很多老师已经意识到,靠检测器抓人是一种既会错杀也会错放的糟糕办法。 于是,越来越多教师决定弃用“照妖镜”,改练“人眼识别”。 “你看多了,就能看出味儿来了。”加州某位教授表示,“那些语言特别平滑、不带一点个性、逻辑滴水不漏的作业,八成是 AI 的手笔。” 另一边,一些老师开始使用“钓鱼执法”抓现行。 Vox 的一则采访中提到,有些教授在作业要求里故意埋雷,加个“周杰伦”或“珍珠奶茶”这种和课题毫无关系的名词,甚至还会把字号放小,改成白色,学生猛一看看不出来,结果学生直接全文复制粘贴,ChatGPT 也照搬全收,一本正经地把“周杰伦”和“珍珠奶茶”融进了课题作业,顺利让学生暴露。 这种“钓鱼大法”已成教师群体的热门战术。 但抓到 AI 作业后,老师们依然头大。“因为学生只要否认,你就几乎拿他没办法。你不能因为某个网站 70% 概率的检测结果就控诉学生作弊。” 于是,很多老师选择“以退为进”,重构作业形式。 比如爱荷华大学的某教授,他强制要求第一节课的作业要当堂手写,不仅是为了练笔,更是为了让学生留下“书写原始样本”,方便教授与后续作业做文风对比。“有学生当场走了”,该教授称。 还有一些老师选择从流程入手“限制 AI”:比如把论文拆成多个阶段提交、要求展示思路草稿,或者加入课堂即时写作环节。 加州大学戴维斯分校的写作项目主管 Dan Melzer 就明确表示:如果你布置的作业是“一个月后交一篇五段式论文”,那老师就是在鼓励作弊。 所以他要求学生的作业不仅有最终版,还要提交草稿、教授反馈后的修改记录。 然而,学生也不是吃素的,尤其是这届长在智能手机时代的原住民。上有政策,下有对策,学生纷纷研发了自己的反侦察技术。 首先是 prompt 升级。Alex 和朋友们会反复调教 Claude 的输出语气,比如他会给 AI 说,“写得要像个凌晨两点还写论文的本科生,带一丝绝望和凌乱。” 其次是“打草稿”策略:有学生先自己写出提纲或草稿,再让 AI 补内容,这样写出来的东西更有“人味儿”,也便于回答课堂提问。 最绝的是“笨蛋大法”。一个乔治城大学的学生说:“有时候我故意让文章写得不那么流畅,加入错别字、语病、口水话,好让老师觉得是我亲手写的。” 终极绝招是”主动投案”。一名学生透露,他会交完作业后,主动申请口头复述,“只要我能讲清楚论文逻辑,老师一般不会细追到底是不是 AI 写的。”这招反客为主,搁谁谁不懵? 还有学生不得已只好“倒抓”老师使用 AI,希望换取一些宽松政策。一位东北大学学生向学校申诉,抱怨教授用 AI 写教材、写评分标准,要求退还部分学费。 学院教育的终结者?新起点? AI 在大学生中的普及速度,可能远超外界想象。 根据 2024 年 Digital Education Council 的一项调查,高达 86% 的大学生承认在学习中使用 AI,其中近四分之一的学生是“日用型用户”。 Digital Education Council 更劲爆的数据来自《纽约邮报》:97% 的 Z 世代学生表示自己用过 AI 辅助学习,包括写论文(31%)、做作业(35%)、备考(56%)、记笔记(46%)。他们“军火库”里有 ChatGPT、Gemini、Grammarly、Quizlet、Brainly 等等工具。 英国高等教育政策研究院(HEPI)的研究也透露:在英国高校,超过 88% 的本科生表示在评估任务中用过 AI 工具,而这一比例在 2023 年还只有 53%。 有意思的是,“心安理得”的人占少数,多数人一边用,一边焦虑。 BestColleges 的一份学生调查显示,54% 的大学生认为使用 AI 写作属于某种形式的“学术不诚实”,但讽刺的是,其中 56% 的人还是在用。 大学生们就这样在“我知道这样可能不对”和“可是这样真的省事”之间左右互搏。 而且 Vox 的文章中提到,学生们一方面觉得 AI 省时省力,另一方面担心自己“越用越笨”。 大学也正在悄悄调整底线。比如澳大利亚的高校开始推行“双通道制度”:考试禁用智能设备,不过作业允许 AI 但需注明来源。 这种抓大放小的策略,是学校既承认 AI 已经无法被阻挡的现实,也维持了一定的学术底线,属于里子面子都有了。 有位老师曾在采访中情真意切地说道,“我不指望学生在毕业后还能写论文,但我希望他们记得,在大学这段时间里,有人认真读过他们的句子,期待他们表达出真正的想法。” 事实上,表达、思考、探索,这些高等教育中应该长出的优秀特质,却在 AI 时代隐迹渐无。 哥伦比亚大学计算机系的 August 用 AI 写的论文被教授当成范文,她当中在系里朗读时,一开始还有些紧张,但下一秒就想开了,“要是大家不喜欢,那也不是我写的,是 AI 的锅。” AI 成了学生应付老师和学分的“面子”,也成了他们能心安的“背锅”工具。 如果 AI 成为“效率至上”的借口,教育里的每一个角色都只管埋头狂奔。那么,大家真的都有光明的未来吗?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。