行业分类:
加载中...
头条分类:
加载中...
AI Agent爆发前的黎明:Manus不够好,但天快亮了
今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。 由于Manus处于内测阶段,仅以邀请码形式开放使用,一度让邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员排着队等测评。 与此同时,业内对Manus的评价从最开始一边倒的追捧,开始有了越来越多质疑和批评的声音。 对Manus的争议一方面来自于这个团队并没有非常强的技术能力,大模型用的Antrhopic的Claude、之后与阿里通义千问合作,被质疑是“套壳”产品,没啥门槛。公司打出的营销话术“世界上第一个通用AI agent”明显不属实,国际开发者社区早就有这样的general AI agent产品,加上各种媒体和自媒体早期夸张的修饰用词,反而引发了不少人对Manus激进营销的反感。 但是在另一方面,一些投资人和从业者却看到了非常积极的一面,认为Manus在产品交互上确实做得可圈可点。他们指出这个年头做demo容易,做出一款好产品却很难,创业公司做推广的时候大胆一点没什么不好。 而更加让人振奋的是,Manus虽然不够好,但却让人看到了AI应用爆发前夕的黎明曙光。 这篇文章我们就来聊聊Manus引发的热捧与争议、AI agent的技术发展路线、目前面临的技术瓶颈、什么是一款好的AI agent产品,以及通用AI agent何时才能来临。 01 测评Manus Chapter 1.1 开发者测评Manus 硅谷101也拿到了几个邀请码,团队的小伙伴们都测试了一遍,但效果确实比期待中差了不少。 Jacob 硅谷101后期负责人: 我用Manus找一下稿件中的信息来源,我觉得对于GPT是更加聪明了一点,但是很简单多任务它花了半个小时才跑完。 陈茜 硅谷101联合创始人兼视频主理人: 我让它帮我整理分镜稿,感觉它的审美像实习生,而且做文章的分镜图时卡了21个小时,现在还卡着。 泓君 硅谷101联合创始人兼视频主理人: 让Manus整理微信文字稿时出现了幻觉问题。 王可倚 硅谷101特约研究员,《创客人生》主理人: 它最开始听懂了我的需求,但是执行中途就跑偏了。 我们也邀请了AI agent开发者Nathan Wang来系统性地评测下Manus。Nathan在过去两年有着丰富的AI agent及AI应用开发经验,他希望能量化地表示模型的能力,所以建立了一个测评的机制,并且这个系统也可以去测评其他应用或是模型。以下为Nathan评测的部分内容: 我主要有三个衡量指标:“准确度”、“可用度”、“完成度”,同时以“研究”、“教育”、“生活”、“数据分析”、“创意性工作”这五项任务归类。 我根据每个指标的表现从1到5打分,表现越好得分越高,表现越差得分越低,最后取三个维度的平均分。 先说它做得好的部分:研究方面为4分,教育方面为4.5分。这两块的能力是非常强的,正确性、完成度都很高。 但这两个领域的结果其实是符合我们预期的,因为ChatGPT、 Claude还有Gemini都是有深度研究的功能,它其实就是在互联网上帮你查找各种各样的信息,根据需求让大模型解释,或者做出一些行动。 Manus AI构架背后用的是其他模型,据传言说是Claude、DeepSeek-R1,Manus会利用这两个模型,根据用户需求生成一个任务列表,然后Manus可以通过编程、互联网搜索,像人一样查阅浏览器上的内容,来抓取信息。 总体来说,Manus更多是通过工具、函数、API来获得信息并总结,或者通过渲染的形式给用户表现出来,比如做成一个表格、执行一些程序等。 但除了研究和教育外,Manus在生活、数据分析、趣味性方面的得分却比较低,“生活”为3.5 分,“数据分析”为2.5分,“趣味性”2.5分。 在我们的测试中,Manus遇到的比较大的问题是,它将不同信源信息整合在一起的能力不是特别强;模型本身的逻辑能力、信息综合能力还不够,尚不足以在用户的实际体验中提供有效的帮助。 以上是Nathan评测的一部分节选,想看完整版的观众可以收看硅谷101视频或Nathan的微信视频号“硅谷AI领航”。 简单总结下Manus的能力:在简单一些的任务上,它给到了很丝滑的通用AI Agent的交互产品形态,虽然Nathan认为这个产品在硅谷开发者社区中很早就有公司有人在做了,但是对非开发者2C用户来说,当看到Manus页面上展示出它真的在加速看视频、读取文档、访问不同的网站搜索信息时,确实让用户第一次感受到了“AI agent”在虚拟世界充当机器人、帮用户完成一系列任务的潜力,还是非常惊艳的。 当然对于稍微有难度的任务它完成得不太好,甚至出现了卡壳几十个小时的现象,说明它还处于非常早期的产品阶段,之后还需要很多的迭代。 Chapter 1.2 2C产品的用户阈值与“叫醒铃” 也有嘉宾认为,我们应该对AI初代产品有所谓的“阈值”概念。在到达AGI之前,也许不会有准确度100%、完全准确不出错的通用AI agent。大家需要给AI agent一些时间和耐心,不同人群的需求,会从简单到复杂逐渐迭代地被实现。 周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: 我认为Manus这个产品超过了用户的阈值。用户要把一个产品作为生产力工具,它必须要超过达到某个满意度以上才可以完整的使用。 ToB端其实有很多AI产品已经有很好的收入了,但是C端来说,大家以前没有感觉到有个产品改善了生活,我认为Manus做到了这点,它把用户体验做得很不错。虽然目前它的能力比较普通,最终也不可能面面俱到,但至少从目前来看,它的一些功能都做得很完善,未来还有继续提升空间。 我们看到一些争议,说它只是AI操纵大师,指挥另外两个AI底层模型来完成任务,这种讨论说明了一个问题,那就是目前AI从业者群体里面有一个很大的误区:在技术上自嗨。 我印象很深的是,乔布斯被踢出苹果又回去后,在一个公开大会上有1000多个工程师,其中一个工程师站起来挑战他说:你又不懂技术,凭什么指导我们、做这个公司的领导者?乔布斯的回答是:我知道如何满足用户需求、用户需要什么样的产品、并且我可以把它卖出去。 我觉得这就很好地回答了现在对Manus的质疑,在指责它仅仅是一个AI指挥大师的时候,为什么你不去做一个完美的用户界面来实现用户真正的需求?这才是现在AI从业者需要思考的问题,怎么让产品体验超越用户的阈值、能够变成生产力工具,如果做到了这一点,市场认可度就会很高。 Deepseek对全球来说一个Wake-up call(叫醒铃),它告诉大家:原来大模型还可以用这种路径来实现,而不是通过暴力堆叠的路径。而Manus我觉得也是一个叫醒铃,它告诉所有的AI从业者,不要痴迷于技术底层,你要做的是提供一个完整度高的产品,让大家都用起来,最终实现技术平权、技术普惠,如果连老爷爷、老奶奶都开始用它并且觉得好用,这才是目前ToC端产品的大成就。 Manus给了一个非常清晰的信号:大模型底座已经准备就绪了,足够做一个完成度高的产品。所以我觉得现在是非常好的发力时机。 TensorOpera AI联合创始人何朝阳认为,要做好AI agent产品,有四个纬度:“模型”、“工具”、“数据”、“基础设施”。产品或公司至少要在其中两项占绝对优势,才能保持领先。他认为,Manus占据了“工具”和“数据”这两个优势。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: Manus占到了工具的优势,因为他把多个工具缝合到了一起,他可能也有一些独特方式,比如指挥多个agent相互合作。我觉得把各种工具缝合本身就是一个特点,它确实可能用的是其他的底层模型,但它可以收集用户发送的prompt(提示词),对比哪些提示词输出的结果更好,这样就可以帮助它迭代升级。 因为Manus有先发优势,可以早点拿到用户数据,可能会发现哪些agent更重要,然后更快速的迭代它,所以它其实已经在不断升级数据和工具的路上了,这刚好是应用创业者要去做的。 至于模型和基础设施,我觉得跟大厂合作就好了,就不要去四两拨千斤了。 “技术已经Ready了”,这是我们和很多AI从业者和投资人交流的时候,他们透露出的信号和见解。 02 AI Agent技术发展史 过去一段时间“agent”这个词稍微有点被“太泛化”了,门槛有点过低,所以我们先明确下AI Agent的定义。 技术人员通常将AI Agent定义为:具有“逻辑推理能力和决策能力”(Reasoning)、“记忆能力和上下文理解”(Memory)、“工具使用能力”(Tools)这三种能力,甚至更进一步说,还需要具备学习使用不同新工具的能力。 Keith Zhai Tiny Fish联合创始人: 我们自己定义的agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对Agent来说是非常难的挑战。 我们来看看过去几年,AI生态圈是怎么发展推理(Reasoning)、记忆(Memory)和工具(Tools)这三种主要能力的。 Chapter 2.1 推理能力 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: AI Agent需要有很强的逻辑能力,因为它最终帮用户执行任务的时候,需要理清楚这个任务该如何决策?用哪些工具?得到信息之后应该做哪些动作?所以推理(Reasoning)是最重要的能力之一。 2022年10月,就在ChatGPT上线的一个多月前,ReAct框架被普林斯顿和Google Brain合作的团队提出。 ReAct是一个将推理和行为与LLMs(大语言模型)相结合通用的范例,这让大模型不仅能回答问题,还能推理并采取行动。简单来说,就是让AI在回答问题的同时,能够执行一些动作,不只是“动动嘴皮子”。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: ReAct所做的事情更加偏向于prompt engineering(提示词工程),他其实是通过设定一些不同的提示词,能让大语言模型按照一定的格式去输出。 比如说第一步是先理解用户想要的是什么,然后再思考下一步要去做什么,同时也告诉模型,有哪些工具可供选择。当模型有逻辑能力之后,它会选择一种工具,比如用户要订机票,那就要去搜索机票相关的信息,然后agent就会通过调用某个工具或API,也可以是模型自己写的功能,来完成这一系列的动作。得到这些信息后,agent还要思考,下一步是要帮用户定这个机票,还是告诉用户这个信息,再让用户来决定。所以所有AI Agent的构架其实都是从这篇论文开始的。 但当时的最先进模型GPT-3.5的能力相对有限,使得AI Agent的逻辑推理能力并不出彩,错误率很高。 而后来发布的GPT-4在理解能力、推理能力、回答质量都大幅提升。同时2023年3月23日,ChatGPT插件功能Plugin发布,允许大语言模型调用外部工具并开发APT,支持开发者将LLM与数据库、工具和互联网连接。这些都让AI agent的开发者们兴奋不已。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始ChatGPT只能做一些对话、生成文本,但后来它就可以搜索互联网上的内容了,还可以让它接入不同的数据库去提取信息,或者使用一些工具。 那时开发者社区沸腾了,因为整个模型有了推理能力,也可以接入各式各样的工具来完成一系列复杂的操作。当时有个公司比较有意思,叫做Zapier,这个公司是2011年成立的,但它们主要做一些自动化工具。但大语言模型发布后,他们就第一时间去帮大语言模型去做这系列工具,很多早期的开发者应该都用过Zapier,比如它可以让大语言模型接入谷歌邮箱,或许其他的应用,让大语言模型可以完成更复杂的工作。 所以在2023年初,AI Agent技术三大要素的第一步已经搭建好了,逻辑推理能力提到了显著提升,也可以接各种外部API、调用外部工具来完成任务。 接下来,开发者生态进入到了技术发展的第二章:记忆能力与上下文理解。 Chapter 2.2 记忆能力 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始GPT大概只有4096个token,其实是非常少的,大概只能输入3000多个英文单词,那时大家非常苦恼没有办法输入更多信息让模型去执行地更好。 但到5月份的时候,OpenAI最大的竞争对手Anthropic,发布Claude模型。这个模型一开始得到开发者的关注,主要原因就在于,跟ChatGPT相比,Anthropic可接受的token大概提升了100多倍,意味着它可以获得更多的信息去思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。 2023年5月11日,Anthropic推出的Claude模型可以支持10万token的上下文窗口,使得LLM能够处理更大规模的信息,并增强基于大量信息的推理和决策能力。 不久之后的2023年6月13日,OpenAI也在这一方向做出了技术迭代,发布函数调用(Function Calling),引入JSON模式和1.6万token的上下文窗口。这让AI可以更可靠地调用外部API,比如说查天气、自动填表等等任务。 紧接着在2023年11月21日,Anthropic的Claude 2.1版本又进一步,把上下文窗口扩展到20万个token,相当于AI一次性可以记住一整本教科书的内容,思考能力大大提升。也意味着能进一步扩大大模型的记忆能力,优化推理和决策过程。 再之后在2024年2月,谷歌发布Gemini 1.5的时候,将上下文窗口的token数扩展到了百万级别,至此,“记忆”这个AI Agent发展必备中的第二个技术壁垒也完全被打破,对于开发者们来说不再是大问题。 Chapter 2.3 工具使用 2023年底,前两个技术壁垒的突破,让大语言模型能充当虚拟世界的机器人这件事情变得更加可行,这时一些初创公司开始在硅谷生态圈活跃了起来。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 我知道的第一个让大语言模型去控制用户电脑的AI Agent应用公司是Simular,它应该是2023年12月底的时候发布了第一版Demo。大家看到AI agent的功能已经变得越来的强大了,从开始使用各种工具、接各种数据库、调用不同的应用,已经发展成可以操控电脑了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。 2024年10月底,Claude发布了“computer use”功能,让AI Agent直接控制计算机的能力更进了一步,AI变得更像真正的、可以行动起来的智能助手。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 你可以看到开发者社区或初创公司其实走的比大厂要早很多。 AI圈备受关注的Andrew Ng(吴恩达)教授在2024年底关于AI Agent的演讲,彻底燃起了技术圈和非技术圈人们对于AI Agent的期待和热情,“2025年将成为AI Agent应用元年”的预测开始出现在各大媒体头版上。 虽然各种各样的AI Agent应用demo在全球开发者社群中早就屡见不鲜了,但在Manus出现之前,大部分AI Agent创业公司主要聚焦于企业级(ToB)应用,而非直接面向消费者(ToC)。所以难点在哪里呢? Keith Zhai Tiny Fish联合创始人: 其实自从有互联网开始,网络上所有工具的设计方式,主要目标都是为了让人类使用,在这样的逻辑下,机器想完成准确、大面积的交互是很难的,这是在大语言模型出现前人类无法解决的问题。 在AI Agent之前行业没有形成范式共识,所以现在距离AI Agent实现通用化还差一步,那就是整个产业的支持。 Chapter 2.4 一步之遥 我们前面提到的逻辑推理、上下文记忆、工具调用这些能力,在何朝阳看来,都属于“single agent”(单独智能体)的技术发展。 但要让AI Agent真正发展起来,做到主流化、规模化,那还需要实现multi-agent(多个智能体)之间的通信和互联,不同的Agent需要在不同设备、不同机房之间去做计算和联动,才能推动上亿级别用户机会的应用。这其中的难点在于通用的、标准化的协议适配范式。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 用大模型来驱动逻辑推理、上下文记忆、工具调用这些能力,所产生的AI agent,被大家定义为单独智能体,这是第一个发展阶段。 第二阶段的标志,就在于agent之间能实现互相通信。 第三阶段是让agent在不同的设备、不同的机房之间计算、联动,我觉得它是未来支持亿级别用户必须要有的架构,这是一个单点是无法做到的。 目前,我们仍然处于第三阶段的竞争和尝试中,这个阶段要解决的问题是,很多网站或者工具不支持AI agent的调用。 比如说很多网站和服务都会有“反机器人/anti-bot”的设置,我们也看到Manus执行任务时也经常因为访问不了一些数据而导致任务失败,所以在这个阶段中,我们需要打造一个通用协议来解决这个问题,才能支持不同AI agent之间的联动。 包括Anthropic等在内的很多公司正在做协议适配上的尝试。2024年11月初,Anthropic推出“模型上下文协议”(Model Context Protocol,简称MCP),引进了“应用如何为LLM提供上下文”的规范。 Anthropic将MCP协议称为“AI应用的USB-C端口”,支持将大模型直接连接到数据源。此前,企业和开发者要把不同的数据接入AI系统,都得单独开发对接方案,而MCP做的,就是提供一个 “通用” 协议来解决这个问题。 然而,MCP解决了第三代技术的问题,还有最后一代问题,是目前AI Agent应用大规模爆发的壁垒,那就是:真正统一的Agent-Agent之间Protocol通信标准与分布式计算,就像如今的安卓与iOS一样,我们也需要一个全球承认且通用的AI OS。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 举个例子,现在有两个独立的agent,如果要让这两个agent之间互相协作,就需要造第三个agent,这个agent来负责和前两个agent之间互相通信。 但agent之间的交互没有标准,可能一个协议是A,另一个协议是B,所以第三个agent就要把各自的协议给改一下,让两者之间能互相通信。 就好比10年、20 年前,有两种电脑,一个是IBM造的,另一个是Intel造的,它们之间底层的链路没有打通,就会导致软两个软件之间没有办法沟通,那时还没有TCP/IP的时候就比较麻烦。但到移动互联网的时候,比如说基站的通讯标准TTL、 TEL等等,如果所有设备软件都符合这个标准,大家是可以互相交流的。 图片来源:pexels 所以今天单独智能体内部调用工具的问题,MCP已经一定程度地解决了,但两个agent之间如何通信,是更高维的通信协议。我对未来AI的想象就是,有一个非常复杂的分布式网络,有大量的服务,用户的诉求分发到整个网络里面,然后得到一个反馈。 我已经看到安卓的创始人(之一)出来亲自做AI OS 这件事情,我觉得安卓一定要被重构,可能这个系统你打开之后就是一个框,你可以问的一切问题,所有的信息或动作都会呈现在这个框的里。这个是我认为协议的核心。 2024年11月底,一个由安卓系统前高管们创业的公司,/dev/agents吸引了外界和媒体的注意,他们宣布获得了5600万美元的种子轮资金,联合创始人兼首席执行官David Singleton表示:“我们需要一个类似于安卓系统的人工智能时刻”。 他们想要打造的就和何朝阳的公司一样,希望开发一个通用操作系统,为AI Agent提供一个统一的平台。如果做到了,最后一个AI Agent的技术壁垒也就打通了,AI Agent就达到了第四阶段。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 我们想做一个真正的distributed multi-agent framework(分布式多代理框架),并且是hybrid as cloud(混合云)的架构,这样的话就需要agent之间的通信,并且不是一个单系统,它是公司之间的协作。 目前Router这种技术(如何确定分发意图、打通不同的agent的协议),我们现在是一个一个地去找合作伙伴适配,我们正慢慢地尝试去推广这种通用的协议。 但根据10年前的教训,这件事最终应该是几个大厂、或者然后国家队联合起来一起推广,有点像通信领域的 5G、6G标准。 总结一下何朝阳从整个AI Agent生态角度来看待的四代技术: 第一阶段是planner规划(也就是逻辑推理)、记忆memory、工具tools,让单个智能体在技术上的成熟。 第二阶段是通过planner的发展,在单机上实现多个智能体之间的通信。 第三极端是AI Agent在不同设备和机房之间能联动,这将推动上亿级别的用户承载量。 第四阶段是Agent-Agent之间的通信标准与分布式计算,也就是一个全新的AI OS。这也是我们现在正在突破的阶段。 何朝阳与很多AI从业者们都说,在黑夜中探索了这么久,现在天快亮了。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 如果是一个产品经理的视角,我觉得现在的阶段应该说是天亮了。 如今,随着AI Agent基建的进一步完善,包括底座大模型在内的各项技术进一步提升,以及科技巨头、初创企业、开发者生态中对协议和标准的进一步探索以及统一,我们似乎能感受到,AI Agent的爆发只有一步之遥。 Manus和类似的通用AI Agent公司只是给我们打了个样,之后的路还有很漫长。但这一步的距离其实还有挺多没有解决的问题。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 推理、记忆、工具调用这三个能力,只能让开发者做一个成熟的demo出来,但是如果想变成一个真正可用的产品,其实还需要解决两个技术瓶颈。 一个是可靠性,比如说至少有90~95%以上的情况能给用户正确且相关的信息。 二个是这个鲁棒性,怎么样让大模型或AI agent 能够具有鲁棒性,在各种边缘情况下都能够满足用户需求,是非常有挑战性的。 Keith Zhai Tiny Fish联合创始人: 对企业来说有很多问题需要考虑,比如第一步出错的概率是1%,第二步是2%,第三步可能是1%,但最糟糕的情况是,它会有一个叠加的错误效果,等它完成到第十步的时候,错误率就非常高了,很多企业办公流程达到了十几二十步,最后可能错误率会非常高。 Keith表示他们公司Tiny Fish扒了一下网上的数据,全美国有1.5万家接受了融资的初创企业在做AI agent方向的创业,这显示出AI agent这个大赛道的生态火热。 03 硅谷AI Agent公司版图 接下来由硅谷101的特约评论员王可倚来归类下,AI Agent公司的版图和大家在尝试的方向。 目前的AI Agent产品主要分为以下三类: 1. 以Manus为代表、直面用户的通用型agent; 2. Agent基础设施与框架层,也就是帮助搭建agent应用的地基和工具; 3. 面向特定行业的垂直化agent,比如编程、客服、销售、科研、商业分析与调研、甚至供应链管理等领域。 通用型agent前面已经讨论很多了,接下来重点讲讲后面两类。 Chapter 3.1 Agent基础设施与框架层 说到架构,不少开发者小伙伴一定会首先想到LangChain。这个诞生几个月内就获得了超5.5万GitHub星标、和3千万美元融资的开源工具,迄今是agent开发者用来让大语言模型调用外部工具与数据库、拥有长程记忆、及完成多步骤工作流的首选工具包之一。 还有一些其他热门工具,比如Pinecone这类帮助agent高效检索外部知识的向量数据库,或让agent能更好处理私域数据的LlamaIndex等等,虽然并非仅针对agent,但也都是目前agent应用开发必不可少的“左膀右臂”。 同时各大云服务商也都争先恐后地推出了agent工具包,例如微软的Semantic Kernel、AWS的Bedrock Agents等,用来组合多种AI技能,主打对agent开发者体贴入微。 就像前面提到的,随着AI Agent基建和框架层的进一步探索和完善,这一块也是这两年VC风投资本们非常热门的投资方向,使得开发者们能用的工具和支持生态越来越成熟。 我们在过去几个月看到不同行业和场景中,不少创业公司们的Agent应用尝试。接下来我们聊聊具体的垂直赛道的明星公司们。 Chapter 3.2 AI编程Agent 如今,AI agent应用被认为最早落地的是编程类的agent:它们不仅能自动补全代码,还能协助程序员们编写、调试,甚至自主部署软件。 GitHub Copilot在2025年2月推出的agent模式,想必码农小伙伴们都很熟悉。由初创公司推出的编程agent不仅多到让人眼花,还可以称得上AI届“造星工厂”。 号称首位“AI软件工程师”的Devin,背后是“生下来就在罗马”的新贵初创公司Cognition AI,成立不到半年,估值就跃升到20亿美金。Devin宣称能替代初级码农独立阅读技术文档、编写。 Devin的野心很宏大,每月高达500美金的订阅费也很美丽,但我身边的程序员朋友却吐槽: Devin写代码一般般,做调研倒还不错。所以现实情况是,定位于企业级用户的Devin在庞大冗杂的代码库、欠缺的技术文档和模糊不清的背景信息(context)这三座大山前,有点力不从心。 Cursor是另一个风头正劲的AI编程助手,诞生于四位MIT本科生于2022年创立的公司Anysphere。Cursor由于好用、速度快,对用户代码库理解能力出色,且成本远低于Devin,迅速成为了很多码农的首选,包括OpenAI、Shopify、Instacart的团队都有使用。 据业内消息,不到三岁的Anysphere已实现1.5亿美金年化收入,且正在洽谈估值可能高达百亿美金的新一轮融资。 其他还有很多编程类agent,比如拥有2000万开发者用户的Replit,旗下的AI Agent可以根据自然语言指令生成完整的网页端应用。还有正在以近30亿美金估值融资的Codeium,旗下的Windsurf已拿下包括戴尔在内的超一千家企业级用户;以及字节跳动针对中文开发者推出的编程助手Trae等等。 看来AI编程领域的agent赛马越来越精彩,不知各位码农朋友是欣喜还是担忧呢? Chapter 3.3 客服与销售Agent 客服与销售是两个劳动密集型岗位,但如今AI agent在这两个领域中凸显了效率优势,受到大量企业采纳的领域。 客服助理中表现突出的是Decagon。这家炙手可热的AI初创公司已融资超1亿美元,客户包括大家熟悉的Duolingo、Notion和Eventbrite等。 Decagon的AI客服能自动处理高达70%的客服工单,为企业节省每年数百万美元的人力开支。企业客户之一Bilt曾说:使用Decagon就像一夜之间多招聘了65名全职客服人员。 与此同时,销售领域则有快速崛起的AI独角兽Clay,它利用AI agent自动抓取和扩充目标客户数据,批量与潜在客户进行量身定制地互动,并帮销售人员处理大量工作中的脏活,从而成倍放大销售团队的生产力,目前已积累了十万名用户。 Chapter 3.4 其他新兴应用场景 除了上面说到的几个领域之外,AI agent还在以下许多领域扩大影响。 1. 商业调研:作为商业数据分析领域的头部AI agent,Hebbia服务于全球资管规模前50名基金中的近1/3,以及多家大型律所、咨询公司、甚至美国空军。 2. 科研:学术界明星科研助手Elicit擅长自动生成论文部分内容并处理海量数据,目前全球已有超过200万科研人员使用;它极大提升了机器学习、制药与生物科技等领域的研究效率。 3. 供应链优化:被誉为美国最神秘的大数据公司Palantir近期在其人工智能平台(AIP)推出了agent功能,用于自动化管理物流与库存,已在60余家大型企业投入使用。 4. 医疗健康:美国最大的医疗信息公司Epic利用AI agent,将大量繁琐重复的行政工作自动化,比如患者预约与分流、基本沟通、手续查验与项目批准等,有效减轻了医护人员的负担。 Chapter 3.5 AI Agent应用小结 随着AI agent技术的发展,为什么一些应用场景会更快地落地应用呢?我们发现目前取得成功的agent大多具备以下几个特征: 1. 任务定义明确且高度重复,比如客服、销售等场景,AI能显著提效且风险相对较低。 2. 工作流模块化且相对独立,比如经过良好切割的软件开发任务,agent可以不需要大量背景知识,在封闭、可控环境中运行。 3. 注重信息检索、分析与推理,大量自然语言交互,且不需借助复杂外部工具的场景。比如各种形式的调研,利于AI扬长避短。 4. 聚焦于协助而非完全取代人类,让企业能够逐步、稳妥地将AI整合到现有工作流中。 总得来说,业界普遍认为大模型和agentic AI的底层技术,已发展到了足以支撑大量2B领域商业化的阶段,而2C领域MVP(最小可行产品)的雏形也已经显现。 当然,想让AI agent承担更复杂的角色,在长期记忆、多模态、API整合、以及多agent协作等方面,还有很长的路要走。此外,企业也要做好内部流程、数据和文档标准化的工作,才能让AI agent更有用武之地,这或许会像10年前的企业上云,并非朝夕之功。 04 AI Agent的未来 在Manus引发的热潮和争议不久,OpenAI发布了新的Agent功能,推出专用于简化agent开发的API和工具,包括Responses API、内置工具和Agent SDK,帮助开发人员和企业构建有用且可靠的AI Agent。 所以Manus可能只是一道前菜,而精彩的部分才刚刚开始,Agentic这个词也注定会成为2025年AI赛道的关键词。 周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: ToB端其实去年就有一些产品收入很高了,ToC端的话,我认为今年会是AI应用的元年。 我觉得一个通用的 AI agent想覆盖所有的应用场景是不可能的,所有在AGI达到之前,日常生活中应该需要多种AI agent互相配合,比如有买机票的agent,买保险的agent,买房的agent等等。 其实不用把agent想得太神秘,它就是相当于日常生活中,某个垂直领域的顾问或者是从业人员在帮你做这个事儿。所有在AI agent它应该也有很多个,针对不同的方向帮你解决不同的问题。 当然,我相信未来所有的agent会是大一统的状态,但道路还很漫长,所以我觉得没必要观点太终极。我觉得现在创业公司得先专注在垂直领域把它做到非常精细。 Perplexity这个产品就给了大家一个非常明确的方向,你看它从一开始就是专心在“研究”这一块做得非常的专业,我觉得就走这条路,足够成就一家很好的公司。 当然,一个新技术和新范式的产生少不了失败,这个失败在于对创业路径的失败,也在于对时机判断的失败,还有对于烧钱速度的失败等等。 在AI Agent这条道路上,我们已经看到一个初创明星公司的倒下:这就是Adept。 Adept总融资额增至4.15亿美金、公司B轮估值超过10亿美金晋升独角兽之后,却因为技术研发受阻而自己又研发基础模型所以烧钱太狠,不得不最终在2024年年中“卖身”给亚马逊。当时,这给所有想要从事AI Agent赛道的初创公司都枪响了警钟。 如果Adept能撑过黑夜、撑到如今的黎明时刻,说不定能比Manus拿出更好的产品、公司的结局会不会不一样呢? 无论如何,如今天快亮了,但新的一天才刚刚开始。长路慢慢,还早着呢。
华为 Pura X 一周感受:这是最佳的折叠屏形态吗?
阔型屏 看得舒服吗 不知道你有没有发现,我们在看屏幕的时候,视野越开阔,观感就越舒服。这是因为,人眼的水平视野是垂直视野的 1.5 倍,宽阔的画面看起来才不会累。 所以当我第一次见到华为 Pura X,打开这块 16:10 比例的阔型屏时,我觉得一切都不一样了。 余承东在发布会上说,这部手机专为内容而生。那么问题来了,这么阔的屏幕,看起来会更舒服吗? 我们也整理了一些使用体验之后的细节: 显示面积比直板机更大、体积和小折叠相似、握持手感比大折叠更佳,这是「阔折叠」形态的独特优势。 在大部分场景中,宽比例比长比例的显示效果要更好,主要体现在文字、图片和常规比例的视频中。 阅读文字时,宽屏幕能让每一行显示更多文字,阅读起来更加连贯;显示图片或漫画时,宽屏幕使内容缩放比例更大;播放竖屏短视频时,由于应用适配,画面能够填满屏幕观感更震撼。 比常规手机更宽的屏幕对习惯使用全键盘输入的用户十分有利,不仅双手握持体验更好,还因为字符键位变大而更便于点触操作。 然而,Pura X 的缺点主要体现在外屏上。虽然大部分基础体验都可以正常使用,包括接打电话、自拍、扫码支付、控制音乐等,但由于不同软件的界面设计有别,小屏内容显得十分拥挤,想要更好的显示效果还是建议使用内屏。 外屏仅有部分应用适配,日常绝大部分时间还是需要展开使用。 总的来说,Pura X 作为首款正式版原生鸿蒙设备,它以这样的形态出现,我还是蛮惊喜的。它有非常小巧的体积,同时又有一块看得舒服的阔型屏,如果你是忠实的内容消费者,想要好的阅读体验又不想多一部设备,那么 Pura X 可能就很适合你。 好多品牌都停掉了小折叠的计划,但华为在这个不被看好的赛道里做出了新东西。在这个产品千篇一律的时代,我们永远会为多样性设计保留掌声。
马斯克xAI蛇吞𝕏:资本有了,数据有了,商业模式也有了
xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 马斯克自己在X上发帖宣布这一消息。 按他的说法,xAI自两年前成立以来,以前所未有的速度和规模构建模型和数据中心,迅速成为全球领先的AI实验室之一。 X则是一个数字城镇广场,超过6亿活跃用户在这里寻找实时事实来源, 两者合二为一后,数据、模型、算力和分销、人才都将整合。 实际上xAI的Grok大模型已经深入整合到X平台中。 就在这个帖子的评论区里,许多网友吃瓜的姿势都是让Grok来解释一下。 而Grok除了回复用户的提问,还可以给出进一步询问按钮和一张自己的广告海报。 也有人担心这是否意味着xAI将获得用户社交媒体数据用于训练。 AI并没有回答这个棘手的问题,人类在这个话题下讨论激烈。 有人翻出,用户协议里面确实有允许xAI使用𝕏公开数据做AI训练和微调的条款,并且默认是开启的。 社交媒体与AI结盟 马斯克在2022年以440亿美元收购Twitter,后来改名为𝕏。 xAI和两家公司此前已在旧金山湾区共享办公室,此外截止到1月份,X还持有xAI价值60亿美元的股份。 两家公司有许多共同投资者,包括Andreessen Horowitz和红杉资本等,交易后X投资者将获得对应的xAI股权。 彭博社消息称,合并后的新实体XAI Holdings估值将超过1000亿美元(不包括债务),但具体条款尚未公开。 这也意味着xAI现在是估值仅次于OpenAI的大模型公司,拥有了X成熟的社交媒体业务和商业模式,具备IPO的成熟条件,比OpenAI依靠私募融资,有了更强的资本撬动能力。 彭博社分析师Mandeep Singh认为,这项收购可能会为涉及其他社交媒体公司的交易奠定框架。 这笔交易可能表明,OpenAI、Anthropic、Perplexity和Mistral等AI公司将寻求交易来扩大其消费者覆盖范围和分销范围。 鉴于xAI的溢价估值为800亿美元,高于Snap、Pinterest和Reddit的总市值,较小的社交媒体公司将积极寻求与大模型提供商结盟。 这并不是马斯克第一次合并他旗下两个公司。 早在2016年,特斯拉以26亿美元收购了家用光伏发电公司SolarCity,这家公司由马斯克的表兄弟Lyndon Rive与Peter Rive创办,马斯克个人出资并担任董事会主席。 当时特斯拉股东提起诉讼,认为这笔交易相当于是用特斯拉股东的钱对SolarCity的救助,并且马斯克个人因此获利。法院判决允许这笔交易继续进行, 大模型公司估值暴涨,OpenAI转型盈利迫在眉睫 大模型公司正在经历最新一轮估值飞涨。 在去年的一轮融资中xAI估值约为500亿美元。到了今年2月,xAI已经以750亿美元的估值筹集新一轮资金。合并后估值千亿美元,几个月内完成翻倍。 与此同时,Anthropic在3月完成的一轮融资中估值为615亿美元。一年多前,该公司估值还是160亿美元,1年多上涨384%。 当然动作最大的还是OpenAI,即将完成一笔软银领导的400亿美元的融资,估值达到3000亿美元,是5个月前估值的两倍。 但有消息称,OpenAI必须在2025年底前成功重组为一家独立的盈利性公司才能获得全额资金。 完成重组需要获得最大股东微软的批准,以及面临马斯克可能的诉讼。 如果重组未完成,融资金额直接缩水一半变成200亿。 仅获得400亿美元中的一半将会使OpenAI本已紧张的财务状况更加紧张。 其2025年预估亏损约50亿美元,并预计2026年财年亏损可能扩大到140亿美元。此外OpenAI还承诺向星际之门计划投资180亿美元。 最近新版GPT-4o万物吉卜力化的风潮还在雪上加霜。 马斯克两家公司合并也被迅速做成表情包。 奥特曼宣布由于玩的人太多,已经添加了速率限制。ChatGPT免费用户目前还玩不到,以后每天也只能玩3次。 此外Sora负责人表示,大家又把ChatGPT画好的吉卜力图拿去生成视频,Sora这边的GPU也撑不住了。 你认为到年底,OpenAI能成功转型盈利模式么?
苹果AI 医生曝光:Apple Watch 问诊,iPhone 摄像头当私教
彭博社最新爆料,苹果正在大改旗下的健康 App,并且正在开发一个「AI 医生」。 这个计划代号 Project Mulberry,主要的想法如下:健康 App 将继续从用户的各种设备,包括 iPhone、Apple Watch、耳机中收集健康数据,然后 AI 医生将分析这些信息提供有关改善健康方法的定制建议。 目前苹果正在使用员工的医生数据来训练这个 AI 智能体,希望能够部分代替实际的医生。 苹果还在积极引入外部医生来制作一些视频,将包括睡眠、营养、物理治疗、心理健康和心脏病方面的专家。这些内容会用于向用户解释某些身体情况,以及给出改善生活方式的建议。 例如,当健康 App 收集到一些反映心率不良趋势的数据,那么就可能会向用户推送一些解释心脏病风险的视频。 除此之外,彭博社还爆料了健康+ 的一些其他功能和细节: - 全新的「食物跟踪」功能,也将是该服务的重要组成部分。目前为止,苹果都尽量避免涉足这个方面,当前的健康应用只能记录碳水、咖啡因摄入等比较初步的数据。 - 苹果还在探索利用设备摄像头来实现更多健康功能,比如 iPhone 的后置摄像头。这个想法是让 AI 医生研究用户的锻炼情况,然后提供相应的动作和技术指导。这个功能可能会应用于 Fitness+ 等其他苹果服务。 - 健康+ 和 AI 医生是苹果健康团队的首要任务,公司的首席运营官 Jeff Williams 也积极参与其中。 苹果 CEO 蒂姆·库克曾在多个场合表示,当下苹果对社会最大的贡献是医疗健康。而目前苹果在 Apple Watch 健康传感器探索上遭遇了瓶颈:无创血糖监测仪和高血压传感器的开发碰壁,血氧传感器陷入专利问题。Project Mulberry 则是苹果在健康领域快速寻求进一步突破的新项目。 你对苹果 AI 医生的想法有什么看法?欢迎在评论区留言告诉爱范儿!
专访苹果副总裁 Bob Borchers:AI 时代,苹果如何设计 Mac?
Keep Patching 爱范儿:3 年前,我们曾有过一次访谈,没想到这次能在爱范儿与您线下相见。今天能迎来 Mac 背后的人物,实在是令人欣喜。您今天感受如何? Bob Borchers:非常感谢!来到广州这座充满活力的城市让我倍感荣幸。这是一座非凡的城市,一个非凡的地方。说实话,我很荣幸能见到这些对我们的产品进行深度解析和精彩评测的创作者,我感到非常兴奋。 爱范儿:非常感谢。说来有趣,我第一次到访库比蒂诺苹果总部时也同样兴奋,当时我在 infinite loop 看到一架钢琴,据说是乔布斯送给 Mac 团队的礼物。能讲讲那台钢琴的故事吗? Bob Borchers:我很高兴那架钢琴至今仍在苹果公司。这是 1984 年乔布斯为感谢 Mac 团队的辛勤付出和卓越创造力而赠予的礼物。它之所以特别,是因为至今它仍然提醒我们,苹果所做的工作,正是人文学科、创造力与科学技术的交汇点。这架钢琴真正代表了我们的传统,也指引着我们未来的方向。 爱范儿:Mac 团队真的很特别,你们用自己创造的电脑,转而去设计更多新产品。所以,Mac 的团队日常是怎么工作的?你们最常用的软件是什么? Bob Borchers:Mac 团队和其他苹果团队一样,采用高度协作的跨学科工作模式。每天都有不同团队聚在一起,去探讨设计,去探讨技术,去思考如何突破创新边界。我们始终专注在核心价值,通过优雅设计和细节把控,为用户提供强大工具释放创造力。 爱范儿:Apple 几乎所有产品线都有蓝色,iPhone、iPad、iMac,苹果为什么如此偏爱蓝色?但蓝色又各不相同?设计团队选择颜色的核心考量是什么? Bob Borchers:我们为每款产品量身定制颜色。比如 MacBook Air 的天蓝色版本的妙处在于,它与工业设计产生了美妙的协同效果。当你观察它时,呈现出迷人的渐变效果。 所以,我们选择颜色的标准是:既要彰显产品故事,突出设计语言,又要给用户多元选择。在 MacBook Air 上,你可以选择四种绝佳颜色。这正是我们的目标:提供这些美好的选择,但都服务于整体设计美学。 爱范儿:相比 Intel 时代的 Mac,搭载 Apple Silicon 的 Mac 产品线在设计上,更加追求轻薄和低噪音,而不是一味去追求更高的频率,这是为什么? Bob Borchers:实际上,我们的目标不是制造最薄或最轻的产品,而是打造用户手中性能最强的工具,让他们能完成人生最重要的创作。 Apple Silicon 的突破在于以最优能效提供巅峰性能,这让我们实现了惊人的可能性。能将强大算力浓缩于精巧机身。正是这种功能与设计的结合,不断拓展着创新的边界。 例如得益于 Apple Silicon 的能效,MacBook Air 才能实现优雅的无风扇的超薄设计。再看 Mac Studio,这是我们迄今打造的性能最强悍的 Mac 设备,却拥有令人愉悦的紧凑机身。 我们的终极目标是创造性能与能效兼具的产品,让用户能专注完成毕生最好的作品。 爱范儿:前阵子,我们一台 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型。统一内存架构展现了显著的优势。这种先见之明,让我想到上次采访时您引用过的名言:「我总滑向冰球将去之处,而不是它曾停留的地方。」所以,统一内存架构是否从设计之初就为 AI 推理做过优化? Bob Borchers:是的,我非常喜欢那句韦恩·格雷茨基的话,因为它阐释了我们如何看待新技术和可能性。 正如你所说,统一内存架构是 Apple Silicon 的标志。它让我们能够根据用户的需求提供内存,无论是 CPU 任务、GPU 任务,还是 A&E 任务,都可以利用同一个内存池,并以极其高效的方式完成。 因此,对于我们来说,在考虑苹果芯片时,它确实是我们知道能够让人们做他们以前从未想到过的事的技术之一。正如你所说,配备 M3 Ultra 的 Mac Studio,是我们迄今为止最强大的 Mac,从 AI 或创意工作流的角度来看,它能够做出惊人的事情。这种多功能性对我们来说至关重要。 你知道吗,这次在广州与大家探讨 AI 应用场景时,我着实被震撼到了。人们正在发掘整个 Mac 产品线的惊人潜力,你可以在 M3 Ultra 上本地运行最大的模型,或者也可以使用 MacBook Air 进行 AI 任务。所以,Mac 真的是 AI 的最佳平台。 爱范儿:你最近有用过 DeepSeek 吗? Bob Borchers:DeepSeek 和所有可用的 AI 工具,我认为是人们探索人工智能这个令人难以置信维度的绝佳机会。 正如你所知道的,我们多年来一直在我们的产品中使用 AI 和机器学习。而这批新生工具的推出,我认为我们将真正开拓并提升用户的创造力。 爱范儿:爱范儿一直特别关注新技术如何改变人机交互。笔记本的人机交互已经很多年没有变化了,有人说 AI 是一种新的 UI,您怎么看? Bob Borchers:我们多年来一直在使用 AI 和机器学习来服务于计算机交互。 比如,如果你看一下我们的一些无障碍功能,其核心正是机器学习和 AI 让这些群体能够充分利用他们眼前的产品。 或者看看 Apple Vision Pro,它在实现人机交互方面开辟了新天地,让你用眼睛来当作鼠标进行移动和简单点击。 对于我们来说,AI 是许多事情的核心推动力,不仅在 Mac 上,也在其他产品上。我们认为,这为我们的用户和开发者提供了继续创新的巨大机会。 爱范儿:乔布斯早在 40 年前把计算机比作一辆「思维的自行车」,您觉得 AI 时代的 Mac,它会进化成什么样子? Bob Borchers:是的,我很喜欢这句话,因为它真正讲述的是我们的目标:将技术服务于用户的创造力。 它是一个赋能工具,让你能够做很多事情,这个使命至今仍是苹果的核心任务,就是创造最好的技术,并把它交到最具创造力的人手中,让他们带着它去往任何地方,就像一辆自行车能让你游览城市、环游世界一样。 我们希望技术能够赋能这一切,真正增强用户和开发者的创造性过程。
ChatGPT 4o“吉卜力风”霸屏朋友圈 大批网友疑惑:会侵权吗
快科技3月29日消息,近期,OpenAI对其GPT-4o进行了更新,新增了文生图功能。 这一功能使得付费用户能够直接在ChatGPT中调用GPT-4来生成和修改图片,无需再依赖OpenAI的另一款文生图模型DALL-E。 GPT-4在生成图片时展现出了对各种风格的熟练掌握,其中吉卜力风格尤为流行,以至于许多人在社交媒体上分享的图片都呈现出了这种风格,甚至OpenAI的首席执行官山姆·奥特曼也将自己的社交媒体头像换成了吉卜力画风。 此次更新无疑让每个人都能够轻松尝试成为“宫崎骏”,通过GPT-4o创作出具有吉卜力风格的图片。 然而,吉卜力风格图片的火爆也给OpenAI的服务器带来了不小的压力。当地时间3月27日,山姆·奥特曼透露,由于用户热情高涨,公司的GPU资源正面临巨大挑战,因此将暂时引入一些速率限制,并努力提高系统效率。 然而,随着吉卜力风格图片的刷屏,关于AI版权的争议也随之而来。 吉卜力工作室(Studio Ghibli),这家以《千与千寻》、《龙猫》、《天空之城》和《哈尔的移动城堡》等作品闻名的日本动画工作室,并未授权OpenAI使用其风格。 在社交媒体上,ChatGPT在回答相关询问时也明确表示,截至目前,OpenAI并未获得吉卜力的版权或授权合作。 关于这一问题,法律界也存在争议。一位律师指出,著作权法只保护具体的表达,而不保护创意层面的内容。 因此,如果网站提供的是将照片转化成特定风格图片的技术服务,那么这种服务通常不被视为侵权。然而,艺术家们则认为,使用他们的风格进行创作应当需要获得授权。目前,在中国和美国,关于这一问题的司法诉讼仍在进行中,尚未有定论。 值得一提的是,去年有超过1.1万名创意人士签署了一封公开信,谴责未经许可使用人类艺术来训练人工智能的行为。他们认为,这些模型及其背后的公司在未经许可或付费的情况下使用艺术家的作品来构建商业人工智能产品,是对艺术家的剥削。 截至目前,吉卜力工作室及其母公司日本电视台尚未对OpenAI生成“吉卜力风”图片的现象做出回应。
宇树人形机器人雄安首秀,为足球赛开球
IT之家 3 月 30 日消息,据“雄安发布”官方今日消息,3 月 29 日下午,雄安体育中心外的露天足球场上,身着碎花棉衣的宇树人形机器人灵敏地抬起脚,将草地上的足球踢了出去,为球赛开球。与此同时,身穿一套舞狮服装的宇树机器狗在场外跑来跑去,不时停下脚步对着场上的小球员们挥挥手、比个心,为小球员们加油鼓劲。 这两款机器人是宇树机器人在雄安的首秀。“为球赛开球的人形机器人,就是在蛇年央视春节联欢晚会上跳舞的同款。”宇树机器人品牌经销商工作人员介绍。 雄安体育中心相关负责人表示,雄安体育中心 3 月 30 日正式开业,雄安智慧体育嘉年华则是开业期间的重要活动。他们特意请来宇树机器人和机器狗参加嘉年华活动,就是想增强活动的科技感和趣味性,让群众更充分地感受体育带来的乐趣,进一步激发群众参与体育运动的热情。 据IT之家此前报道,在 2025 央视春晚中,著名电影导演张艺谋携手杭州宇树科技、新疆艺术学院带来了一个名为《秧 BOT》的节目。春晚机器人基于 Unitree H1 人形机器人打造,靠 AI 训练来执行 16 台 H1 激光 SLAM 定位,全自动走位变队形。为凸显机械感的整机骨架设计,春晚舞台上的 Unitree H1 去掉了所有外皮壳体。 从“雄安发布”官方视频来看,为球赛开球的应该是尺寸更小的 G1。宇树官方也推出了 G1 人形机器人足球运动方案 —— Unitree G1-Comp,官方号称“为赛事打造足球巨星”,增加了 2 个头部自由度,搭配深度相机可实现 180 度视野覆盖。
GPT-4o图像生成的秘密,OpenAI没说,网友已经拼出真相?
自从 OpenAI 发布 GPT-4o 图像生成功能以来,短短几天时间,我们眼睛里看的,耳朵里听的,几乎都是关于它的消息。 不会 PS 也能化身绘图专家,随便打开一个社交媒体,一眼望去都是 GPT-4o 生成的案例。 比如,吉卜力画风的特朗普「积极坦诚对话」泽连斯基: 然而,OpenAI 一向并不 Open,这次也不例外。他们只是发布一份 GPT-4o 系统卡附录(增补文件),其中也主要是论述了评估、安全和治理方面的内容。 地址: https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf 对于技术,在这份长达 13 页的附录文件中,也仅在最开始时提到了一句:「不同于基于扩散模型的 DALL・E,4o 图像生成是一个嵌入在 ChatGPT 中的自回归模型。」 OpenAI 对技术保密,也抵挡不住大家对 GPT-4o 工作方式的热情,现在网络上已经出现了各种猜测、逆向工程。 比如谷歌 DeepMind 研究者 Jon Barron 根据 4o 出图的过程猜测其可能是组合使用了某种多尺度技术与自回归。 不过,值得一提的是,香港中文大学博士生刘杰(Jie Liu)在研究 GPT-4o 的前端时发现,用户在生成图像时看到的逐行生成图像的效果其实只是浏览器上的前端动画效果,并不能准确真实地反映其图像生成的具体过程。实际上,在每次生成过程中,OpenAI 的服务器只会向用户端发送 5 张中间图像。您甚至可以在控制台手动调整模糊函数的高度来改变生成图像的模糊范围! 因此,在推断 GPT-4o 的工作原理时,其生成时的前端展示效果可能并不是一个好依据。 尽管如此,还是让我们来看看各路研究者都做出了怎样的猜测。整体来说,对 GPT-4o 原生图像生成能力的推断主要集中在两个方向:自回归 + 扩散生成、非扩散的自回归生成。下面我们详细盘点一下相关猜想,并会简单介绍网友们猜想关联的一些相关论文。 猜想一:自回归 + 扩散 很多网友猜想 GPT-4o 的图像生成采用了「自回归 + 扩散」的范式。比如 CMU 博士生 Sangyun Lee 在该功能发布后不久就发推猜想 GPT-4o 会先生成视觉 token,再由扩散模型将其解码到像素空间。而且他认为,GPT-4o 使用的扩散方法是类似于 Rolling Diffusion 的分组扩散解码器,会以从上到下的顺序进行解码。 他进一步给出了自己得出如此猜想的依据。 理由 1:如果有一个强大的条件信号(如文本,也可能有视觉 token),用户通常会先看到将要生成的内容的模糊草图。因此,那些待生成区域会显示粗糙的结构。 理由 2:其 UI 表明,图像是从顶部到底部生成的。Sangyun Lee 曾在自己的研究中尝试过底部到顶部的顺序。 Sangyun Lee 猜想到,这样的分组模式下,高 NFE(函数评估数量)区域的 FID 会更好一些。但在他研究发现这一点时,他只是认为这是个 bug,而非特性。但现在情况不一样了,人们都在研究测试时计算。 最后,他得出结论说:「因此,这是一种介于扩散和自回归模型之间的模型。事实上,通过设置 num_groups=num_pixels,你甚至可以恢复自回归!」 另外也有其他一些研究者给出了类似的判断: 如果你对这一猜想感兴趣,可以参看以下论文: Rolling Diffusion Models,arXiv:2402.09470; Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039 猜想二:非扩散的自回归生成 使用过 GPT-4o 的都知道,其在生成图像的过程中总是先出现上半部分,然后才生成完整的图像。 Moonpig 公司 AI 主管 Peter Gostev 认为,GPT-4o 是采用从图像的顶部流 token 开始生成图像的,就像文本生成方式一样。 来源:https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/ Gostev 表示,与传统的图像生成模型相比,GPT-4o 图像生成的关键区别在于它是一个自回归模型。这意味着它会像生成文本一样,按顺序逐个流式传输图像 token。相比之下,基于扩散过程的模型(例如 Midjourney、DALL-E、Stable Diffusion)通常是从噪声到清晰图像一次性完成转换。 这种自回归模型的主要优势在于,模型不需要一次性生成整个全局图像。相反,它可以通过以下方式来生成图像: 利用其模型权重中嵌入的通用知识; 通过按顺序流式传输 token 来更连贯地生成图像。 更进一步的,Gostev 认为,如果你使用 ChatGPT 并点击检查(Inspect),然后在浏览器中导航到网络(Network)标签,就可以监控浏览器与服务器之间的流量。这让你能够查看 ChatGPT 在图像生成过程中发送的中间图像,从而获得一些有价值的线索。 Gostev 给出了一些初步的观察结果(可能并不完整): 图像是从上到下生成的; 这个过程确实涉及流 token,与扩散方法截然不同; 从一开始,就可以看到图像的大致轮廓; 先前生成的像素在生成过程中可能会发生显著变化; 这可能表明模型采用了某种连贯性优化,尤其是在接近完成阶段时更加明显。 最后,Gostev 表示还有一些无法直接从图像中看到的额外观察结果: 对于简单的图像生成,GPT-4o 速度要快得多,通常只有一个中间图像,而不是多个。这可能暗示使用了推测解码或其他类似方法; 图像生成还具备背景移除功能,从目前的情况来说,最初 GPT-4o 生成图片会呈现一个假的棋盘格背景,直到最后才移除实际背景,这会略微降低图像质量。这似乎是一个额外的处理过程,而不是 GPT-4o 本身的功能。 开发者 @KeyTryer 也给出了自己的猜想。他说 4o 是一种自回归模型,通过多次通过来逐像素地生成图像,而不是像扩散模型那样执行去噪步骤。 而这种能力本身就是 GPT-4o LLM 神经网络的一部分。理论上讲,它能够比扩散系统更好地掌握它们正在操作的概念,而扩散系统只是对随机噪声的一种猜测。 GPT-4o 还能够使用 LLM「知道」的信息来生成图像。也因此,它们具有更好的泛化能力,能够使用多条消息进行上下文学习,通过特定的编辑输出相同(或非常接近)的结果,并且具有广义的空间和场景感。 芬兰赫尔辛基的大学副教授 Luigi Acerbi 也指出,GPT-4o 基本就只是使用 Transformer 来预测下一个 token,并且其原生图像生成能力一开始就有,只是一直以来都没有公开发布。 不过,Acerbi 教授也提到,OpenAI 可能使用了扩散模型或或一些修饰模型来为 GPT-4o 生成的图像执行一些清理或添加小细节。 GPT-4o 原生图像生成功能究竟是如何实现的?这一点终究还得等待 OpenAI 自己来揭秘。对此,你有什么自己的猜想呢?
能助力行走的物理外挂 被国产企业打到了0.1折
前两天同事去深圳出差,顺手给编辑部带回来一件很新奇的玩意儿,“可穿戴外骨骼”,穿上之后节目效果挺炸裂的。 平时最不爱运动的同事,一下子健步就如飞了,你看他玩得多开心啊。 (为了防止大家误会,我得说一声儿,这个是小伙伴恶搞故意夸大了力度,不是正常的行走姿势哈) 相信有些差友,对外骨骼装置的印象还停留在那种全套的“战争装甲”——科幻电影里士兵穿着它提升行动和作战能力;科技展上企业用来展示自己又取得了人体仿真上的突破。 又或者医疗机构里,帮助复健人群恢复运动能力。 不难发现,上面提到的外骨骼都是通过机械结构,带动关节和肌肉,起到助力的作用。 虽然原理是好的,但价格高到难以想象。 就比如,下面这台通过FDA(美国食品药物管理局)认证的医用外骨骼机器人,每个售价约10万美元,个人申请完医疗保险后的费用,差不多也要9.1万美元。属实有点夸张。 型号:EksoNR 查了下国内用于康复治疗的医疗外骨骼,根据一份 “医价网” 康复机器人的中标明细,我发现医院采购价都要47.8万。 不得不说,这种覆盖全身、功能全面的全量外骨骼就是很贵。 型号:大艾AiWaIker-V-A2 与此同时,在消费市场上,其实也有不少人对“助力”这个概念很感兴趣,甚至有的老哥都想自己手搓一套外骨骼,但因为门槛太高只好作罢。 就在这个时候,“极壳科技Hypershell” 做了一款轻量的、消费级的可穿戴外骨骼。 2023年,他们在海外的众筹平台Kickstarter和Indiegogo上,仅仅用一个月的时间就卖出去了3000多台。 这是个啥概念呢?根据statista的数据, 2021外骨骼行业的全年销售额是2.7亿美元左右。 当年外骨骼主要集中在医疗行业,即使假设单台外骨骼的平均售价是5万美元,那么2021年整个外骨骼行业的全年销量才5400台左右。 相当于Hypershell在两个平台,就差不多达成了以前全年一半以上的销量。 之所以Hypershell能取得这个成绩,很大一部分原因还是因为价格。 之前并不是没有品牌尝试做消费级的可穿戴外骨骼,就比如始祖鸟就出了款功能类似的产品,给那些户外登山爱好者使用,但最便宜的早鸟预售价也得4500美元(折合人民币3.3万元 ),租8个小时体验一下,也要将近600块人民币。 始祖鸟MO/GO外骨骼软壳裤 但是这次我们搞到的这个Hypershell只要999美元,众筹期间更是只要299美元!相当于众筹期间只卖始祖鸟售价的5%,如今也只要两折左右—— 据说他们后面有在国内有正式发售的计划,但是入门款的价格也会控制在6000元左右,拉满的全钛金属顶配版也不会超过15000元。 这超过3000美刀的的价差摆在面前,直接导致的结果就是海外那帮户外佬集体高潮了。短短一个月的众筹期就吸引了海外2600多名用户的支持。外骨骼从上面的几十万,到现在的几千,这价格上抹掉的两个零,真的给人一种“人人都能用的起”的感觉了。 虽然咱们大概率用不到这个东西,但我也好奇,老外用起来是什么感受。而且听说,这个东西除了能用来远足爬山,也能用来辅助日常正常行走、跑步、上下楼,甚至骑车的时候也能助力。 所以通过一番py,我们成功搞到了一台,接下来就带差友们看看它的日常体验到底如何。 因为全包裹的外骨骼成本太高,所以很显然,Hypershell选择了 “只做迈腿助力” 的打法 —— 通过腰带将主体结构锁死在腰胯上,再通过一组束带把外骨骼的末端绑死在膝盖上方大概三指高度的位置。 然后的事情应该就很明白了——随着抬腿,算法会启动腰胯两侧的电机,在你自己做出“抬腿”这个动作的同时,它会同步给出一个扭力,帮你“提”一把大腿。 不明白的话你们往下看,我在第二张图片里面画了一个大概的受力结构—— 所以是的,这样做的缺点就是只能助力抬腿,不能助力弹跳(弹跳需要在膝关节两侧也安排电机),而且因为小腿和膝盖没有助力,导致也没有办法给干体力活的兄弟分摊膝盖的压力。 但是同样的,这么做的好处就是能把价格打下来,而且整机含电池的重量只有 2.5kg 左右,比某些游戏本还轻。对于户外爱好者来说,这点重量放到自行车的后座上、挂在背包上都不会造成太大的负担。 所以就像我们上面提的那样,Hypershell的脑子很清醒,整个宣发就是瞄准了户外徒步那帮人,把自己形容成“走路外挂”。 我自己也试了一下穿戴之后的效果——平时爬楼梯,可能一下最多踩个两节三节,戴上Hypershell之后抬腿幅度直接变大了,一抬腿就是迈四节。 跑步的时候,我也用运动手表记录了一下配速,按照平时减肥的感觉慢跑,配速大概只有7分钟。戴上这玩意,跟着Hypershell的助力步调,直接跑进6分钟,心率直接拉满。 我也试了下戴着它骑车,虽然目前看起来Hypershell的算法还有些bug,偶尔会把骑车识别成爬楼梯,导致助力中断,但是在有助力的时候,那种“被人压着腿往下踩踏板”的感觉非常明显——平常上班骑车为了不出一身臭汗,也就是慢慢悠悠骑,但是穿了这玩意之后速度直接快了一截。 来我还打算今年给自己换个电助力自行车来着,但是现在我决定继续嫖这台编辑部的Hypershell! 由于编辑部附近没啥高山,所以这台Hypershell具体能持续助力多久,我们没能测试。不过根据Hypershell官方的说法,只助力正常行走的话,它大概能续航17.5公里。 考虑到会穿这玩意的很多人都是拿它爬山,我甚至还在他们海外用户的分享案例里看到一个戴着它滑雪的。这样的话,续航大概率不够用。 所以Hypershell官方还推出了一个快充底座,每次能充四块电池,并且机身上的电池可以快拆更换。 看到这儿,可能会有些小伙伴感觉眼熟 —— 这快充底座怎么整的一股“大疆味儿”,而且Hypershell其他很多设计细节也多少有些国产的味道。 这就不得不提到一点了,根据米罗去Hypershell参观的时候打探到的消息。虽然Hypershell表面上是一家解决老外徒步助力痛点的初创企业,但它实际上是一家中国公司。你看他们的众筹宣传页面,团队阵容看起来就像“全华班”。 某种程度上可以说,Hypershell就是咱国内的供应链攒出来的。相信这下你也就明白了,为啥Hypershell能在降低成本的同时,还能搞出集成度这么高的好东西。 很大一部分原因就是他们放弃了工业供应链,而是用手机、VR 等消费电子的供应链,并且在生产上,也有大疆或者传统PC代工厂的作业可以抄。这确实只有在咱们这种全产业链国家才能办得到。 中国的手机和PC市场,以及背后的供应链和相关制造业,卷成了啥样,Hypershell能吃到多少红利,就不用托尼多说了吧。 不过Hypershell也不全是靠整合供应链,他们自己也是有真东西在的—— 一开始我们以为它这个外骨骼的驱动电机是买的,再一问才知道是自研的,并且新一代性能更强的电机已经在研发了——Hypershell在产品设计上致敬大疆,其实有着另外一层意思在,听他们的CMO说,Hypershell的目标就是成为电机+算法领域的大疆: 先通过平价的徒步外骨骼产品打出一片市场,然后利用得到的收入反哺电机技术与算法的研发,最后实现类似大疆“无人机生万物”的结果。 这个想法很不错,假如给足了Hypershell时间,我觉得他们应该能办成,但与此同时Hypershell也得小心了。 因为就在我们这篇文章快写完的时候,我发现国内已经有公司盯上Hypershell目前的这块蛋糕了 —— 有公司做了款跟Hypershell形态非常相似的外骨骼。虽然长得丑很多,但人家是真的便宜。 Hypershell目前最入门的版本也要6000块钱,但是这家只卖2000块钱。 那么Hypershell,想打动咱国内这部分户外人群,要么技术的迭代速度、品类的扩充速度超过竞品们追赶的幅度。或者像最开始的众筹期那样,再来一次击穿地板的底价了。 反正我是想看到这个市场热闹一点儿的,毕竟我从小的时候,就做梦穿上酷炫的人体装甲了。
英特尔AI PC放大招:能效比暴涨40%,游戏本8小时续航,AI助手教你打游戏
作者 | 云鹏 智东西3月29日报道,刚刚,英特尔在北京举办新品分享会,集中亮出了搭载英特尔酷睿Ultra 200HX系列处理器的10家OEM笔记本新品。 英特尔酷睿Ultra 200HX处理器最高24核心、5.5GHz睿频,在AI方面,ISV合作厂商开发了AI游戏助手等AI应用。 具体来看酷睿Ultra 200HX系列处理器,其中旗舰酷睿Ultra 9 285HX与英特尔酷睿i9 14900HX相比,单核性能提升10%,多核性能提升19%;相同性能下,功耗降低38%;相同功耗下,能效比提升40%。 在生产力方面,运行设计类应用POV-Ray的性能提升了31%,续航方面,基础办公模式下,高性能笔记本也能满足8小时续航。 此次英特尔游戏本首次支持独立NPU,基于AI算力,三方厂商开发了AI游戏助手等应用:NPU加速游戏场景识别,CPU加速音频及实时处理,iGPU则加速LLM推理和RAG检索交互。 英特尔还将推出游戏助手SDK(软件开发工具套件),让OEM、ISV合作伙伴可以更高效地开发自己的AI游戏助手。 此外,英特尔APO黑科技支持了13款主流游戏,开启后可以最高提升10%的游戏性能。 外围配置方面,英特尔笔记本新品支持雷电5协议,接口数据传输速率可以达到120Gps。 值得一提的是,酷睿Ultra 200HX在移动工作站领域,能在AI和机器学习、能源、金融服务等工作流上实现超过50%的性能提升,在多媒体制作、生命科学和数据科学等领域有20%以上的性能提升。 生态方面,根据官方数据,截止到目前,英特尔共有200多个合作伙伴,共计支持400多项AI功能,包括支持40多款本地AI应用,比如本地生成PPT、多模态内容总结。
拆掉索尼大楼 8 年后,我们在东京看到了 Sony Park 的完全体
三流企业卖产品,二流企业卖服务,一流卖企业概念,超级企业卖大楼。 这是一个早年间广泛流传于社交媒体之上的梗,前三句直观地概括了不同层级企业的生存逻辑,最后一句是网友戏谑诺基亚和索尼出售总部大楼以换取资金改善财务状况的实例。 如果你对「索尼百叶窗」还有印象的话,那么你应该还会记得 2017 年的时候,索尼曾将位于日本东京银座的索尼大楼(Sony Building)进行了拆除。 在宣布拆除大楼的同时,索尼还宣布将这座有着 50 年历史大楼的外立面百叶窗,切割下来做成一份「特别」的纪念品——「索尼大厦百叶窗纪念品」并进行售卖。 每一块「索尼大厦纪念百叶窗」都是从索尼大楼的外墙上拆下来,再经由手工一个个地切割成纪念品的尺寸大小,然后镌刻上「Sony Building 1966-2017」的字样。售价 5000 日元,按照当时的汇率约合 300 元人民币一块。 看到这,你可能会想问,索尼拆了大楼还要卖建筑垃圾来赚钱? 但事实上,索尼将售卖百叶窗纪念品的收入,全额捐给了日本儿童救助(Save the Children)与索尼共同企划的「儿童灾害紧急复原项目」。 也与「卖大楼」的玩笑相反,索尼拆除索尼大楼的真实原因,并非源于资金周转需求,而是在索尼大楼建成的 50 年之际,索尼集团整体的业务已经步入了更多元化的层次。 于是在新时代谋求战略转型的过程中,建成于 1966 年的索尼大楼已经难以胜任「产品陈列室」的历史任务,索尼大楼亟需「重生」。 经过 8 年时间两个阶段的建设,银座索尼公园(Ginza Sony Park)在 2025 年 1 月 26 日正式面向公众开放。值得一提的是,这一天恰好就是索尼创始人盛田昭夫诞辰 104 周年的纪念日。 在索尼公园正式开放的前几天,爱范儿受邀前往日本东京,提前探访了这一座「索尼打造过最大的产品」。 拆除索尼大楼,索尼为什么要在寸土寸金的银座建造「公园」? 在到访银座索尼公园之前,这是我最好奇的一个问题。 根据日本国土交通省发布的数据显示,东京银座连续 19 年蝉联日本地价最贵的地段,用寸土寸金来形容银座地段也是一点也不为过。事实上,从 1966 年的日经新闻报道来看,索尼最初选址于此的时候,这块地皮已经是当时日本乃至全世界地价最贵的。 只不过索尼作为一家电子产品制造商,在银座建设 Sony Building 的初衷从来都不是要作为自己的总部办公楼,而是要成为索尼 1959 年在银座数寄屋桥开设的「产品陈列室」的延续,用一座前所未有的现代化设计建筑,来成为最能代表、展示索尼一切的综合展厅大楼(Showroom Building)。 ▲ Sony Building(1966-2017). 图片来自:索尼官网 显然,无论是过往的 Sony Building 还是面前的 Sony Park,其实都是索尼面向全球「索粉」们所提供的一座独具索尼特色的开放空间。 所以,时任索尼总裁的平井一夫在 2016 年重建索尼大楼的项目演示概念书中也表示,「新的索尼大楼」应该是一个新的「索尼信息共享中心」,能够继续作为向全世界传播索尼品牌的枢纽而存在。 简言之,旧的索尼大楼,已经很难去回答「索尼是一家怎样的公司」这个问题,索尼需要「新的地标」来匹配索尼业务生态从硬件制造商向创意娱乐科技巨擘的转变。 ▲ 银座索尼公园项目负责人 永野大辅(左);时任索尼总裁平井一夫(右) 尽管当时还未曾确立「新索尼大楼」是以公园的形式来建设,但平井一夫在考虑索尼大楼「重生」的过程里,反复提到的一个重要关键词就是「邀请」——让尽可能多的人能够进入到这个建筑之中,享受这片「很索尼」的公共空间。 当然,这个打造公共空间的概念其实也源自 Sony Building 本身。 在索尼大楼的设计过程中,索尼创始人盛田昭夫十分认可设计师芦原义信的想法,在面向十字路口的一角留出了 33 平米的开放空间打造为 Sony Square,作为银座花园(Garden of Ginza)对外开放。 在寸土寸金的银座地段留出如此大面积的公共空间,当时在许多人看来,这都是一种近乎疯狂的奢侈举动。 作为开放空间,索尼每年都会顺应时节在此处栽种不同的花(当然也是日本最名贵的花),在夏天还会在此处放置巨大的鱼缸,以「Sony Aquarium」的形式展示来自冲绳美丽海水族馆引进的海水鱼类,让此处变成一个流动开放式水族馆,为夏天的路人们带来一丝清凉。 所以,索尼选择打造「银座索尼公园」的初衷,就是想要延续 50 年来的「银座花园」概念,并更进一步将其演变为「银座公园」,更加大胆地持续为城市提供一个富有创造力的公共空间。 历经 8 年时间的,其实是一场「独一无二的实验」 如果说将一栋六层高的大楼拆除然后重建成一座公园,要耗费长达 8 年的时间,听起来效率并不是很高。但从不走寻常路的索尼,实际上是将重建索尼大楼这个项目看作是一场「独一无二的实验」。 整个重建过程分为了三个阶段,在花费一年时间拆除大楼之后,索尼 2018 年在原址的地皮表面建造了一个街心公众公园 Sony Park,并利用了原来大楼建筑地下四层的空间来设立了艺术展览、潮流商店、游戏厅、啤酒餐吧等多种娱乐空间。 索尼对这个 Sony Park 阶段的定义是一座「不断在变化的公园」,在密密麻麻的银座商都一角,设置了一片开放式的「绿洲」。官方数据显示,在开放运营的四年时间,Sony Park 接待了 854 万游客,还举办了无数的展览和活动。 于是当我来到全新的 Ginza Sony Park 之中,得以与该项目负责人永野大辅对话的时候,我特别好奇,这场实验到底给索尼带来了什么结论,这个过程让索尼从中得到了什么帮助或者启发? 永野大辅听完我的问题,脸上露出了自信的微笑并说这是一个很好的问题,看起来这个问题早已经过长足的思考,如今也得到了充分的答案。 ▲ 索尼公园项目负责人永野大辅,他身后就是原索尼大楼楼顶的霓虹灯 logo 他指出了「三点启发」:不建高楼、开放空间安全性更高、开放场所应该怎样去吸引人。 首先是不建高楼的启发,相较于原来八层楼高的索尼大楼,开放式的街心公园 Sony Park 在地表只有一层,具有更强烈开放氛围的 Sony Park 在实际表现里,是远比以前的索尼大楼要更加吸引过往的游客和市民。 这样的启发也让索尼深刻地认识到,低层的建筑比起高层的建筑要更加吸引游客和市民。于是,当银座建筑物高度被限制在 56 米以内的同时,银座索尼公园更是刻意地将高度设置得更低,大概是这个规则的一半左右。 无论是从远处眺望,还是步入于其中,都让银座索尼公园看起来更加开阔,与周边的高密度建筑体系形成了鲜明的对比。 隐约觉得,这跟国画的「留白」意味,有着异曲同工之境。 其次,索尼的第二点启发是「开放空间的安全性更高」。这一点是我此前从未想到过的,永野大辅告诉爱范儿,将建筑物变成开放的形态会让周边街区都变得更加安全。 改建之初,我们担心如果将索尼大楼做成开放空间,安全性是否无法保证,我们该如何应对因开放空间带来的一些隐患,带着这样的忐忑,我们大胆迈出了这一步实验。经过三年的实验,这一举措拿到了满分的反馈,所以银座索尼公园的第一层,将以完全开放的空间面向大家。 ▲ 银座索尼公园的第一步. 图片来自:索尼官网 第三点,是利用有主题、技术和艺术三元素叠加的创意活动来提高品牌效应。永野大辅认为,场所服务于人,所以过往 4 年的运营一直都在促使索尼去思考,场所活动要如何去吸引人?如何利用场所活动去提高品牌效应? 最终,索尼得出的成功经验,就是以「主题 × 技术 × 艺术」三个元素相乘,从而满足大家来到这个场所的各种需求,无论是短暂地休憩、周末的放松、恋人的漫步、亲子间的互动等等。 正是因为第一阶段的大胆尝试,且得到了较好的效果,所以大家看到的新银座索尼主题公园结合了此前的成功经验,开幕后,银座索尼公园将陆续开展展览活动,欢迎市民和游客前来体验。 索尼「最大的产品」,如何诠释索尼? 无论是我初次造访,还是朋友圈中在春节假期路过东京银座的朋友们,都很容易被这座 Ginza Sony Park 抓住眼球。 除了更加低矮开阔的建筑高度,它很直白地将主题混凝土结构展露在外的样子,也与周边临近的繁华大楼们形成了强烈的反差对比。用近乎原始的混凝土外墙,配合刻意降低的建筑物高度,的确能够体现出索尼公园想要作为「城市平台」的地位。 随着脚步走进,索尼公园建筑物的主题视野也拉近了不少,可以看到覆盖在混凝土建筑表面的不锈钢网格状框架,自然而然地成为了索尼公园与繁华闹市之间的松散边界。 索尼公园项目负责人永野大辅告诉我们:「当光线从框架的缝隙中射入,就像阳光透过树叶渗透进来一样,会不断地移动和变化。」 当然,除了可以作为功能性外立面,设置一些活动相关的海报或者装置,它也可以在对设施进行扩建的时候,充当类似「脚手架」一样的辅助角色。 在开业前夕,我们可以看到外墙上挂着一句日本人常在回家进门时,就对家人说的「我回来了」。 银座索尼公园还继承了索尼大厦所珍视的独特元素:提供公共空间的设计理念、「枢纽」建筑和垂直长廊风格。 正如前文所述,索尼公园的一楼是一个完全开放的空间设计,弱化了公园与城市的界限,内在空旷的中庭位置变成了数寄屋桥十字路口进入的人流的天然容器,可以让游客从不同的角度自然地进入,然后按照垂直长廊的引导,自由地前往公园建筑的上方或者下方。 作为一栋「面向城市开放」的建筑,索尼公园内部从下至上设置了一条「垂直长廊」,螺旋结构的楼梯和缓坡可以让观众从底部一直往上漫步,弱化了楼层之间的分隔,自然而然地去完成整栋公园的游览。 这条「垂直长廊」的灵感来自于索尼大楼的「花瓣结构」,设计师芦原义信为了有效利用索尼大楼原本不算宽敞的占地面积,绞尽脑汁地以一系列相连的楼层将整栋大楼连接起来,使其成为一条垂直的长廊。参观者可以毫不费力地乘坐电梯上升到建筑顶部,然后随着着螺旋走道逐渐下降到达其他楼层,在不知不觉间完成整栋建筑的浏览。 相比起只在地上六层建筑建设垂直长廊,全新的银座索尼公园则是从地下三层至地上五层(屋顶平台)都实现了垂直长廊的设计,让整个建筑物的每一个楼层能够通过一条垂直长廊来连接。 对我来说,此前探访过一些银座建筑都需要乘坐电梯前往,单个楼层的浏览范围其实有限,但频繁地转移楼层的话,要么排队乘坐狭窄的手扶电梯,要么花费更长的时间去等待直梯,体验都算不上很好。而索尼公园的楼梯设计,可以让我高效地往来不同的楼层,无形中也提升了在其中游览穿梭的兴致。 在看不见的地底,索尼公园保留了一些旧建筑的痕迹,甚至加固了原来属于索尼大楼的地下室外墙,创建了一个类似于浴桶一样的独立结构。 这种施工方法可以保护整栋建筑物免受银座地下流动的土壤或地下水的压力,同时也能保障重建项目可以获得和之前一样多的公共空间,无需新增更多的地下外墙。索尼也保留了原来的地下入口,与银座站的地下通道相连,也能直接连接到银座最大的地下停车场。 作为新时代索尼的「产品陈列室」,索尼并未打算在银座索尼公园之内塞满索尼的产品。为了吸引更多用户或者市民到来,索尼选择「主题 × 技术 × 艺术」的方式,在此处举办各种活动和展览,进而传递索尼的魅力。 随着银座索尼公园的开幕,索尼将同步设置开园以来的首个展会——「Sony Park 展 2025」。这是一个以索尼集团的六大业务为主题,与 6 组富有个性的艺术家共同创作的创意体验型活动。 受邀参展的 6 组艺术家的创意,将会与不同主题的索尼业务相结合,通过索尼的技术来还原艺术家的创意灵感。整个展会分为两个阶段,每个阶段将会有三位艺术家和展览分别展出。 首批开展的艺术家包括了 YOASOBI、羊文学和 Vaundy。爱范儿作为首批邀请到访银座索尼公园的中国媒体之一,也被特别安排分别体验了这三个展览。 首先是索尼金融与羊文学的展,是以「金融如诗」为题,聚焦在羊文学的两首歌里(其中一首是《More than words》),索尼为此重新打造了一套巨大的水盘光影装置,将歌词与水和光影一起交融。 我留意到在此处,索尼用上了他们引以为傲的 360 临场音效(360 Reality Audio)技术,声音效果非常震撼。 离场的时候,我们还能体验到索尼的触觉技术「Active Slate」,地板传来逼真的震动会让你觉得真的踩在了水道上。 YOASOBI 是和索尼半导体一起办展,以「心跳」为主题,来访者在入场之时会通过索尼的传感器设备,记录一段心率图谱,然后通过 AI 算法生成一个心跳图案。而后步入到投影互动装置之中,你就会发现,自己的心跳图案可以融入到 YOASOBI 《HEART BEAT》这首歌的声画当中。 最后我们走到了地下入口位置的旁边,看到了 Vaundy 与索尼音乐一起举办的「音乐如旅行」展。 他在 B2 区域设置了一个「音乐地层」,Vanudy 在这里放置了 200 首他自己珍藏的宝藏歌曲。观众可以在入场时,领取一个经典的索尼监听耳机(MDR-CD900ST)。 然后带着这个耳机走进展区之内,可以看到琳琅满目的歌曲名字以及对应的耳机接口,Vanudy 按照不同的音乐类型进行了区分,包括希望、爱情等等…… 你只需要按照分类,看到自己感兴趣的曲名,就可以将耳机的 6.3mm 接口插进相应的歌曲接口,耳机就会自动播放相应的音乐了。个人感觉,这个形式还是相当有趣,可以发现一些在「猜你喜欢」的算法之外,也能引起情感共鸣的曲子。 源自创始人的精神:索尼要做别人未曾做过的事情 浏览完整座银座索尼公园之后,我对索尼的印象有了更加深刻的认知。 过去,我们时常会探讨「索尼究竟是一家怎样的公司?」——皆因索尼的业务在迈入二十一世纪之后,变得相当多元化,看似各行各业都有索尼的身影。 ▲ 索尼品川总部大楼内的 Sony Square 一角 比如索尼 A9M3 相机拍下了可能是特朗普一生中最具张力的照片;索尼旗舰电视也是不少大户人家的首选;PlayStation 依然是备受追捧的游戏主机;知名动画作品《鬼灭之刃》是由索尼旗下的子公司 Aniplex 出品;与漫威联合制作的《蜘蛛侠》和《毒液》电影系列也在全球范围内热映…… 但与此同时,索尼也这些年也推出过不少被认为是失败的产品,甚至在大好时势下眼睁睁地错失了移动互联网的最佳风口。在消费者眼中,曾经先进且独具个性的索尼 Xperia 手机,也黯然在中国大陆市场「断档」,更别说熟悉的 VAIO 电脑业务和元老级的锂电池业务也被索尼陆续出售。 但正因这些大刀阔斧的改革手段,聚焦更多元化的核心业务,剥离非核心资产,才让索尼从亏损的困境中突围而出。在 2024 财年,索尼预计将实现本世纪以来最亮眼的业绩表现,旗下的六大板块业务都分别实现了盈利,预计同比增长 11%。华尔街分析师认为,如今转型以创意娱乐为主导的索尼,有了更强的抗风险能力。 谈及现阶段的企业定位,索尼官方的定义是一家「建立在坚实技术基础上的创意娱乐公司」。 当我第一次听到这个略显抽象的企业定位时,就意识到要全面诠释索尼企业定位并非一件易事,只能通过一些具象的东西来加以理解。 在索尼位于东京品川的总部大楼,有一面索尼历史墙(History Wall),展示了索尼创立以来的重要产品和大事记。当中放置的一个用黄金铸造的小白鼠引起了我们的注意。 ▲ 图片来自:kimoto-sbd 1955 年,索尼推出日本首台晶体管收音机 TR-55,虽开创了技术先河,但 3 年后随着晶体管成为主流,被大企业以规模优势超越。彼时评论家讥讽仍算是创业公司的索尼,是「大型企业的实验小白鼠」。 ▲ 索尼晶体管收音机 TR-55,图片来自:索尼官网 虽然这个评价引起了当时索尼员工们的愤怒,但面对质疑,索尼创始人之一的井深大却将这一标签转化为精神动力:「开拓新产品若被视作『小白鼠精神』,何尝不是荣耀?」。后来,索尼更是用黄金铸造一个了小白鼠雕塑,既是对嘲讽的回应,亦是对索尼「敢为天下先」价值观的定格,并用以激励后来的索尼员工都要保持「创造未存在之物」的初心。 在这次索尼公园的采访过程中,项目负责人永野大辅告诉我们: 盛田昭夫作为创始人之一,他给我们的影响很大,所以我们想把他的一些想法或者精神世代的传承下去。不管是盛田昭夫先生,还是索尼,一个重要的 DNA 就是做别人没有做过的事情。 ▲ 摆放在 Sony Park 顶层天台的 AFEELA 原型车 从这个角度来看,放弃可观的地产商业价值转而拥抱城市开放空间的银座索尼公园,其实是索尼「创造未存在之物」的空间载体,它理所应当成为了索尼迄今为止打造过的「最大的产品」——这栋独特的建筑物本身,也在诠释着索尼品牌创办时的初心:做别人不做的事情,做别人没有做过的事情。 从宣布拆除大楼,到出售大楼百叶窗周边,继而运营街心开放公园作为实验田,直至最终重建银座索尼公园,这长达 8 年的整个过程里,索尼都在践行「做别人没有做过的事情」这一点。显然对于索尼来说,坚持做别人从未做过的事情,就是一件最酷的事情。 总体看下来,无论是这个地段,还是这个建筑本身,以及未来这座公园的持续运营,索尼无疑都是需要去倾注大量的时间和金钱,才能一步一步地将银座索尼大楼,变成银座索尼花园,再变成一座银座索尼公园。 ▲ 在 Sony Park 遇到了带着 AIBO 机器狗来观展的用户,它的名字是 さくら(樱花) 它与我们之前造访过的 Apple Park 等冠以「Park」之名的办公园区都不同,也超脱于常规意义的企业 Showroom。 从开放性来看,这座 Sony Park 的确是我们传统意义上的城市公园——它面向所有人都开放,至于索尼的产品与技术,都隐性地存在于这栋建筑之中,成为场所的一部分,不断更新且持续地服务到访的所有来客。 可以预见,全新的 Ginza Sony Park 能够为银座街区以及周边居民注入更多活力的同时,也能继续吸引全球各地的「索粉」们前来踊跃打卡。
行业首发阔折叠!解读华为Pura X“一用就爱”的秘诀
作者 | 养乐多 编辑 | 刘毓坤 凤凰网科技讯 3月30日,在折叠屏市场竞争日益白热化的当下,华为继续领跑市场。这一次,凭借在华为Pura X软硬件上的大胆突破,华为正掀起2025年第一轮折叠屏购机热潮。3月30日,华为Pura X正式全渠道发售。华为Pura X 的登场表明,只有勇于打破常规、敢于创新的品牌,才能带领智能手机迈向新的征程。 为了回馈广大用户,华为提供了一系列优惠活动,用户购买新机即可参与“鸿蒙有礼”活动,领取权益礼包,相关权益价值高达1200元+。新机用户还可以参加华为钱包“鸿蒙生态日日新”签到活动领取随机红包。同时,华为商城特别推出 12 个月免息分期的优惠购机服务。 行业首发阔折叠:一次从外到内的交互革命 当前,智能手机行业朝着更大屏幕尺寸的方向发展,但与此同时,用户对于设备便携性的需求并未减弱。如何在不牺牲便携性的前提下拥有更大的显示面积,成为了行业的挑战之一。自从折叠屏诞生以来,手机尺寸和便携之间的平衡,长期成为手机厂商的老大难问题。 此外,多任务处理和高效信息获取的需求也在不断增加,这对设备的屏幕比例和显示效果提出了新的要求。 今天,在华为Pura X 身上,我们看到了折叠屏手机形态的一次大胆颠覆,它不仅是业界首款阔折叠手机,也对折叠屏手机的交互模式进行了一次革命,在尺寸和便携之间实现了最佳的组合设计。 华为Pura X首次引入了16:10比例的阔型屏。这块1610阔型屏不仅结合了小巧便携的机身尺寸,保证了设备的易携带性,还为用户带来了近乎平板电脑的大屏观感。可以说华为Pura X合起来是一款小手机,展开则是一个平板。简单来说,用手机的尺寸,实现了平板级的“阔型体验”。据了解,为了让比例实现为内容而生的目的,在尺寸上华为Pura X前后打磨了上百版比例,才确定了16:10的方案。 具体而言,在浏览网页或阅读电子书时,相较于传统的21:9屏幕比例,16:10的比例能够显示更多的内容。进入华为阅读使用场景,华为Pura X 首发搭载的AI眼动翻页功能,可以对眼球运动轨迹进行追踪,会根据用户眼球运动进行自动翻页,解决用户阅读电子书需要频繁用手翻页的痛点,极大地提升了信息获取效率,真正做到了为内容而生。 在观看视频时,华为Pura X能提供更宽广的视野,同样16:9的视频内容, 显示面积较同尺寸直板机增加30%以上 ,竖屏看9:16的视频,其显示较同尺寸直板机增加40% ,在抖音上观看合适比例的视频,实现了无黑边的沉浸体验,既是观看赛事的利器,也是追剧党、综艺党的福音,可以说是无边更沉浸,横竖都好看。 不仅如此,今天的智能手机已经不再单纯为了满足用户沟通交流和对娱乐空间的需求,而是一个承载工作的生产力工具。在用户横屏使用华为Pura X 审阅PPT 或CAD图纸时,能显示更多栏的内容,标注修改无需反复缩放,兼顾效率与沉浸。在查看Word文档和PDF文件时,16:10的屏幕比例接近A4纸的原生比例,避免了屏幕浪费的同时,又能以很舒服的比例完整显示整个文档,提升了用户的办公体验。 值得一提的是,相较于市场上的普通直板手机,华为Pura X的屏幕显示面积增加了约15%,这不仅意味着更多的信息展示空间,也为用户提供了更为沉浸式的视觉享受。这一切,都得益于华为对“阔折叠”品类的深刻理解,巧妙地将大屏的沉浸体验与小巧的便携性完美融合,真正实现了“以小见大”的差异化思考。 除了内部的大屏设计,华为Pura X还配备了一个突破性的3.5英寸智趣外屏,打破了以往主副屏的传统逻辑。这个外屏不仅是信息展示窗口,更是日常使用中的效率利器。用户无需展开手机即可完成多种操作,例如回复消息、播放音乐等,真正做到了内屏阔感沉浸,外屏好玩好用。 为了保证华为Pura X的内外兼修,在美学设计方面,华为 Pura X 也展现出了先锋姿态,几何秩序与色彩哲学相互碰撞,为用户带来了独特的视觉享受。手机共推出五种配色,玻璃版的月影灰、幻影黑、零度白简约大气,素皮版的型格绿、型格红则彰显个性,满足了不同用户的审美偏好。 首发搭载鸿蒙操作系统 5,大模型时代让手机越用越懂你 今年以来,以DeepSeek 为代表的开源大模型大幅降低了AI应用的门槛,加速了智能平权的到来。随着大模型技术的应用,用户越来越期待他们的设备能够根据个人习惯提供更加个性化的服务。 作为首款全面搭载鸿蒙操作系统 5的智能手机,华为Pura X凭借其强大的AI能力,开启了个性化智能体验的新篇章。小艺智能助手在盘古和DeepSeek双模型的支持下(需HOTA升级后支持),能够精准理解用户需求,提供更加贴心的服务。无论是规划行程、管理日程,还是进行内容创作,华为Pura X都能通过智能化的方式帮助用户轻松应对各种生活场景,真正做到“越用越懂你”。 得益于鸿蒙操作系统 5的优化,华为Pura X整机性能提升40%,在系统适配和流畅度方面展现了卓越的优势,小红书、抖音、爱奇艺等头部应用均已深度适配。无论是切换应用还是进行复杂的多任务处理,华为Pura X都保持了高度的响应速度和平滑过渡,让用户感受到前所未有的操作流畅度。 特别是在大模型时代的背景下,华为Pura X通过不断学习用户的使用习惯和偏好,逐渐形成了个性化的智能服务,进一步提升了用户体验。作为首款搭载鸿蒙操作系统 5的手机,华为Pura X 的发布,也宣告着华为终端全面进入鸿蒙时代。 作为一款国产操作系统,华为鸿蒙自2019年初次亮相以来,就一路高歌猛进。去年10月,华为正式发布HarmonyOS NEXT,不再依赖于安卓AOSP底座代码,实现了国产操作系统的自主可控。 就在最近,谷歌收紧安卓开源“窗口”, 这让人们对自主可控的操作系统的呼声再次提高,同时也证明了鸿蒙操作系统的开发一直走在正确的道路上。数据显示,华为鸿蒙生态设备超10亿台,原生应用和元服务上架20000+,鸿蒙开发者超过720万,已成为继苹果iOS系统和安卓系统后的全球第三大移动操作系统。 华为式折叠:从“形态创新”到“交互革命” 华为Pura X 之所以能够在行业实现首创阔折叠,受到用户追捧,并不是一蹴而就,背后离不开华为在折叠屏领域的沉淀和突破。 从华为首款折叠屏手机Mate X发布至今,华为在折叠屏领域的探索,从外折、内折、小折、三折叠,再到今天的阔折叠,通过每一次的折叠式创新,把折叠屏手机从“形态创新”一步步升级为“交互革命”。 华为Pura X“确实是手机,又不止是手机”,它是华为花费两年时间精心打磨的产品,确保每一个细节都能完美贴合用户需求。 华为Pura X的问世,标志着折叠屏竞争已从“屏幕大小之争”转向“场景效率之争”。华为以勇于打破常规、敢为人先的产品思路,为智能手机行业指明了一条高端化发展新路径——从渐进式创新迈向突破式创新,它不仅是技术实力的展现,更是对用户需求深刻洞察的结果,“一用就爱”的魅力正是其最好的注脚。
外屏支持小艺私语功能,华为Pura X阔折叠手机获鸿蒙HarmonyOS NEXT 5.0.1.105升级
IT之家 3月30日消息,华为Pura X阔折叠手机将于今日正式开售,新机可选月影灰、零度白、幻夜黑配色,以及型格红、型格绿两个典藏版配色,定价7499元起。 目前,华为Pura X阔折叠手机已获鸿蒙HarmonyOS NEXT 5.0.1.105 SP11大版本升级,系统包大小约11.20GB,新增外屏小艺私语、表盘一碰传等新功能,预计首批用户到手即可更新。 IT之家附详情如下: 小艺: 外屏支持小艺私语,手机折叠后,拿起手机将麦克风靠近嘴部,直接说出指令,小艺也可以准确执行 新增小艺帮写功能,在点击备忘录编辑页面工具栏的小艺星环图标,或选中内容输入框中的内容后选择“小艺帮写”,即可对内容进行摘要、润色、排版等操作 新增小艺时光机,基于您日常的运动、拍照、听歌、去过的地方等,推荐生活里的精彩时刻(小艺应用> 小艺时光机) 桌面: 捏合桌面选择多个应用,长按可拖到右上角删除 畅连: 新增屏幕共享和涂鸦功能,视频通话时可以共享屏幕给对方,一边通话一边演示,还可在屏幕上涂鸦帮助理解 相机: 相机拍照模式5X及以上倍率拍照,照片支持自动AI云增强功能,照片更清晰(打开方式:图库右上角四点图标>设置>自动云增强) 优化双屏同显功能(打开方式:相机>百宝箱>双屏同显图标) 优化红枫人像肤色、唇色还原度及人像模式虚化、美肤效果,提升效果稳定性,带给您更好的拍摄体验 图库: 支持表盘一碰传,在图库选择心仪的图片后,可通过手机 NFC 区触碰手表表盘将图片一碰传为表盘背景 优化图库的稳定性和操作体验 主题: 外屏主题新增小猫绵绵、熊猫华华萌宠,可在外屏与可爱的萌宠趣味互动 优化主题显示效果,提升使用体验 系统: 隔空传送支持华为音乐,可以轻松隔空抓取本设备的歌曲并传送到其他HarmonyOS 5设备(设置>系统>快捷启动和手势>隔空传送) 优化整机系统性能和稳定性
2K等深微曲屏谢幕 小米16系列前瞻:开启全系直屏新时代
说到小米的数字系列,大家脑海中或许早已经和“曲面屏”划上了等号。从小米9到小米15,曲面屏一直是其高端机型的标配,甚至可以说它成为了旗舰机的一种象征。但随着消费者对于手机手感、使用体验的诉求不断提升,曲面屏的“强制美学”似乎开始变得不再那么讨喜。 根据爆料,最新的小米16系列,包括小米16、16 Pro和16 Ultra,将全部采用直屏设计,彻底告别了曲面屏。对于不少粉丝来说,这无疑是一个令人激动的好消息! 小米16的标准版依然保持了6.3英寸的小屏,而Pro和Ultra版本则增大至6.8X英寸,屏幕尺寸虽有增大,但都依然忠实于直屏这一设计语言。 直屏的优势究竟在哪里? 我们都知道,曲面屏曾经被誉为“高端”的象征,它的弯曲感和未来感让人眼前一亮,但其带来的问题也不容忽视。 首先,曲面屏常常让手机显得更厚重,且在贴膜、保护壳等方面的适配性较差。虽然曲面屏在视觉效果上可能更具冲击力,但过度弯曲的屏幕往往影响触控体验,尤其是在边缘操作时,误触的情况屡见不鲜。 相比之下,直屏虽然看起来简单,但却在手感上更具优势。它能够提供更为稳定和舒适的握持感,不容易误触,同时也更方便保护壳和膜的适配。尤其对于一些追求极简设计和纯粹使用体验的消费者来说,直屏几乎成为了他们的首选。 小米16系列的配置升级:不仅是直屏那么简单 除了直屏的设计回归,从之前的相关爆料来看,小米16系列在性能上也做了不少升级。比如将搭载高通骁龙8 Elite 2(SM8850)处理器,结合台积电N3P工艺,提升了能效和晶体管密度,进一步优化了手机的性能表现。 此外,小米16 Pro还将采用3D打印技术来制造手机金属中框,精致的镂空设计不仅减少了机身重量,还增强了散热性能。相信这些配置的提升,将会为用户带来更加流畅的使用体验。 而在影像方面,小米16也在评估引入潜望式长焦镜头,以补齐小屏旗舰的影像短板。这无疑是一个明智的选择,能够让小米16系列在影像领域进一步提升竞争力,弥补过去小屏机型在拍照上的劣势。 直屏和曲面屏的较量:未来谁主沉浮? 那么,曲面屏真的就此被遗弃了吗?答案或许并不那么简单。尽管直屏在近年来获得了不少用户的青睐,但曲面屏在某些领域依然有其独特的魅力。比如曲面屏可以提供更宽广的视觉体验,尤其在看视频、玩游戏时,能够带来更强的沉浸感。 然而,随着技术的进步和用户需求的变化,越来越多的厂商开始意识到,单纯依赖曲面屏的“高端”标签可能并不适应所有消费者的口味。 小米16系列的直屏回归,可能代表着一种更加实用和用户体验至上的设计思路,未来或许会有更多厂商效仿这一方向。 无论如何,到时候小米16系列的发布,注定会继续在智能手机市场掀起一股“直屏风潮”。至于曲面屏是否就此彻底告别,还得看未来消费者的选择。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。