行业分类:
加载中...
头条分类:
加载中...
“谷歌克星”杀入浏览器赛道!创始人万字揭秘
编译 | 陈骏达 编辑 | 李水青 当下最火的AI搜索引擎公司,为什么要做AI浏览器? 智东西7月15日消息,近日,在YC创业学校的分享会上,美国AI搜索引擎独角兽Perplexity创始人兼CEO Aravind Srinivas向外界深度分析了Perplexity入局AI搜索,又押注浏览器与智能体背后的转型逻辑。这家被外界誉为“谷歌克星”的创企,野心不止于AI搜索,还希望将其AI浏览器Comet打造为下一代“认知操作系统”,全面接管用户的上网体验。 Perplexity公司成立于2022年,创始人曾在OpenAI任职。其同名产品Perplexity以准确、快速、引用全面、无广告的搜索体验而获得用户喜爱,曾经多次被英伟达创始人黄仁勋点名推荐。 今年五月,Perplexity公司被曝即将完成新一轮5亿美元融资,投后估值达140亿美元(约合人民币1004亿元),这也是Perplexity在过去一年内的第五轮融资。另据彭博社爆料,苹果管理层对Perplexity已经产生了收购意向,以获取Perplexity的AI人才和技术。 尽管屡获融资,但作为一家创业公司,Perplexity没有海量计算资源,也没有庞大的用户基础。当谷歌等巨头入局AI搜索时,Aravind经常听到“Perplexity死定了”这样的言论。不过,Aravind认为,巨头和头部创企的入局属于正常现象:“某个领域有钱赚,自然会引来模仿”。 Aravind认为,浏览器与搜索并非两个孤立产品,而是自然演进的一体两面,正如谷歌凭借Chrome浏览器推动每日搜索查询从亿级增长到数十亿次,浏览器在Perplexity未来战略中也是至关重要的,是构建移动智能体(mobile agent)的关键途径。如果仅仅依赖MCP等第三方协议打造智能体,限制太多、无法灵活调用第三方应用,相比之下,浏览器提供了理想的方式,使这一愿景得以落地。 面对搜索引擎和浏览器领域的竞争对手谷歌,Aravind提出了尖锐的批评。他认为,AI搜索与谷歌搜索在获利机制上存在本质冲突,因此,谷歌一开始并未下定决心将AI能力集成至谷歌搜索上,这也导致谷歌无法充分利用其分发渠道。 在Aravind看来,谷歌的AI搜索产品只是“换个名字,换个副总裁和团队,功能本质上没什么不同”。在2023年-2024年期间,谷歌使用的内部模型在业内并不算领先,而Perplexity却可以自由使用OpenAI、Anthropic和其他企业的顶尖模型,这给Perplexity带来了以往难以想象的竞争优势。 Perplexity目前正在“用极限速度跑马拉松”,Aravind称他们“必须创新,必须比别人快”。入局AI浏览器赛道后,Perplexity希望将Comet打造成一款完美融合AI、网页导航和智能体体验的产品。 Aravind还回顾了Perplexity创业过程中的经验与收获,AI编程工具对公司日常运营的影响,以及AI搜索产品对互联网生态的影响。 以下是Aravind Srinivas今年6月在YC创业学校上分享会的完整编译(为提高可读性,智东西在不违背原意的前提下进行了一定的增删修改): 一、Perplexity面临冲击,押注浏览器和智能体 主持人:请你简单介绍一下Perplexity的近况。 Aravind Srinivas:不管你信不信,我每天都要处理基础设施的问题,确实有很多人在使用,甚至增长到了我们不知道该如何应对的程度。我们必须重建基础架构,以支持下一个10倍的增长。也要感谢在场的大家的支持。 接下来我们最关注的,是浏览器。我们把它视为公司未来发展的重要方向。 很多人会问,既然已经有搜索引擎和其他AI应用,为什么我还要用Perplexity?当然,ChatGPT的用户分布比我们广,其他AI应用也都在试图将搜索嵌入进去。它们都支持引用功能,也涵盖了我们在一些垂直领域投入的努力。当然,我们仍然会在这些方面做得比别人更好。 但我们认为,浏览器和智能体才是真正值得押注的方向。我们将浏览器视为一个助手,而不是一个完全自主的智能体。它是一个万能框(Omnibox),可以进行信息查询、分配智能体任务。 你的AI助手将驻留在新标签页和网页侧边栏,随时为你服务。这将使浏览器不再只是浏览器,而更像一个认知操作系统。 我们希望它像一个云端平台,可以并行运行多个异步任务,调用你的联系人、邮件、日历、亚马逊账号、社交媒体账号等所有个人数据资源。比如,你可以用它研究房地产或金融市场,它们在浏览器中运行,就像在你的计算环境中运行的多个进程。这在以前是做不到的。 Chrome令人兴奋的地方在于每个标签页都是一个独立的进程。我们设想未来,每一个查询、每一个指令,都可以成为一个进程。而这,就是我们正在打造的浏览器——Comet。我们正全力以赴投入其中。 二、大公司模仿难以避免,创业者靠速度取胜 主持人:其实我本来想把这个问题放在最后问你,但既然你已经提到了,我们就现在谈吧。 如果Sam Altman今天还在台上,他大概会说:“哦,对,这也是我们正在做的事。”谷歌的CEO Sundar Pichai大概也会说:“我们也在朝这个方向努力。”很多人手里都有充足的资金,都在朝着类似的方向前进。 你怎么看待这个趋势?你认为未来会出现多种细分用例,而你们可以主导其中一个?还是说这会是一场正面对决的大混战? Aravind Srinivas:如果某件事真的值得去做,那么自然会有资金充足的人来做。别人说Perplexity是个很棒的产品,现在每个公司都想做一个可以回答问题并附上来源的产品。 Cursor是一个很棒的产品,现在OpenAI想收购它的竞争对手,Anthropic推出了Claude Code,谷歌也有类似的工具。这很正常,某个领域有钱赚,自然会引来模仿。 但你不可能在所有领域都做到世界一流。不论是构建顶级模型,还是打造一两个真正优秀的产品,总得有所取舍。对我们来说,唯一重要的事情是答案的准确性、任务执行的准确性,以及工具的编排整合。而浏览器,比打造另一个聊天工具要难复制得多。 话虽如此,我也假设OpenAI、Anthropic会打造AI浏览器,而谷歌已经有Chrome了,他们做AI浏览器也是完全合理的。但我们唯一的模式依然是速度。你必须创新,必须比别人快。这就像是在用极限速度跑马拉松。 主持人:一个人最多只能专注做好一件事。我们刚才在后台的时候,你还在给我展示你们最近在开发的新功能,发现了一个Bug,你立刻停下手头的一切去调试。大公司的CEO可能早就交给别人处理了。但你亲自查找原因,说明你是真正在乎这件事。我觉得这是一个很有力的例证。 Aravind Srinivas:是的,我喜欢处理和修复Bug。听起来好像不重要,但我真的很喜欢。是不是CEO最该做的事?很多人会觉得不是。但最近我听说,有些人希望这种行为能“传染”给更多人,甚至连Sundar最近也在X平台做Bug支持。我觉得这也算是个正面榜样。 三、创业不必死守单一想法,也不能朝三暮四 主持人:现场很多人都是学生、应届毕业生或者研究生。你创业的故事,应该会让他们很有共鸣,因为他们现在正处在人生类似的阶段。你是怎么开始创业的? Aravind Srinivas:我们其实是在没有明确产品方向的情况下就创办了这家公司,这跟YC建议的路径相反。YC通常建议你从一个项目开始,把它打磨成一家公司。 但我觉得,在今天AI技术进步如此迅速的环境下,你不必一开始就死守一个想法。但同样重要的是,你也不能每周换一次想法,这样也不行。得从一个方向出发,认真思考,迅速动手做出来,然后尽快让用户用上。 我们曾经开发过一个工具,就是自然语言SQL,我们当时将其视为一个搜索工具,用于搜索关系型数据库。 我们最初做的是自然语言SQL,把它当作一种搜索工具,在关系型数据库中搜索。我喜欢Twitter搜索,也喜欢早期Facebook Graph Search。于是我想用语言模型把它重新做一遍。 我非常喜欢Twitter这个平台,但它的搜索体验很差,现在还是一样。我们把整个Twitter的数据组织成关系型表格,再把用户的自然语言查询转成SQL语句,查询数据库,效果特别好,这也是我们最初的起点。 后来我们意识到,想要将这种搜索扩展到整个互联网,这种方式行不通。你不可能把每个网站都转成表格,也无法用这种方法回答所有问题。 因此,我们转而押注语言模型,认为它们未来可以完成推理、解析和结构化。更重要的是,一开始就从非结构化内容入手。最终,这个方向就变成了Perplexity。 主持人:在真正创业之前,你是如何找到联合创始人的?又是怎么决定要专注于机器学习和AI的? Aravind Srinivas:因为那是我唯一擅长的领域。我对别的事情都不在行。既然如此,为什么要去创办一家外卖公司或者社交媒体公司?我根本就不合适。AI和机器学习是我唯一熟悉的东西。 其实挺有意思的,我们创立的是一家AI公司,但当时大家都笑话我们:连自己的模型都不训练,全都是用现成的大模型。其实我们也训练了很多不同的模型。 但这也说明,做事时需要有一种知己知彼的谦卑,你得清楚自己擅长什么,有哪些资源,哪些事情是你能力范围内可以做到的。 我的联合创始人是我研究生时期就认识的同学。我们一直在讨论各种想法,积累了很久的默契。我认为读研究生其实是认识创业伙伴的一个非常好的方式。 你并不是带着“将来要一起创业”的算计去和他们交流,而是因为他们是有趣的人,这就是YC网络的意义所在。即便你的第一个创业项目失败了,你也能接触到很多很棒的人,也许将来他们就会成为你的合作伙伴。对我来说,研究生阶段正是这样的经历。 四、项目始于推特搜索引擎,大模型+搜索展现独特魅力 主持人:初代Perplexity主要是为了有效地进行Twitter搜索。那么你们是什么时候决定继续探索这一方向的呢? Aravind Srinivas:我们为早期用户提供了访问权限,他们非常兴奋且反复使用。我们观察到:产品往往先给人一种新鲜感,然后要么用户完全不再使用,要么他们会持续用下去。如果只是短暂的兴趣,说明根本没有真正的留存。 当看到我们为Twitter、LinkedIn、GitHub做的关系数据库搜索,能够持续吸引用户使用,我们便意识到将大语言模型与搜索相结合有某种独特的魅力。 于是,我们开始思考:如果我们直接给用户答案,并附上引用来源呢?于是我们将这个功能以Discord机器人形式推出,同样获得了稳定的使用,不是那种“一天新鲜感后就被遗忘”的情况。 因此,我们下定决心正式推出产品。事实上,我们是在ChatGPT发布后七天上线的,那个时候ChatGPT还没有网络搜索功能,是个不错的切入时机。 很多现在成功的AI产品——包括Cursor在内——都是在2022年底或2023年初发布的,从AI时间尺度来看,它们都算是“老玩家”。对我而言,真正的“顿悟时刻”是在跨年夜,当时有接近70万次查询请求。 我心里想:“这个产品的名字对普通消费者来说非常糟糕,叫Perplexity,根本不好传播。而且速度极慢,每个查询要花7秒,准确率也不高,经常产生幻觉,背后还是一家无名公司,没有知名创始人,只有一两百万美元的种子轮融资。” 尽管如此,人们依然愿意去分享截图。在跨年夜那天,本可以看Netflix,而他们却选择在使用这个产品。那一刻我意识到,这确实是真实的需求,于是我开始坚定地投入到这个愿景中。 五、谷歌做AI搜索没有优势,产品换汤不换药 主持人:在那时,你是否已经在确信自己正在打造一个能与谷歌竞争、甚至有潜力取代谷歌所覆盖的巨大市场的产品? Aravind Srinivas:其实,我第一次萌生这种想法,是在Google发布Bard的博客文章时,Sundar亲自写了那篇博客。当时我们正在进行A轮融资,所有人都在说:“Bard要做你们正在做的事情。” 我当时在想:“为什么一定要专门去做一个Bard?干脆直接把它集成在谷歌搜索上不就好了?你们明明拥有全世界最强大的分发渠道,完全可以直接更新核心产品。” 可越想就越清楚:如果用户能够直接得到关于“旧金山有哪些能看到金门大桥景观的最佳酒店”或“纽约中央公园附近配套设施最好的住宿”这类问题的答案,还能立刻点链接预订,那么谷歌要如何从Booking、Expedia或Kayak这些广告主身上赚取广告费? 在购物领域也一样,如果给出直接的答案并提供购买链接,谷歌要怎么继续让亚马逊和沃尔玛等广告主竞价投放?从收入激励上来说,谷歌没有动力去给出最准确直接的答案。 正是这时我意识到,谷歌必须新建一个产品来做这件事,但他们永远无法在核心搜索里充分利用分发能力。2023年到2024年期间,谷歌在任何时间点拥有的模型,大概都只是排在第四或第五名。 作为一家创业公司,我们能使用比谷歌内部更强的AI模型,这在以前是完全无法想象的。如果早些年你想要做AI产品去和谷歌竞争,那几乎是没戏的。你根本得不到比谷歌更好的AI技术支持。可现在情况完全反转,这要感谢OpenAI、Anthropic以及开源模型的出现。 再加上创新者困境,以及我们可以容许自己犯很多错误都无妨,而谷歌犯一次错就会影响股价。当时Bard的演示失败,导致谷歌股价立刻下跌6%——我们清楚这是对我们有利的局面。 主持人:你最近也提到过,谷歌一直试图打造类似Perplexity的体验。你开玩笑说,他们每年都给同样的功能换个名字。 Aravind Srinivas:确实如此。他们每次I/O大会都会宣布相似的东西,换个名字,换个副总裁和团队,功能本质上没什么不同。也许产品能力在逐步改进,但始终没有面向所有用户全面发布。 主持人:我很佩服你对用户体验的专注。你曾告诉我,这也是你从拉里·佩奇写的那本关于谷歌的书中学到的。你觉得谷歌为什么失去了这种能力? Aravind Srinivas:最主要的原因是它已经是一家规模巨大的公司,不再由创始人亲自领导了。这样一来,承担风险变得非常困难。我并不认为他们没有优秀的人才,相反,我觉得他们有非常出色的工程师。问题更多在于激励结构:要为了长期正确的方向而愿意承担短期股价下跌,这本身就极其困难。 说实话,我很庆幸这种困境的存在,否则,初创公司又从哪里找到切入机会呢?如果创业公司没有机会胜出,最后就只会是垄断巨头愈发庞大,这对世界而言不是好事。现在我们能赢,同时谷歌也能不断推出新产品,用户可以真正地比较这些产品。 以前在信息获取领域,没人会认真考虑谷歌之外的替代品,那会被视作浪费时间。如今,至少大家会先去问问这些AI应用,比如ChatGPT、Perplexity、Gemini,再考虑是否还要去谷歌搜索。甚至很多人已经不再用谷歌,而是只在AI工具中搜索。 各大手机厂商未来也会在设备里集成多种AI助手,而不再只有一个默认搜索选项。我很高兴看到这样的竞争,让整个生态更加公平。 六、融合AI、网页导航和智能体,Comet要“接管”用户体验 主持人:你刚才在后台也和我聊到,现在你们面临来自各方的竞争压力,但如果看你们的数据,似乎并没有受到明显影响。 Aravind Srinivas:没错。我每次看Google I/O大会相关的Twitter评论,都是一模一样的场景重演。去年I/O大会推出了AI Overview,大家说“Perplexity死定了”。今年又推出AI Mode,还是说“Perplexity死定了”。 我也看到了这些评论,实际上我挺喜欢的,因为这些评论背后的潜台词是“Google会不会真的做这个?”或者是“他们的人会不会真的把这个功能完善?”而事实是,大多数用户根本接触不到这些功能。 当然,竞争确实是真实存在的。我们必须承认,OpenAI的资金实力极其雄厚,也没有什么创新者困境的包袱。他们确实在努力把搜索功能融入ChatGPT,而ChatGPT已经是目前最成功的面向消费者的AI产品了。 与这样一个对手竞争,难度很大。因此,我现在特别希望推动公司进一步发力浏览器方向。我认为Comet浏览器可以成为所有聊天机器人的“抽象层”。 如果你允许Comet浏览器接管你的体验,所有ChatGPT的对话内容都能输入到这个AI里,这样你就不用再为记忆或个性化等问题操心了。 Comet会做很多传统聊天机器人做不到的事情,比如访问你的其他浏览器标签页、调取浏览历史、帮你自动填写表单、支付信用卡账单、下单购物,甚至充当你的情报员,先帮你完成各种研究。对于那些周期性、重复性的任务,这才是浏览器能够赋予用户的真正魔力。 要把这种能力迁移到移动端,工程难度极大,至少需要几个月的开发,我并不担心有人很快抄袭这个方向。要让用户迁移到新的浏览器,本身就是个重大的决策。 主持人:在短期内,你觉得这个浏览器会在哪些方面做得比Chrome好得多,能立刻让用户愿意迁移? Aravind Srinivas:我们会提供一个完美结合AI、网页导航和智能体的体验。虽然这个回答听上去平淡无奇,但实际上至今没有人真正把这三者做到极致。如今全球已经有数亿人习惯使用AI,市场基础已经非常大了。 主持人:举个具体例子,如果我明天就能用上它,我可以怎么用? Aravind Srinivas:你可以用它来安排会议、回复一些你根本不想看的邮件。比如说,你在主办一个Y Combinator的活动,只想接受斯坦福退学的申请人,AI可以把所有报名的人资料过一遍,自动抓取LinkedIn链接,筛选出既是斯坦福校友又退学的人,然后自动审批入选。 当然,我并不是说这样的筛选条件是好主意,否则我自己都不会被选上了。希望你对招募标准更开放一些,我们也会考虑深度学习领域的研究人员。 七、强制使用AI编程工具,但也会带来新型Bug 主持人:接下来聊聊你如何管理公司。你现在大概有多少名员工? Aravind Srinivas:我们大约有200人。 主持人:公司规模已经不小了。现在有了代码生成类AI工具,你们是否全面采用它们?是不是所有人都在“Vibe Coding”? Aravind Srinivas:其实也不能所有事情都靠“Vibe Coding”来解决。我们经常遇到基础设施层面的复杂问题,在生产环境修Bug时肯定不能用“Vibe Coding”的方式。 那种情况下,我还是希望团队拥有扎实的软件工程、基础设施和分布式系统能力,这些技能是不能被完全取代的。不过在前端设计方面,我们看到了非常大的效率提升。Cursor基本上成了所有人都在用的工具。 我们已经规定,所有工程师必须至少使用一种AI编程工具。在Perplexity内部,最常用的是Cursor,以及Cursor和GitHub Copilot的结合。可以说,这已经成为强制性的标准。 机器学习工程师们用它的方式也非常高效:有时候他们读到一篇新论文,只需把代码截图上传给Cursor,就能自动编辑代码文件实现新算法,还能自己生成单元测试,再运行实验。以前要花三四天的工作,现在一小时就能完成。 有些同事不懂设计,假如我在iOS App里看一个界面,截图以后在上面画个箭头,说“这个按钮要移到这里”,他们就把这张截图上传给Cursor,要求它修改SwiftUI文件。这样的开发体验非常不可思议。修Bug、上线产品的速度远超以往。 当然,Bug总是比代码写作速度跑得更快。不过需要澄清一点,我非常喜欢这些AI工具,但它们确实也带来了新的Bug,而且很多人并不知道这些Bug是怎么产生的,更不清楚怎么去修复。 这个过程并不完美。我个人也很看好一些新工具,比如Claude Code在代码生成上的表现,已经比Cursor还要智能。我相信这是正确的未来方向,但当下也仍然存在不少问题。 八、现有AI产品没有强网络效应,品牌是生存通行证 主持人:大家经常提到一个问题:随着这些代码生成工具变得越来越强大,像你们这样的公司所做的事情将来会越来越容易被复制,那么在这种情况下,你们公司的持久价值到底在哪里? Aravind Srinivas:我认为,品牌本身确实具有巨大价值。市场上有Cursor的竞争对手,也有Perplexity的竞争对手。OpenAI未来也会推出他们自己的Cursor,实际上OpenAI在ChatGPT里也已经集成了类似Perplexity的功能,但这些并没有消灭掉任何一家相关公司。 当你的用户规模达到几百万、甚至是数百万付费用户时,品牌就会变成一张“生存通行证”,让你不至于很快被取代。你赢得了继续发展的权利。所以,品牌很重要。 “品牌叙事”对品牌而言也同样重要。你必须清楚地向用户说明:为什么你需要存在? 对我们来说,我们最在意的就是“准确性”。这个领域里已经存在100个聊天机器人,但我们是最注重让尽可能多的答案正确的那一个。 我们也非常重视速度——无论在App还是网页上,我们依然是“从提出问题到生成第一部分答案”最快的,即使我们在后台进行了搜索。我们也格外看重如何呈现答案。当你对某些事情有执念,那就会塑造你的叙事和品牌认同。 只要你能获得一定程度的分发渠道,我不是说非得拥有一亿用户,但如果你有几千万用户,那么无论别人发布什么产品,你都拥有继续“留在赛场”的资本。 在此之前,这确实是一个巨大的挑战,你必须时刻担心竞争。即便是现在,我们也保持高度警惕,唯一的解决办法就是:不断加快节奏,持续推出新功能。 主持人:除了品牌之外,你是否考虑过Perplexity会不会出现任何“网络效应”? 其实品牌本身就带有网络效应,人们会互相推荐、相互影响。但目前所有AI产品都没有那种应用内的强网络效应。 不像WhatsApp,虽然Meta这个公司品牌未必被所有人信任,但你也很难让用户迁移到新的聊天软件,因为他们所有的联系人、群组都已经沉淀在WhatsApp里了。 AI产品还没有形成这样的锁定。主要原因在于,你可以很轻松地导出你的ChatGPT历史记录,把数据迁移到别的应用里,所以不会像社交网络那样形成牢固的关系网络壁垒。 我认为,浏览器绝对会是一个可以着手解决这些问题的重要工具,因为它掌握了你的浏览历史。虽然你依然可以导出这些数据,但这跟直接获取一份CSV导出文件,包含你的密码、钱包、以及你的智能体记住的所有东西,是不一样的。 有许多你日常生活和工作中依赖的任务,都是在浏览器里运行的。这是一个让产品变得更加“黏性”、形成网络效应的好方法,尤其是当多人共享同一套任务时,你可以把它分享给他们。这也是把所有功能提升到新水平的路径之一。 九、MCP模式容错率低,浏览器拟人操作可破解困局 主持人:听起来,你想帮助用户解决的很多事情,其实都需要和其他公司整合或合作。如果你能把这些合作做好,就会形成某种网络效应:你的产品体验更好,而竞争对手要赶上,就得去重建同样的集成或谈成同样的合作。 你觉得未来会是什么样呢?Perplexity要和全球所有航空公司、酒店、电商平台去谈合作吗? Aravind Srinivas:其实我们已经和Southbook合作了,所有在Perplexity上完成的酒店预订都是由他们提供技术支持的。我们也和TripAdvisor合作,提供各类酒店和目的地的评论信息,还有地图的合作。我们和Yelp也有合作。 在购物领域,我们有许多商家直接通过平台销售商品。我们与Firmly合作,将预订转化为原生购买。Shopify也是我们的合作伙伴之一。 在金融领域,我们与FMP合作;在体育领域,我们与Stats Perform合作。各个垂直领域都有很多数据提供方在和我们合作,而且我们认为未来会进一步扩展。 当智能体开始真正“做事”时,一些公司会愿意成为MCP服务器,也有一些公司并不愿意。有些只希望保留自己的网站。我们构建的浏览器智能体将足够通用,去尊重第三方的各种选择。 归根结底,智能体是用户授权代表自己行动的。如果没有MCP服务器也没关系,依旧可以用这些标签页,就像用户亲自操作一样。这是浏览器的关键优势——如果你只专注于MCP模式,就会丧失这一点。 如果完全依赖MCP模式,你就得确保第三方服务器一直稳定可靠,数据协议必须完美无误,你的聊天机器人要能应对各种问题。而如果把它设计成模拟一个人如何使用网站的方式,你就拥有了完全的掌控,不必依赖他人把工程做好。 十、正探索多元变现渠道,未来或将按次计费 主持人:接下来我们聊聊商业模式。你的主要竞争对手谷歌,是通过广告盈利的,你提到这让他们无法做好你们在做的事情。那么Perplexity未来的商业模式会是什么?要如何实现与谷歌同量级的收入? Aravind Srinivas:坦白说,我不确定我们能否获得和谷歌同等量级的利润,而且我也不觉得必须如此。历史上,哪怕是谷歌自己,也从未再创造出跟它搜索广告同样利润率的第二个业务。就算我们做到比现有上市公司都好,依然可能远不如谷歌,这是完全合理的。 其次,订阅收入给了我们很大信心。我们从没想到会走到这一步。我们相信,光是订阅每年就可以增长到数十亿美元的规模,这本身就是一门很棒的生意。 还有按使用付费:人们为智能体完成某个任务付费,或者为持续的、周期性任务按次付费,费用对比请一个人来做同样的事情,可能会非常划算。 我不确定这会如何发展,也不确定利润率会怎么样。有可能比订阅更受欢迎,但毛利率低一些,因为每次使用都要支付成本。有的人订阅了一个AI产品,一个月里一次都没用,这对我们来说就是很高的毛利。 我现在也无法给出特别清晰的未来蓝图,但可以确定的是,订阅和按使用付费一定都会存在。如果人们开始通过AI完成更多购买,我们也会抽取交易佣金。不过历史上,按效果付费(CPA)的利润率一直低于按点击付费(CPC),所以谷歌一直没做成交易平台。 也正因为如此,我说这个市场会很大,但不一定能赚到谷歌那么多钱。谷歌的商业模式可能是人类历史上最成功的商业模式,或许正因为如此,也只有AI才能真正挑战它。 主持人:我想请你给在座的创业者一些建议。如果你回到四年前,处在他们的位置,你会建议他们怎么做? Aravind Srinivas:我会说,一定要非常努力工作,别无他法。不要自以为聪明,靠各种策略就能绕过竞争。 如果你的产品足够成功,可以做到上亿甚至几十亿的收入,那你就必须假设大型AI公司一定会模仿你。因为他们急需变现,筹了数百亿美元,必须给这些投入找回报,所以他们会去复制任何好的产品。 你要学会和这种压力共处,甚至拥抱它。你的护城河就是比别人更快、形成自己的独特定位。 最终,用户在乎的,是你能否满足他们的具体需求,就像找家政服务时,他们会想找一个具体的人,而不是随便去个大公司。每天醒来,都要怀着对产品的激情,这会成为你持续前行的动力。 主持人:你们是一个很好的例子,证明了挑战Google这样的大公司也是有可能的。 十一、浏览器与搜索一脉相承,打造移动智能体必须依赖浏览器 观众:你们最近和英伟达合作,把AI模型推向整个欧洲,还有传言说Perplexity会预装在所有三星手机上。据彭博社等消息,这可能会让你们的估值达到140亿美元。成为大众的默认搜索引擎,是一个沉重的责任。你觉得Perplexity最重要的事情是什么?怎样防止把虚假的信息或错误数据传播给大众? Aravind Srinivas:我们非常重视“幻觉”问题。我们内部在建立各种基准体系,实时监测和改进。最有效的办法,就是持续建设更好的搜索索引,不断捕捉网站上更精准的片段。 模型的推理速度也越来越快,现在已经能在不增加太多成本的情况下,对每个问题进行多步推理。这也是降低幻觉率的重要途径之一。 观众:我想问一下“创新者困境”。如果你是谷歌CEO,或者是谷歌联合创始人,你会怎么做?会不会考虑牺牲现在的商业模式去争取下一个产品?或者说,你会不会干脆把新产品分拆出来,单独运营,哪怕因此短期内丧失分发优势? Aravind Srinivas:我真的不羡慕那份工作。世界上没有人想接手那个位置,那是个非常艰难的角色。 要牺牲现有商业模式,去换下一代产品,还是把新产品拆分出来单独运营?说实话,我也不知道。我可以站在这里讲很多“如果我是他们”的假设,但他们才真正掌握着庞大的用户数据。 要知道,世界上其实有很多人讨厌AI。如果你硬把AI“强行塞到”这么大的用户群里,绝对不是件容易的事。至于我会怎么做,我真的无法回答,也不想身处那样的位置。 顺便说一句,如果未来AI回答里每条都插广告,你们也会讨厌它的。有像我们这样的替代方案,是件好事。 观众:有很多创业公司,会先找到一个基础模型的“酷炫应用”,做出产品。一旦有了规模,基础模型公司就会把这个能力内建到自己的平台里。 Perplexity其实也面临类似的问题,很多大模型都在整合搜索功能,比如ChatGPT、Gemini等。你怎么看待这种情况?是要转型?还是把现有事情做到极致? Aravind Srinivas:我的看法是:先选定一件事,努力成为这件事上被人记住的品牌。是的,很多人都在集成搜索,但我们依然想做到“最快、最准”。这不是嘴上说说就行。 我们也必须想出新的策略,创造出尚不存在的新产品。对我们来说,浏览器就是新的大项目。浏览器和搜索,其实不是两个完全独立的产品,而是一个自然的演进。就像谷歌当年从谷歌搜索到Chrome浏览器一样。Chrome正是他们能从几亿查询增长到每天上百亿查询的关键。当年谷歌上市时,还没有浏览器,查询量可能一亿级,现在已经是几十亿了。 浏览器对我们的未来非常重要,这也是我们坚定下注的原因。我非常确信,要想真正构建一个移动智能体(mobile agent),必须依赖浏览器。如果你完全依赖操作系统(苹果、谷歌)制定的规则,比如无法随意调用第三方应用、或要求每个应用都提供MCP服务器把数据接入,根本不现实。没人愿意被AI这么快地中介化。浏览器是把这一切构建起来的理想方式。 十二、创业受挫时,靠马斯克视频“打鸡血” 观众:我们在座的很多人都创业过,失败过,有些人更成功,有些人像我一样屡败屡战。当你处在一次次失败的深渊里,觉得一切都要塌了、功能没法上线、又冒出重大Bug时,作为CEO或者创业者,你会对自己说什么?是什么支撑你继续走下去? 又或者,在一开始还没起飞的时候,是靠什么让你不放弃,继续努力,而不是干脆回去OpenAI上班? Aravind Srinivas:我就是去看Elon Musk的YouTube视频。(全场笑)我是认真的。我可以告诉你哪一条视频:有一个采访,是他们火箭第三次连续失败,记者问他怎么想,他说:“我绝不会放弃,除非我死了或丧失行动能力。” 我希望能一直保持这样的心态。但说实话,这并不容易。他已经坚持了比我们更久,大家都敬佩他。这个世界上有很多伟大的创业者,都是在所有人都不看好的情况下,依然坚持了下去。你又有什么好失去的呢?只要继续干就行。 观众:我想问一个关于Perplexity“可持续性”的问题,不是商业模式,而是整个互联网生态。最近很多研究发现,像Perplexity这样的AI搜索引擎,给网站带来的流量比传统搜索少得多。 未来五到十年,当这些网站因为流量锐减被迫关闭,整个网络会变得更“安静”,内容创作也会减少。你怎么看待这种未来?Perplexity在其中扮演什么角色? Aravind Srinivas:我觉得,网络本来就有极度的“长尾效应”,是一个巨大的幂律分布。未来这个幂律只会更加陡峭,这是显而易见的。一些知名品牌仍会保留直接的自然访问流量,而那些通过SEO“蹭”流量的人,肯定会日子更难过。 观众:我想请教两个问题:第一,你们如何界定“摘要”和“抄袭”的边界?如何在报告生成时避免侵犯知识产权?第二,新闻和其他人类写作的内容里经常带有政治倾向和个人立场,你们如何处理这些偏见? Aravind Srinivas:确实,有些问题是有客观真相的,比如“NBA比赛的比分是多少”,“现在旧金山的实时天气”。在这类查询上,你必须始终保证正确。即便如此,你也依赖某些数据提供方——直播比赛的频道、气象服务商、苹果或谷歌提供的天气数据。 归根结底,一切都基于信任。信任是靠长期准确积累的。我们尽力去展示“值得被信任的数据来源”,这是我们对准确性的理解。但很多事情并没有单一真相。面对这种情况,我们最好的做法就是提供多元观点,而不是去判定孰对孰错。 观众:那你们会通过用户反馈来衡量这些答案的准确性吗? Aravind Srinivas:目前我们并没有建立这样的衡量体系,但确实应该去做。我们应该建立一套专门的评估集,专门针对那些没有标准答案的问题。 不过,要为这种问题建立自动化评估很难,因为“正确答案”是主观的。比如“新冠起源”这种议题,观点各不相同。如果只看维基百科,那人类评审可能会说:“它列举了维基百科说的所有内容,这是好答案。” 但或许用户希望看到维基没有的内容,这就需要更聪明的评审者。而这种评审者,不是“Scale AI”式廉价劳动力能胜任的。 观众:我想问你们市场策略的问题:你们做过面向学生的营销活动,我和很多大学生就是因此知道你们的。同时,你们还和Costco做了合作,那是完全不同的受众。你们是怎么决定要针对哪些群体的? Aravind Srinivas:在我看来,关键是要进入那些你通过传统渠道接触不到的用户分布。很多人根本不用Twitter或LinkedIn,但他们真实存在。只是我们生活在自己的信息茧房里罢了。 而有些企业在这些人群中有很强的渗透,比如Costco等传统企业。如果你想要触及这部分人群,就要调整策略去适配他们。 当然,增长也要有“邻接性”。你希望用户群体之间有部分交集,这样他们会成为你的口碑传播者,帮助你进入新的圈层。我认为,要有一些交集,但分发渠道要不断进化。
果粉期待五年新品终于有消息!苹果HomePod mini 2有望今年底发布
快科技7月15日消息,苹果于2020年10月推出了第一代HomePod mini,凭借其小巧的体积、出色的音质以及对Siri语音助手和HomeKit智能家居控制的支持,赢得了众多果粉的喜爱。 不过自发布以来,HomePod mini的核心硬件一直维持在五年前的水平,这让许多用户对其升级换代充满期待。 据Mark Gurman最新透露,苹果计划在今年底推出第二代HomePod mini,预计发布时间将在9月iPhone发布会之后至11月之间。 新一代产品将带来多项重大升级,满足用户对更快网络、更高音质和更强AI功能的需求。 HomePod mini 2将支持Wi-Fi 6E,相比第一代的Wi-Fi 4,这将大幅提升传输速度并减少延迟,在播放高音质音乐或同步多台设备时表现更为出色。 新一代产品预计将搭载苹果自研的无线通信芯片,整合Wi-Fi与蓝牙功能,取代目前的第三方方案,从而在低功耗与性能之间实现优化。 这颗芯片还可能支持未来苹果生态内的无缝串流功能,进一步提升与Vision Pro、Apple Watch或iPhone的互动效率。 此外,HomePod mini 2有望引入第二代超宽带芯片(UWB),这是一种短距离高精度定位技术,能够实现与其他苹果设备的精准距离感知与连接。 在音质方面,目前没有明确证据显示HomePod mini 2会更换全新音响模块,但苹果一直对音质要求严格,预计此次会针对声场效果和低频饱满度等进行优化。 最后,HomePod mini 2还将推出新的配色选项,除了现有的午夜色、蓝色、橘色、黄色和白色外,可能会新增粉色、绿色或其他更具潮流感的颜色。
黑客利用AI生成恶意软件,可绕过微软Defender安全防护
IT之家 7 月 15 日消息,随着生成式人工智能技术的广泛应用,安全问题也日益成为公众关注的焦点。2023 年,微软的一项研究揭示了一个令人担忧的趋势:黑客开始利用像微软 Copilot 和 OpenAI 的 ChatGPT 这样的人工智能工具,对毫无防备的用户实施网络钓鱼计划。 如今,网络攻击者变得更加狡猾,他们不断想出巧妙的方法来绕过复杂的安全系统,以获取未经授权的敏感数据。最近几周,就有用户精心策划骗局,试图降低 ChatGPT 的安全限制,诱使其生成有效的 Windows 10 激活密钥。 Windows 用户对微软 Defender 并不陌生,这是一个复杂的安全平台,旨在保护用户免受黑客的恶意攻击。然而据 Dark Reading 报道,安全研究公司 Outflank 的研究人员计划在 8 月的“黑帽 2025”网络安全大会上发布一种新型人工智能恶意软件,这种恶意软件能够绕过微软 Defender for Endpoint 的安全防护。 Outflank 的首席进攻专家负责人凯尔・艾弗里(Kyle Avery)在接受采访时表示,他花了大约 3 个月的时间开发这种人工智能恶意软件,并花费了 1500 至 1600 美元(IT之家注:现汇率约合 10759 至 11476 元人民币)用于训练 Qwen 2.5 大型语言模型(LLM),使其能够绕过微软 Defender 的安全防护。 有趣的是,这位专注于人工智能的研究人员还分享了他对 OpenAI 的 GPT 模型及其最新旗舰推理模型 o1 的见解。尽管他承认 GPT-4 相比 GPT-3.5 有了重大升级,但他指出,OpenAI 的 o1 推理模型具备了更复杂的功能,尤其擅长编程和数学。 艾弗里表示,DeepSeek 利用强化学习技术来提升其模型在广泛主题上的能力,包括编程。因此,他在开发能够绕过微软 Defender 安全解决方案的人工智能恶意软件时,也应用了这一理论。 研究人员承认,开发过程并非易事,因为大型语言模型主要通过互联网数据进行训练,这使得他难以获取传统恶意软件来训练人工智能驱动的等效产品。此时,强化学习发挥了关键作用。研究人员将 Qwen 2.5 LLM 置于一个安装了微软 Defender for Endpoint 的沙盒环境中,然后编写了一个程序来评估该人工智能模型输出规避工具的接近程度。 据艾弗里介绍:“它绝对不可能直接做到这一点。也许一千次中只有一次,它会偶然写出一些能够运行但无法规避任何检测的恶意软件。当它做到这一点时,你可以奖励它生成了能够运行的恶意软件。” “通过这种迭代过程,它会越来越稳定地生成能够运行的恶意软件,不是因为你向它展示了例子,而是因为它被更新得更有可能进行那种导致生成有效恶意软件的思维过程。” 最终,艾弗里接入了一个 API,使模型能够更方便地查询和检索由微软 Defender 生成的类似警报。这样一来,模型更容易开发出在绕过软件安全屏障时不太可能触发警报的恶意软件。 研究人员最终实现了他期望的结果,成功利用人工智能生成了能够绕过微软 Defender 复杂安全解决方案的恶意软件,其成功率约为 8%。相比之下,Anthropic 的 Claude 人工智能在类似测试中的成功率不到 1%,而 DeepSeek 的 R1 模型的成功率仅为 1.1%。 随着人工智能骗局和恶意软件变得越来越复杂,像微软这样的公司是否会加大其安全解决方案的力度,将是一个值得关注的问题。在当前形势下,他们似乎别无选择。
VC、大厂、国资争先下注具身智能:泡沫狂欢,还是人机共存的黎明前夜?
做2025年下半年和2026年上半年会是一个产业交卷的窗口期。 文丨李佳晅 编辑丨张睿 2025年,热钱持续涌向具身智能。 DeepSeek横空出世,宇树机器人登上春晚舞台,兼具软件层面大脑能力与硬件层面制造能力的具身智能被推向了资本及舆论关注的新高潮。 IT桔子数据显示,2025年1月至7月10日,国内的具身智能&人形机器人领域共发生141起投融资事件,其中有121起来自机器人整机厂,20起来自机器人零部件企业。要知道,2024年全年具身智能领域的投融资事件共77起,数量远低于2025年上半年。 “物理AI和机器人正在飞速发展,可能会成为规模最大的产业。”英伟达CEO黄仁勋在GTC2025年度技术大会上表示。 今年,“具身智能”首次被写入政府工作报告,全国多地已开始布局具身智能等人工智能技术产业发展,比如北京市将加快实现具身智能科技创新和产业创新深度融合,利用三年时间,力争突破百余项关键技术,推动万台具身机器人规模落地,培育千亿级产业集群;苏州市提出以具身智能技术为核心,覆盖工业、医疗、物流等15个垂直领域,加速技术融合与场景落地,至2027年,苏州市人工智能相关产业规模预计突破3000亿元,其中具身智能被列为重点发展方向;深圳市将构建具身智能基座及垂直领域大模型等。 在热闹的具身智能领域,什么样的企业拿到融资?谁在为具身智能出资?热潮背后,行业面临的技术早期性、产品成熟度不足困境,具身智能企业交卷窗口期何时到来? 大量资金涌入: 51起融资单笔过亿 截至7月10日,2025年以来具身智能领域单笔过亿的融资事件共有51起。 点击查看完整清晰大图 其中,银河通用于2025年6月获得融资11亿元,成为具身智能领域单笔最高融资金额。该轮融资由宁德时代及溥泉资本领投,国开科创、北京机器人产业基金、纪源资本(GGV)等机构跟投。银河通用曾在2024年6月和11月,分别宣布超7亿元的天使轮融资和5亿元战略轮融资,目前累计融资金额已超过23亿元。 银河通用成立于2023年5月,从项目估值来看,与宇树科技、智元机器人一起位居国内具身智能赛道的第一梯队。2024年6月,银河通用发布了首款具身大模型机器人Galbot G1,采用“双臂+折叠+轮式底盘”的躯体结构,侧重上肢操作能力。 银河通用Galbot G1 2025年3月,银河通用发布人形机器人智慧零售解决方案,由轮式双臂机器人Galbot全天候在50平米的无人店铺内执行5000种商品种类、6000个货道、10000多盒商品的盘点、补货、取送、打包等自动化全流程。6月,公司宣布与全球工业巨头博世集团旗下博原资本共同成立合资公司,共同探索具身智能机器人在工业制造场景的应用。 头部具身智能企业融资的节奏在加快。2025年以来,完成两轮融资的具身智能企业21家,完成三轮融资的企业有6家,分别是自变量机器人、千诀科技、玄源科技、零次方、鹿明机器人,开普勒机器人完成四轮融资,星海图则在短短半年内完成5轮融资。 在已披露的融资金额中,累计最高的是它石智航——分别于2025年3月、7月完成的1.2亿美元天使轮融资和1.22亿美元的天使+轮融资,合人民币累计约15.73亿元。天使轮投资方包括蓝驰创投、启明创投、联想创投、线性资本、恒旭资本、高瓴创投等;天使+轮由美团战投领投,钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资共同跟投。 它石智航成立于2025年2月,创始人兼CEO陈亦伦曾任清华大学智能产业研究院智能机器人方向首席科学家,华为自动驾驶CTO,大疆机器视觉总工程师;首席科学家丁文超是具身智能领域青年科学家、复旦大学机器人研究院研究员,曾从0到1主导华为智驾端到端决策网络,打造复旦大学首个人形机器人;董事长李震宇曾任百度智能驾驶事业群总裁。 紧随其后的是星海图,在2025年完成累计A系列融资约12.5亿元。投资方包括美团龙珠、美团战投、北京机器人基金、亦庄国投、IDG资本、BV百度风投、凯辉基金、今日资本、襄禾资本、中金保时捷基金、襄禾资本、米哈游、无锡创投集团等。 星海图成立于2023年9月,产品包括通用仿人形机器人R1 Pro、轮式双臂移动平台R1 lite,构建了全链路具身智能开发平台EDP,2024年底以来,星海图轮式双臂机器人本体已交付至国内外百余家顶尖开发者客户,同构型本体出货量与开发者数量跃升至行业第一。 VC、国资、大厂争投 热钱来自何方? 当前具身智能领域在一级市场火爆的背后,热钱来自哪里? 通过梳理,亿邦动力发现当前在具身智能领域的投资方可以分成三大阵营:第一类是VC,注重具身智能企业的团队组成、技术突破以及商业化场景;第二类是互联网大厂、车企甚至电池巨头等产业玩家,能够为机器人在实训阶段提供工厂、仓储等应用场景“实习”;第三类则国家队和地方产业基金,为企业提供政策加持和产业链条资源,推动具身智能在工业制造、智慧物流等国家战略场景里落地。 VC疯狂抢位,仍难敌产业资本的现实吸引力 尽管年初金沙江创投合伙人朱啸虎唱衰人形机器人,但是主流人民币基金和美元基金都不愿意错过具身智能领域出手机会。 蓝驰创投管理合伙人陈维广认为,具身智能机会非常大,与其说逐一去分辨不同团队的技术组合,团队更大的判断是要重投入具身赛道。这背后的底层逻辑在于:中国发展具身智能在全球占优,尤其在供应链、工程效率上远优于美欧,就像当年押中智能驾驶一样,蓝驰创投相信这里能跑出下一代的全球性公司。 “当下,VC投科技已经成为行业共识。”华映资本创始管理合伙人季薇表示。华映资本今天已投资自变量机器人、魔法原子、星动纪元、云深处科技等多家处在不同发展阶段的具身智能企业。 然而在当下,VC却并不是头部机器人企业最青睐的投资方。季薇认为,企业更倾向于产投或大国资。前者能帮助机器人企业订单落地,后者可帮助企业资本化以及获取政府资源、行业资源。陈维广也表示:“如果入局晚了,就只能跟大厂拼资源了。” 美团半年出手4次,大厂密集参投独角兽 无论是美团、阿里、腾讯等互联网大厂,还是吉利、宁德时代、欣旺达等新能源车厂、电池厂,都已频频出现在具身智能投资方行列,而大厂投资既有财务投资,也有战略投资。 其中,美团对具身智能的投资最为激进,短短半年内投资4家企业。2025年6月,美团作为自变量机器人A轮融资的独家投资方,注入数亿元资金;2025年以来,美团还跟投了它石智航天使+轮融资,美团龙珠跟投星海图A+轮融资,妙动科技的天使轮融资。 腾讯则分别在2025年3月和6月入股智元机器人、宇树科技两家独角兽企业;加注宇树科技的还有阿里巴巴和蚂蚁集团,除宇树科技外,阿里巴巴还入股机器人企业源络科技,蚂蚁集团则投资灵巧手企业灵心巧手、钛虎机器人、星尘智能和星海图。百度风投则持续跟投星海图2025年的5轮融资。 新能源大厂方面,宁德时代入股银河通用,欣旺达成为阿米奥机器人天使轮独家投资方,吉利控股成为宇树科技C+轮投资方。 国资高频出手,押注具身智能产业卡位 国资及地方基金更为活跃:2025年以来,国投创合投资灵宝、星海图、智平方、智元机器人等企业;北京国管参与银河通用、小雨智造、星海图、宇树科技、云深处科技、自变量机器人等企业融资;上海国资多次加注智元机器人、傅利叶智能、开普勒等机器人企业;灵宝CASBOT获河南资产基金投资;跨维智能获四川发展产业引导基金、成都科创投资金等。据不完全统计,在2025年已经发生的141起融资事件中,国资及地方基金参与的超30起。 投资热潮背后: 具身智能下个赛点何时到来? 2025年至今,具身智能领域发生的天使轮、种子轮55起,A系列融资61起,占总融资数量的76%,B轮之后只有不到10%。由此可见,具身智能整个市场还处在典型的早期淘金热阶段,投资方用广撒网的方式疯狂下注,赛道处于技术爆发与生态构建期,市场活跃度极高。 大部分企业尚未到达需要验证商业模式和营收能力的B轮、C轮,真正能批量出货、跑通商业闭环的公司寥寥无几。但是也有头部企业在工业制造、商业服务、文旅展示等方面率先作出了商业化尝试。(点击《从实验室到工厂车间:具身智能卡位战,五大场景如何引爆1540亿市场?》查看更多详细内容) 《华兴一级市场温度指数报告-2025年Q2篇》显示,当下具身智能公司停留在demo阶段的公司普遍较多,且大多数公司在工业、商业等场景下的落地方案比较趋同、差异化不足,未来投资人会更加关注具身模型对真实任务的解决能力,以及其带来的高质量的商业化收入,投资人还会关注这些公司的技术领先性以及模型的持续迭代能力,以及如何解决数据获取的成本问题 此外,上半年具身智能赛道交易活跃度居首,但投资热情已经开始放缓。赛道各个技术路线目前仍处于高度非共识的状态,且分化对立的趋势愈加明显;具身公司是否获得了相对充足的资金储备会接下来的重要门槛,也就是说一批项目需要拿到更多的钱来渡过接下来可能变冷的行业周期。 具身智能涉及机器人运动控制、环境感知等硬核技术突破,大多数企业还处于在实验室调试机械臂灵敏度,或者在小范围场景里跑Demo的阶段。因此朱啸虎的话才引起诸多共鸣:“他们说的都是自己想象出来的客户,谁会花十几万买一个机器人去干这些活?” 蓝驰创投管理合伙人朱天宇表示,具身智能下一个赛点就是找到有客户买单、且愿意持续买单的场景。 人形机器人领域的第一大单于7月11日产生。中国移动采购与招标网显示,智元机器人和宇树科技分别中标中移(杭州)信息技术有限公司人形双足机器人代工服务采购项目。本次采购的项目总预算为1.2405亿元(含税)。智元机器人中标全尺寸人形双足机器人,预算为7800万元(含税);宇树科技中标小尺寸人形双足机器人、算力背包、五指灵巧手,预算为4605万元(含税)。 此外,智元机器人还于3月发布小尺寸人形机器人灵犀X2,可用于文娱表演、展厅讲解和科研教育场景。目前,灵犀X2已在中国移动展厅担任讲解员,未来还将入驻银行、汽车4s店、公园、学校,今年公司计划产量灵犀X2达数千台。 智元灵犀X2 7月8日,科创板上市公司上纬新材公告,智元机器人将收购公司约67%股份,控股股东变更为智元恒岳,智元CEO邓泰华将成为上纬新材实际控制人。虽然智元方面不断强调本次收购不是借壳上市,但获得一家科创板上市公司的实际控制权已是既定事实。 另一边,宇树科技创始人王兴兴在6月的夏季达沃斯论坛上透露,宇树科技年度营收已超10亿元人民币。在此之前,宇树科技发布通知,因公司发展需要,杭州宇树科技有限公司即日起名称变更为杭州宇树科技股份有限公司,外界纷纷猜测宇树科技正在为IPO上市铺路。 宇树科技Unitree G1 蓝驰创投合伙人曹巍认为,2025年下半年和2026年上半年会是一个产业交卷的窗口期。头部团队开始陆续提交阶段性成果,整个领域的发展走向将更加清晰。若头部团队能够交出优秀的市场答卷,这个市场还有可能继续火热;反之,如果大家发现2026年上半年答卷与预期相差甚远,例如机器人技术进步有限、无法实现产品应用场景落地,那么资本市场热度可能会有一定的回调。同时,具身智能公司很可能出现发展分化,有落地成绩的团队将获得更多关注和资源,脱颖而出。就如同新能源汽车早期发展阶段那样,尽管参与者众多,但是只有少数生存下来。
娃哈哈150亿遗产之争,我用秘塔版深度研究扒清了
作者 | 江宇 编辑 | 漠影 智东西AI前瞻7月15日报道,秘塔AI搜索“深度研究”,今日正式上线。 作为对“浅度研究”的迭代升级,深度研究上线后,新增“问题链”可视化方案,支持用户更清晰追踪模型的检索和分析过程,整体体验相比此前更加深入和可视化。 用户可通过metaso.cn或秘塔AI搜索App直接体验,选择“深度研究”,输入问题即可使用。 目前该功能按搜索积分使用,普通用户每天可免费使用3至5次,付费用户每日额度更高。 一、从“浅度”走向“深度”:更长链、更可视化、更少黑箱 1、产品功能:链路可视化、报告结构化和信源可控 秘塔AI“深度研究”模块,基于对复杂问题的分步拆解逻辑,支持从一个具体切口出发,自动完成广域信息检索和深度分析。 不同于传统AI搜索“一问一答”的模式,秘塔AI“深度研究”通过拆解任务,将大问题分解为一系列动态子任务,最终生成结构化、条理清晰的研究报告。 在具体功能上,“深度研究”包括三大亮点: “问题链”可视化: 每次深度研究均可追踪AI的拆解路径,信源、推理链路、各阶段结论均可清晰查看,提升结果的可验证性和可解释性。 互动式报告:支持完整报告与互动式报告双模式切换。 信源偏好设置:可自定义优先站点或屏蔽特定来源,进一步提升研究质量。 2、技术方案:分段强化学习,中文场景更适配 秘塔AI“深度研究”升级的核心是引入子任务拆解与分段强化学习(RL)方案,通过逐层任务推理,在算力资源有限的条件下有效提升了复杂问题的准确率。 此外,据官方透露,秘塔AI搜索“深度研究”在中文搜索场景下相较通义WebSailor Agent表现更优。 在BrowseComp(中英文)和xbench-DeepSearch两项评测中,秘塔AI“深度研究”均位列榜首,整体成绩高于DeepSeek-R1、QwQ-32B和GPT-4.1等主流模型。 ▲(来源:秘塔AI搜索官方) 二、体验:从“遗产大战”切入,秘塔AI如何梳理家族纷争? 本次体验,智东西以近期热议的“娃哈哈150亿遗产之争”为例,提出了一个实际问题,并让AI做出预测: 请梳理娃哈哈150亿遗产大战的来龙去脉,分析事件起因、诉讼焦点、信托资产争议和家族关系冲突,结合中国内地和香港的继承法律、信托法律,以及娃哈哈家族治理背景,归纳该事件对公司经营的潜在影响,并根据现有信息合理推测,这场遗产之争最终谁的胜算更大,为什么。 秘塔AI“深度研究”给出了完整路径——不仅复盘了事件起因和核心矛盾,还追踪到诉讼焦点、信托法律,用“问题链”梳理出一份逻辑闭环,给出“胜算预测和法律推演”。页面左侧实时显示token消耗与信源数量,底部是滚动任务进度条,主屏幕则是可动态展开、点开即查的“问题链”: 每个节点都配有信源出处,点击即跳转 缺失信息直接标红 研究报告可一键切换“全文报告”与“互动可视化” ▲(耗时8.8分钟,共耗费24万Tokens) 报告正文如下: 在“娃哈哈遗产之争”这个案例里,智东西体验发现,秘塔从最初追溯官方来源,到后续拆解遗产结构、梳理企业经营波动,每一条推理链路都有清晰的可视化展示。 用户在查证细节时,也不需要反复跳转搜索,可以顺着链路逐层点击,就能直接查看对应信源和结论。 互动研究报告如下: 跑完深度研究后,秘塔还可以自动生成互动网页,把核心信息按传播路径、关键节点、数据表格等分类整理,方便快速查阅。 类似热点话题,秘塔用一次深度研究基本能把整体脉络梳理清楚,用户用于整理素材或者直接截屏分享都比较省事。 整体页面布局也比较清晰,查完资料甚至直接拿去做汇报PPT,基础框架也能直接用上。 为了进一步了解效果,智东西也对比体验了Google Gemini的Deep Research功能,重点观察了两者在文本输出的长度、内容的覆盖深度和信源的丰富程度上的差异。 实际对比下来,Google Gemini的Deep Research在文本量、内容深度和广度上整体表现更优。无论是单次报告的字数,还是对多角度、多背景资料的覆盖,Gemini都明显更“堆料”,适合需要尽可能全面掌握背景信息的用户。 相比之下,秘塔AI“深度研究”的单次文本输出上限约为1万字,其篇幅更克制,在路径拆解、可视化链路、互动报告上的设计更偏向“查重点、看脉络”。 结语:不卷风口,要卷的是“真正被需要的产品” 当外界从“AI搜索”卷向“Agent大爆发”,秘塔AI将更多精力放在搜索体验本身,整体呈现出更扎实的完成度。 从产品成熟度来看,秘塔“深度研究”在可视化链路和交互体验上有明显优势,但在文本体量和信息覆盖广度上,仍存在一定差距。 从实际体验来看,当用户想查清一件事、梳理一套脉络时,“深度研究”类产品可以省去不少反复搜索和零散整理的时间。遇到复杂问题时,先跑一轮深度研究,而不是直接用传统搜索找答案,往往是更高效、更省力的方式。 下次刷到类似遗产争议、企业风波等复杂事件时,你可能也会想用‘深度研究’快速梳理清楚来龙去脉。
700元 我买了台毫米波显示器,这体验太欢乐了
线,线,线。 不管是理论上的,还是现实中的,我们每个人的人生,似乎都离不开“线”。 在安部公房的作品《绳》中,他曾表示,“绳索和棍棒是人类最早发明的工具。绳索可以留住美好,棍棒则可以驱赶危险。两者皆是我们最早的朋友,皆由我们创造。有人的地方,就有绳索与棍棒。” 这里的绳索,其实就是一种“线”。 而到了现实中,我们更是和“线”形影不离,从用于蔽体的衣服,到连接起全球的互联网,设备与电力的连接、设备与设备的连接,几乎可以说整个人类社会,本质上就是用“线”联系在一起的。 可是“线”一多,就会显得杂乱无章。 有的时候,看着那杂乱无章的桌面和四处散落的线缆,我的内心里真的会涌出一丝“干脆所有线缆都从世界上消失”的想法。 Wait a minute…… 动了这方面的心思之后,我去仔细查了一下,你别说,有这种想法的人可绝对不止我一个,目前市面上主打无线投屏的设备可真不少,除了传统Wi-Fi串流,各种新技术产品也是层出不穷。 (图源:Peakdo) 为此,我在二手平台上斥资近700元,拿下了初代的PeakDo无线HDMI便携屏,这款产品最大的特点在于毫米波无线传输,号称动态延迟可以低至0~2帧(32毫秒内),远超传统Wi-Fi串流方案。 那么现在,是时候品鉴一下真正的无“线”生活了? 从有线,到无线 不过呢,在开始之前,我们不妨来回顾一下那些年概念很美好,但用起来总差口气的“便携屏”。 在我印象里,最早接触到的能算得上“便携屏”雏形的,可能还是那些需要拖着根线,吃着笔记本USB口供电的便携显示器。 作为笔记本的“第二块屏幕”,它们最大的价值在于解决了“有无”问题,只需HDMI加USB供电/一根USB Type-C线就能点亮,让用户在移动办公时也能享受双屏带来的效率提升。 (图源:京东) 放在当时,能在咖啡馆掏出双屏工作的场景,对我这种数码爱好者来说,还是挺有吸引力的。 可惜“有线”这个原罪,始终是它们无法回避的痛点。 而且早期的产品,屏幕参数、色彩表现、亮度以及响应速度也往往不尽如人意,更别提触控这种“奢望”了。 用户对于摆脱线缆束缚的需求日益迫切,也刺激了一批厂商向着“无线化”探索。 在此基础上,第一批基于DLNA、Miracast无线显示标准协议的产品开始涌现。 就拿我曾经入手过的雕塑家4K OLED便携式显示器作为例子,这类产品一般都会采用相对高端的屏幕配置,那价格自然不会低廉,基于无线显示标准协议的多屏显示功能,往往只会成为高端化的一个卖点。 (图源:京东) 这些协议的出现,理论上使得手机、平板、笔记本的画面可以无线传输到便携屏上。但实际体验嘛,延迟高、连接不稳定、画质压缩严重是家常便饭,谁用谁知道,尤其对于动态画面或者游戏场景,几乎是不可用的状态。 想要打破这些问题,就必须打破无线显示标准协议的限制。 于是乎,主打毫米波(mmWave)低延迟技术/Wi-Fi 6/6E直连技术的一批无线便携屏就这样诞生了。 毫米波,“零延迟”? 接下来,该看看我手上这款Peakdo便携屏了。 初看这款PeakDo便携屏,扑面而来的便是一股小作坊手搓的廉价感。 整机采用了哑光黑的金属外壳,摸上去有一种微妙的廉价感,漆面本身不够工整之余,切口看起来也有一种纯手工打造的粗糙感,做工看着和正经量产的产品根本不是一条水平线的。 (图源:雷科技) 物理按键基本集中在机身顶部,从左到右依次为电源、菜单、音量增、音量减,最后是3.5mm耳机接口。 (图源:雷科技) 值得注意的是,机身侧边设计了两道滑轨,这个滑轨设计是参考初代Switch制作的,因此可以兼容大多数采用Joycon制式的手柄,PeakDo这款产品本身主打的也是和手柄联动的无线游戏体验。 (图源:雷科技) 翻到机身正面,映入眼帘的便是一块黑边超大的屏幕,事实上PeakDo的黑边比Switch OLED的黑边还要夸张不少,屏幕本身参数也不亮眼,1080P分辨率+60Hz刷新率,标称亮度达到500nits,实测74%NTSC色域。 (图源:雷科技) 嗯...只能说比廉价笔记本稍强一些。 观感上倒还好,毕竟大部分人也辨认不出更多的色彩细节,除了整体画面效果会显得颜色更深一些,偶尔暗部丢失细节之外,看图片、看视频甚至打游戏都没有什么大问题。 作为一款无线显示设备,PeakDo除了接收端,还有发射端。 (图源:雷科技) 发射端本身有点像U盘,把它插进设备的HDMI接口并供电,然后再把发射口和接收口中间的杂物尽量清理一下,我们就可以开始这款产品的体验测试了。 个人认为,对于无线显示设备来说,最重要的因素在于3点—— 串流范围、串流延迟、稳定性。 先来说说串流范围,我租住的出租屋是大单间,有一个隔出来的独立厨房和卫浴,大致就像下图这样,但是电脑和电视间有一个硕大的柜子隔断,直线距离大概在4-5m左右。 (图源:雷科技@豆包AI) 当我在把发射端接在PS5上,坐在电脑桌这边的时候,串流效果是很稳定的。 把直线距离加大一点,从门口到电脑桌,约摸着7-8m的范围,基本上也不会出现断联的现象。 但是只要离开这个大单间,哪怕只是踏进厨房一步,这个串流立刻就断了。 出现这种情况的原因很简单,毫米波本质上是波长为1~10mm的电磁波,优点就是波束更窄、速度更快,缺点就是信号穿透性差,发射器和屏幕之间最好不要有太多遮挡物,甚至人体遮挡都可能导致信号劣化或中断。有效传输距离也比较有限,稍微远一点或者角度刁钻一点,就可能出现卡顿或黑屏。 (图源:X) 只能说,相较于传统WiFi无线显示,毫米波在串流范围上确实不是强项。 当然,对于远程游玩来说,串流画面的延迟可能是更重要的一环。 在家居环境中,我没有刻意清理柜子等杂物,在近距离直接连接上PeakDo,最终测得显示延迟在60ms左右。 (图源:雷科技) 接下来,切换到PS5上,基于《GT赛车7》里计时赛的UI显示,可以看到PeakDo的串流延迟是60ms左右。 作为对比,在家庭网络环境中,实测PlayStation Portal的串流延迟在80ms左右。 (图源:雷科技) 事实上,当两款设备处在同一个环境中,传统Wi-Fi串流和毫米波串流之间的延迟差距远没有想象中那么大,考虑到PeakDo在连接手柄时还会增加一些延迟,可以说二者表现是在伯仲之间的。 除了《GT赛车7》,我又陆续测试了《宇宙机器人无线控制器使用指南》《怪物猎人》《审判之逝:湮灭的记忆》等各式各样的游戏作品,哪怕要进行「完美闪避」或「弹反」这样的精细操作也完全没问题,基本都可以无压力畅玩。 对延迟要求更高的音游,现在也都基本标配了矫正模式,实测用PeakDo游玩《节奏医生》的体验就蛮好的。 可以说,在单间室内环境下,基于500M的电信内网传输速度,两者的操作延迟几乎都是意识不到的,PeakDo并没有显著的提升。 那么问题来了,毫米波串流的优势到底表现在哪里? 答案是稳定性。 在成功连上之后,PeakDo只要能够放定在那里,就基本不会产生任何波动,画面稳定性和有线连接基本没有差别,你完全可以把它看成一块常规的便携屏——只是不需要接线而已。 实际游玩一个半钟《对马岛之魂》,整个远程串流体验可谓无可挑剔,连一次画面波动/连接中断的情况都没有出现过。 (图源:雷科技) 作为对比,传统Wi-Fi串流在很大程度上会受到网络波动的干扰,虽然在状况良好的情况下,二者可能表现差不了太多,但只要网络出现波动,传统Wi-Fi串流就会自动降低码率以保证画面的流畅。 从1080P一路降到240P,只能息屏重新连接的事情,我也不是第一次遇到了。 不过,如果是拿在手上玩的话,其实毫米波也遭不住就是了。 还是按需购买吧 经过这番测试,我可以打包票地说—— 这毫米波无线显示设备啊,确实是有他们的使用场景的,只是正经人可能这辈子也碰不上几次就是了。 (图源:雷科技) 如果你的家里拥有多款硬件设备,又希望在不同的显示设备上游玩的话。 那么选择购入毫米波设备,可能会比购买一条超长的HDMI/DP线缆都要更加稳定,毕竟我自己也是亲自购入过5m以上的DP线的,也不是第一次体验到信号断流导致屏幕亮了灭、灭了亮的感觉了。 不过,我并不推荐你购入这款产品,因为初代PeakDo便携屏的屏幕素质确实是有些微妙了,如果你的家里拥有显示素质上佳的屏幕的话,个人认为他们出品的毫米波无线投屏器或许会更加值得购入。 当然,传统Wi-Fi串流其实也蛮好用的就是了。 诶呀,如果你对画面的稳定性没有太大需求,Steam Link/PS Remote Play其实就够用了。
谷歌砸170亿抢人,华人创企捡漏:Windsurf 72小时闪电解体
编译 | 王涵 编辑 | 漠影 智东西7月15日消息,今日凌晨,自主AI工程师工具Devin所属公司Cognition与AI代码生成初创公司Windsurf在海外社交媒体X上发布联合视频,共同宣布Cognition已签署最终协议收购Windsurf剩余团队。 而就在3天前,谷歌花了24亿美元(约合人民币172.2亿元)挖走Windsurf前首席执行官Varun Mohan、联合创始人Douglas Chen以及编码工具研发团队的部分成员。据谷歌发言人透露,该Windsurf团队将加入谷歌DeepMind部门,主要致力于Gemini项目,专注于智能体编程。 ▲Cognition与Windsurf在海外社交媒体X上发布联合视频(来源:X) 在Cognition与Windsurf的联合视频中,Cognition首席执行官Scott Wu和Windsurf代理首席执行官Jeff Wang透露,他们将首先将Cognition的自主AI工程师Devin整合到Windsurf IDE中。 这种组合产品可以让开发人员能够规划任务、将代码生成委托给智能体并审查拉取请求,所有这些都在单一界面内完成。 回溯整个Windsurf收购事件,从与OpenAI的30亿美元(约合人民币215.2亿元)收购谈判搁浅,到谷歌 “只取核心团队” 的争议性操作,再到如今被Cognition接手剩余业务的 “一鱼两吃” 结局。Windsurf这一连串波折,正是硅谷AI人才大战白热化的缩影。 一、谷歌挖走联创,Cognition“包圆”产品和用户 据外媒CNBC报道,除了挖走联合创始人之外,谷歌还将支付24亿美元(约合人民币172.2亿元)作为选择Windsurf技术的非独家许可。该交易不包括对Windsurf的任何股权投资,也不包括对该公司的全面收购。与此同时,Windsurf保留了授权其技术的能力,并将继续独立运营。 谷歌发言人回复CNBC称:“我们很高兴欢迎Windsurf团队的一些顶尖AI编码人才加入谷歌DeepMind。” 今日凌晨,Cognition与Windsurf,在海外社交媒体X上发布会联合视频宣布:Cognition已签署最终协议收购Windsurf剩余团队,收购金额尚未公开披露,具体的交易条款也尚未公布(两家公司均为未上市初创公司)。此次收购使Cognition能够获得Windsurf的核心产品、品牌和剩余团队。 在一篇题为“The Next Chapter”的Windsurf博客文章中,Jeff Wang直接承认了内部的动荡:“上周,我们失去了我们的创始人和研究团队。” 他赞扬了剩余员工在过渡期间的专业精神,并强调尽管经历了一些混乱,但许多优秀品质依然完好无损。 Jeff Wang在博客中写道,Windsurf的企业收入继续环比翻番,并且保持着数十万的每日活跃用户。Cognition强调,该交易包括Windsurf员工的全面财务参与,包括免除悬崖和加速归属。 ▲Windsurf博客文章(来源:Windsurf官网) Windsurf内部信翻译如下: 各位同事: 首先,我想承认Windsurf最近确实经历了一段动荡时期。上周,我们的创始人和研究团队相继离职。感谢大家在这段时间表现出的专业态度,我知道这并不容易。 尽管经历了这些波折,但让我们引以为豪的核心优势依然存在。我们的业务增长势头强劲,企业收入每季度翻倍,与合作伙伴和政府机构建立了优质渠道,并拥有数十万日活跃用户。 今天,我非常高兴地告诉大家,Windsurf将被Cognition收购。我们的顶尖团队将与这家创造了首个自主软件工程师Devin的标杆企业强强联合。我们的现有客户和强劲的业务线将得到更好的支持,并享受前所未有的产品创新。同时,Windsurf的独特知识产权也将融入Cognition,助力联合团队继续推动AI编程能力的边界。 在众多优质选择中(再次感谢大家的才华和努力让我们走到今天),Scott和他的团队是我们毫无疑问的最佳选择。就像我之前半开玩笑说过的那样,他们是唯一让我们感到压力的竞争对手。在整个AI领域,Cognition确实是我们最尊敬的团队,也是带领Windsurf进入下一阶段的完美伙伴。 作为领先的应用型AI公司,Cognition的旗舰产品Devin已在多家世界500强企业的生产级代码库中部署。他们的收入增长速度甚至超过了我们的高速发展,目前已通过Founders Fund等机构融资超过3亿美元(约合人民币21.5亿元),最新估值达到40亿美元(约合人民币287.0亿元),拥有稳健的财务状况和更强劲的客户资源。 这也是产品层面的完美结合:我们开创了智能IDE,而Cognition打造了市场领先的自主智能体。未来,工程师可以在Windsurf中规划任务(借助Devin对代码库的深度理解),将模块化工作分配给Devin团队,同时通过Tab、Cascade等功能在Windsurf中亲自处理最具挑战性的部分——最终在同一环境中无缝整合。这就是我们将共同创造的未来。 通过这次交易,两支世界级团队将在共同愿景下携手并进,并拥有强大的发展动能。“智能体+IDE”的组合将成为极具竞争力的解决方案。最重要的是,我们现在能够更好地服务快速增长的用户群体——无论是创意编程爱好者、独立开发者还是大型企业团队。 最后,我要向忠实的客户、Cognition的新同事,以及每一位才华横溢且忠于使命的团队成员表示衷心的感谢。 二、Cognition+Windsurf=智能体+IDE Cognition的协议如今为Windsurf的运营方向带来了亟需的清晰指引。在宣布此次交易的视频中,Scott Wu描述了两个平台将如何整合:“想象一下,在Windsurf中规划任务,组建Devins团队,并在舒适的IDE中审查PR。” Devin可以自主完成修复错误和部署应用程序等软件任务,现在将直接嵌入到Windsurf的IDE中。两家公司认为,这种设置将使开发人员能够将重复性工作并行卸载到多个智能体,同时仍然保持对关键架构决策的控制。 Cognition将此视为构建协作式人机代理系统的下一步,并称Windsurf的IDE提供了缺失的界面层,使代理工作流程能够大规模实用。两家公司对此十分有信心,认为用户将受益于更流畅、更紧密集成的开发体验。 Windsurf博客文章还扩展了产品级计划,确认Windsurf现有的功能(如Tab和Cascade,用于手动高杠杆编码)将继续集成在IDE中。 开发人员可以把工作分配给“一组Devin团队”,同时仍然可以自己完成或编辑复杂的部分。“所有工作都可以在同一环境中无缝衔接。”Jeff Wang写道。 合并后的Cognition-Windsurf实体将与GitHub Copilot、Replit、Cursor和其他AI原生IDE厂商直接竞争。谷歌的Gemini平台和微软带有“智能体模式”的Visual Studio Code也在迅速向该领域扩张。 三、和OpenAI“黄”了,跟Anthropic“和好” Jeff Wang在视频中还特别提到了Claude制作商Anthropic:“当然,我们再次与Anthropic成为朋友。” 为什么是“再次”? 外媒彭博社在5月份报道称,OpenAI已就收购Windsurf展开独家谈判,谈判金额高达30亿美元(约合人民币215.2亿元)。 然而在这期间,Windsurf的沟通渠道一度陷入沉寂,其产品变得不稳定,有多个合作伙伴退出,其中最具破坏性的打击来自Anthropic:Anthropic于6月初取消了Windsurf对其Claude 3系列型号的许可。 Windsurf在其博客上发表的声明中证实,Anthropic在不到一周的时间内切断了几乎所有Claude 3.5 Sonnet、Claude 3.7 Sonnet和相关型号的第一方API容量。为了应对这种情况,Windsurf不得不通过第三方推理提供商重新路由流量,并限制免费套餐用户的访问。该公司还推出了Gemini Pro的促销价,作为临时替代方案。 Anthropic联合创始人Jared Kaplan在TechCrunch Sessions: AI 2025上解释了这一决定,称该公司认为通过中间层向其最大的竞争对手OpenAI提供其模型的访问权限十分不合理。 ▲Anthropic联合创始人Jared Kaplan(来源:TechCrunch) 考虑到竞争压力,又考虑到Anthropic有限的计算能力,他认为“我们把Claude卖给OpenAI会很奇怪。”Kaplan补充说,Anthropic更倾向于专注于“持久的合作伙伴关系”,就像它与Cursor保持的那种关系一样。 Windsurf在声明中表达了失望,并强调其平台不仅仅是提供模型访问。“Windsurf的魅力从未仅限于模型”该公司写道,并强调了其用户体验(UX)功能、企业集成和代理工作流程。 四、“人才收购”成监管灰色地带,谷歌、微软、Meta争相效仿 谷歌的意外收购与2024年8月达成的一项协议如出一辙,该协议旨在从聊天机器人初创公司Character.AI聘用关键员工。 包括微软在内的大型科技公司,亚马逊和Meta等公司也采取了类似的所谓收购租赁交易,一些人批评这种交易是为了逃避监管审查。 微软于2024年3月与Inflection AI达成6.5亿美元(约合人民币46.6亿元)的协议,使用这家AI初创公司的模型并聘用其员工,而亚马逊于去年6月聘请了AI公司Adept的联合创始人及其部分团队成员。 今年6月,Meta收购了Scale AI 49%的股份,并挖走了其联合创始人兼CEO Alexandr Wang(汪滔),这是迄今为止对这种日益增长的商业合作形式的最大考验。 与那些让买方获得控股权的收购不同,这些交易无需接受美国反垄断监管机构的审查。然而,如果监管机构认为交易的结构是为了规避这些要求或损害竞争,他们可能会对交易进行调查。 其中许多交易现已成为监管调查的对象。 结语:巨头盯上初创潜力股,硅谷AI人才争夺愈演愈烈 从Meta收购Scale AI 49%的股份,并挖走了其联合创始人兼CEO Alexandr Wang(汪滔)开始,硅谷AI人才争夺战愈演愈烈。 可以看到,自身技术迭代难以支撑科技巨头抢占AI技术潮头的野心,他们开始瞄准初创公司里的“潜力股”,试图借并购、整合带来的“鲇鱼效应”,激活企业内部,甚至搅动整个市场的活力。 硅谷愈演愈烈的AI人才争夺战,仍在持续升温,短时间内看不到平息的迹象。
比想象更严重 索尼Xperia 1 VII问题扩及全球:多地区停止销售
快科技7月15日消息,索尼旗舰手机Xperia 1 VII自上市以来便被寄予厚望,不仅搭载了最先进的骁龙处理器和全新的影像系统,还肩负着整合索尼在影像、音效与游戏等领域的战略任务。 然而,这款备受期待的手机却陷入了严重的质量问题风波,自7月初开始有用户反馈称,Xperia 1 VII出现了无预警自动重启、进入重启循环,偶发性电源异常关机,甚至无法开机变“砖”的问题。 这些问题不仅无法通过系统更新解决,用户也无法自行修复,甚至连官方恢复工具Xperia Companion也无法成功解决。 7月初,索尼在日本停止了Xperia 1 VII的销售和发货,随后,该公司在中国台湾和香港也宣布了相同的举措。 几天后,索尼通知英国消费者,公司正在调查问题的原因以及受影响库存的范围,此外,索尼还在芬兰停止了该手机的销售,并从芬兰网站以及当地零售商和运营商的网站上移除了Xperia 1 VII及其他型号的列表。 据爆料,此次Xperia 1 VII的大规模异常事件可能与生产工厂的变更相关,如果情况属实,整体调整与恢复正常出货至少需待至秋季以后,这意味着Xperia 1 VII若想重返市场,最快也要等待三至四个月。 如果最终复产延迟过久或消费者信心无法恢复,索尼可能直接中止Xperia 1 VII的全球销售计划,选择由下一代机型取而代之,不光如此,还有消息称索尼可能会终止手机业务。
2000元手机质感不行?这四款手机质感媲美高端旗舰
【CNMO科技导购】过去两年,中端手机市场经历了一场“质感革命”。曾经受限于成本,厂商往往在2000-3000元价位段采用大塑料机身、廉价涂层或粗糙的仿金属设计,但如今,旗舰机的材质和工艺正快速下放,让中端机也能拥有媲美高端机的精致触感。 一加Ace 5至尊版 2022年以前,中端机普遍采用塑料背板+塑料中框的组合,虽然性价比突出,但握持时的廉价感明显。而到了2023年,玻璃背板几乎成为中端机的标配,比如REDMI Note 12 Pro+、一加Ace 2等机型均采用AG磨砂玻璃,触感细腻且不易沾染指纹。此外,越来越多的旗舰级背板工艺开始下放,如荣耀X50、realme 11 Pro+等机型背板采用素皮材质,提供了更接近旗舰机的柔软触感,同时提升了产品的视觉档次。 过去,金属中框是旗舰机的专属,但近两年,越来越多的中端机开始采用金属材质。金属中框不仅提升了结构强度,还让整机握持更显高级。相比过去的塑料中框,金属中框的光泽和冰凉触感让中端机在质感上真正向旗舰靠拢。 真我Neo7 Turbo 接下来,就由CNMO为大家推荐四款2000元左右质感优秀的手机,它们分别是:一加Ace 5至尊版、荣耀400、红米K80至尊版和真我Neo7 Turbo。 相比于如今各种各样大面积的镜头模组,一加Ace 5至尊版的影像模组也算是别具一格。而且,Ace 5至尊版的这种影像模组设计在日常使用中不会影响到手机的握持手感。 一加Ace 5至尊版 一加Ace 5至尊版机身设计相当用心,摄像头模组采用竖排矩阵结构,占用面积不大,对于横屏游戏党而言,手指基本不会触碰,十分贴心。中框采用哑光金属材质,搭配圆润大R角设计,边缘顺滑,无论是横握还是竖握,都不会有硌手的感觉。手机厚度约8.10mm,重量约206g,轻薄机身加上1:1均衡配重,拿在手中轻盈舒适,长时间握持也不易感到疲惫。 在周边配置方面,一加Ace 5至尊版同样表现出色。它搭载6.83英寸1.5K电竞直屏,分辨率为2800×1272,像素密度达450ppi,显示极为细腻。该屏幕还支持最高144Hz刷新率、1400nit全局峰值亮度、3840Hz高频PWM调光与全亮度类DC调光。 性能上,一加Ace 5至尊版搭载天玑9400+旗舰芯片,配合16GB大运存以及UFS 4.0闪存,安兔兔综合跑分成绩突破322万分。此外,手机还配备了6700mAh的大电池,结合100W超级闪充,能够实现长久续航。 如果你正在寻找一款外观出众、质感上乘且周边配置强大的手机,一加Ace 5至尊版绝对是一个值得考虑的选择,它能为你带来全方位的优质体验。目前12GB+256GB版本价格为2039元。 荣耀400凭借轻薄的机身与优秀的外观设计,带来了堪比高端旗舰手机的质感。现在荣耀400的起售价为2124元。 荣耀400 荣耀400拥有精湛的制造工艺,机身采用超细腻金属中框,利落的棱线设计锋芒毕露,搭配精研雾面工艺,触感细腻且不易沾染指纹。196g的重量与7.8mm的厚度,在保证轻薄的同时,兼顾了握持的舒适感。更令人称道的是其“流光织锦”工艺,每一台手机背面的灵动纤维纹理都独一无二。无论是视觉还是触觉,荣耀400都能为用户带来高端旗舰般的体验。 荣耀400不仅外观出众,其硬件配置同样令人惊艳。其搭载2亿像素AI超清影像系统,主摄配备1/1.4"超大底传感器,支持OIS+EIS双重防抖,配合16合1像素融合技术,轻松捕捉清晰细腻的瞬间。112°超广角微距镜头和5000万像素前置摄像头,满足用户的拍摄需求。此外,荣耀400内置7200mAh青海湖大电池,搭配AI智能电量调度引擎,续航能力全天无忧。搭配80W有线超级快充,仅需15分钟即可充至39%。 此外,荣耀400在屏幕护眼方面同样表现出色,采用38840Hz超高频PWM调光,有效降低屏幕闪烁对眼睛的伤害,并通过德国莱茵TV无频闪认证。其独有的AI类自然光护眼和助眠显示技术,能够根据环境光线智能调节屏幕色温,缓解视觉疲劳,甚至提升褪黑素分泌,帮助用户获得更好的睡眠质量。 荣耀400凭借质感设计、强悍影像、持久续航和健康护眼,成为中高端市场的全能选手。无论是追求时尚的年轻人,还是注重实用性的上班族,都能在这款手机上找到心动的理由。 长久以来,红米手机给消费者的印象便是性能强大,外观质感一般。然而,红米K80至尊版的出现打破这一刻板印象。 红米K80至尊版 红米K80至尊版首次采用旗舰玻纤背板,不仅重量更轻、厚度更薄,还具备出色的强韧性和耐用性。机身背部搭配金属相机DECO,通过CNC金属材质与高精度精雕纹理工艺,呈现出细腻光泽与高级质感。四曲面包裹式金属中框采用整块铝箔CNC切割工艺,边缘平滑不硌手,握持舒适度大幅提升。超薄相机一体化设计进一步优化了机身线条,同时降低了跌落损伤的风险。 作为性能旗舰,红米K80至尊版搭载天玑9400+旗舰芯片,采用台积电3nm制程工艺,超大核主频高达3.75GHz,配合独立AI模块与PC级独显芯片D2,无论是高负载游戏还是多任务处理都能轻松应对。 红米K80至尊版在细节配置的堆叠上同样不留余力,搭载大师级同轴对称双扬声器,高低频同轴双单元设计带来全频段好音质,无论是游戏声效还是影音娱乐都能沉浸其中。超宽频赛博马达提供更强劲、更精准的振动反馈,触感体验媲美专业游戏手柄。此外,该机还支持Dolby Vision、HDR Vivid等超高清认证,影音表现全面升级。 如果你正在寻找一款兼具质感与性能的手机,红米K80至尊版无疑是2025年最值得入手的选择之一。目前国补后起售价为2209元(12GB+256GB)。 真我Neo7 Turbo自发布以来,就凭借独特的设计语言与极致的质价比吸引了众多消费者购买。目前,12GB+256GB版本到手价仅需1700元。 真我Neo7 Turbo 真我Neo7 Turbo以极具未来感的"透明新生设计"重新定义了智能手机的美学语言。手机背部采用独特的晶透背板工艺,将精密内部构造以艺术化的方式呈现,营造出悬浮立体的视觉奇观。透明灰与透明黑两种配色方案,完美平衡了科技感与高级感。背板精心雕刻的纹理在光线流转间展现出迷人的光影变化,与NFC灵透线圈、闪能DART标等设计元素相得益彰,让实用科技成为视觉美学的一部分。这种大胆创新的设计理念,让Neo7 Turbo在众多旗舰机型中脱颖而出,成为彰显个性的时尚单品。 在惊艳的外观之下,真我Neo7 Turbo搭载了天玑9400e旗舰芯片,配合LPDDR5X内存和UFS4.0闪存组成的满级存储组合,安兔兔综合跑分高达245万,轻松应对各类重度使用场景。特别配备的"电竞抢网芯"技术,可以确保在网络拥堵环境下依然保持稳定连接。此外,该机内置7200mAh超大容量泰坦电池,搭配100W光速秒充,实现超强的续航能力。 真我Neo7 Turbo配备了一块6.7英寸1.5K分辨率京东方Q10旗舰屏,采用先进的144Hz超高刷新率,配合1.3mm视觉等窄边框,带来沉浸式的视觉体验。这块屏幕不仅拥有6500nit的超高峰值亮度和1800nit的全局激发亮度,更搭载了领先业界的4608Hz超高频PWM调光技术,大幅降低频闪对眼睛的伤害。
瑞银预估苹果首款折叠iPhone定价1800~2000美元,物料成本759美元
IT之家 7 月 15 日消息,Fortune 昨日(7 月 14 日)发布博文,报道称瑞银(UBS)预估苹果首款折叠 iPhone 的物料成本(BoM)为 759 美元(IT之家注:现汇率约合 5444 元人民币),定价在 1800~2000 美元(现汇率约合 12911 ~ 14345 元人民币)之间,预估初期销量在 1000~1500 万部之间。 瑞银拆解了三星 Galaxy Z Fold 特别版,分析显示该折叠手机的物料成本大约为 790 美元(现汇率约合 5666 元人民币),并以此预估苹果首款折叠 iPhone,认为其物料成本要低 4%,为 759 美元(现汇率约合 5444 元人民币)。 此前报告指出苹果首款折叠 iPhone 售价可能为 2000~2400 美元,成为苹果迄今为止最昂贵的手机。而瑞银的这份评估报告,认为售价在 1800~2000 美元,贡献利润率在 53% 至 58% 之间。 iPhone Fold 的发布预计将对苹果的供应链产生积极影响,包括 Amphenol、Hirose、TDK、Avary 和 SDI 等公司。这些公司目前的交易价格低于历史平均估值,新产品的大量生产可能会提升市场情绪和股价。 该报告指出以下关键供应链信息: 显示面板:三星显示预计将是主要的供应商,具备年产 1500 万部 7 英寸折叠 OLED 面板的能力,而苹果正在多元化其供应商,LG 显示也可能参与其中。 外壳和铰链:设备可能会采用钛合金外壳和液态金属铰链,Lens Technology、Amphenol 和鸿海(富士康)等供应商将从更高的物料成本中获得更多份额。 EMS 供应商:鸿海预计将负责初期组装,立讯精密作为次要合作伙伴,反映了苹果利用其成熟的制造生态系统的策略。
“大模型六小虎”被曝获20亿融资,放出首个推理模型技术秘籍
作者 | 程茜 编辑 | 李水青 智东西7月15日消息,近日,“大模型六小虎”之一MiniMax新动向频发。 昨日,据晚点报道,MiniMax接近完成近3亿美元(折合人民币约21.5亿元)的新一轮融资,投后估值超过40亿美元(折合人民币约287亿元)。“大模型六小虎”中,智谱、百川智能、月之暗面估值均超200亿元,零一万物、阶跃星辰超100亿元。 上个月,MiniMax前脚宣布启动“发布周”,一口气发了推理模型MiniMax-M1、视频大模型海螺02、通用智能Agent MiniMax Agent、端到端视频创作Agent海螺视频Agent、语音设计工具;后脚外媒彭博社就爆料,MiniMax正在筹备赴港上市。 MiniMax成立于2021年11月,去年3月获得6亿美元A轮融资,当时估值约为25亿美元(约合人民币180亿元),该轮融资由阿里巴巴集团领投,红杉中国、高瓴资本参投。此前,腾讯、米哈游等公司也参与了MiniMax的融资。 今日,MiniMax放出了其在7月10日的M1全球技术闭门会的技术实录,M1团队与香港科技大学、滑铁卢大学、Anthropic、Hugging Face等技术人员,围绕RL(强化学习)训练、模型架构创新、长上下文展开探讨,主要干货信息如下: 1、针对有限上下文长度,RL能赋予模型新能力; 2、RL训练可以让模型获得范围广阔的知识; 3、只在数学和代码上进行RL训练,模型更容易产生幻觉; 4、Latent reasoning(隐性推理)可能是让模型用图像进行思考的一个方向; 5、Reward Modeling(奖励建模)、多智能体、AI自动化研究、非token空间推理是RL领域令人兴奋的挑战; 6、长上下文在Agent工作流中有巨大潜力; 7、混合架构将成为主流; 8、大模型领域,脱离硬件的纯粹算法研究正逐渐失去关注度。 如今大模型领域呈现出激烈的竞争态势,DeepSeek等模型引发行业震动的同时使得国产大模型格局深度洗牌,大模型六小虎纷纷调整战略求生存,在此背景下,MiniMax得到资本青睐,拿下大额融资、被曝冲刺IPO,其对于大模型在长文本处理能力、低成本训练等方面的有哪些创新点?这次技术闭门会有哪些独到见解能为业界提供参考?我们试图从其精华整理中找到答案。 一、揭秘M1背后闪电注意力机制,推理模型自我反思的关键是高效利用计算资源 今日放出的技术闭门会实录提到,MiniMax研究人员针对MiniMax-M1采用的混合线性注意力以及推理模型是否已经具备推理和自我反思能力进行了探讨。 MiniMax-M1是其发布周最先更新的模型,作为全球首个开源大规模混合架构的推理模型,参数规模达到4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40K和80K。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成本预期少了一个数量级。 M1是基于MiniMax-Text-01模型开发,采用了混合专家(MoE)架构和闪电注意力机制。 M1的闪电注意力机制可以高效扩展测试时计算。例如,与DeepSeek-R1相比,M1在10万个token的生成长度下只需消耗25%的FLOP,使得M1适合于需要处理长输入和广泛思考的复杂任务。 对于混合线性注意力会如何影响使用RL的推理模型的性能,技术探讨会中提到,在训练过程中,当其扩展到可处理数万token上下文长度的模型时,遇到了RL训练停滞不前,奖励信号在仅几百步后就不再增长的问题。这与线性注意力架构在这种规模下固有的训练不稳定性有关,会导致某些层激活值爆炸等,并使模型在训练和推理时的行为出现严重错位。 这使得其发现混合线性注意力的一个根本性权衡:效率极高,单位token的计算成本非常低,但通常需要生成更多的 token(即更长的推理路径)才能达到与full attention模型相同的性能。其工作证明:通过适当规模的RL以及合适的推理时算力,混合注意力模型能实现媲美Full Attention(全注意力)架构性能。 这对未来架构设计的一个关键启示——评估方法的重要性。为了公平地比较混合模型与其他模型,研究人员应该基于在给定任务下、固定总计算预算内的性能来进行评估,而不仅仅是比较固定输出长度下的效果。 被问及推理模型是否已经具备了System 2推理和自我反思能力,研究人员称,System 2推理和自我反思,可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。 首先其核心驱动力,是有效利用更大的计算资源来获得更好性能的能力。高级推理能力,是扩展这些资源后的直接结果,而非其根本原因。本质上,为模型提供更多的计算能力去“思考”,使得这些复杂的模式得以涌现。 其次,这种高级推理可以被看作是一种自动化的Prompt Engineering。对于数学或编程等复杂任务,模型学会了生成自己的内部思考过程,这实际上取代了人类提供详尽、分步式指令的需要。 对于写作等任务,模型在思考过程中会先对问题进行分析,并对写作步骤进行专业化拆解。它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使得模型能够通过创建详细推理路径来“像专家一样思考”。 因此System 2推理和自我反思,实质上是如何高效地利用并扩展计算预算(Computation Budget),同时也是模型自动深化用户问题的体现。 二、从MiniMax-M1到大模型产业核心议题:模型架构创新、RL训练、长上下文应用 从MiniMax-M1出发,MiniMax团队成员与其他技术专家还探讨了当下大模型行业的其他核心话题,如模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题,有以下8大核心要点: 1、RL训练可增强有限上下文长度模型能力 首先需要定义模型的基础能力:对于给定上下文长度的模型,在一组特定问题上无限次尝试下的通过率(pass@k, k→∞)是多少,如果通过率为1,就表示这个模型能解决这类问题,通过率为0,则表示模型解决不了。 如果模型的生成长度,即模型思考过程的长度无限,RL无法赋予模型新能力,所有能用自然语言表述的问题,理论上模型都可以通过有限次的采样尝试来解决。 如果针对有限上下文长度,RL能赋予模型新能力。因为RL所做的是改变模型输出的分布,预训练后,模型可能需要至少10W tokens才能解决某个问题,但经过RL微调后,它可能只需要10K tokens。如果模型有限上下文长度是50K tokens,那么RL的确赋予了模型新能力。 在有限上下文长度下, pass@k是一个好的衡量指标。K的取值很重要,这取决于如何定义模型能力,如果定义是“模型至少有一次能解决这个问题”,那么应该用尽可能大的k来衡量pass@k;但如果定义是“模型能否在4次尝试内解决问题”,那应该去衡量pass@4。 目前Reward(奖励)是RL scaling的核心瓶颈,特别是如何为那些不基于结果的奖励(Non-outcome-based Reward)进行建模,比如,人类可以从别人写的一段文字或反馈中获得正面或负面的感受,但目前并没有很好的方法来对这种主观感受进行建模。 2、预训练的价值在于更多样化的数据分布 原则上可以,只要有足够的信息源就可以用RL来替代任何过程。某种意义上,预训练只是RL的一种特例,任何监督学习都可以被看作是一种特殊的强化学习。现阶段,RL训练阶段的数据分布,要比预训练数据的分布狭窄得多,这正是目前进行预训练能带来的最大收益——它让模型获得了范围远为广阔的知识。 但在当前阶段,预训练的价值在于可以在预训练阶段接触到更多样化的数据分布。目前RL研究的核心挑战之一是如何拓展至Reward清晰的环境之外。奖励建模(Reward Modeling)可能是一种解决方案,但更为通用的奖励信号依然是行业在探索的方向。 3、只在数学和代码上做RL训练更易产生幻觉 关于通用推理,至少在今年二月左右,大多数RL数据都来自于数学或编程领域。事实上,只在数学和代码上进行RL训练,模型更容易产生幻觉。SimpleQA等事实性基准、MMLU等多学科问答基准上模型的性能都会显著下降。 因此研究人员做通用推理数据集的动机之一,就是创建更多样化的RL训练数据。WebInstruct-verified数据集旨在为所有领域构建更大规模的RL训练数据,以便模型能够在不同领域取得进步,而不仅是数学和编程。 现在MiniMax尝试进一步扩大这个规模,之前,通过在预训练数据集中搜索可用的RL数据来扩大规模,其已经将其扩展到50万量级,现在正尝试通过检索更大规模的预训练数据集,从中获取越来越多样的RL数据,并采用在Mid-training(中期训练)进行RL的范式,而不仅仅是作为后训练。 4、隐性推理是让模型用图像思考的可能方向 目前很多视觉推理范式,核心大都集中在文本形式的思维链上,视觉部分固化为一个ViT(Vision Transformer)编码器,无法让模型在编码图像上花费更多计算资源。像视觉语言模型Pixel Reasoner或其他研究,正试图帮模型重新审视图像的特定区域,并对其进行重新编码,从而在关键区域上投入更多算力。 但这并不是从底层提升模型能力的方法,现阶段更像是权宜之计。因为现有的视觉编码器太弱,无法很好处理高分辨率图像,所以才尝试用其他操作操纵图像表示,然后从输入中重新调用并在此基础上进行推理。现阶段,重新调用帧或高亮显示等工具,实际上都只是在增强感知能力。 其他更复杂的图像生成技术等工具,能从根本上改变图像,其已经超越了单纯增强感知的范畴,比如在几何问题中画辅助线。这种方法如果奏效,未来或成为“用图像思考”的更强大版本。 但仍需解决其根本的瓶颈问题:如何更好地编码视觉像素,以及如何以更好的方式在抽象潜在空间(Latent Space)中进行视觉推理。 Latent Reasoning(隐性推理)可能是一个方向。机器人或具身智能领域的视觉推理需要在空间中思考,在这些涉及空间感的场景下,很多推理过程是隐式的,无法被清晰地表述或言语化。 5、多智能体、AI自动化研究是RL领域挑战 RL面临挑战之一是Reward Modeling,特别是如何超越那些结果容易被评估的环境;另一个可能很重要的领域是多智能体,多智能体目前更多受限于基础设施,而非理论研究;另一个领域是AI自动化研究——让模型自己训练自己,这与AGI的定义相关,即当模型可以在没有人类干预的情况下,自我训练并自我提升;非token空间的推理也存在机会。 6、长上下文是Agent的破局点 长上下文在Agent工作流中有巨大潜力,Agent完成某个任务时,能将整个代码库、API参考文档、历史交互数据等等,全部一次性喂给它。这种任务不能分几次调用来处理,因为智能体完成任务时掌握的关于这个项目的信息越多,产出的质量就越高。 研究人员有望从目前在大多数情况下,只能处理相当孤立任务的智能体,发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。 M1超长上下文模型的真正价值在于解锁了全新的企业级应用场景。例如,法律行业客户需要把文件一块一块地喂给大语言模型,并用一些窍门来优化检索和上下文管理。这样问题在于,可能错过埋藏在某个随机法律文件某一页中的关键细节。1M token的上下文窗口就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源。 7、混合架构将成为主流 对比纯线性注意力和Full Attention,混合注意力机制(Hybrid Attention)是最有前景的方案。纯线性注意力机制有很多根本性局限,因为它的状态大小是固定的,因此,在处理长序列建模问题时表现不佳。 Full Attention虽然提供了灵活性,但其代价也显而易见:KV缓存大小会随着序列长度线性增长,并且训练复杂度也是平方级的。当序列不断变长时,高昂的推理和训练复杂度就会成为瓶颈。 混合架构将会成为模型设计的主流,因为随着对大规模部署和低延迟需求的增长,人们会越来越关心推理效率和模型的推理能力。未来如何进一步拓展混合注意力架构的空间,研究人员可能需要探索不是简单地用固定的比例来交错堆叠Softmax注意力和线性注意力层,或许需要更多样的混合架构形式。 在大模型领域,脱离硬件的纯粹算法研究正逐渐失去关注度。如果一项技术无法规模化,或者不能被高效地部署,那它就很难获得关注、形成势能。一个算法不仅要在理论上站得住脚,还必须在硬件上——尤其是在GPU或TPU这类加速器上高效运行。如今的算法研究者们还应该掌握一些底层的GPU编程工具,这才是当今在大模型领域做算法研究的正确方向。 混合架构目前的瓶颈在于基础设施。混合模型的有效性在去年就已经得到了很好的验证,但没有公司投入更多资金进行大规模验证。 8、混合架构推理速度对现实应用至关重要 在推理层面,随着混合注意力架构越来越流行,为了在SGLang或其他推理引擎中充分利用缓存感知和缓存复用等特性,研究人员需要为普通架构和混合架构设计统一的抽象层,这样才能简单地将所有优化应用到混合模型上。 此外当前MiniMax模型7+1层交错的架构可能会带来一些工程挑战,特别是在用计算图优化(Graph Optimization)进行部署时,因为不同层的计算和内存访问模式是不同的,这会导致GPU利用率不平衡。可能需要用一些技术来解决它,比如批处理重叠(Batch Overlapping)或者更先进的Pipeline策略。 从支持混合架构的技术层面来说,首先需要一个混合分配器(Hybrid Allocator),有助于管理混合架构的KV缓存。这些状态的生命周期与全注意力层的KV缓存并不同步,所以需要设计如何让它与现有的缓存机制、预填充、解码等环节协同工作。 其次,批处理重叠(Batch Overlapping)会很有帮助。采用了混合架构后,如果能将两个微批次(Micro-batches)重叠起来处理,只要比例计算得当,理论上任意时刻都会有一个微批次在执行计算密集型的Full Attention 操作,从而最大化GPU利用率。 从生产部署的角度来看,混合架构的推理速度对现实应用至关重要。例如,有一个客户,需要并发处理多个几十万token的请求。但对于使用二次方复杂度注意力的传统模型,在这种输入大小和并发量下,生成速度都会变得极慢。 结语:“大模型六小虎”发力 作为MiniMax推出的首个推理模型,MiniMax-M1是其在模型架构、算法创新上的最新探索。未来大语言模型在测试或推理阶段,往往需要动态增加计算资源或计算步骤来提升模型性能,尤其在Agent发展加速的当下,模型需要进行数十到数百轮的推理,同时集成来自不同来源的长上下文信息,才能执行任务。MiniMax在M1上的技术探索,对于推理模型能力、长上下文处理能力的突破或许均有可复用性。 与此同时,“大模型六小虎”之一的月之暗面也放出了其最新一代MoE架构基础模型Kimi K2,总参数量达到1万亿(1T),在预训练阶段使用了“MuonClip”优化器实现万亿参数模型的训练优化。 可以看出,被DeepSeek冲击的“大模型六小虎”现在正在卯足劲头,竞相通过技术创新开发更实用、更低成本的模型。
百度萝卜快跑与Uber达成战略合作,全球部署数千辆无人驾驶汽车
IT之家 7 月 15 日消息,今日,百度萝卜快跑宣布与全球最大的移动出行服务平台 Uber 建立战略合作伙伴关系,将萝卜快跑拓展至全球多个市场,并部署数千台无人驾驶汽车,为更多用户提供安全可靠的无人驾驶出行服务。 ▲ 图源百度公众号 按照计划,今年年底前双方将率先在亚洲和中东地区部署萝卜快跑第六代无人驾驶汽车,未来将逐步扩展至全球更多市场。服务上线后,乘客可通过 Uber App 呼叫到由萝卜快跑提供服务的无人驾驶车辆。 百度创始人李彦宏表示:“我们致力于让更多市场和更多用户享受到无人驾驶技术的成果,与 Uber 的合作是萝卜快跑在全球范围内部署无人驾驶汽车的一个重要里程碑。我们将与 Uber 一同,为世界各地的乘客提供安全高效的出行方式。” “这一合作是全球最具代表性的两家科技公司强强联合,共同定义未来出行。”Uber 首席执行官达拉・科斯罗萨西(Dara Khosrowshahi)表示,“作为世界上最大的移动出行平台,Uber 业务涵盖出行、配送和货运,具有独特的优势,可以将萝卜快跑无人驾驶技术快速推向全球市场。” 目前,萝卜快跑已在全球部署了超 1000 台无人驾驶汽车,足迹遍布香港、迪拜、阿布扎比等 15 个城市,为全球用户提供了超过 1100 万次出行服务,累计安全行驶里程已超过 1.7 亿公里。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。