行业分类:
加载中...
头条分类:
加载中...
阿里图像生成模型登顶HuggingFace,一句话把马斯克“变老”
就在8月19日,阿里发布了Qwen-Image,这是一个图像生成基础模型。这个模型的特点是,通过系统性的数据工程、渐进式的学习策略、改进的多任务训练范式以及可扩展的架构优化,旨在解决复杂文本渲染和精准图像编辑的核心难题。 在AI领域,图像生成技术作为其重要分支,近年来取得了显著进展。无论是从文本直接生成图像(T2I),还是对现有图像进行编辑(TI2I),其核心都在于机器能否精准地理解并以视觉形式再现人类的意图。尽管扩散模型等架构的出现极大地提升了生成图像的分辨率与细节表现力,但该领域仍面临两个长期存在的挑战。 在文本到图像的生成任务中,模型对于复杂、多维度的文本指令的理解与对齐能力尚有不足。尤其是在处理多行文本渲染、非字母文字(如汉字)渲染、特定位置的文字嵌入,以及将文字与视觉元素无缝融合等精细任务时,现有模型往往难以达到理想效果。 而在图像编辑任务中,如何确保编辑后的图像与原始图像在视觉和语义上保持一致性,是一个双重难题。这既要求视觉上的一致性,即只修改目标区域而不影响其他部分的视觉细节;也要求语义上的连贯性,即在进行结构性调整(如改变人物姿态)时,必须保留主体的身份特征与场景的整体逻辑。 01 Qwen团队专门发布了一份技术报告,名为《Qwen-Image Technical Report》,以此详细介绍Qwen-Image的功能。 为实现精准的文本渲染,Qwen-Image构建了一个全面的数据处理体系。该体系始于大规模收集数十亿级别的图文数据,并强调质量优于数量。数据经过一个分为七个阶段的精细化过滤管道,从低分辨率的基础筛选到高分辨率的美学提纯,系统性地提升了数据质量与图文对齐度。 同时,考虑到真实图像中汉字等内容的长尾分布特性,模型还通过“纯粹渲染”、“组合渲染”和“复杂渲染”三种策略大量合成高质量的文本图像数据,弥补了自然数据的不足。在此基础上,模型采用由简到繁的“课程学习”策略进行训练,显著增强了其渲染复杂中英文文本的能力。 为实现精准的图像编辑,Qwen-Image提出了一种增强的多任务学习框架。其核心是将输入图像编码为两种互补的特征:一是通过Qwen2.5-VL模型提取的高层“语义特征”,用于理解图像内容和编辑指令;二是通过变分自编码器(VAE)提取的低层“重建特征”,用于保留图像的视觉细节和纹理。 这两种特征共同作为引导信号,输入到作为模型骨干的多模态扩散Transformer(MMDiT)中。这种“双重编码”设计,使得模型在执行编辑指令时,既能理解“改什么”,又能知道“保留什么”,从而在语义连贯性与视觉保真度之间取得了良好的平衡。 模型架构上,Qwen-Image由Qwen2.5-VL(条件编码器)、VAE(图像压缩与解码)和MMDiT(核心生成网络)三部分组成。其中,VAE采用了独特的“单编码器、双解码器”架构,使其在保证高质量图像重建的同时,也为未来扩展到视频生成任务奠定了基础。MMDiT内部则引入了一种名为MSROPE的新型位置编码方法,通过将文本信息在概念上置于图像网格的对角线,改善了文本与图像特征的对-齐。 训练过程同样是渐进式的,从低分辨率到高分辨率,从无文本图像到有文本图像,并结合了监督微调(SFT)与直接偏好优化(DPO)等强化学习方法,持续优化生成结果的质量与遵循指令的准确性。最终,大量的基准测试和人类评估结果表明,Qwen-Image在通用的图像生成、复杂的文本渲染以及指令式图像编辑任务上,均达到了业界领先水平。 不多说废话,让我们直接看成品。我故意刁难Qwen-Image,既然官方技术团队报告中表示优化了对提示词的理解,那么我就要它生成自然界不存在的东西。从结果上来看,Qwen的冰山渲染效果比GPT-5更好,但是火焰跟冰山较为割裂,而GPT-5则用熔岩填充了火焰和冰山之间的部分,让画面更自然。 提示词:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting. Qwen-Image: GPT-5: 在图片重构方面,GPT-5除了猫整体都发生了改变,包括背景。可能是因为希望要求它漂浮在空中,GPT-5真的把这只猫送上了大气层,但是Qwen-Image则是漂浮在了半空中。 提示词:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon 原图片: Qwen-Imgae: GPT-5: 有意思的来了,由于原图片中出现了星条旗,GPT-5和Gemini都不能完成对原图片的修改。但是Qwen-Image完成了这个命令,虽然在生成的图片中,马斯克变得更加苍老了。 提示词:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background. 原图: Qwen-Image: 02 技术报告展示了Qwen-Image强大的图像生成与编辑能力,这自然引出一个问题:它能成为一个“AI版的Photoshop”吗?或者说,它在多大程度上改变了我们与图像交互的方式?要回答这个问题,我们需要比较它与传统图像编辑软件的核心异同。 从功能上看,Qwen-Image确实展现出了许多与Photoshop相似的核心编辑能力,但实现方式截然不同。Photoshop依赖于工具箱、图层和滤镜,用户通过直接操作(如画笔涂抹、选区拖动)来实现修改。而Qwen-Image则依赖于自然语言指令,用户通过“描述”来完成编辑。 在对象处理方面,Photoshop使用套索、魔棒等工具进行精确选区,然后进行复制、粘贴或内容识别填充。Qwen-Image则通过文本指令实现类似操作,例如“添加一只猫和一只狗”或“移除画面里所有的人”。它不仅能完成增删,还能理解风格要求(如添加卡通风格的动物),这类似于PS中需要手动调整新元素风格以匹配背景的操作,但Qwen-Image将其自动化了。 在材质与风格转换上,Photoshop提供滤镜库、图层样式和纹理叠加等功能。Qwen-Image同样能通过指令完成,例如将一个普通图标变为“珐琅彩玻璃艺术”风格的冰箱贴。这种基于语义的材质渲染,是其强大之处。此外,其精准的文本编辑能力,如修改、增删图像中的文字并保持原有风格,直接对标了Photoshop的核心功能——文字工具。 更进一步,在处理图像结构性变化时,比如人物姿态调整,Qwen-Image展现了超越传统工具的潜力。在Photoshop中,调整姿态可能需要使用液化、操控变形等工具进行细致的手动修改,且很难保证衣物纹理和背景的自然过渡。 而Qwen-Image能够理解“让她站起来,单手叉腰”这样的指令,并在保持人物身份、服装细节(甚至能推断出被遮挡的衣物部分)和背景一致性的前提下,生成一个全新的、符合逻辑的姿态。这种能力更接近于“重新想象”而非“修改”。 然而,尽管功能上有诸多重叠,将Qwen-Image简单地视为Photoshop的替代品并不准确。二者的核心工作范式存在根本差异。 最重要的地方在于控制的粒度。Photoshop提供的是像素级的、确定性的精确控制。用户可以选中任意一个像素点,赋予它一个精确的RGB值。而Qwen-Image的控制是语义级的、概率性的。用户描述的是“什么”,而不是“如何做”。你无法通过指令去精确控制某个特定像素的颜色,编辑结果总是在一定程度上由模型“自由发挥”,带有一定的随机性。 Photoshop的核心是基于图层的非线性、非破坏性工作流。用户可以随时返回修改任意一个图层,而不影响其他部分。Qwen-Image的编辑更像是一个“一次性”的再生成过程。尽管技术报告中展示了“链式编辑”(即在上一次生成结果的基础上继续编辑),但这与PS中灵活调整图层堆栈的逻辑完全不同。 精通Photoshop需要掌握复杂的工具、蒙版和色彩理论。而使用Qwen-Image则需要掌握“提示词工程”——用清晰、准确的语言描述视觉意图的能力。它极大地降低了图像编辑的技术门槛,但同时也引入了一种新的技能壁垒。 Qwen-Image并非Photoshop的直接替代品,而是一种全新的图像内容创作与编辑范式。Photoshop是一个“数字暗房”和“画布”,为专业人士提供了无与伦比的直接操控和精确控制能力。而Qwen-Image则是一个“语义指令引擎”,它将人的意图从繁琐的技术操作中解放出来,更侧重于创意构想的快速实现和语义层面的内容调整。 它们满足了不同场景的需求。一个需要进行精细排版和品牌视觉设计的专业设计师,依然离不开Photoshop的精确控制。但对于一个需要快速产出创意概念图、营销素材,或者不具备专业设计技能的用户来说,Qwen-Image无疑是更高效、更直观的工具。 虽然现在已经出现了一些带有AI功能的修图软件,但是能实现的功能还比较浅,比如消除图片中的人物、调整颜色等。未来,二者很可能会深度融合——在Photoshop这样的专业软件中,嵌入像Qwen-Image一样强大的语义理解和生成引擎,这在PS的“生成式填充”功能中已初见端倪。Qwen-Image的出现,标志着这条融合之路上的“语义引擎”一端,已经达到了一个新的成熟高度。
罗永浩预告TBT项目:筹备九年,换赛道了?
凤凰网科技讯 8月20日,罗永浩在社交媒体上发布重磅消息,宣布自己进军新赛道。他表示:“TBT 终于要上了!九年了,变的是赛道,不变的是特别想给这个赛道来点不一样的创新。重构你对泡面的想象,明天见!” 这一消息迅速引发广泛关注,大众对罗永浩口中将重塑泡面认知的TBT项目充满好奇。 此前,据白鹿视频报道,一段疑似罗永浩的私聊录音在科技圈引发热议。录音内容显示,在开发备受瞩目的TNT工作站之前,罗永浩曾秘密推进名为“TBT”的创新项目。他在录音中坦言:“虽然当时团队已经忙不过来,但这个项目实在太有诱惑力了。” 该项目最初被外界猜测为一项科技领域的创新计划,全称为“Tech Beyond Tomorrow”(超越明天的科技),曾被认为融合了AIOS操作系统、端侧大模型与颠覆性交互技术,目标是重新定义个人计算设备形态。从录音内容推测,该项目或许因过于超前、对技术和资金要求过高,加之当时锤子科技资源有限,最终未能成功推进,甚至间接导致锤子科技走向困境。 如今,时隔九年,TBT项目再次进入公众视野,且此次将目标瞄准泡面赛道。据微博配图显示,TBT项目首款产品为一款名为“九年磨一面”的创新泡面,包装文案强调 “面是可以被再次创新的”“特不像泡面”“3重特别革新”等概念。此举标志着罗永浩继电子烟、直播带货之后,正式跨界进军速食食品赛道。
Manus最新对话全文:尝试Agent支付,公司RRR近1亿美元
作者|Li Yuan 编辑|靖宇 搬到新加坡的 Manus,对通用 AI Agent 的思考没有停止。 在今天在新加坡举行的 Stripe Tour 上,Manus 联合创始人兼首席科学家季逸超(Peak)与 Stripe 亚太地区及⽇本⾸席营收官 Paul Harapin 进行了对谈。 席间,Manus AI 披露了近期的经营数据,Manus AI 年度化的经常性收入(RRR,Revenue Run Rate)已经达到 9000 万美元,很快即将上亿。 Manus AI 的肖弘还特意在即刻表示,Revenue Run Rate 指的是当月的 Revenue *12,并不等于 Cash Income。很多 AI 产品都会有年付选项,这部分只能算作预存款,而不能记为 Revenue。「如果我们按照这种【错误方式】披露,可以算出一个一个比 1.2 亿美金更大的数。」肖弘表示。 除了经营数据之外,季逸超还分享了 Manus 团队是如何思考通用 Agent 的的下一步的,以及 AI Agent 和 AGI 未来到底有什么区别。 「现在大家几乎把一切都叫做 Agent。比如一个麦克风,有人会叫它是「有环境感知的收音 Agent。」季逸超开玩笑地讲道。 他也给出了拓展通用 Agent 能力下一步的两条主线:其一,用多 Agent 协作把执行规模做宽(如在大规模调研里衍生出上百个并行的子 Agent);其二,给 Agent 打开更大的「工具面」,不把能力绑死在少数预置 API,而是像程序员一样调用开源生态、安装库、甚至在可视化后看图自检并回改。 季逸超还提到,今天的数字世界仍按「给人用」的范式建造——非 API 化网页、CAPTCHA、流程「小游戏化」带来大量摩擦,瓶颈更像生态与制度约束,而非模型智力。 这也是 Manus 参与 Stripe 活动的原因之一:双方正推进在 Agent 内完成支付,把「研究—决策—下单/结算」连成闭环,用基础设施协作来消解世界的摩擦。 以下为对话精华,经极客公园编辑整理: 问:给观众简单介绍一下你自己吧。你最近关于「上下文工程」的博客非常鼓舞人心,我觉得对于在座任何正在开发 AI Agent 的人来说都是必读的。我每次去和工程师们吃午饭时,他们总是在谈论这个,所以我现在只能坐到别的地方(笑)。但对于现场可能不太熟悉 Manus 的人,你能分享一下你的经历和愿景吗? 答:谢谢 Paul。很高兴能来到。Manus 在构建一个通用 AI Agent。 很多研究机构和公司,其实在尝试打造一个大脑——打造一个大语言模型。但我们认为,从消费者的角度来看,这其实并不好。AI 应该能真正采取行动,完成事情,所以我们构建了 Manus。 我们的方式,是让 AI 可以使用人类历史上最伟大的发明之一——通用计算机。给了 AI 计算机,它能做人类能做到的所有事。Manus 能真正完成任务。比如它可以帮你做演示文稿、帮你规划一次旅行,甚至能帮你运营社交媒体——虽然我并不推荐你真的这样做。 我们的用户真的很喜欢 Manus。我们在三月份发布了 Manus,现在已经实现了大约 9000 万的年度化的经常性收入(RRR,Revenue Run Rate),很快就会突破 1 亿。 我觉得这对我们这样一个小型创业公司来说非常巨大。但更重要的是,这表明 AI Agent 已经不再只是一个研究领域的流行词,而是真正在被应用,落地生根。 我可以和大家分享一个我们构建 Manus 过程中的小故事。 我们其实从 Agent coding 的应用中得到了很多灵感。比如像 Cursor 这样的 AI 编程产品,之前已经吸引了很多关注。 作为工程师,我们自然会使用 Cursor。但让我们惊讶的是,公司里很多非工程师同事也在用 Cursor。当然,他们并不是在写软件,而是用它来做数据可视化,甚至写一些文章。他们会忽略左边的代码部分,只是跟 AI 对话来完成工作。 这让我们意识到:我们应该把这种方式泛化,赋能非程序员。这就是 AI 的一个用例。 问:我们越来越常听到人们谈论 AI Agent 和 AGI。你能不能帮我们更清楚地区分这两个概念?AI Agent 和 AGI 对你和 Manus 来说各自意味着什么? 答:我们认为这是一个非常好的问题。 现在大家几乎把一切都叫做「Agent」。比如一个麦克风,有人会说它是「有环境感知的收音 Agent「。 但至少我们主张,Agent 应该是应用型 AI 的一个子集。我们不妨退一步,看看常见的 AI 应用类别。 大多数人已经熟悉两类:一类是聊天机器人,比如 ChatGPT;另一类是生成式工具,比如 MidJourney 或 Sora。在这些系统中,通常只有两个角色:用户和模型。你和模型交互,得到输出。而 Agent 的不同在于,它除了用户和模型,还引入了第三个关键元素——环境。 这个「环境」的概念会因智能体类型不同而变化,比如在设计型 Agent 里,环境可能是一个画布或一段代码;而在 Manus 这里,我们的目标是让 Agent 出现在虚拟机甚至整个互联网中。这样 Agent 就能观察环境,决定下一步该做什么,并通过行动来改变环境。这让它非常强大。 比如在 Manus,你可以表达需求,它会打开浏览器、发布网页、帮你订一张机票。我很喜欢这个例子,因为虽然订机票听起来很简单,但这其实是 AI 在直接改变现实世界——结果不是模型的输出,而是你手里的机票。AI 真正介入了你的世界。这就是我们所说的 Agent。 简单来说,Agent 就是能代表用户与环境交互的 AI 系统。 至于 AGI,这个词也经常被提到,很多人把它等同于超级智能。我们认为,AGI 是一种能利用 AI 模型的通用能力,在不经过特别设计的情况下完成许多任务的系统。 我们认为「Agent coding」其实是通往 AGI 的一条路径。它不是一个垂直领域的能力,而是如果你把它赋予计算机,它几乎能在计算机上做任何事。所以对我们来说,AGI 的条件就是要构建足够完善的环境,让这种能力得以发挥。 问:AI 今天究竟在哪些场景中真正发挥了作用?未来会在哪些地方发挥作用?什么时候会出现 iPhone 时刻? 答:就 Agent 而言,如果单看模型能力的话,现在的旗舰模型已经非常惊人了,几乎是「超人」级别的。它们可以在数学竞赛或逻辑推理上胜过我们大多数人。 但我认为,模型仍然像是「瓶子里的大脑」,如果想真正发挥力量,就必须让它们与真实世界交互、触达现实。但不幸的是,这正是问题开始的地方。 比如你让一个 AI 去做一些事务性的任务,它在重复性任务上确实很擅长。比如像 Deep Research 这样的产品,它只是聚合信息然后给出一个结果,它的输出只是简单地出现在那里。 举个例子,现在几乎所有东西都是为人类设计的,不只是物理世界,甚至数字世界也是这样。比如网页工具,它们就像小游戏一样,没有提供 API 或标准接口。验证码 CAPTCHA 无处不在,处处在拦截 Agent。 所以我认为 AI 在封闭的自包含任务中表现很好,但一旦涉及真实世界,就会遇到障碍。 未来什么时候能出现 iPhone 时刻?我觉得这并不是技术问题,而是更像是一种制度性限制。这不是像我们这样的 Agent 创业公司能够单独解决的事情。 我认为这需要一个渐进的转变,要求整个生态系统共同进化。这也需要像 Stripe 这样的公司在基础设施层面发力。比如我们正在集成新的 stripe 的 Agentic 支付 api。大家共同努力。 问:那我们能不能具体谈谈用户在使用 Manus 时的一些典型场景?他们是如何使用的?这其中体现出了怎样的力量? 答:是的,我们虽然来自当前这一代 Agent,但已经看到很多很棒的用例。 比如说,我们刚刚搬到新加坡,需要雇佣房产中介来帮我们找住所。是真人 Agent(笑)。 而现在这些中介已经在使用 Manus:他们会根据客户的需求,用 Manus 来分析公司所在地、员工想住的区域,并生成相应的推荐。 我觉得这很有意思,因为这属于一种「长尾需求」。一般来说,并没有专门的 AI 产品是为这种具体场景设计的,但由于 Manus 是一个通用型 Agent,它就能满足这些需求。我们认为长尾需求非常值得关注。 从宏观角度看,它可能是长尾,但对具体用户而言,这正是他们的日常工作。这种场景特别有价值。 这就像今天的搜索引擎格局一样。如果你只是搜索一些常见的内容,不管用 Google 还是 Bing,结果质量差不多。那为什么人们会选择其中一个?可能是因为某个搜索引擎在特定时刻给了他们更合适的结果。而如果你搜索的是非常个性化或专业化的内容,就更能体现差异。所以我们认为通用型 Agent 的优势就在这里。 那如何让它更好呢?我们思考了很久,因为我们认为一切都绕不开编程。如果你把计算机交给 AI,那么它与环境交互的方式其实就是通过编程。 我们认为可以从两方面改进。第一是规模化。但如果你能把 Agent 的能力放大一百倍会怎样呢? 最近 Manus 刚刚发布了一个新功能,叫做 Wide Research。它的基本思路是允许一个 Agent 再衍生出上百个 Agent 一起去完成任务。你知道的,如果只是让 AI 帮你做一些小事,很多时候你自己也能完成。但如果任务非常庞大,你一个人根本不可能完成,比如需要做大规模的研究,这时候让上百个 Agent 并行去做,就会变得非常强大。 其次,我们还需要让 Agent 更灵活地使用计算机使。比如,如果你只给一个 AI Agent 设置了预设工具,那么它的行动空间就被限制在这些工具里。但想象一下,如果你是一个程序员,你有整个开源社区的资源可以调用。 比如你在 3D 打印的时候,直接修改模型的参数很困难,但是你如果能找到 GitHub 上的合适的库,直接安装就能解决你的问题了。在 Manus,我们在优化通用性,并且提出了一个概念,叫做「工具的网络效应」。 有一个很有意思的例子:很多用户在用 Manus 做数据可视化。你们知道,在亚洲有时候会遇到问题,比如在图表中显示中文时可能会出现字体错误。或许有些专业用户会写一些硬编码规则,比如在输出韩文时应该用哪种字体。但这种方式会让系统越来越僵化。 我们采取的办法是给系统增加了一个很简单的能力:查看图像。结果很惊喜——因为今天的模型已经很聪明了,它们会在生成可视化图像后自己检查,并意识到错误,然后再自动修正。我们发现,增加工具的灵活性比硬编码规则能解决更多的问题。 问:这是一个令人兴奋的时代。我真的很激动,只希望自己能再年轻到三十岁(笑)。提到医学研究的,我知道 Manus 在这方面也很强。你们观察到有些用户在使用 Manus 研究医疗吗? 答:很多人已经在用 Manus 做研究,不仅限于医学研究。我们觉得这很有意思,因为现在确实有很多所谓的「深度研究」产品,它们会帮你收集大量信息并做一些分析,但最后只给你一个 markdown 文件或文档。这远远不够。 很多时候,研究人员真正需要的,是能够直接交付给老板或团队的成果。所以我们在 Manus 上加强了研究结果的输出。例如在医学研究中,很多时候需要生成正式的报告,比如幻灯片报告之类的东西。因此我们必须优化 AI 的输出能力,以满足研究人员的需求。这是一种「工具化」的体验。 比如现在很多用户会先用 Manus 做研究,然后直接生成一个网站。你会觉得这和传统的网站搭建方式完全不同。 要知道,搭建一个网站本身其实不难,难的是如何确保数据的可靠性和准确性。所以我们认为,最好能在一次会话、一个共享的上下文中完成整个流程。这样,你的研究、你的见解就能无缝转化为最终成果。这就是我们在 Manus 里所做的事情。 问:很多国家都在讨论一个话题:在 AI 时代,人类的未来和经济影响。你怎么看待就业被取代?又会出现哪些新的工作机会? 答:我们的朋友和投资人也经常问我们这个问题。当我们推出 Manus 时,最初认为如果能构建这样一个 Agent,它就能帮人们节省很多时间,让大家轻松赚钱。 但实际上,我们发现这个愿景并没有完全实现。通过大量用户调研,我们发现用户在使用之后,他们反而工作得更多了。因为他们变得更高效了,他们实际上能做更多他们本来就很擅长的事情。这是第一点。 其次,我们认为 Manus 还打开了一个全新的空间。我们一直在讨论虚拟机和云计算。我们觉得 Manus 正在扮演一种「个人云计算平台」的角色。比如云计算已经存在几十年了,但它更多是工程师的特权,只有我们能通过编程来调用云的力量。普通知识工作者无法使用。 但现在有了像 Manus 这样的 AI Agent,人们可以用自然语言下达指令,让 AI 去执行。这等于解锁了一种全新的生产力。这就是我们所带来的。 而最后,关于「替代」,我认为其实很难。比如房产中介,他们每天都在用 Manus 完成日常工作。但你知道,AI 永远无法替代中介面对客户时的那种沟通方式。我们是一家 AI 公司,甚至 Manus 的发布视频都是由 Manus 写的脚本,但视频里出现的还是我,因为这是关于信任的事情。而信任,是不能完全交给 AI 的。
康奈尔团队首创微波神经网络,完全集成于硅微芯片且功耗不到200毫瓦,为机器学习推理再添利器
近日,美国康奈尔大学教授艾莉莎·阿普塞尔(Alyssa Apsel)和团队提出一种微波神经网络(MNN,microwave neural network),其采用标准的互补金属氧化物半导体(CMOS,Complementary Metal-Oxide-Semiconductor)技术制造,在芯片上仅占据 0.088 平方毫米的超紧凑尺寸,可支持集成到通用模拟处理器中,并且能够完全集成在硅基微芯片上。它可以为无线电信号解码、雷达目标跟踪和数字数据处理等任务执行实时频域计算,而且功耗不到 200 毫瓦。 图 | 美国康奈尔大学教授艾莉莎·阿普塞尔(Alyssa Apsel)(来源:https://www.engineering.cornell.edu/people/alyssa-b-apsel/) 当施加低频参数调制的时候能够改变微波神经网络的响应,这种可重新编程、特征丰富的频谱,非常适合用于机器学习推理任务。该方法能在宽带信号的整个带宽(数千兆赫宽)内实现瞬时模拟计算,据研究人员所知,这是业内首次在集成电子设备中展示此类能力,这意味着一种新型高速计算方法的正式面世,相关论文于近期发表在 Nature Electronics(IF 40.9)。 图 | 研究人员将这款低功耗微芯片称为“微波大脑”,它是首款通过利用微波物理特性,同时对超高速数据信号和无线通信信号进行计算的处理器。(来源:资料图) 01 在芯片上构建首个“微波大脑” 基于微波神经网络,研究人员在芯片上构建了首个“微波大脑”,这是一种低功耗的微芯片,也是首款利用微波物理特性从而能够同时针对超高速数据信号和无线通信信号进行计算的芯片。 图 | 相关论文(来源:Nature Electronics) 该款芯片既能执行低级逻辑功能,也能完成复杂任务,例如能够识别高速数据中的比特序列或统计二进制值。在涉及无线信号类型的多项分类任务中,它的准确率不低于 88%,能与数字神经网络的准确率相媲美,但是功耗和尺寸仅有后者的一小部分。 在研究人员所打造的首个原型样品中,他们证明微波神经网络能够替代射频和微波机器学习任务中大部分数字网络,同时所消耗的功率得到大幅降低,能够摆脱高时钟速度带来的负担。需要说明的是,时钟速度是电子设备中核心工作节奏的基准参数,通常以赫兹(Hz)为单位来表示每秒执行的周期数,较高的时钟速度会拖慢数字系统并使其发热。有趣的是,这款芯片还能模拟数字功能,从而能够替代冗长的时序逻辑信号链。 (来源:Nature Electronics) 这款芯片背后的电路拓扑结构,是论文第一作者巴拉・戈文德(Bala Govind)在康奈尔大学读大二和大三期间,经过数月思考逐渐形成的。他在康奈尔大学官网的报道中表示,在校园山坡的多次散步中,他完成了上述结构的构思。 图 | 论文第一作者巴拉・戈文德(Bala Govind)(来源:https://www.linkedin.com/in/bal-govind-6840979b/) 毫无疑问,微波神经网络是本次成果得以顺利完成的重中之重,那么它到底是如何诞生的? 02 微波神经网络是如何工作的? 据了解,微波神经网络是一个非线性系统,它通过产生类似梳状、对输入敏感的频谱来进行计算。下图展示了产生这一频谱的电磁结构,该结构由一条非线性波导(标记为 A)和三条线性波导(标记为 B、C 和 D)组成。非线性波导的频率模式受到输入微波驱动信号的幅度和相位的强烈影响,而线性波导的模式则基本不受这些信号的影响。 (来源:Nature Electronics) 研究中,研究人员通过采用“地-信号-地-信号-地”(GSGSG,Ground–signal–ground–signal–ground)结构的波导,将吉赫兹速率的信号注入该系统。然后,构建于两层重叠金属之上的微型正交混合耦合器,将这些输入信号进行功率分配,并将其引导至不同的波导中。这些被分割的小部分驱动信号随后会在波导中反射,并在耦合器的输出端口叠加,再通过另一组 GSGSG 波导提取出来。 如下图所示,输入敏感性的主要来源是波导 A 内一系列耦合的非线性谐振器,这些谐振器由电感段与非线性电容组合而成。 (来源:Nature Electronics) 研究过程中,研究人员使用了反并联二极管,这是因为它们能够产生具有多项式非线性的电容,而其非线性程度则取决于所施加的偏置电压以及微波信号的强度。 在论文中,研究人员还展示了非线性波导的扭结状态布局,当沿着其长度进行周期性地安装开关,就可以延长或者缩短微波信号返回直流电源的路径,在此期间并不会引入失真。 更重要的是,通过在一对波导之间连接的一对开关的开启与关闭,研究人员建立了参数化耦合。这些开关都是 N 型金属氧化物半导体(NMOS,N-type Metal-Oxide-Semiconductor)晶体管,并由一个比特流加以控制,该比特流的速率仅为输入数据速率的百分之一(150Mbit/s),并通过第三条“地-信号-地”(GSG,Ground–signal–ground)波导传输。这种开-关交替的参数耦合序列,是针对神经网络模式实现动态重新编程的关键,这使其能够针对不同计算任务进行配置,从而与其他循环神经网络训练方法有着本质区别。 (来源:Nature Electronics) 而为了在数十吉赫兹的高频下维持由高幅度微波传输引起的非线性,研究人员通过交叉耦合的晶体管实现了再生性的饱和增益。下图展示了微波神经网络的实测频谱响应。可以看到,即使在没有驱动信号或参数切换的情况下,其频谱也高度依赖于振荡器核心供电电压以及施加在非线性电容上的偏置等因素。当接收到 12Gbit/s 的本征超宽带数据时,其频谱响应变得非常复杂。而微波神经网络中的非线性,将输入频谱的全部特征映射到其响应最为显著的范围。据研究人员所知,这也是业内首次在集成 CMOS 电路中通过主动耦合非线性谐振产生微波梳状频谱的实例。 (来源:Nature Electronics) 研究人员进一步指出:首先,这一设计方案与传统 CMOS 振荡器有着较大不同,后者依赖对称性来实现稳定的单音振荡;其次,这一设计方案也不同于通过产生微弱谐波梳来进行光谱分析的复杂脉冲整形电路。由于研究人员旨在利用商用 CMOS 工艺实现这一模拟计算机,因此设计品质因数超过 40 的电磁结构并不现实。另据悉,克尔梳(Kerr combs)和电光频率梳(electro-optic frequency combs)等稳定的光学频率源,它们与混乱的外部驱动信号具有良好的隔离性。而本次研究人员在设计方案上有意让耦合波导暴露于输入微波之下,正是这种对于宽带输入的有意暴露,使得谐振器内部的非线性和非对称性能够实现近乎瞬时的计算。 实验中,研究人员通过保持线性波导(B、C、D)与波导 A 的标称振荡频率高度失谐,来减少物理电路参数数量。其指出,通过应用广义耦合模理论,该系统可被描述为一组相互连接的非线性模式,其中第一个非线性模式通过慢速参数耦合和固定相位延迟与线性模式相连。与此同时,这一系统由可饱和增益供电,参数振荡由快速微波驱动信号调制,这些信号动态不仅能够重新配置谐振器的阻抗,并且能够塑造系统的稳态频谱响应。 图 | 康奈尔大学博士生巴拉·戈文德(Bal Govind)与该校艾莉莎·阿普塞尔(Alyssa Apsel)教授合作研发出了一种首创的微波神经网络,该网络完全集成在硅微芯片上。它能为无线电信号解码、雷达目标跟踪和数字数据处理等任务执行实时频域计算,而整个过程的功耗不到 200 毫瓦。(来源:资料图) 研究人员指出,微波神经网络的动力学与记忆形成的神经网络模型具有相似性。在神经系统中,记忆存储在稳定、重复的信息交换模式中,这些模式形成于互连的节点即神经元之间。这些吸引子网络通过响应外部输入而形成,并通过调整节点间的权重而产生持久模式。然而,随着时间的推移,这些模式会从稳定的结构化行为逐渐转变为更加混沌的状态,从而允许多个网络在系统中共存。当网络从固定点吸引子过渡到混沌吸引子时,系统变得越来越随机,导致记忆衰退并最终丢失。 研究人员发现,在本次电路中也出现了类似的从结构化状态向更混沌状态的转变,并且略显混沌的状态可能会演化为高度混沌的模式以及完全混沌的状态。这种演化反映了系统中记忆的存在与衰退,它的发生源于微波驱动信号与频率调制微波参数振荡之间的特定相互作用。这种行为也与脉冲神经网络、基于能量的模型以及生物大脑中观察到的连接模式高度相似。 (来源:Nature Electronics) 03 或能开发与频段无关的神经网络处理器 需要说明的是,本次实验中的物理参数,比如非线性电容偏压、谐振器频率和可饱和增益,均保持为固定值。假如能够动态地调整这些参数,并能采用更模拟化的参数耦合方式,而非仅仅依赖二进制比特流驱动的开关,那么将有希望提升训练精度和验证精度。 此外,通过使用单一线性波导替代现有的三个波导结构,可以进一步减少芯片组件数量。通过采用紧凑型的设计方案,未来还能实现互联式频率梳阵列的构建,从而生成更丰富的输出频谱,进而在压缩带宽内提供更多特征。这样一来既能改进训练数据质量,也能促进单元间的误差校正。 尽管该芯片目前仍然处于实验阶段,但是研究人员对其可扩展性持乐观态度。眼下,他们正在尝试提高其准确性,并将尝试把其集成到微波平台和数字处理平台中。 通过充分探索设计空间,研究人员希望能够开发出一种与频段无关的神经网络处理器,通过解码复杂的超高速数字数据以及覆盖数百吉赫兹的毫米波信号,进而让微波神经网络可被用于分布式边缘计算、智能传感、加密、特征提取和超快速人工智能推理等领域,同时能够减少无线和电光链路中高速数据互连所面临的带宽问题和功率开销问题。
《黑神话》新作刷屏游戏展背后,国产游戏正在发光
游戏界一年一度的盛会科隆游戏展昨晚开幕,长达两小时的开幕式, 多款 3A 大作和独立佳作轮番亮相,激起全球玩家一波又一波的讨论。 除了一起床就刷屏各大社媒平台的《黑神话:钟馗》,科隆游戏展还给我们带来了哪些值得期待的游戏? 存在感越来越高的国产游戏 虽然离第一梯队还有距离,但国产游戏在科隆游戏展的存在感越来越高,甚至还成为了整个开幕式最惊喜的作品。 《黑神话:钟馗》 玩法、剧情、实机画面一点没透露的情况下,《黑神话:钟馗》的首支 CG 先导预告成为了今年略显沉闷的科隆最振奋人心的压轴大菜。 从标题可以看出,这次游戏的主角是中国民间传说著名的捉鬼神仙「钟馗」。游戏还处于早期开发阶段,目前的信息较少,官方定义为「单机 · 动作 · 角色扮演」游戏,发行时间未知,将登陆 PC 和主流主机平台。 预告中抢眼的老虎坐骑和大刀武器明显来自「钟馗骑虎」和「钟馗斩鬼」的古画以及传说,网友纷纷猜测玩法和战斗系统:召唤老虎作为坐骑突进,然后利用「斩鬼刀」设计连招。 这个被网友戏称「鬼灭之刃」的玩法,预计能和前作的「棍法」有明显差异。 比起《悟空》对《西游记》这个家喻户晓的 IP 重新演绎,《钟馗》对大众,特别是海外玩家来说都比较陌生,可发挥的空间会更大。 问题来了,我们大概要等多久才能化身钟馗执剑伏魔?凭借《悟空》大获成功的游戏科学,或许这次不用再让我们等 7 年之久。但从《悟空》的完成度情况来看,游戏科学的开发能力其实相对有限,依旧需要我们玩家耐心等待。 至于我们原本期待的《悟空》DLC,美术总监杨奇表示中前期会「交替进行」。 《古剑》 国产经典单机游戏系列《古剑奇谭》新作《古剑》也在科隆展会上公布了全新画面的英配预告片,目前游戏还没有宣布发行日期,未来将以单机买断制形式登陆 PC 及主机平台,不会推出移动版本。 据了解,《古剑》已经开发了近 2 年时间,是一款基于虚幻引擎 5 开发的 RPG 游戏,不涉及类魂玩法和开放世界,玩家将在游戏中扮演「地界司判」,展开引渡亡魂的冒险。 《影之刃零》 国产单机武侠游戏《影之刃零》也在科隆展会中亮相,为海外玩家提供了 1 小时的试玩版本。 《影之刃零》是一款第三人称动作冒险 RPG 魂系游戏,设定在一个融合中式武侠,蒸汽朋克,神秘学,以及江湖传说的武侠架空世界「影境」,玩家将扮演侠客「魂」,在生命的最后时光迎战各种怪物和武林高手。 游戏的具体发行时间将在今年公布,登陆 PC 与 PS5 平台。 不仅单机游戏得到认可,国内卷到极致的手游 IP 也正在孵化全新玩法的多平台 RPG 游戏,例如《明日方舟:终末地》以及《王者荣耀世界》,也亮相了科隆开幕式,还得到科隆官方在社交平台发帖宣传的待遇。 《明日方舟:终末地》 《明日方舟:终末地》是一款以 Unity 引擎开发的 3D 即时策略 RPG 游戏,计划将登陆 PC、iOS、Android、PS5 平台,上线时间暂未公布。 对比 2D 的《明日方舟》,《终末地》将采用 3D 的建模和玩法,玩家可以更加自由地操控角色和建筑,探索更加复杂的地图和环境。 《王者荣耀世界》 和 DOTA 玩法的《王者荣耀》完全不同,《王者荣耀世界》是一款开放世界 RPG 游戏,计划将登陆 PC、iOS、Android 等平台。 玩家将在《王者荣耀世界》中探索「王者峡谷」之外的地区,以「元流之子」的身份,结识熟悉的王者英雄,游戏还会加入钩索、游泳、跑酷等多元的玩法。 这些跨移动、PC 甚至主机端的游戏,可以看作是国内头部手游工作室想要扩大自身影响力的全新尝试。用手游在国内这个大市场收获大量玩家,再针对海外更熟悉的主机游戏模式发起进军,未尝不是一种国产游戏行业的一种另辟蹊径和弯道超车。 众星云集的独立游戏《空洞骑士:丝之歌》 《丝之歌》是真的!这款备受期待的游戏也在科隆展上公布了一段 30 秒的实机演示,主持人 Geoff Keighley 也确认,这款游戏「100% 将于今年发布」,并且还会在展会的 Xbox 和 Switch 2 展台开启试玩。 这只是开胃小菜,开发者 Team Cherry 已经宣布,将于北京时间周四晚 22 点 30 分公开特别公告,极有可能公布游戏的更多信息,以及发行时间。 《空洞骑士:丝之歌》将延续前作《空洞骑士》的玩法,以 2D 平台跳跃和战斗为特色,而游戏的规模将会更大。 游戏将登陆 PC、Mac、Xbox One、Xbox Series X|S、ROG Xbox Ally、PS4、PS5、Switch、Switch 2 等平台。 《极乐迪斯科》开发商新作《ZERO PARADES》 著名独立游戏《极乐迪斯科》开发商 ZA/UM 新作《ZERO PARADES》在科隆展会上首次公布,游戏目前仍然处于早期开发阶段。 这是一款「一款剧情丰富的间谍 RPG 游戏」,玩家将扮演一位饱受折磨的秘密特工,执行一项高风险任务,解开历史终结中血腥的阴谋之网。从预告片展示的画风和玩法来看,依旧是熟悉的风味。 值得一提的是,虽然《极乐迪斯科》大获成功,但经历一系列变动之后,这款游戏的主创人员基本已经离开了这个工作室,出走的成员已经成立了两个独立的新的工作室,都正在着手开发新游戏。 Dotemu 新作《Absolum》 发行了《怒之铁拳 4》《忍者神龟:施耐德的复仇》的 Dotemu 可能不被国内玩家熟悉,但他们在科隆上展示的新游戏《绝对魔权 Absolum》在海外获得了不少的讨论度。 受到《龙与地下城》启发,带有不少《哈迪斯》的影子,《绝对魔权》是一款带有肉鸽元素的清版型动作游戏,支持单人或两人本地以及在线合作,游戏中玩家可以选择四个具有不同能力、个性和动机的角色。 这款游戏将于今年发行,支持 PC、Switch、PS4 和 PS5 等平台。 经典恐怖游戏的新玩法《生化危机:安魂曲》 将于明年 2 月 7 日发布的系列第九部新作《生化危机:安魂曲》公布了最新的实机画面,登陆 PC、PS5 和 Xbox Series X|S 等平台。 卡普空此前承诺,《安魂曲》将回归生化危机 30 年前开启的主线剧情。预告片展示了新女主格蕾丝 · 阿什克罗夫特和他的母亲艾丽莎 · 阿什克罗夫特在酒店遇袭,但粉丝期待已久的里昂还没有亮相。 游戏也在展会上开放试玩,默认采用第一人称视角增强沉浸式的恐怖体验,支持第三人称视角实时切换。游戏中还包含了全新的 AI 智能怪物。 《寂静岭 f》 《寂静岭 f》将于今年 9 月 25 日在 PC、Xbox Series X|S、PS5 上发售, 科隆展上公布了最新的预告片。 预告片展现了游戏背景 1960 年代日本小镇惠比寿冈,在这个雾气环绕的诡异小镇,女主清水雏子将探索秘境并面对怪物。游戏保留了系列「在美中探索恐怖」的氛围,并引入了一定的动作游戏元素。 惊喜不多的大型游戏 科隆游戏展不乏大作的身影,但今年大部分亮相开幕式的作品都已经在此前公开,也没带来特别惊喜的新内容。 《羊蹄山之魂》 《对马岛之魂》续作《羊蹄山之魂》也公布了一段新预告片,将于今年 10 月 2 日正式在 PS5 平台发售。 同时,游戏也宣布了将于明年推出免费 DLC「奇潭模式」,和上一作一样为游戏带来多人联机玩法,包括双人剧情任务和四人生存赛。 《羊蹄山之魂》发生在前作《对马岛之魂》的 300 年后的北海道地区,主角「笃」家人被「羊蹄六人众」杀害,由此踏上一条复仇的道路。 《使命召唤:黑色行动 7》 这款经典射击游戏将于今年 11 月 14 日正式发售,登陆 PC、PS4、PS5、Xbox One、Xbox Series X|S 等平台。 从预告看来,这款经典 IP 新作力求创新,突破了列传统的军事设定,设定在充满炫酷科技和异世界恐怖的近未来世界,一些场景甚至有点像《盗梦空间》。 游戏承诺将对在线游戏机制进行重大改进,并推出大量全新的剧情任务。 Switch 2 的新游戏 前两个月刚发布的任天堂 Switch 2,也迎来了一些新游戏。 科隆游戏展上,《夺宝奇兵:古老之圈》不仅迎来了即将于 9 月 4 日上线的首个 DLC《巨人教团》,还官宣将于明年登陆 Nintendo Switch 2。 在去年宣布放弃 Xbox 独占策略后,《夺宝奇兵》在今年上线了 PS5、Steam Deck 等平台,上线 Switch 2 也是意料之中。 而《星之卡比 Air Riders》虽然只在昨晚的任天堂直面会上发布,也算蹭了科隆展的一个热度,官宣将于今年 11 月 20 日在 Switch 2 平台正式发售。 在这款「星之卡比赛车」中玩家可以选择不同的星之卡比角色和赛车进行比赛,通过变身和各种道具能力完成比赛。 以往像科隆这种级别的游戏展,虽然在游戏圈是数一数二的盛会,但在游戏大作土壤浅薄的国内,更多是那批硬核玩家作为观众的狂欢。 但是今年的科隆,更多国产游戏成为了展会本身,《黑神话:钟馗》的公开,更是成为破圈层的热点事件,在微博热搜高位挂了一个早上。 并且,作为全球最重要的游戏盛会,最重要的环节,留给了一个国产游戏,即使对前作《悟空》品质的肯定,也是一种信任和希冀。 只凭一款游戏和这短短几年的发展,我们当然离最优秀的那批创作者还有距离,但我们至少看到整个产业确实比以往更具活力,让我非常期待接下来野蛮生长的国产游戏,还会带来哪些惊喜。
1000亿美元!华人干出全球第四大AI独角兽
作者 | 陈骏达 编辑 | 心缘 又一家千亿美元估值AI独角兽即将诞生! 智东西8月20日报道,昨日,AI数据分析平台Databricks宣布,该公司已经签署了K轮融资的条款清单,预计将在现有投资者的支持下很快完成,这轮融资对Databricks的估值已经超过了1000亿美元(约合人民币7179.1亿元),估值与8个月前的620亿美元(约合人民币4451.0亿元)相比,上涨了超61%。 ▲Databricks官宣新融资(图源:Databricks官网) 据TechCrunch援引知情人士的消息称,Databricks最新一轮融资规模约为10亿美元(约合人民币71.8亿元),投资方包括a16z、Thrive Capital等,并且获得了“疯狂的超额认购”。 成立于2013年的Databricks,主要提供统一的数据与AI平台服务,帮助企业整合和处理大规模数据,用于数据工程、数据科学、机器学习与AI应用,也能为电商、金融、医疗等领域的企业提供数据服务。其创始团队中还有华人,联合创始人兼首席架构师为Reynold Xin(辛湜)。 作为独特的“湖仓一体”数据库架构开创者,Databricks是数据智能领域的代表性企业,也是AI时代重要的数据基础设施提供商。截至目前,有超过60%的财富500强企业采用了Databricks的数据智能平台来管理数据,并将其与AI结合。 Crunchbase的数据显示,Databricks目前是全球估值排名第八的独角兽企业。完成K轮融资后,Databricks有望成为仅次于OpenAI、字节跳动、xAI,估值排名全球第四的AI独角兽企业。 值得一提的是,英伟达也是Databricks的投资方之一,曾领投Databricks的I轮融资,规模为5亿美元,但并未参与本轮融资。 Databricks称,本轮融资中获得的资金,将被用于加速Databricks的AI战略,这包括进一步扩大企业级智能体服务Agent Bricks、投资面向AI Agent优化的新数据库Lakebase,并支持未来的AI领域收购,深化AI研究。 一、成立12年估值1000亿刀,客户规模已突破1.5万 Databricks的创始团队由七位加州大学伯克利分校的教授和研究生组成,自2013年成立以来,陆续吸引了大约80家投资者的关注。 该公司的创始人大部分为加州大学伯克利分校AMPLab成员,共同打造了开源分布式计算框架Apache Spark,还创下数据排序速度的世界纪录。后来,他们决定将相关技术商业化运作,Databricks应运而生。 ▲Databricks七位创始人(图源:福布斯) 据The Information报道,早期投资者称,Databricks的创始人们对如何赚钱几乎没有直觉,董事会原本打算在外部聘请有经验的领导者担任CEO,但发现时任Databricks工程副总裁的Ali Ghodsi在员工中很有声望。 接任CEO后,投资者对教授出身的Ghodsi还是有些迟疑。Ghodsi加紧研读商业书籍,恶补了企业管理的方法。如今,他以亲力亲为地方式管理这家企业,高强度工作,风格强硬,并凭借这种方式带领Databricks快速发展,也获得了客户的信赖。 ▲Ali Ghodsi(图源:Databricks) Adobe的首席数据官Bin Mu曾如此评价Ghodsi:“如果我遇到一个大问题,他会在接下来的一个小时内解决这个问题。” Databricks的创始人团队中还有华人身影。其联合创始人兼首席架构师为Reynold Xin(辛湜),他高中毕业后前往加拿大多伦多大学就读本科,后续在加州大学伯克利分校AMPLab完成博士学业,毕业后直接参与Databricks的创立。 ▲辛湜(图源:Linkedin) “湖仓一体”架构是Databricks最重要的护城河之一。这一技术起源于DataBricks团队创业前打造的Apache Spark项目,将数据仓库的结构化数据存储功能,与数据湖的非结构化和半结构化数据存储能力融合,从而提升数据处理的效率与可靠性。 在AI时代,湖仓一体架构的价值愈发凸显。AI训练、推理过程中都需要使用到大量的结构化、半结构化和非结构化数据,湖仓一体架构能对这些数据统一存储管理,支持实时数据摄入、处理和分析,还能弹性伸缩,从而降低存储和计算成本。 湖仓一体架构也具备向量化检索、与机器学习框架(如PyTorch)集成等AI原生设计,可简化AI数据处理的流程。 2022年,OpenAI推出ChatGPT并引发全球AI热潮后,Databricks联合创始人兼CEO Ghodsi看到了AI对数据分析领域的巨大潜力,决定加大对AI技术的投资。当时,Databricks预计2022财年至2025财年期间的总现金消耗成本为15亿美元。 2023年,Databricks还斥资13亿美元收购了大模型创企MosaicML,此次收购帮助 Databricks在2024年3月份发布了一个开源模型,但并未推出后续版本,转而使用开源模型。 Databricks的一体化数据智能平台提供AutoML(自动化模型训练)、Mosaic AI(模型部署)、AI Playground(无代码互动测试)、Unity Catalog Agent工具管理、MLflow集成等AI服务,支持从数据管理、训练、部署到监控的AI开发全流程,可整合大模型、工具链,与数据平台无缝融合。 2024年时,Ghodsi称,截至当年11月,包括Mosaic在内的生成式AI产品收入同比增长了300%。 二、连发多款AI Agent服务,年化收入达到37亿美元 在去年年底拿下100亿美元的巨额融资后,Databricks在AI领域的动作不断,推出多款新产品与服务,还在收购市场斩获一家AI创企。 Agent是近期Databricks投资、发展AI技术的主线。今年5月,Databricks宣布收购无服务器Postgres数据库(一种开源的对象关系型数据库)公司Neon。Neon使用AI Agent来驱动数据库的配置,其平台上八成的数据库均由AI自动打造。 这笔交易的规模达到10亿美元,Databricks可借此进一步消除传统数据库的弹性伸缩瓶颈,为AI Agent提供“AI优先”的底层数据库功能。 收购Neon后不久,Databricks在今年6月推出了两款Agent服务。 其中,Agent Bricks可用于自动化创建AI Agent,用户只需提供对任务的简单描述,并通过Databricks的数据库向Agent提供企业数据,就能完成Agent创建。 Agent Bricks已经针对常见的行业用例进行了优化,比如结构化信息提取、知识辅助、自定义文本转换和多智能体系统等,企业可以用其完成对电子邮件、法律文书等内容的处理。 Databricks还推出了Lakebase,这是一款用于AI应用和Agent的新型完全托管Postgres数据库。 Lakebase由Databricks此前收购的Neon提供技术支撑,与Databricks的数据湖仓平台Lakehouse深度整合,把业务数据和分析数据融合在一起,既能用来运行大规模分析,又能支持实时应用,满足了AI Agent对快速查询数据的需求。 这两项服务起到了互补的作用,Agent Bricks显著简化了企业打造Agent的流程,而Lakebase能为这些Agent提供合适的数据库。虽然都仍处在预览阶段,不过其易用性、生态整合度、兼容性等获得了市场的认可。 各类AI服务的推出,也成为Databricks的新增长点。今年6月,Databricks高管在一场投资者活动上称,该公司的年化收入会在7月份达到37亿美元(约合人民币265.6亿元),同比增长50%。同时,Databricks的客户数量已经达到了15000多家。 三、外部力量大力推动本轮融资,但还面临多方竞争 Databricks已经成为硅谷当今最炙手可热的投资标的之一,累计融资额近200亿美元。收获新一轮融资后,Ghodsi接受了CNBC的采访,他称在Figma完成IPO并股价飙升后,“他的手机被投资者轰炸了”,这轮融资“肯定有来自外部的大力推动”。 这也显示出,投资方希望在Databricks这家同样炙手可热的AI企业IPO之前,分得一杯羹。在去年12月底官宣的J轮融资中,Databricks获得了100亿美元的巨额融资,创下当年度的融资纪录,目前并不缺乏运营资金。 Ghodsi称,目前投资者最关心的问题就是,Databricks的Agentic AI服务能否真正地自动化工作流程,有没有给企业带来价值?Ghodsi对此的回应是,这些服务仍处在早期阶段,目前更注重解决企业的日常任务。 Databricks的本轮融资,印证了市场对此类新型AI数据基础设施公司的浓厚兴趣,不过,Databricks仍需面对来自Snowflake、甲骨文等对手的竞争。 成立时间与Databricks相仿的Snowflake,被普遍认为是前者的主要竞争对手之一。Snowflake源自云数据仓库(Data Warehouse),主打结构化数据分析、易用性与企业级安全性。Databricks的Lakehouse则强调对结构化与非结构化数据的处理能力及AI/ML能力。 在AI时代,两家公司的业务重合度不断提升,都推出了数据Agent服务,在收购上也选择了相同的方向——Snowflake于今年收购了Postgres数据库创企Crunchy Data,与Databricks收购的Neon类似。Snowflake目前的市值约为642亿美元,低于Databricks目前的估值。 ▲Snowflake股价变动(图源:雅虎财经) 甲骨文这样的老牌数据库企业,也在加紧布局AI相关的数据产品。甲骨文于2024年推出了生成式AI Agent服务,提供检索增强生成(RAG)等功能。今年3月,该公司进一步推出AI Agent Studio,作为企业创建、扩展、部署和管理AI Agent和Agent团队的综合平台,也能为Agent接入企业的自有数据。 诸如微软Azure、谷歌云、AWS等大型云基础设施公司也是这一市场中的重要参与者,并相继推出了AI相关的数据服务。 咨询公司IDC的报告显示,2025年,在全球数据平台软件提供商中,Databricks在能力维度排名全球第一,与谷歌、甲骨文、Snowflake等共同处于领导者范畴,但在规模上略小于谷歌和Snowflake。 结语:Databricks接近自由现金流盈利,下一步会是IPO吗? 多家分析机构指出,Databricks虽然仍在亏损,但在运营效率和成本控制上已有显著改善,并有望在2025年实现自由现金流盈利。 随着美股IPO市场回暖以及AI相关股票的惊人涨幅,投资者对Databricks潜在IPO的表现普遍看好——而近期一轮由投资者力推完成的融资,便成为最好的佐证。 不过,Databricks目前尚未提交IPO申请,其高管对相关事项的表述也较为模糊,仅透露有IPO意向,但未明确时间。
实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算了吧 | 附彩蛋
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。 网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 DeepSeek-V3.1-Base。 相比奥特曼今天凌晨接受采访时还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」,但实际体验下来,这次更新还是给了我不少惊喜。 DeepSeek-V3.1-Base 拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,在推理效率上做了不少优化,线上模型版本的上下文窗口也拓展至 128k。 所以我们二话不说,直接官网开测。 附上体验地址: https://chat.deepseek.com/ 为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。 没有出乎太多意外,DeepSeek V3.1 先是提示文档超出限制,只读取了前 92% 的内容,但依然成功找到了这句话。更有意思的是,它还贴心地提供了文学角度的经典下联推荐:「焰镕海坝枫」。 网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。 实测下来,我们发现V3.1在编程这块确实有两把刷子。 我们用经典的六边形小球编程题做了测试:「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」 V3.1的表现相当给力,生成的代码不光搞定了基础碰撞检测,还自动补全了转速、重力之类的细节参数。物理特性逼真到小球会在底部略微减速。 接着我们加大难度,让它用 Three.js 制作交互式 3D 粒子星系。基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)也算完整,但UI审美嘛……怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。 继续挑战更复杂的任务。们让它造个沉浸式3D宇宙,要有旋转物体、变形效果、发光弧线,还得加上时间切换、主题转换的交互按钮,点击控制也确实能触发不同特效。 最后一关,让它用 Three.js 搞个交互式 3D 网络可视化,要求包含用户触发的能量脉冲动画,外加主题切换和密度控制功能。整体下来,表现还是过得去的。 「有一牧场,已知养牛 27 头,6 天把草吃尽;养牛 23 头,9 天把草吃尽。如果养牛 21 头,那么几天能把牧场上的草吃尽呢?并且牧场上的草是不断生长的。」 虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。这种扎实的数学功底,着实令人印象深刻。 面对「两把武器对比,1~5 攻击 VS 2~4 攻击,哪把更厉害?」这样的问题,一般的回答可能止步于平均伤害计算。但 DeepSeek V3.1 思考得更为周全,引入了伤害稳定性的概念,运用方差进行深入分析。 当问及「冰岛有蚊子吗?」这样的小众地理问题时,在未开启搜索功能的前提下,DeepSeek V3.1 的回答质量明显超越了 GPT-5。这不仅体现了其广博的知识储备,更显示了精准的信息提取和整合能力。 最近基孔肯雅热疫情流行,到处灭蚊蚊蚊蚊蚊蚊蚊蚊,那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。 我前阵子在网上看到一段话: 「懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂:懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂? 你怎知这懂的背后没有大不懂? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界–懂无可懂之懂的真空妙有阿!」 当我还在用逻辑硬啃这段文字时,DeepSeek 反而在劝我别掉进「道破天机岂是懂」的陷阱——它本身就是对理性傲慢的警告,邀请你跳出文字游戏,直观内心。 当主流AI都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息——AI 完全取代编辑的那一天,似乎又往后推了推。 我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。 同样的问题在另一个创作任务中也有体现。 当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。 DeepSeek-V3.1-Base 发布之后,Hugging Face CEO Clément Delangue 在 X 平台发文称;「DeepSeek V3.1 已在 HF 上排名第四,静默发布,无需模型卡」然而,他还是低估了这款模型的发展势头。 如今它已经跃升至第二位,离登顶估计也就是时间问题。 另外,这次版本更新中最引人注目的变化,是 DeepSeek 在官方 APP 和网页端移除了深度思考模式中的「R1」标识。此外,DeepSeek R1 还新增了原生「search token」支持,意味着搜索功能得到了进一步优化。 同时,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷,而阿里 Qwen 团队在上个月也表示: 「经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。」 截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。
定位“不上不下”,消息称iPhone 17 Pro手机可能很不好卖
IT之家 8 月 20 日消息,据科技媒体 9To5Mac 今天报道,苹果将在几周后发布 iPhone 17 系列手机,其每一款机型都将具有独特的卖点,不过 iPhone 17 Pro 可能会“很不好卖”。 9To5Mac 表示,往年 iPhone 中充当高端门面的通常是 Pro 和 Pro Max 两款手机,而今年的 iPhone 高端阵容预计将增加到三款: iPhone 17 Pro iPhone 17 Air 今年苹果预计将“砍掉”Plus 机型,以具备超轻超薄设计的 iPhone 17 Air 取代之,这款手机将具备“未来感”,但电池与相机存在明显短板。 不过最有可能受到 iPhone 17 Air 冲击的机型是 iPhone 17 Pro,这款机型被 Air 和 Pro Max 夹在中间,定位“不上不下”。 IT之家注意到,iPhone 17 Pro Max 将匹配追求拍照效果、丰富功能用户的需求。有传闻称 17 Pro Max 的电池容量会比以往更大,并配备比小屏机型更出色的长焦镜头,这就导致 17 Pro Max 的机身会更厚。 9To5Mac 认为,多年的市场销售数据已经证明了用户更喜欢大屏幕的 iPhone;如果消费者看重电池续航、摄录效果和屏幕尺寸,iPhone 17 Pro Max 将是更佳选择。 9To5Mac 同时表示,如果用户不在意这些外在体验,而是想要一台像当年 iPhone X 一样具有新鲜感、未来感的手机,那 iPhone 17 Air 将是最佳选择。 而 iPhone 17 Pro 既没有 Pro Max 的大屏幕和较好摄录效果,也缺少 17 Air 那样的新颖外观,9To5Mac 觉得 17 Pro 将被这两款机器夹在中间,不如往年那样吸引人。
曝某厂小屏机将有“百瓦超大电池”,预计为小米16标准版
IT之家 8 月 20 日消息,博主 @数码闲聊站 今天在微博爆料,某厂的小直屏手机将塞下“百瓦超大电池”。 博主表示,这台手机的电池容量将“领先同期同档竞品 500mAh++”,具备 LIPO 窄边框技术、3D 超声波指纹、无线充、防尘防水,长焦镜头“稍微差点儿”,但影像能力“综合来看也算均衡”,博主认为“这样看感觉还是挺香的吧”。 后续博主还在评论区补充:“母品牌新机中,小屏最大电池(已确定),大屏最大电池(大概率)[狗头斜眼]”。 有用户在评论区询问:“为啥不加 3D 人脸识别啊 [大哭]”,博主回复道:“3D 超声波指纹 + 2D 人脸也够用了吧,小屏机空间有限 [狗头不敢相信]”;另一位用户则询问道:“那个 8845/8gen5 的新机最快几月份发布,年底前可以见到吗”,博主则回复道:“可以,排期大概就是 11-12 月,加加首发”。 结合博主文中暗示和评论区猜测,预计这台手机是小米 16 标准版。 作为参考,小米 15 标准版搭载 5400mAh 金沙江电池,支持 90W 有线快充、50W 无线快充,具备超声波指纹解锁,IT之家整理其后摄阵容如下: 主摄:5000 万像素光影猎人 900 传感器,f/1.62 光圈,原生动态范围可达 13.5EV,支持光学防抖 超广角:5000 万像素三星 S5KJN1 传感器,f/2.2 光圈 长焦:5000 万像素三星 S5KHN5 传感器,f/2.0 光圈,支持光学防抖
联发科天玑9500处理器再曝:NPU算力翻倍,存算一体黑科技傍身
随着 8 月份进入尾声,下半年的秋季新品潮也快要到来了,其中除了终端新品,两大智能手机芯片平台的相关消息也很引人关注,比如联发科的新一代旗舰芯片天玑 9500 最近就频繁有消息曝光。就在今天,博主 @数码闲聊站 就放出消息,表示天玑 9500 NPU 会用上全新 IP 硬件,AI 算力对比前代直接翻倍,发哥野心不小。 同时他进一步透露,“据说今年联发科还掏出了类似“存算一体”的能效黑科技架构,目前看大概率是手机芯片里第一家落地的。” 然后又追加了一句:几家终端厂商都在憋大招,今年的迭代新机基于强算力做了一些 AI 新奇特玩法,可以期待下。 IT之家了解到,存算一体技术是一种将存储与计算深度融合的新型架构,旨在突破传统冯・诺伊曼架构中数据搬运导致的“存储墙”和“功耗墙”问题。其核心是通过物理设计让存储单元直接参与计算,例如在 SRAM 或新型存储介质(如忆阻器、MRAM)中嵌入运算逻辑,使数据在“存储原地”完成处理,从而大幅减少数据搬运的能耗和延迟。这也是当前 AI 端侧运行能效优化的重要技术方向之一。 话句话说,如果天玑 9500 旗舰平台用上了“存算一体”,那么其在端侧运行 AI 的速度和响应能力都将明显提高,同时功耗也会显著下降。这对于旗舰手机 AI 技术的应用显然是一大利好。 同时结合爆料中提到的天玑 9500 NPU 会用上全新 IP 硬件,AI 算力对比前代直接翻倍,加上“存算一体”的黑科技,相信天玑 9500 在 AI 方面会有重要升级。 还有就是,该博主在这条爆料信息的下面又补充,表示天玑 9500 芯片 AI 算力翻倍,迭代新系统拥有更精准的一步直达 AI 能力,多模态 AI 交互,一句话点外卖,一句话比价,一句话生成文档等等,生成更有活人感。另外天玑 9500 新机的影像都很出众,同样有更深度的 AI 介入。 而除了 AI 方面,根据此前的爆料,天玑 9500 的 GPU 能力也将会有大提升,能效相比前代提升超过 40%,峰值性能也是很顶,光追性能暴增超 40%,支持手游光追帧率达到 100 帧以上。 此外天玑 9500 处理器将采用更激进的全大核架构,首发 X930 超大核的全大核 CPU 架构,搭配 16MB L3 缓存和 10MB SLC 缓存,CPU / GPU / NPU IP 全面上新。其 Geekbench 6 单核理论设定超过 3900 分,多核超 11000 分,相比天玑 9400 单核提升达 34.5%,多核提升 19.6%。 根据消息,天玑 9500 旗舰平台有望在 9 月份发布,相信在众多技术和看点的加持下,今年的天玑 9500 旗舰芯片会不负大家的期待,大家也可以持续关注天玑 9500 更多的消息曝光。
Omdia称苹果入局将引爆折叠手机市场
IT之家 8 月 20 日消息,伦敦研究机构 Omdia 预测,到 2032 年,全球可折叠 OLED 屏幕出货量将达 1.246 亿台,占整体 OLED 市场 8.6%,明显高于 2024 年的 2310 万台和 2025 年预计的 2350 万台。 IT之家附上相关预估数据如下: Omdia 认为,未来几年新机型将不断推陈出新,持续推动市场增长,2025 年虽增速有限,但为后续爆发奠定基础。在未来 8 年(以 2024 年到 2032 年)内,折叠手机的预估出货量将暴涨 5 倍。 报告指出三星、谷歌、vivo 等厂商不断升级产品,逐步改善诸如机身厚重、铰链结构和续航能力等问题,但价格和习惯仍是主要阻力。以三星 Galaxy Fold 7 为例,其在铰链和电池等方面表现优异,但市场接受度提升仍需时间。 业内普遍认为,苹果若推出自家折叠手机,将极大改变行业格局。苹果一贯重视产品成熟度,目前据传正在攻克屏幕折痕、铰链耐用性和电池续航等技术难题。Omdia 专家 Jerry Kang 表示,苹果的入场将“为折叠屏品类正名”,并激发超越安卓阵营的新一轮需求爆发。 Omdia 预计,2026 年将成为折叠屏设备市场的转折点。随着技术持续进步和更多厂商参与,折叠屏手机有望从小众产品变为主流选择。苹果的加入不仅会带动创新,也可能促使价格体系逐步调整,吸引更多消费者尝试新形态设备。
传音“自救”
文|岭南人鱼机 编辑|李小天 2007年,传音在非洲发布了第一款主打双卡双待的功能机Tecno T780,功能和设计上说,这款手机在当时的中国市场都不算稀奇,但在非洲,却极具创新性。那一年,T780在非洲年销量突破2000万台,成为了非洲功能机市场的现象级产品。 彼时的非洲手机市场是大蓝海,对于更多中国手机厂商来说,中国手机市场是更蓬勃增长的状态,因此少有人关注相隔万里的非洲——这个人口超过10亿的市场,手机渗透率却极低,只有逃离内卷的传音在新大陆开拓市场。 而到了今天,随着国内手机市场的饱和状态越来越高,非洲的互联网程度也在走高,传音的非洲大本营成为了更多手机厂眼中的香饽饽。 因此,传音这两年有点辛苦,一方面是非洲市场的竞争加剧,蓝海非洲转眼变红;另一方面则是新的业务增长点难寻。非洲手机市场上说,非洲兄弟们的购买力没办法跃升,实现不了更高的利润率,供应链成本侧则因存储产品涨价等,要价越来越高,外加非洲、南亚多地存在货币贬值风险,也会直接影响利润。 而新的业务增长点上,传音尝试走向高端机、走向软硬件结合的生态,走向二轮出行/其他数码产品/家电产品线,或者开辟新兴市场,无论哪一步都得先播种,再收获。 一边得守业,一边得输血再创业。传音的日子过得紧巴巴。据传音2024年年报,公司2024年实现营业收入687.15亿元,同比增长10.31%。而归母净利润达55.49亿元,同比仅微增0.22%;扣非净利润只有45.41亿元,同比下降11.54%。努力干活,却处于增收不增利的状态。 据彭博社消息,传音正考虑在香港二次上市,募资额约10亿美元,但上市地点、时间,及具体募资金额都尚在商榷中。 非洲手机一哥,如今面对的是怎样的市场?挑战重重中,传音的破局之道又在哪里? 01.中国手机厂商,为何押注非洲? 2017年,中国手机市场全年出货量下滑了4%,这是中国手机市场8年快速增长之后的首次下滑,也是中国手机市场第一次出现饱和状态。 市场渗透率逐步走高,手机产品的成熟度也在增加。行业分析公司Counterpoint发布的数据显示,中国手机用户的平均换机周期已超31个月,而这个数字在2019年之前,还是16-18个月。“中国手机市场彻底进入了存量市场,如果没有好的产品创新吸引他们,换机周期只会越来越长。”vivo执行副总裁、首席运营官胡柏山曾表示。 这可以看作是中国手机市场的一个休止符,各大厂商之间的竞争格局几近稳定,到了2022年,618的数据也鲜明的说出真相:苹果一家的手机销量,就占去了整体销量近一半。 几近饱和的市场状态,让更多手机厂商将目光看向海外寻求增长新,特别是新兴市场的发展潜力。据IDC数据,2024年全年,全球智能手机出货量约12.4亿台,同比增长6.4%,时隔两年触底反弹。而中国手机厂商在其中抓住了增长性,到去年4季度,中国智能手机的出货量已经占据了全球市场的56%,而对比苹果、三星,其市场份额则是下滑的。 而在海外市场中,非洲智能手机增长迅猛。据市场分析机构Canalys数据,2025年,非洲智能手机市场迎来良好开局,区域出货量已连续第八个季度实现增长。仅2025年1季度,非洲智能手机市场的出货量就增长了6个百分点。 而到了2025年,非洲各国推动智能手机普及的政策推动力更强了。3月,南非财政部于宣布,取消售价低于2500兰特(约137美元)智能手机的9%奢侈品消费税,直接降低低收入群体购机成本;4月,南非政府推出的"平价智能设备计划"(ASDP),即通过补贴和税收减免双轨并行,要求厂商提供高性价比智能设备,目的在于释放频谱资源用于4G/5G建设;5月,南非电信集团MTN分三阶段向120万预付费用户提供4G手机,最低售价仅99兰特(约5.4美元);肯尼亚和尼日利亚虽无全国性补贴政策,但依托运营商分期计划(如肯尼亚OnPhone Mobile、尼日利亚EasyBuy),降低购机门槛...... 无疑是各家手机厂全球化探索中的香饽饽市场。 02.传音的非洲护城河,能挡住小米们吗? 自2017年起占据半数市场、被称为“非洲之王”的传音,等来了市场高速发展期,也等来了更多竞争者。在上述一系列政策推手发生前夕,今年一季度,传音在非洲的市场份额为47%,市场份额跌了5个百分点。同期,三星、小米、OPPO、荣耀在非洲市场占有率排名第二至第五,市场份额分别为21%、13%、3%、3%。 相比此前只是同本土经销商、运营商打交道,顺手卖到非洲的方式不同,各家手机厂商对非洲的布局更深入、更本土化了,也在尝试复制传音在非洲的经验。比如小米在非洲的热卖款Redmi 10A和12C,因地制宜地打出仅75美元(约人民币543元)和95美元(约人民币688元)的售价,Canalys高级分析师Manish Pravinkumar也指出,2024年四季度,得益于在西非国家如喀麦隆和加纳的积极市场扩展,以及在埃及举办的“小米优惠狂欢节”和在尼日利亚的“小米粉丝见面会”等年末消费者互动活动,小米在非洲实现了22%的增长;而借助Note系列增长的势头,Realme更是在2024年第四季度实现70%的同比增长。 海水变红,竞争加剧,新登场者锣鼓喧天地盘问着传音的护城河。但总体来说,挑战只是短暂的,传音在非洲的基本品、品牌力仍很难复刻,比如渠道上,线下购买时非洲最主要的消费模式,传音通过与独立零售渠道,如夫妻店、批发商等合作,建立起三级经销商体系,这些完善的经销商网络,也成为了传音获取市场一手信息的主要途径之一。 同时,传音也在经销网络的枝干上,长出了自己的售后服务品牌Carlcare、家电品牌Syinix以及3C产品配件品牌Oraimo。据悉,Carlcare的服务网点已超4000个,不仅是非洲,还覆盖了中东、东南亚、南美等地区。因此即使在沙漠中,也能找到“手机维修点+充电站+话费充值”三合一的小店。 华鑫证券2022年一份研究传音的研报中这样写:“在非洲的大街小巷,无论是电线杆还是围墙,随处印刷着传音旗下手机品牌的广告,从内罗毕的机场道路到坎帕拉的贫民窟,从肯尼亚的边境小城Kisii到卢旺达的旅游城市Rubevu,只要有墙的地方,就少不了传音手机的涂墙广告。” 2024年,传音总营收687.43亿元,其中非洲市场为传音贡献227.19亿元营收,占总营收比重近4成。传音在非洲地区的毛利率高达28.59%,而在其他市场的毛利率要低10余个百分点,这也体现了传音在非洲的稳定性。 事实上,传音在非洲市场的主要挑战仍来自价位及非洲兄弟的消费能力。在非洲智能手机的不同价位段中,小于100美元(约719人民币)的入门级智能机占销量比例为30%,100-199美元(719-1431人民币)的中端市场智能机占比为42%,可见非洲主要消费群体仍处于中低端位置,而对于曾在中国市场竞争的手机厂商来说,属于产品由上至下的降维逻辑,难点在于本地化和当地运营能力的搭建。 而大本营在非洲的传音,价位上涨受限,想要找到新的市场空间,却只能寻找消费力更高的群体,要更难一些。步步高创始人段永平曾这样评价传音控股:“这是一家有着‘本分’基因的企业,聚集了蓝海市场的用户需求,但生意模式的护城河不够宽。其中优势主要体现在渠道和价格,劣势主要体现在技术和生态上。” 这是传音当下面对的挑战。 03.跳出手机做生态,传音能再次伟大吗? 从传音目前的思路上看,其也正在尝试不断破局。一季度的回答投资者提问时,公司表示未来将持续推进手机业务稳健拓展,强化中高端产品突破,加大研发资源投入,在影像、AI、充电、基础体验等技术领域重点打造产品价值点,提升中高端产品竞争力。 破局的方向分为两个,一是尝试更多业务、放大生态价值;二是拓展更多市场,让传音的品牌走向非洲之外。 从业务线的扩展上,近年来,传音控股一直在加码布局手机市场之外的新增长业务。比如电子领域,数码配件品牌Oraimo、家用电器品牌Syinix以及售后服务品牌Carlcare,产品范围从手机扩展到AI智能眼镜、智能音箱、智能手环、电视、空调、洗衣机等; 再如,为解决非洲多个地区普遍存在的电力短缺问题,传音控股也投入研发了一些储能相关产品;也有消息称传音控股已成立“出行事业部”,并启动面向非洲、拉美市场的电动两轮车业务;除硬件外,传音也在尝试软硬结合的方向,如联合Google、Facebook、网易、腾讯等多家海内外公司打造了Boomplay、Scooper、Phoenix等多款月活人次破千万的独立APP。 更多业务线的开发,让传音的研发投入显著增高,今年1季度,传音研发投入占营业收入的比例比去年同期增加了1.08个百分点。投入砸进去的成本是暂时的,这也是竞争加剧过程中,传音构筑稳定性的必经之路。 对于更多市场的探索,传音自2016年左右就开始了,较为早期的市场为印尼、印度、越南等,走的也是低价策略,但相比非洲,因人口密度、距离中国市场近等原因,价格竞争更激烈,更难抓住成为当地头部企业的支点。传音2024年的年报,东南亚的毛利率只有17.66%,仍是增收也不增利的碎银子。 近几年,传音进一步尝试打开拉美、中东市场,如在中东推出针对不同人群的定价策略,在拉美与当地经销商达成长期合作等等。只不过,传音向外走的时候,遇到了和其他市场一样的竞争对手们——手机厂商们都在开辟新疆域,而属于传音非洲的时间差再难找到。 无论如何,守住非洲基本盘,横向拓展更大市场,纵向向非洲做更深的数字化、智能化探索,是传音继续前行的唯一方式。 值得一提的是,在传音的非洲故事中,值得所有全球化企业学习的老牌经验是深度本地化的能力和耐心。比如,传音在非洲的美颜手机,能够让深色皮肤,在镜头中有着巧克力般丝滑的质感;再如,为了让热衷歌舞的非洲人能纵情享受音乐,传音推出了主打音乐功能及随机赠送头戴式耳机的策略;而针对炎热的天气,传音还推出了防寒防摔的机型...... 对此,欣孚咨询创始人宋欣在与霞光社的交流中谈到,传音在非洲击败苹果、三星的关键,在于打造了符合非洲人需求的手机。非洲人肤色较深,在拍照诉求上与其他种族不同:白人希望提亮肤色、呈现红润感,亚洲人希望肤色稍白但避免惨白,而非洲人有自己的独特审美。传音抓住这一点,让非洲人在拍照时呈现饱满气色;在音乐功能上,传音旗下的音乐平台 Boom Play 收录了大量非洲本土音乐家的作品,这是其他音乐软件(如 Apple Music、Spotify)难以做到的 —— 它们不会根据区域市场进行精细划分。相较于传音,很多产品初期可能销量不错,但要真正打动消费者、实现溢价,还需做到 “心理按摩”,让消费者觉得产品是专门为他们打造的,而非甩卖的尾货。 在更多华人走向全球市场的过程中,最轻巧的方式,或许就是一套标准化产品打赢全市场。而在更多从业者的视角中,全球化实则是本地化,是融入、理解、深入当地消费者心理、消费习惯的过程。早期出海人拥有更多时间窗口调整姿势和步调,而当下,市场多元、竞争者却相似,常让品牌方们未落地就已经燃起战魂,或许耐心长跑者,需要拥有给自己创造时间窗口的能力和胆魄。
小鹏Q2全线暴涨:交付200%营收125%,何小鹏剧透纯视觉Robotaxi
第三家盈利的造车新势力,已经没有悬念了—— 小鹏汽车,Q2业绩就一个词:全线大涨! 交付 103181 台新车,同比增长 241.6%; 营收 182.7 亿人民币,同比增长 125.3%; 总体毛利率 17.3%,2024 年同期为 14%; 净亏损 4.8 亿人民币,2024 年同期为 12.8 亿人民币。 造车新势力已走完10年,真正到盈利阶段的,算上小鹏竟只有3家。先前的“百家争鸣”几乎尽数被淘汰,足见这个赛道的残酷艰辛。 这个历史性转折点怎么隆重mark都不为过,但何小鹏的态度云淡风轻,甚至是一笔带过: 根本不构成什么挑战。 他的核心关注,已经转移到了小鹏新的增长点、“市梦率”上。 小鹏Q2做的到底咋样? 核心指标一一来看,首先是交付量: 2025年第二季度,小鹏交付新车一共103181辆,同比同比增长 241.6%;环比今年一季度的9.4万台上涨9.5%。 整个上半年,小鹏交付新车19.72万台,已经打平2024全年。 2025年初小鹏将销量目标定为38万辆,半年目标达成率约56%,妥妥超过一众车企。 交付上涨直接带动汽车销售收入上涨,数额为182.7 亿人民币,同比增长 125.3%: 小鹏营收结构中,汽车销售收入占比一直是绝对大头,所以二季度总营收也创了新高——182.7 亿人民币,同比增长 125.3%: 182.7亿是小鹏赚的钱,花掉的钱则包括: 销售成本151.1亿、研发支出22.1亿元、运营行政支出21.67亿元,再减去所得税费用,得出小鹏在2025年第二季度,净亏损4.8 亿人民币: 不严谨地算,小鹏目前卖一辆车亏损4600元左右。 还在亏,但和前几年的“亏”含义完全不同。 2024年二季度净亏损12.8亿元,而2025年第一季度为6.6亿元。 亏损额大幅收窄了超过一半,这是一个明显的止血信号,毫无疑问是正向消息。 小鹏二季度财报“全线”增长,几乎找不出负面,还体现在毛利率: 2025年Q2,小鹏汽车总体毛利率 17.3%,2024 年同期为 14%;上涨最主要因素是汽车毛利率大幅提升——14.3%,2024 年同期为 6.4%: 提升毛利两个显而易见的因素,一个是降本增效持续优化,比如小鹏透露随着交付量规模上涨,二季度材料成本有所下降;另外一个则是二季度新款G6和G9、P7+的交付占比提升,拉高了整体毛利。 小鹏的经营“安全感”也前所未有的有底气。 二季度末,小鹏持有的现金及现金等价物、受限制现金、短期投资及定期存款为人民币475.7亿元。 近500亿的现金储备,就算一点钱不挣,也够小鹏“消耗”10年之久。 况且很快小鹏三季度开始上了全新G7、P7,爆款已经被验证,后续由于单价更高的增程车,实现整体盈利几乎已成定局,现金储备今后大概率只增不减。 何小鹏信心爆棚:2026部署Robotaxi 小鹏十年,经营状况的起起落落其实可以从老板何小鹏的表态中看出来。 何小鹏对技术高瞻远瞩、热泪盈眶时,说明小鹏成功推出了爆款车,经营状况不错;一旦何小鹏向传统车企老板一样,谈制造、谈产品、谈卖车时,则代表小鹏的新车型出师不利,经营上遭遇了阶段性挑战。 这次也一样,但又有些新的变化。 何小鹏在财报会议上大谈对技术的理解、预判、押注……没错又有爆款车了,但不是一款而是MONA 03、P7+接连爆款,新G6、G9、G7反响也不错,就连剑走偏锋的新P7,也出乎意料广受认可。 所以何小鹏的表态,以前是不知什么时候实现的技术前瞻、愿景,但现在是已经落地,且路径清晰小鹏下一阶段增长驱动——L4。 何小鹏认为,中国第一梯其实不分伯仲——有的通过算力,算力不足的,就通过算力加上激光雷达。大模型有一个规模化法则(scaling law), 更好的模型当然能够产生更强大的效果,小鹏在测试的环境中已经看到了。 比如现在,小鹏Ultra车型的有效算力达到了2250TOPS,而同行旗舰车型的算力大概在100~700TOPS之间,这意味着VLA模型,数据量大家一致,但小鹏模型的规模可能是其他玩家的10倍,运行的帧率可能是两倍,“整个大脑更聪明,小脑更敏捷”。 何小鹏认为,短期内基于图灵芯片+VLA模型的能力比行业主流的城市辅助驾驶能力提高数十倍,在安全性、全场景和用户体验上对标有人驾驶的L3。 而基于小鹏的图灵芯片、VLA和VLM,小鹏机器人领域初阶L4能力的可量产版本计划在2026年下半年面世。 这个阶段,何小鹏认为会跟所有L2车企、玩家拉开巨大差距。 至于Robotaxi的落地方式,何小鹏也透露了一些。 明年开始,小鹏在拿到相关政策批准之后,在中国的部分区域来试点Robotaxi。 但和所有Robotaxi都不同:一,小鹏是前装车;二,小鹏没有区域限制。 小鹏的RoboTaxi和量产车同源模型,但是又不完全一样。比如RoboTaxi可能会做到招手即停,但to C车型可做不做到招手即停,所以在训练的方法上还是有一定区别的,主要体现在强化学习方面。 商业化的初步测试阶段,何小鹏认为会自己运营,但一旦通过测试之后,就会寻求更多的合作伙伴。 至于经营层面,何小鹏主要就谈了两点。 首先是——接连爆款节奏下,“年底盈利根本不构成什么挑战”。 其次,何小鹏解释了小鹏当下的产品策略。 之前是技术优先,现在是技术、设计同样重要,甚至设计还要领先半个身位,新款P7只是一个开端。 何小鹏透露小鹏在整个产品开发过程中,以前是先约束工程成本、确定定位,再让造型去适配;现在则是先由造型做选择,再去约束工程,这是定位上的转变。 最后,何小鹏谈到了小鹏的“第三增长曲线”——技术出海。 上周小鹏宣布了与大众汽车的第四项合作,本质上是小鹏给大众提供的电子电气架构从单一纯电车型扩展到大众在中国的所有燃油、纯电、混动车。 大众也就成为全球唯一一家拥有跨动力总成的统一智能电子电气架构平台的车企。 这也意味着,小鹏在智能化技术出海的道路上,是所有中国车企的No.1,技术输出的广度、深度前无古人。 显然,小鹏能从这样的合作中获益。 2024年第一季度起,小鹏就已经有了来自G9平台合作的知识产权授权收入,随后又确认了来自电子电气架构合作的相关收入。 反映在财报中,二季度小鹏的服务及其他收入达到 13.9 亿元,高于 2024 年同期的 12.9 亿元。 和大众深化合作,意味着小鹏该项目的收入生命周期或许要比外界预期更长久。 关于这点,小鹏也在今晚的财报会上承认了,表示“一旦(和)大众(合作)的车辆开始 SOP,基本上就是小鹏第三个经常性收入来源”。 这份收入,帮助小鹏在第二季度提前达成了 17% 的总体毛利率——此前高盛预测的时间,是第四季度。 这样的的小鹏,还不及预期吗? 说来离谱,史上最强财报出炉,小鹏美股股价盘前还小幅下跌了。 原因嘛,是小鹏二季度业绩,营收182.7亿,略高于管理层给出的175-187亿指引中值,但低于分析师预期的183.8 亿。 分析师对小鹏单车收入估计偏高了,毕竟对新能源汽车公司来说,季度销量是明牌。 而销量增速最惊人主要是MONA 03火爆,从单车收入上看,二季度为16.4万,同比下滑 27.5%。 另一方面,小鹏给的三季度业绩指引也偏保守,预计营收在196-210亿,不及分析师预期的210.6亿;预计销量在11.3-11.8万辆之间,不及分析师预期的11.9万辆。 可以看出,小鹏现在追求的是步步为营、稳扎稳打的业绩增长,同时也在有意给爆火的舆论势头降温,以免干扰了自己的节奏。 但机构从来都是结果导向的,与稳步增长相比,它更希望看到的是交付量、市占率和利润的在短期内强势暴涨,以此来证明其投资眼光和价值。 抛开短期市场的“噪音”,从企业经营和健康度的角度看,这份财报正是如何小鹏说的那样——“达到历史最佳”。 整体数据大涨是基本面,更本质的是毛利率强势回归、技术红利开始变现、现金储备雄厚。 高端化的大胆尝试——新P7,出人意料的开门红。 何小鹏的AI叙事,还带来更大的“市梦率”。 开盘后的股价走势,也印证了这一点: 所有新势力都想从一家单纯“造车卖车”的公司,转向“技术+制造”双轮驱动的科技公司,但只有小鹏在经营、研发、产品3个方向都找准节奏。 对于悲观者,小鹏Q2财报还不足以让他们彻底乐观,但足以让乐观者前所未有更加坚定。 关键在于:你是否相信何小鹏的“行稳致远”,是否相信他的AI叙事带来的“市梦率”,最终会转化成股价和市值。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。