行业分类:
加载中...
头条分类:
加载中...
李飞飞团队50美元复现DeepSeek R1? 真相来了
《科创板日报》2月6日讯 (记者 毛明江 黄心怡) 今日一则关于人工智能领域的新闻引发广泛关注。 据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。 这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何? 《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。 ▍通义模型的“基座”作用 根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。 青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。 国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。” 斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调 谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。 国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上 “以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。 ▍低成本训练大模型有局限,但也是方向 尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。 首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。 其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。 此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。 尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。 武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。
李飞飞团队50美元训练出DeepSeek R1?
今天下午简直被这条新闻刷屏了,“震惊”“李飞飞”“50美元”“Deep Seek R1”,这几个词连到一起,简直是掀了 OpenAI 和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI 花了几十、几百亿美元做出来的模型,被轻松复制,那 OpenAI 的估值不得打个骨折? 我就赶紧看了下论文: https://arxiv.org/html/2501.19393v1 Github:https://github.com/simplescaling/s1 结果发现并不是那么回事。 首先这个 50 美元咋来的?因为论文中提到用了 16 块 H100 GPU,而且只花了 26min,如果是租服务器的话,确实也就是几十美元。 但问题是,论文中并不是训练出了 DeepSeek R1! 论文的核心内容是基于开源的 Qwen2.5 - 32B 模型,该模型是蒸馏出来的模型,32B 只能算是中等参数模型,作为本次实验对比的 R1 和 o1 都是大几千亿参数的模型。用小数据集进行监督微调,而且微调后的参数数量跟之前基本保持一致,然后在特定任务上把性能优化了,而这些任务的性能表现可以媲美 DeepSeek R1 和 OpenAI o1。 怎么经过中文博主翻译过来后,就成了 50 美元蒸馏出了 DeepSeek R1? 以下是论文解读(使用豆包解读): 研究背景与目标:语言模型性能提升多依赖训练时计算资源扩展,测试时缩放是新范式,OpenAI 的 o1 模型展示了其潜力,但方法未公开。本文旨在探寻实现测试时缩放和强推理性能的最简方法。 s1K 数据集构建 初始数据收集:依据质量、难度和多样性原则,从 16 个来源收集 59029 个问题,涵盖现有数据集整理和新的定量推理数据集创建,用 Google Gemini Flash Thinking API 生成推理轨迹和解决方案,并进行去重和去污染处理。 最终样本选择:经质量、难度和多样性三步筛选得到 1000 个样本的 s1K 数据集。质量筛选去除 API 错误和低质量样本;难度筛选依据两个模型的性能和推理轨迹长度排除过易问题;多样性筛选按数学学科分类,从不同领域采样,且倾向选择推理轨迹长的样本。 测试时缩放方法 方法分类与提出:将测试时缩放方法分为顺序和并行两类,重点研究顺序缩放。提出预算强制(Budget forcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。 基准对比:将预算强制与条件长度控制方法(令牌条件控制、步骤条件控制、类别条件控制)和拒绝采样进行对比。使用控制(Control)、缩放(Scaling)和性能(Performance)三个指标评估,结果表明预算强制在控制、缩放和最终性能上表现最佳。 实验结果 实验设置:用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调得到 s1-32B 模型,在 AIME24、MATH500 和 GPQA Diamond 三个推理基准上评估,并与 OpenAI o1 系列、DeepSeek r1 系列等模型对比。 性能表现:s1-32B 在测试时缩放中,性能随测试时计算资源增加而提升,在 AIME24 上超过 o1-preview 达 27%,且是最具样本效率的开源数据推理模型,接近 Gemini 2.0 在 AIME24 上的性能,验证了蒸馏过程的有效性。 消融实验 数据相关:测试数据质量、多样性和难度组合的重要性。随机选择(仅质量)、仅多样性选择、仅难度选择(选最长推理轨迹样本)的数据集性能均不如 s1K,训练 59K 全量样本虽性能强但资源消耗大,证明 s1K 构建方法的有效性。 测试时缩放方法:预算强制在 AIME24 测试中控制完美、缩放良好、得分最高,“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败,步骤条件控制下模型可绕过计算约束,类别条件控制虽能提升性能但综合表现不如预算强制,拒绝采样呈现反向缩放趋势。 讨论与展望 样本高效推理:众多研究致力于复制 o1 性能,本文通过 1000 样本监督微调结合预算强制,构建出有竞争力的模型,推测预训练使模型具备推理能力,微调激活该能力。同时,介绍了相关基准和方法的发展情况。 测试时缩放:对比了并行和顺序测试时缩放方法,分析了预算强制的局限性,提出改进方向,如改进预算强制策略或结合强化学习探索新的测试时缩放方式 ,并指出并行缩放可作为突破顺序缩放限制的解决方案。 国内的网络环境真的是太浮躁了,这种信息,完全不确认一下就发出来误导大众,希望大家以后看到这种信息要多思考一下。
DeepSeek或促成中俄AI合作,俄方:我们不用“美国方案”
俄罗斯联邦储蓄银行 凤凰网科技讯 2月7日,路透社报道称,俄罗斯联邦储蓄银行计划与中国研究人员开展人工智能联合项目。该银行是俄罗斯最大的银行,同时也是俄罗斯人工智能领域的领军企业之一。此前,中国的DeepSeek以远低于美国竞争对手的成本创建了AI模型,颠覆了科技格局。该银行第一副首席执行官亚历山大・韦佳欣向路透社表示,DeepSeek的成功与俄罗斯联邦储蓄银行的战略相契合,即寻找低成本解决方案,而非高投入的“美国方案”。 韦佳欣表示:“俄罗斯联邦储蓄银行拥有众多科研人员。我们计划通过他们与中国的研究人员开展联合研究项目。” 他并未明确指出该行计划与中国哪些机构或人员合作。 韦佳欣称:“在国际议程的诸多问题上,中国是俄罗斯的合作伙伴,通过两国科研人员的合作,我们可以加强双方的科学合作水平。” 自DeepSeek的模型推出后,俄罗斯联邦储蓄银行将其与自身最先进的模型GigaChat MAX进行了对比,结果表明,在科学任务方面,中国的竞争对手表现更优,而在银行业务方面,GigaChat与之相当或更胜一筹。 韦佳欣指出,DeepSeek的成功与俄罗斯联邦储蓄银行的战略相契合,即寻找低成本解决方案,而非像美国总统唐纳德・特朗普宣布的“星际之门”等项目那样,在计算基础设施大型项目上投入数十亿美元。 韦佳欣称:“DeepSeek证明了,即使计算能力有限,也有可能实现与美国模型相当的质量。当存在工程创新时,这就引发了对极端投资必要性的质疑。” 与DeepSeek的开发者一样,俄罗斯联邦储蓄银行已将其大部分人工智能平台公开,包括以 20 世纪先锋派画家瓦西里・康定斯基命名的文本转图像模型Kandinsky,以及基础模型GigaChat Lite。 韦佳欣说:“DeepSeek的成功在很大程度上得益于其透明度,这与OpenAI的保密性形成鲜明对比。这种透明度吸引了庞大的用户群体。”(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
低价接入DeepSeek后,百度再掀算力接力赛
2025年是AI游戏规则被改写的一年。 在DeepSeek以中式务实震惊全球之前,AI大模型竞赛是一条由资本和GPU所主导的不计成本之路,参赛者的技术信仰只有一个Scaling Law,大力出奇迹。DeepSeek-R1掀起的AI普及浪潮,相当于在大路旁边开辟了一个分岔,它迫使主要参与者开始反思,让更多人把AI用起来的前提不仅是技术领先,还要有足够低的成本、超预期的体验。 最直观的例子是,ChatGPT-o1虽然与DeepSeek能力相当,但一个月200美元的订阅费已经将大多数普通人拒之门外。幡然醒悟的OpenAI,将1月31日上线的推理模型o3-mini设置为免费用户也可使用。 目之所及,AI大模型的花式降本将成为2025年的主线之一。抵达方式有很多,比如高效算力,又或者算法和工程创新。具体到中国,在DeepSeek的激励之下,BAT、字节、华为等国内AI大厂已经加紧在上述方向你追我赶。 2月5日,业内再传新进展——首个国产芯片万卡集群正式点亮,本土化AI在高效算力上向前一步。 01 本土自研万卡集群正式点亮 在宣布低价接入DeepSeek模型两天后,百度再公布算力降本新进展。 2月5日,百度智能云宣布点亮昆仑芯三代万卡集群。这也是国内首个正式点亮的自研万卡集群。 从全球范围来看,以合理成本获得可靠的算力,在当前的AI竞争中至关重要。谷歌、Meta、亚马逊、特斯拉等公司都在加快自研芯片的进程,希望以此打破算力瓶颈、降低模型成本。与微软因为GPU供应问题而貌合神离的OpenAI,也屡被传出计划自研AI芯片。 不过,拥有自研芯片只是实现万卡集群的第一步。要训练基础大模型,需要将一万张以上的加速卡(如GPU、TPU或其他专用AI芯片)组成一个高性能的「超级计算机」,工程难度极高。 中国工程院院士、清华大学计算机系教授郑纬民此前表示,当下构建国产自主万卡系统充满挑战,但「至关重要」。 以百度自研万卡集群为例,它不仅为百度带来坚实的算力支持,也有望推动模型降本趋势,成为中国科技界在人工智能领域的又一次突破。 客观而言,国产芯片早期顶多相当于AI大厂基础设施的一个「副本」,更多是作为算力供应的一个补充而存在,主要满足单任务算力消耗。而在算力空前紧张、技术追求自主可控的趋势下,国产智算开始承受更多期待,集群效能最大化成为核心目标。 这个核心目标受市场需求驱动。目前国内客户对大模型的关键诉求至少有两个:一是缩短训练时间。百度智能云事业群总裁沈抖此前提到,由于大模型行业的发展日新月异,客户普遍希望能在两周内完成训练,最晚也应在一个月内完成。 二是降本。从信息时代到AI时代,降低技术成本曲线是科技行业永恒的主题。按照目前的硅谷规律,模型训练成本每年大约能降低四分之一,但这远不及市场期待。否则DeepSeek也不会在美国引发「强震」。据多方测算,DeepSeek-R1的整体成本约为OpenAI o1模型的1/30。 DeepSeek已经让全世界看到中国AI花小钱办大事的务实能力。《华尔街日报》称之为「够用就好」策略,英国《金融时报》则直言,「并不是每个司机都需要一辆法拉利。」而百度点亮国产万卡集群,则属于中国AI从算力层面寻求成本突破的一个解法。 理论上,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求;同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。 另一方面,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制,提升集群综合利用率,实现训练成本指数级下降。 不过在实践中,超大规模集群的调度效率至关重要。比如怎么做模型的拆分,如何将训练、微调、推理任务混合部署,都会影响算力的有效发挥。 百度能率先点亮自研万卡集群,其实背后离不开百舸AI异构计算平台4.0等超前基础设施的支撑。 2024年9月升级的百舸4.0属于大模型降本的「全能型选手」。仅降低通信瓶颈一项,便将带宽有效性提升到90%以上。在提供容错与稳定性机制上,通过避免由于单卡故障率随规模指数上升而造成的集群有效性大幅下降,保障有效训练率达到98%。 据了解,在百舸4.0的支撑下,百度自研3万卡集群也已经在路上。 从行业发展角度来看,百度通过自研大规模集群的建设,不仅解决了自身算力供应的问题,也为整个行业提供了新的思路和方向。 02 AI应用爆发的杰文斯悖论 中外科技公司狂卷AI成本,行业影响深远。 如果没有DeepSeek「上线20天日活2000万」的现场教学,科技界或许很难将大模型降本带来的变量具像化。尽管业界领袖都认为这一天早晚会到来。 比如微软CEO纳德拉,在DeepSeek爆发前夕,他还在社交媒体上布道,「随着人工智能变得更加高效和普及,我们将看到它的使用量猛增,成为一种永远无法满足的商品」,经济学中的「杰文斯悖论」会在AI领域复现。 AI芯片初创公司Groq的首席执行官此前直言,运行AI模型的成本越低,AI能力显然就越强,「如果推理成本太高,人们就不会太多使用」,而更高的使用率才能催生更好的模型。 翻译过来,英伟达的软肋,未尝不是AI开发者以及整个AI生态的幸事。 在移动互联网时代,从应用层到基础设施的倒三角型利益分配,催生了数量众多的超级应用和明星独角兽,支撑了移动生态的长久繁荣。而在生成式AI时代初期,绝大多数AI投资最终流向了基础设施层企业——强如微软,其AI基础设施投资中约有一半的钱也要用来买卡。 这一客观现实无形中抬高了AI应用开发的门槛。 DeepSeek的崛起,意味着AI行业的发展正从硬件基础设施层向软件应用层转移。花旗在最新产业研报中预测:DeepSeek、百度等中国模型的高效低成本将有助于加速全球AI应用开发,可能在全球引发更多技术创新,并推动2025年人工智能应用的拐点。 举个例子,百度自研万卡集群所代表的低成本算力,可以支撑Sora类多模态应用的开发。目前海外视频生成的成本并不算低。Runway生成一条5秒视频的价格为1.2美元,Sora生成一个5秒480P视频成本约为0.5美元,如果多模态模型成本继续下探,理论上会有更多的多模态应用出现。 而DeepSeek-R1的高效推理能力,可能会直接带来企业智能体领域的突破性进展。企业智能体的目标是处理工作任务,如果能以更低的推理成本拥有智能体类的AI员工,企业客户的盈利能力也将间接得到提升。 为了加速AI应用开发的繁荣,在DeepSeek出圈以来,百度智能云、华为云、阿里云、腾讯云、火山引擎等也在争相接入DeepSeek模型,并以优惠条件吸引更多的企业客户和开发者。 这其中,百度在「砍门槛」上算是比较激进的一家。2月3日百度智能云直接宣布打折——千帆ModelBuilder平台上的DeepSeek-R1仅为官方刊例价的5折,DeepSeek-V3仅为官方刊例价的3折,并提供限时免费服务。 「砍门槛」的背后,是百度智能云在推理引擎性能优化技术、推理服务工程架构创新以及推理服务全链路安全保障上的深度融合。 在推理引擎性能上,针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、内存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升。 在推理服务的工程架构上,百度智能云做了严格的推/拉模式的性能对比。为了进一步提升系统的稳定性和用户体验,设计了请求失败的续推机制,这显著增强了系统的容错能力和服务SLA达标率。同时针对多轮对话和system设定等场景中存在重复Prompt前缀的情况,实现了主流的KV-Cache复用技术,并辅以全局Cache感知的流量调度策略。 在稳定安全保障上,集成了百度智能云独家内容安全算子,实现模型安全增强与企业级高可用保障,基于大模型全生命周期数据安全与模型保护机制,在千帆平台上的模型均拥有使用安全的安全保障。 DeepSeek模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。 「价格战」背后,本质还是一个由于AI应用所主导的AI生态之争。 在这个过程中,对冲基金桥水判断,AI对算力的需求不会放缓,反而可能加速。「杰文斯悖论」似乎永不过时。 这也是为什么微软、Meta、谷歌、百度、字节今年都在算力上加大投入。根据目前的公开信息,微软计划在截至今年6月份的财年对AI数据中心投资800亿美元,Meta今年计划在AI基础设施等领域投入650亿美元。用谷歌CEO皮查伊的话说,大家都想拥抱更多的发展机会。 在纳德拉宣布微软在 AI 和云基础设施方面的800 亿美元后,马斯克转发了这一消息 纵观全球AI竞争,拥有更高性能、更低成本的算力,始终是AI巨头保证领先地位的重要抓手。 国内头部企业如百度,除了已经路上的3万卡集群,百舸4.0设计之初可支持10万卡用量,这一「留白」为中国AI企业更低门槛的创新突破积蓄了一定的空间。 凭借其强大的算力优势、成本效益以及百舸平台的全方位赋能,百度等国内AI公司有望为人工智能的发展注入新的活力。
马斯克:未来战争将是无人机和AI的天下
马斯克在西点军校 凤凰网科技讯 北京时间2月7日,据彭博社报道,根据美国西点军校发布的最新视频,埃隆·马斯克(Elon Musk)在去年夏天的一次对话中表示,未来的战争将由人工智能(AI)和无人机主导。 去年8月16日,马斯克与西点军校学术委员会主任、准将谢恩·里夫斯(Shane Reeves)进行了一次40分钟的炉边对话。美国当地时间周四晚些时候,马斯克在X上转发了这次对话的视频。 “当前的乌克兰战争很大程度上已经是一场无人机战争。如果未来爆发大国战争,那很有可能是一场无人机战争。”马斯克在对话中称。 他表示,美国需要投资无人机,并提高国内无人机的生产速度。马斯克称自己经常听着军事历史的有声读物入睡,他告诫国家领导人不要自满。“各国基本上都是依赖过去的战争经验来准备未来战争,而没有针对未来可能出现的新型战争(如无人机战争、AI主导的战争)做好充分准备。”他对在场的军方人员表示。 马斯克还谈到了星链在战争中的作用。“星链是乌克兰军方通信系统的支柱,因为它不会被俄罗斯封锁,”马斯克表示,“在前线,所有光纤连接都被切断,手机信号塔被摧毁,地球静止轨道的卫星通信遭到干扰。唯一不会被干扰的就是星链。”(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
法院判决武汉首例AI图片创作者维权案,认可创作者享有著作权
IT之家 2 月 7 日消息,武汉东湖新技术开发区人民法院公众号 6 日通报,近日,一起“AI 生成图被侵权”的著作权纠纷案判决明确,在一定条件下 AIGC 生成内容可受著作权保护,为判断 AIGC 生成物的可版权性提供了重要参考,也清晰界定了 AIGC 领域的侵权行为。这也是武汉首例 AI 图片创作者维权案。 IT之家整理案情信息如下: 原告王某系人工智能生成内容(AIGC)创作者。2024 年 5 月 17 日,王某在小红书平台发布了一张使用“某 AI”App 创作的图片,该笔记获得 3.5 万点赞、6000 余次收藏、660 余条评论。 2024 年 6 月 20 日,王某发现武汉某科技有限公司在其抖音账号发布的 AI 绘画训练营广告中使用了与该图片一致的图片。王某于 5 月 26 日注册了该作品的版权登记,认为被告公司侵犯了自己的著作权,遂提起诉讼。 法院经审理认为,王某使用 AIGC 软件生成的图片与人们通常见到的照片、绘画无异,属于艺术领域,具有一定的表现形式,具有一定的表现形式,受到著作权法的保护。 我国著作权法所称的作品,是指文学、艺术和科技领域内有独创性并能以一定形式表现的智力创作成果,保护的是具有独创性的表达,而非思想或者创意本身。 法院认为,王某在创作过程中需要构思画面,通过关键词的撰写、输入,不断调整参数,对生成作品具有一定程度的“控制和预见”,创作过程反映了王某的构思、创作技法、审美选择,体现了王某的个性化表达。 因此,该图片凝结了王某的智力劳动成果,王某为该图片的作者及著作权人。武汉某科技有限公司未经许可使用该图片用于商业推广,侵害了王某的信息网络传播权。 法院判决武汉某科技有限公司赔偿王某经济损失及合理开支 4000 元。一审判决作出后,双方均未上诉,判决已发生法律效力,被告已主动履行义务。
苹果造了个高情商台灯机器人!能点头哈腰、眉飞色舞
作者 | 许丽思 编辑 | 漠影 机器人前瞻2月7日报道,最近,苹果内部机器人技术研究团队发布最新论文,提出了一个名为“ ELEGNT” 的框架,专门为日常互动中的非人形机器人设计既实用又能表达情感的动作。 这项研究专门设计了一款能点头哈腰、能眉飞色舞的智能台灯机器人,它可以通过各种肢体语言与用户进行互动,表达自己细腻的态度和情绪。 苹果机器人研究团队认为,在人与人之间的交流中,姿势、手势和眼神之类的非语言行为非常重要,能有意或无意地传达人类的内心状态。而为了让机器人能更自然地与人类互动,机器人的动作设计也应该融入一些表达性的元素,比如意图、注意力和情感,而不仅仅是考虑快速、高效地完成任务。 一、支持手势、语音、投影等交互,能完成多项功能和社交任务 这款台灯机器人集成了LED光源、摄像头、扬声器、麦克风、激光投影仪等,与用户的交互形式包括手势、语音、触摸和投影。 ▲台灯机器人的构成及交互形式 它能完成点头、摇尾巴、低头、坐下、躲避、接近等动作,还可以表现出紧张、失望、凝视、强调等状态。 ▲台灯机器人在运动和空间方面的表达形式 它可以完成的一系列功能任务、社交任务,例如摄影灯、感应夜灯、项目协助、创意建议、边播放音乐边跳舞等。 ▲台灯机器人可以完成多项功能任务、社交任务 “ELEGNT” 的框架结合了两种设计思路: 一是功能性驱动,专注于让机器人用最优路径完成任务(比如移动到某个位置); 二是表达性驱动,让机器人通过动作传递自己的“内心状态”,比如意图、注意力、态度或情绪,从而让互动更自然。 具体来说,这个框架包括以下三方面: 1、意图可视化:通过22个运动基元编码,将充电、避障等底层需求转化为可读的身体语言; 2、注意力引导:利用多轴关节实现类人注视行为,如预报天气时自动转向窗外; 3、情绪共鸣:开发情感状态机,让机器人能根据对话语境展现惊喜/失落等微表情。 二、六组对照实验,充当眼里有活的社交伴侣 团队还做了一系列的对照实验,比较了在多个场景下,表达性台灯机器人(Expressive Robot)和功能性台灯机器人(Functional Robot)在实现目标过程中的运动差异。 在用户对一个物品进行拍摄的时候,表达性的台灯机器人会响应用户手势灵活移动,主动帮助用户寻找拍摄最佳的光照角度,而功能性台灯机器人则移动较为迟缓。 当用户错误指令它读取无法触及的便签时,表达性台灯机器人会多次努力伸长身子试图阅读信息,再发现看不到后,略带歉意地摇头向用户表达无法完成任务。 而功能性台灯机器人在第一次尝试发现无法阅读到信息后,则直接向用户表达任务失败。 表达性机器人还可以扮演一个社交伴侣的角色,在用户寻问今天天气时,它会先认真看看窗外,告诉用户气温、干湿度状况,还兴奋得希望用户能够在这样的好天气带上他去徒步。惨遭拒绝后,垂头丧气表现得很失落。 功能性机器人就无法在面对同样的问题时,与用户、环境产生除了语言之外的互动。 表达性机器人还会积极提醒用户喝水,找到水杯把它推到用户眼前,然后抬头盯着用户喝水。在喝水完成后,继续为用户正在阅读的书籍照明。 功能性机器人依旧沉默得多,只能通过将灯光照射在杯子上对用户进行提醒。 表达性机器人还可以当一个“眼里有活”的项目助手,仔细观察用户正在进行的手工活动,主动变换角度进行照明,还可以提供教程投影。功能性机器人的光照角度就比较有限了。 表达性机器人还会随着用户播放的音乐,手舞足蹈,给足用户陪伴价值。 结语:苹果大力探索机器人与人类的情感化交互 这项研究结果表明,表达性动作能显著提升用户对机器人的好感度和互动投入感,这种效果在社交性任务中尤其明显,因为这些任务本身对功能性动作的要求较低,表达性动作的空间更大。 团队下一步计划,将根据这次研究成果整合出一个全新的生成式框架,让非人形机器人能根据不同场景自动生成既能完成任务、又能“有温度”地表达意图的动作。 从这款颇具人情味的台灯机器人来看,人形或许并非机器人发展的最终答案,任何形态的物品都可以逐渐机器人化。 而对苹果来说,它似乎正在探索一种不同于目前绝大多数机器人企业所走的、以生产力提升为导向的科技发展路径。在大多数厂商参数比拼正酣时,苹果的机器人研究团队正在悄然探索人类与机器人情感化交互的全新智能生态。
苹果机器人首次曝光!一个有情绪会蹦迪的台灯,皮克斯动画照进现实
能干活 还能卖萌 1986 年,皮克斯在一场计算机图形讨论会上放映了最新动画《顽皮跳跳灯》,片中两个蹦蹦跳跳的台灯没有表情,没有对白,只凭借扭头、伸展等等的动作,用 2 分钟就向观众展示了自己的鲜明个性和情感。 这种前所未见的动画形式,不仅震撼了在场所有人,还助力这部短片拿下奥斯卡提名,也成为了现在每一部皮克斯电影都不会缺席的吉祥物。 而将近 40 年后的今天,和皮克斯渊源颇深的苹果,成功将这个动画史上最具里程碑意义的角色,带到了现实世界当中。 有情感的「小台灯」 今天,苹果在其机器学习网站,公布了一项机器人研究成果 「ELEGNT」,目前的原型机器是一个台灯形态的设备。 ELEGNT 的名字取得非常巧妙:形似单词「elegant(优雅)」,符合这项技术的表现;而全称很长:a framework of Expressive and functionaL movEment desiGn for Non-anthropomorphic robot,翻译过来就是「一种用于非拟人化机器人的表达性和功能性运动设计框架」。 看起来有点抽象?其实核心意思很简单:苹果做的不是春晚舞台上的人形机器人,而是让一些非人形机器,比如一个台灯,懂得「肢体语言」。 这个「懂」不单单是「理解」人类的手势操作,而是机器人做出反应时,也会补充一些动作细节,让交互有「生命感」。 传统的机器人,完成指令的方式是一条直线,程序设定好的动作幅度精准到不会多出一毫米。 而 ELEGNT 是一条曲线,过程中会表达意图、显示注意力、展示态度、表达情绪,也就是说会小小地「演」一下。 比如,用户下达指令的时候, ELEGNT 会「看着」用户,时不时歪歪头和点头,仿佛自己真的在认真听讲,而实际上没有这些动作,机器人也能通过麦克风正常录音和分析。 用户问机器人天气,它会先向窗户的方向探探头,然后再进行回答,但其实它只是上网检索了一下天气数据。 左边:具有情感表达的机器人;右边:普通的机器人 如果机器人够不着需要识别的物体,它还会垂下脑袋摇摇头。 左边:具有情感表达的机器人;右边:普通的机器人 比较可爱的是放音乐的时候,机器人会跟着节拍一起蹦迪,看起来真就像是皮克斯电影的桥段。 一样的台灯形态和动作,很容易让人想起 2023 年小米发布的一个名为「皮皮灯」的产品,同样能「摇头晃脑」,有「喜怒哀乐」的情绪表达。 不过这个皮皮灯的实现原理要简单许多,主要是设定好的程序,动作幅度也比较死板,总体来说比较像噱头。 图源:知乎 @J 法老 ELEGNT 背后的技术要复杂得多,运用了大语言模型的上下文学习能力,能够「察言观色」,根据实时交互场景调整动作模式。在交互中,ELEGNT 会主动问用户远足能不能带上自己,如果被拒绝,它就会低下头,给人一种很难过的感觉。 左边:具有情感表达的机器人;右边:普通的机器人 ELEGNT 还结合人类反馈优化,目前能够生成 10 种不同的肢体语言序列,并控制好每个动作的时间和幅度,实现情感表达和任务完成效率的平衡。 当然,高度拟人化的 ELEGNT,背后也存在一定的伦理问题:可能会引起用户的情感投射,甚至依赖,尤其是在儿童和一些脆弱群体当中。 由于测试的时间太短,测试人员也不够多,无法验证 ELEGNT 表达动作会不会存在程式化的问题,长期使用有可能会导致用户审美疲劳,影响交互的有效性。 机器人也需要「人味」 从苹果的演示对比视频可以发现,ELEGNT 机器人虽然可爱,但它的效率比「打直球」的普通机器人要低很多,前者还在探头探脑的时候,后者早已经给出用户需要的答案。 左边:具有情感表达的机器人;右边:普通的机器人 这似乎和机器人的初衷有点背道而驰。让机器人进入我们的工作和生活,本应该是为了更好更快地帮我们干活,而 ELEGNT 问个天气都要等它先演一番,这么一想,苹果好像「方向错了」? 技术是冰冷的。当你还在欣喜于 Deepseek 能帮你高效完成工作,可能你已经快要被它取代;工厂里越来越多的机器人身影,意味着更多人类失去岗位。 而苹果变 AI 为 Apple Intelligence,玩一点文字游戏来掩盖技术的无情一面;而对于机器人,苹果的思路更加开阔。 Apple Intelligence 多彩的界面和 logo 也是为了显得更友好 虽然不如人形机器人那么火,但这两年「机器宠物」的概念也开始兴起:卡西欧的 Moflin 卖断货,CES 上的 Ropet 成功刷屏。这些毛绒绒的小机器人,主要的功能就是卖萌,和生成一些「情感」。 Ropet ELEGNT 就有点像电子宠物和实用机器人的结合,它能一边卖萌,一边完成任务。论文中也提到,情感优先的机器人,能够降低人类的认知负荷,让用户更乐于主动去进行交互,特别是在社交场景中。 不是只有苹果在想办法为机器人增加活人感。马斯克的人形机器人 TeslaBot,已经会和用户玩剪刀石头布;宇树科技也让机器人穿上大花袄扭秧歌,登上春晚大舞台。 TeslaBot 只是,这些外壳冰冷、动作机械的机器人,再怎么模仿人类,目前都还是差了点意思。ELEGNT 直接另辟蹊径,利用了我们对皮克斯动画角色的集体记忆,加上完成度相当不错的机器动作,首次亮相就成功走进不少人的内心。 The Verge 评论区,已经有网友对 ELEGNT 给出高度评价: 我已经不想养一只狗了,我现在想养一盏台灯。 「我爱台灯」 论文中更严谨的样本研究显示,带有情感表达的 ELEGNT ,在 6 个任务的评分中都高于没有情感表达的版本,前者几乎获得后者两倍的平均得分;并且 ELEGNT 放音乐时蹦迪的表现让人印象非常深刻。 比起人形机器人,ELEGNT 是一个更具普适性的技术,因为它可以用于那些非人形的低自由度机器人中。今天是一盏台灯,明天可能就是苹果的 HomePod,到最后可能整个家都变成迪士尼的公主城堡,每个家具都有自己的情感,一个人住也能热热闹闹的。 未来的智能家居说不定长这样 虽然这些技术目前还只是学术成果,但它们实装到产品上的日子或许不会太远。从去年开始,非常多的信息源都报道称,苹果正在开发智能家用机器人,可能会是一个带了个显示屏的 HomePod 设备,或者是带有机械臂的 iPad,有点像经典的 iMac G4,有望于 2026 或 2027 年推出。 苹果新智能家居假想图,图源:MacRumors 根据此前的爆料,这个带显示屏的 HomePod 可能会支持自动转向,始终将屏幕对准用户,并且能识别手势操作,听起来就很适合 ELEGNT 大显身手。 iPhone 一年比一年无聊,万众期待的 Vision Pro 、Apple 智能实际体验乏善可陈。据称,家用机器人很可能成为苹果的「Next Big Thing」,用来打下苹果目前表现平平的智能家居市场。 Amazon、Google 不是没有类似的探索,但用户接受度并不高,主要是因为这些设备笨重又不智能;步步紧逼的老对手三星,也已经宣布了今年正式发布家用机器人,外观同样主打「可爱风」。 三星将于今年发布智能家用机器人 Ballie 苹果这次能不能再次成功「后发制人」的问题,只有时间能作答,但至少 ELEGNT 让我久违地感觉一个苹果产品「非常有趣」。 文|苏伟鸿
硅谷大厂相继宣布加强AI智算中心建设,“缩放定律”终结了吗?
北京时间2月7日,Open AI宣布,它正在评估哪些地区适合作为“星际之门”项目的数据中心所在地,表明Open AI正继续推进这项高达数千亿美元的AI基础设施建设项目。 在一次OpenAI面向媒体的电话会议上,首席全球事务官克里斯·莱恩(Chris Lehane)表示:“随着DeepSeek的消息传出,这表明这是一场非常真实的竞争,并且事关重大。这将决定未来世界的走向。” OpenAI表示,星际之门的第一座数据中心已经落地美国德克萨斯洲,公司正在寻求在美国国内建设更多AI智算中心。有消息称,目前美国有16个州对星际之门项目感兴趣。Open AI在官方公告中指出,这项计划将在促进AI发展同时,创造数以千计的新增就业,并推动美国部分地区的再工业化。 星际之门宣布于2025年1月,是美国新上任总统特朗普支持的AI基础设施投资计划。该计划最初由OpenAI、软银和甲骨文三家公司向星际之门投资1000亿美元,此后4年将陆续投资共计4000亿美元,用来在美国本土建设AI基础设施。 不仅仅是星际之门项目正在持续推进中,近期微软、谷歌、亚马逊等云计算大厂依旧在2025年加大了公司的资本开支。谷歌预计2025年的资本开支增长超40%,将达到750亿美元;Meta的资本开支增长超60%,可能达到650亿美元;微软的资本开支增长超80%,达到800亿美元;亚马逊的资本开支增长超35%,达到1050亿美元。 硅谷云计算大厂不断升高的资本开支,多用于打造AI智算中心为代表的AI基础设施,这符合着追求大算力的缩放定律(Scaling Law)逻辑。 缩放定律是Open AI在2020年提出的观点,即AI大模型性能会随着模型参数量、训练数据量、计算资源增加而增加。随着模型参数增加,对训练数据量和计算资源的需求也呈现指数级增长。 近期,缩放定律正受到更多质疑。前Open AI首席科学家伊尔亚·苏茨克维(Ilya Sutskever)在一次技术峰会上表示,全球训练数据量正在耗尽,这可能意味着无法通过扩大训练数据量来大幅提升AI大模型性能。当可训练数据放缓或停止,即使增加计算资源和模型参数,模型性能提升也有限。这直接冲击缩放定律的假设。 同样挑战缩放定律的还有DeepSeek V3/R1的模型。DeepSeek模型具备低成本和高性能特点,它的V3模型训练成本不到600万美元,也让行业开始怀疑大规模投资算力,从而提升AI大模型性能是否有效。“DeepSeek的火爆出圈正让算力高企的门槛变得更加平滑。”艾媒咨询首席分析师张毅告诉记者,“市场对算力的态度会回归相对冷静的状态。” 不过长期而言,不少业内人士认为缩放定律依然有效。Arm CEO雷内·哈斯表示,DeepSeek对于AI产业链是一大利好,但是这还不足够。他接着评论道:“云计算大厂纷纷在2025年增加资本开支,表明我们这次还处于AI浪潮的早期阶段,更加强大AI所带来的革命性能力仍在孕育之中。” 这种观点受到多家业内券商机构回应。中信建投近期研报认为,尽管缩放定律受到技术、算力、数据影响遭遇瓶颈,但是强大的AI基础模型仍然是各厂商未来追求的主要方向。DeepSeek R1的技术报告同样强调了,更大AI基础大模型的价值:“更大基础模型所发现的推理模式,对于提升推理能力至关重要。” 不过,长期而言,Omdia分析师王珅认为,缩放定律代表的大算力训练出更好模型,进而拥有更多AI未来潜力的逻辑依旧成立。 同时,王珅表示:“DeepSeek代表着一个轻量、高性价比、专注深化AI能力的探索方向,星际之门代表着此前延续的高算力方向,两种方向在未来有何进展变化并不好判断,还需时间观察。”他认为,如果行业偏向于探索DeepSeek代表的方向,这会对原本高算力高投资的基础逻辑形成一些冲击,大规模AI智算中心建设将会减速。
马斯克顶住炮轰用AI狂砍预算,美政界被搅翻天
编译 | 陈骏达 编辑 | Panken 智东西2月7日消息,据外媒昨日报道,两位知情人士透露,亿万富翁埃隆·马斯克(Elon Musk)掌管的美国政府效率部(DOGE)正将美国教育部的敏感数据输入AI软件,以调查这一机构的项目和支出。 这些数据包括管理拨款人员的个人身份信息及敏感的内部财务数据,DOGE正在使用微软的Azure云访问AI软件,仔细检查美国教育部的每一笔支出,从合同到拨款再到差旅费用,从而削减其中的部分开支。 外媒日前还获取了相关部门的会议录音,佐证了马斯克相关团队用AI处理政府数据的事实。 DOGE是美国新任总统特朗普上任后宣布的新部门,旨在减少美国联邦政府中的官僚机构,削减开支。负责人马斯克曾放言,要用这个部门削减2万亿美元的预算。马斯克DOGE部门自1月启动以来闪电出击,用AI严查财政浪费,在美国政界搅起腥风血雨。 今日,马斯克已在X平台上发布、转发多条推文,间接回应了外媒曝光的相关事件,但没有直接回应AI工具的使用问题。他认为DOGE的行为是在阻止资金流向欺诈实体,目前媒体的报道完全将重点带偏了,甚至是在贼喊捉贼。 DOGE、微软已拒绝置评,白宫方面尚未做出正式回应。 马斯克过去已经多次在公开场合发表相关言论,认为AI能够快速理解人类难以处理的数据和信息。然而,由于这项技术的风险,许多企业和美国政府部门已经禁止员工在涉及安全问题的材料上使用AI。 在教育部,DOGE团队的目标是大幅削减支出,并最终缩减该部门及其员工规模——从而进一步推动特朗普政府将其完全废除。目前,美国教育部已有100人左右被置于带薪行政休假状态。 另一位熟悉DOGE流程的人士表示,DOGE团队计划在许多部门和机构复制这一过程——即访问政府不同部门的后端软件,然后使用AI技术来提取和筛选有关员工和项目支出的信息。 将敏感数据直接输入微软Azure这样的托管平台,会将这些数据置于系统运营商的控制之下,从而增加数据泄露或在网络攻击中被窃取的可能性。人工智能也可能出错,例如在总结数据时产生错误的“幻觉”信息。 不过,美国教育部周四已经在一份声明中阐述了他们的立场,他们认为DOGE在教育部的代表是联邦雇员,拥有必要的安全许可和背景调查权限。这些人员将帮助教育部提升其成本效益,“没有任何不恰当或不正当的事情发生”。 在教育部之外,马斯克的团队还迅速接管了负责控制政府支付、人力资源和IT的部门,即美国总务管理局技术转型服务部门(TTS),这一部门的负责人是前特斯拉员工Thomas Shedd。 外媒获得的一份录音显示,Thomas Shedd在本周一举行的一次会议上告诉员工,这一部门会成为收集政府合同的“中心场所”,以便他们可以用AI进行分析。这一分析的最终目的也是为了削减政府开支,提升效率。 据两位熟悉DOGE组织工作的人士透露,目前该部门已经利用包括AI在内的工具,在教育部确定了几十份合同,作为削减的目标。其中一位人士称,DOGE打算取消所有非运营所必须的或法律要求的合同。 就在上述消息曝光的同一日,美国地方法官因美国财政部工会团体的诉讼,而暂停了马斯克团队对财政部数据的访问权限。 结语:大多数美国人对AI治国持怀疑态度 美国上一届政府对在政府行政工作中使用AI工具持保守态度,大多数美国人对这种操作也比较迟疑。白宫前AI政策负责人Alondra Nelson称,在不清楚应该如何部署此类工具时,大多数美国人不希望AI被用于政府用途。 不过在包括马斯克在内的多位特朗普政府高管看来,这项举措似乎是利大于弊。在美国财政部因此遭受诉讼后,AI治国这一新颖但也充满风险的做法,面临着种种未知。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。