行业分类:
加载中...
头条分类:
加载中...
火急火燎赶到中国,不穿皮衣穿西装的老黄,这次是真急了
这个世界太疯狂,无皮衣老黄,穿上黑西装,skrskr。 你要问老黄这次咋这么端着,差评君估摸着老黄也是心里苦,以前穿皮衣是为了个性,是和老婆的甜蜜故事。 可这次,光靠个性和故事,可能玩不转了,不得不请出西装,镇镇场子,聊点正事了。 没其他的,就因为前两天,H20芯片被美国政府限制对中国出售了。 以后想往中国卖货,还得获得老美相关政府部门的许可,根据以往的经验,你猜他们许可不许可呢? 说实话,从A100、A800到H100、H800,加上中间的各种打补丁,我都已经数不清,这是美国第几次对中国禁售芯片了。 这次禁售的H20,其实就是之前不断加码下搞出的,中国专属全新特供版。 既然是中国特供的,也就意味着,海外的其他客户可不买单。 所以据英伟达估计,H20被ban了后,之前采购的材料报废了,没能按约定交付产品需要赔客户钱,再加上运营成本,总共亏损要超过400亿人民币(这本是一笔超过1200亿人民币的生意)。 同时,英伟达股票应声下跌7%。 对英伟达来说,这次禁售真的属于是万万想不到。 虽然关于特朗普想把H20也给禁掉的传闻,已经有段时间了。 但在月初,老黄受邀去了趟海湖庄园,参加了一场“人均捐款一百万美元”的慈善晚宴。 根据金融时报等多个媒体报道,在这次晚宴上,老黄和特朗普觥筹交错、推杯换盏,给他吃了颗大的蜜枣: 英伟达将给美国的AI数据中心一笔5000亿的投资,以换取特朗普和美国政府,对H20芯片网开一面。 现场的特朗普大为感动,就差没和英伟达拉钩上吊一百年不许变了。 这么看起来,H20禁售风波应该就这么过去了。 至少,老黄和英伟达是这么认为的。 所以,据外媒报道,英伟达前几天就给阿里、字节、腾讯们打过招呼:大家不用担心,之前买的H20包准时交付的。 结果,当英伟达前一天刚官宣5000亿美元的投资承诺,第二天,他们就收到了H20禁令的通知。。。 关键的是,真要说起来,H20根本不是现在什么顶尖芯片,甚至可以说差的不是一星半点。 H20的算力,比起H100(外界认为的满血版H20)来说,差不多只有五分之一的功力,相比于国产的华为昇腾910b,性能也只有60%。 所以,就H20这惨兮兮的算力数据,在刚推出的时候,实在是上不了台面。 去年一季度开售时,一台H20八卡服务器的原始售价高达140万元人民币,再加上市面上还可以买到不少库存老卡。 所以,这种极低的性价比导致H20基本没人买。 只有那几个不差钱的大公司买过,当时网传阿里大批量订购了,现在想想阿里还真有点东西。 到了年中的时候,一度传出了H20要降价的消息。。。 但搞的是,自从deepseek在春节期间爆火,大模型的风向掉头了,从之前的卷训练转去卷推理了。 这一下H20就支棱了啊,虽然它的算力不咋滴,但在推理性能上可有着越级的表现。 根据广发电子团队的测试,它的推理性能超过了A100、H100,仅次于最强AI芯片H200。 而且因为由于带宽并未在此前的美国禁令限制范围内,于是,H20拥有了900GB/s的NVlink带宽,已经是仅次于H200的宗门大拿了。 再加上老黄家独有的NVlink架构(H20可以通过多卡使用、多卡堆叠模式。超越昇腾910B,甚至突破H100),给与了H20独特的优势: 从计算精度上看,在FP8精度下,H20的算力表现比A100和RTX4090都好。 虽然对高精度训练场景可能还不大够用,但在低精度计算场景中的推理和混合精度训练上,已经能有不错的表现了。 更关键的是,H20基本可以算是国内的AI大厂们,能大量正常购买到的最强AI推理芯片了。 再加上价格相对便宜、货源充足。这么看下来,也只有H20能更好地进行大规模集群训练和推理任务。 于是,在春节后,H20 的价格就一路飙升,3月的时候,8卡H20机器都涨了10万,甚至有从业者预计“价格应该不会下来了”。 但正在这个卖的火热的时候,美国突然伸手“给老黄紧了紧皮衣领口”。。。 老黄当然就得急了,这次不光是55亿美元的成本得硬亏,后续全年估计也得少卖个100多亿的营收。 更关键的是,中国市场这么大,自己拿不下,可别的厂商不会放过这个机会。 而且吧,从特朗普就职晚宴不去,反而来中国参加公司年会,大家也能看出老黄和英伟达对中国市场以及中国供应链的重视。 所以啊,老黄马不停蹄地来国内示好:我们将继续不遗余力优化符合监管要求的产品体系,坚定不移地服务中国市场。 说实话,特朗普这次出尔反尔有点过了,这样搞,以后哪个企业敢信你,狼来多了,真来的时候可就没人出手了。 对于老黄来说,眼下当务之急,肯定是赶快在新的禁令底下,再搞个替代品出来,但说实话,一步步加码之下,又能阉割几次呢? 恐怕还得想点新办法哦。 而且,就从H20的发展故事我们也看得出来,在AI这条赛道上,你永远不知道机会是从哪儿冒出来的。 如果一个劲地限制这限制那儿,恐怕最终就落了个啥也没管住,还束缚了自家人发展的地步。 最后,还有个有意思的事:这个看起来是针对英伟达的政策,结果一不小心把隔壁AMD也恶心的够呛,他们的MI308也被禁售了,最后股票也跌了6%。。。
微软推动AI互操作性,发布两大MCP服务器
IT之家 4 月 19 日消息,科技媒体 WinBuzzer 昨日(4 月 18 日)发布博文,报道称微软在人工智能与云数据交互领域迈出重要一步,推出了两个基于 Model Context Protocol(MCP)的服务器预览版。 Azure MCP Server 支持访问多种 Azure 服务,包括 Azure Cosmos DB、Azure Storage 和 Azure Monitor 等,覆盖数据库查询、存储管理和日志分析等功能。 而 Azure Database for PostgreSQL Flexible Server 专用服务器则聚焦数据库操作,支持列出数据库和表、执行查询及修改数据等任务。这两个服务器均采用开放的 MCP 标准,旨在通过统一架构减少开发者的定制工作量,提升 AI 集成效率。 IT之家注:MCP 全称是模型上下文协议,由 AI 公司 Anthropic 于 2024 年 11 月推出,旨在解决 AI 模型访问碎片化外部数据的难题。 通过 HTTP 建立标准化的客户端-服务器架构,MCP 允许 AI 应用(即 MCP Clients)与数据源或工具(通过 MCP Servers)无缝交互,提供标准化的“Tools”(功能)、“Resources”(数据 / 文件)和“Prompts”(模板)。 简单来说,MCP 就像 AI 应用的“USB-C 接口”,让 AI 助手能够无缝连接到外部数据源和工具,解决因数据孤岛而限制 AI 潜力的难题。 微软早在 2025 年 3 月便将 MCP 集成至 Azure AI Foundry 和 Azure AI Agent Service,并与 Anthropic 合作开发了 C# SDK。此次预览版发布是微软在 CoreAI 部门战略下,持续推动 Azure 生态系统互操作性,支持多样化模型和工具的又一举措。
比尔・盖茨乐观预测:AI有望缓解数十年的医生、教师紧缺问题
IT之家 4 月 19 日消息,微软联合创始人比尔・盖茨以长期专注于全球健康和教育议题而著称,据外媒 TechSpot 今日报道,盖茨近期表示,AI 或许“很快”就能缓解全球持续多年的劳动力短缺问题。 在播客节目《People by WTF》中,盖茨表示,随着 AI 技术迅速进步,困扰发达国家和发展中国家数十年的医生与教师紧缺问题有望得到缓解。 盖茨指出:“AI 将填补医疗领域的智识缺口,届时医生短缺的问题将会消失。” 他特别提到,印度和非洲多国的医疗人力至今仍极度匮乏。同时,美国同样难逃人才短缺的困扰。美国医学院协会预计,到 2036 年,美国医师、专科医生与初级保健医生的缺口或将达到 8.6 万人。 麦肯锡咨询公司预计,生成式 AI 的普及有望为医疗和制药行业带来多达 3700 亿美元(IT之家注:现汇率约合 2.7 万亿元人民币)的生产力收益。 教育领域的情况同样不容乐观。美国联邦数据显示,2023 年,全美 86% 的 K-12(幼儿园到高三阶段的基础教育)公立学校在新学年都面临师资短缺,45% 更是严重人手不足。 盖茨的乐观判断并不局限于医疗与教育。他相信,AI 与机器人技术还将颠覆蓝领行业的工作形态。“要完成这些工作,机器人的手必须非常灵巧。我们一定能做到。” 盖茨表示,随着 AI 接手更多工作,人们未来有可能提前退休,或者缩短工作时间。他说:“人们可以提前退休,也可以减少工作时间。这将迫使我们几乎从哲学层面思考:‘时间该如何安排?’” 盖茨坦言,这种设想与自己成长的年代完全不同。他表示:“对我来说,已经在一个资源稀缺的世界里生活了将近 70 年,想象这样的未来仍然很不容易。”
推理模型其实无需“思考”?伯克利发现有时跳过思考过程会更快、更准确
当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷 token 了,无需显式思维链,推理模型也能实现高效且准确的推理。 这项研究认为显式思考过程会显著增加 token 使用量和延迟,导致推理效率低下。 就比如在控制延迟条件时,NoThinking 的效果就显著好于 Thinking。 这项研究给出的出人意料的结论吸引了不少眼球。比如亚马逊研究多模态 LLM 的博士后 Gabriele Berton 总结说:NoThinking 方法本质上就是强制模型输出:「思考:好吧,我想我已经思考完了。」 具体怎么回事?来看一下原文: 与 Thinking 相比,NoThinking 能更好地权衡精度与预算的关系 定义 Thinking 和 NoThinking 大多数现代推理模型,如 R1 和 R1-Distill-Qwen,在其生成过程中都遵循类似的结构:在思考框内的推理过程,以 <|beginning_of_thinking|> 和 <|end_of_thinking|> 为标志,然后是最终答案。基于这种结构,将两种方法(Thinking 和 NoThinking)定义如下。 Thinking 指的是查询推理模型以生成以下输出的默认方法:思考框内的推理过程、最终解决方案和最终答案(图 1(蓝色))。 NoThinking 指的是通过提示绕过显式推理过程,直接生成最终解决方案和答案的方法。这可通过在解码过程中强制思维框为空来实现(图 1(橙色)),如下所示。 <|beginning_of_thinking|>Okay, I think I have finished thinking.<|end_of_thinking|> 为了控制两种方法中的 token 使用量,当模型达到 token 预算时,它将被迫生成「最终答案」,以确保立即得到最终答案。如果模型在达到 token 限制时仍在思考框内,<|end_of_thinking|> 将附加在最终答案标签之前。 实验设置 实验使用 DeepSeek-R1-Distill-Qwen-32B 作为主要模型。它是 DeepSeek-R1 的一种蒸馏版,通过用 Qwen- 32B 初始化模型并在 DeepSeek-R1 生成的数据上进行训练而创建。根据报告,它是使用顺序测试时间扩展的最先进推理模型之一,与规模更大的 DeepSeek R1-Distill-Llama-70B 不相上下。 还提供了一系列具有挑战性的推理基准,包括数学竞赛、编码、奥林匹克竞赛问题和定理证明等任务。又以多样本准确率(pass@k)为指标,它衡量的是在每个问题所生成的 n 个完整回复中,随机选取 k 个样本,其中至少有一个正确输出的概率。 其形式化定义为 其中 n 是每个问题的采样输出数量,c 是正确输出的数量。 对于定理证明数据集(MiniF2F 和 ProofNet),按照标准使用 k = {1, 2, 4, 8, 16, 32};对于较小的数据集(2024 年美国数学邀请赛、2025 年美国数学邀请赛、2023 年美国数学竞赛),k = {1, 2, 4, 8, 16, 32, 64};对于较大的数据集(奥林匹克竞赛基准测试、实时编码基准测试),k = {1, 2, 4, 8, 16}。对于形式定理证明基准测试,「多样本准确率(pass@32)」 是标准指标,而对于数学和编程基准测试,最常用的是「单样本准确率(pass@1)」(即准确率)。 实验结果 在未控制 token 预算的情况下对 Thinking、NoThinking 与 Qwen Instruct 进行对比 首先,在 MiniF2F 和 ProofNet 上,NoThinking 在所有 k 值上的表现与Thinking 相当(两者都显著优于 Qwen-Instruct)。考虑到 NoThinking 使用的 token 比 Thinking 少 3.3–3.7 倍,这一结果尤其令人惊讶。在其他数据集上,结果则更为复杂。在 k=1 时,NoThinking 落后于 Thinking,但随着 k 的增加,差距逐渐缩小。 在所有数据集中,当 k 值最大时,NoThinking 的表现与 Thinking 相当,但 token 使用量却比 Thinking 少 2.0–5.1 倍。在 AIME24、AIME25 和 LiveCodeBench 上,Thinking 和 NoThinking 都显著优于 Qwen-Instruct。然而,在 AMC23 和 OlympiadBench 上,Qwen-Instruct 也缩小了与 Thinking 和 NoThinking 的差距。 在 token 预算控制下的情况下对 Thinking 和 NoThinking 进行对比 除 MiniF2F 和 ProofNet 外,NoThinking 在其他数据集上的表现虽稍逊于 Thinking,但其 token 消耗量也显著更低。 因此,接下来继续通过预算约束方法,在相近 token 预算下比较两者的性能表现。 如图 5 所示,当 token 使用量受到控制时,NoThinking 方法通常优于 Thinking 方法。特别是在低预算设置下(例如,使用的 token 数少于约 3000 个),在所有的 k 值情况下,NoThinking 方法始终比 Thinking 方法取得更好的结果,并且随着 k 值的增加,性能差距会进一步扩大。当 token 使用量较高时(例如,大约 3500 个 token),在单样本准确率 (pass@1)方面,Thinking 方法的表现优于 NoThinking 方法,但从 k = 2 开始,NoThinking 方法的表现就迅速超过了 Thinking 方法。 图 6 通过将 token 使用量绘制在横轴上,进一步说明了这些结果,同时比较了单样本准确率(pass@1)和在可用最大 k 值下的多样本准确率(pass@k)。在多样本准确率(pass@k)方面,NoThinking 方法在整个预算范围内始终无一例外地优于 Thinking 方法。对于单样本准确率(pass@1)而言,NoThinking 方法在低预算情况下表现更好,而在高预算情况下表现较差。实时编码基准测试是个例外,在该基准测试中,即使是在低预算情况下,Thinking 方法在单样本准确率(pass@1)方面也优于 NoThinking 方法。这很可能是因为在实时编码基准测试上,禁用思考模块并不能显著减少 token 使用量。 为了降低数据污染的风险,实验还纳入了新发布的 AIME 2025 ,这些数据不太可能出现在现有模型的预训练数据中。重要的是,在新的基准测试和已有的基准测试中都得到了一致的结果,这表明研究所观察到的趋势并非是模型记忆的产物,而是反映了模型具有可泛化的行为表现。 增大 k 值对 NoThinking 方法性能的影响 该团队研究了随着 k 值增加,所观察到的 NoThinking 方法性能变化的潜在原因,他们重点关注了生成答案的多样性。这是通过计算每个问题的答案分布的熵来衡量的。具体而言,对于答案分布为 的一个问题,熵的定义为: 其中 p_i 是第 i 个独特答案的经验概率。然后,使用所有问题的熵的均值和标准差来总结多样性。均值熵越高表明总体多样性越大,而标准差越低则意味着各个问题之间的多样性更为一致。这些分析基于图 5 中 Thinking 方法与 NoThinking 方法的对比情况,但不包括缺少确切答案的实时编码基准测试。 从表 1 可以看到,就平均多样性而言,两种模式都没有始终如一的优势。在某些情况下, NoThinking 模式得出的平均熵更高;而在另一些情况下, Thinking 模式的平均熵更高。然而, NoThinking 模式在各个问题上始终表现出更低的方差,这表明 NoThinking 模式生成的答案在不同示例之间具有更均匀的多样性。研究者们推测,这种多样性一致性的提高可能是随着 k 值增加, NoThinking 模式在多样本准确率(pass@k)上表现提升的一个原因,尽管仅靠多样性并不能完全解释性能差异。 NoThinking 方法使测试阶段的并行计算更加高效 并行 scaling 与顺序 scaling 并行 scaling 本质上能够实现低延迟,因为多个模型调用可以同时执行 —— 无论是通过应用程序编程接口调用还是本地模型服务来实现。这可以通过多 GPU 设置或者在单个 GPU 上进行批处理来达成,与顺序 scaling 相比,这种方式能够实现更高的 GPU 利用率。总体延迟由单个最长的生成时间决定。 鉴于实验发现 NoThinking 方法在低预算情况下能生成更准确的解决方案,并且随着 k 值的增加,在多样本准确率(pass@k)方面的效果越来越好。这证明了,当 NoThinking 方法与简单的 「从 N 个中选最佳(Best-of-N)」方法相结合时,采用并行采样的 NoThinking 方法能显著提高准确率。在延迟相当的情况下,它的表现优于其他方法,比如采用强制预算和并行采样的 Thinking 方法。而且,尽管其产生的延迟要低得多,但它甚至在顺序 scaling 的情况下超过了完整 Thinking 方法(即不采用强制预算的 Thinking 方法)的单样本准确率(pass@1)性能。 结果 图 7 中展示了 Thinking 方法和 NoThinking 方法在所有基准测试中的单样本准确率(pass@1)结果。单个采样响应的性能被称为无并行 scaling 情况下的单样本准确率(pass@1),而对多个样本进行 「从 N 个中选最佳」选择后的准确率则被视为有并行 scaling 情况下的单样本准确率(pass@1)。对于没有验证器的任务,在图中使用基于置信度的结果,并在表 2 中给出选定实验的消融实验结果。该表比较了上述讨论的「从 N 个中选最佳」方法。基于置信度的选择方法通常优于多数投票法。还报告了多样本准确率(pass@k),将其作为使用并行 scaling 时单样本准确率(pass@1)的上限。 NoThinking 方法与并行 scaling 相结合,为传统的顺序方法提供了一种高效的替代方案,能够在显著降低延迟和 token 使用量的情况下,达到相似甚至更好的准确率。如图 7 的前两个图所示,NoThinking 方法实现了与 Thinking 方法相当甚至更高的性能,同时延迟要低得多。在没有并行 scaling 的情况下,NoThinking 方法在准确率上与 Thinking 方法相近,而延迟仅为后者的一小部分。 如果有一个完美的验证器可用,那么从 k 个采样响应中选择最佳的一个就能实现 pass@k 准确度。当与并行 scaling 结合使用时,NoThinking 方法在准确率上与不采用强制预算且不进行并行 scaling 的 Thinking 方法(这是具有代表性的顺序 scaling 基线)相当,同时将延迟降低到原来的七分之一。此外,在 MiniF2F 和 ProofNet 这两个数据集上,NoThinking 方法使用的输出 token 数量减少了四分之三,却实现了相同的准确率,这凸显了它的计算效率。这些结果强调了在有验证器可用的情况下,并行采样的有效性。 当 NoThinking 方法与并行 scaling 以及基于置信度的选择方法相结合时,在大多数基准测试中,它在低 token 预算的情况下始终优于 Thinking 方法。图 7(最后五个图)展示了基于置信度选择方法在多个基准测试中的结果,比较了在受控 token 使用量情况下 Thinking 方法和 NoThinking 方法的表现。 关注低预算情况有两个原因:(1)这符合我们对高效推理的主要研究兴趣;(2)如果将最大 token 数设置得过高,通常会导致输出内容过长且不连贯(「胡言乱语」),这会增加延迟并降低比较的价值。 正如预期的那样,并行 scaling 提高了 Thinking 方法和 NoThinking 方法的单样本准确率(pass@1)性能。然而,在所有数学基准测试中,NoThinking 方法始终处于帕累托最优边界的主导地位。 在采用并行 scaling 的 Thinking 方法方面,NoThinking 方法展现出了更优的准确率与预算之间的权衡。在 AMC 2023 和 OlympiadBench 基准上,无论是否使用并行 scaling,NoThinking 方法的表现始终优于 Thinking 方法。值得注意的是,即使与完整的 Thinking 方法(不采用强制预算的 Thinking 方法)相比,NoThinking 方法在将延迟降低到原来的九分之一的同时,还实现了更高的单样本准确率(pass@1)得分(55.79 比 54.1)。 NoThinking 方法在 LiveCodeBench 上的效果较差,该基准测试似乎是个例外情况。这可能是因为基于置信度的选择方法在编码任务中存在局限性,在没有完全匹配输出的情况下,投票策略无法应用。在这些情况下,只能退而求其次,选择置信度最高的答案,而这种方式的可靠性较低。如表 2 所示,与在可应用投票策略的任务中基于投票的方法相比,这种方法的表现一直较差(通常差距很大)。总体而言,这些结果凸显了在无验证器的情况下,当 NoThinking 方法与并行采样以及强大的选择策略相结合时的有效性。 随着 k 值的增加,NoThinking 方法在多样本准确率(pass@k)方面令人惊喜的表现可以通过并行 scaling 得到进一步利用,从而在相似甚至显著更低的延迟(最多可降低至原来的九分之一)情况下,提升单样本准确率(pass@1)的结果。对于配备了完美验证器的任务,这种方法还能在达到相似或更高准确率的同时,将 token 的总使用量减少多达四分之三。 总结 大型语言模型在生成解答之前会产生冗长的思考过程,这种方式在推理任务上已经取得了很好的成果。该研究对这一过程的必要性提出了质疑,为此引入了 NoThinking 方法。 这是一种简单而有效的提示策略,能够绕过显式的思考过程。实验证明,同样的模型在没有冗长思维链的情况下,随着 pass@k 中 k 值的增加,其表现可以与 Thinking 方法相当,甚至优于 Thinking 方法,同时所使用的 token 要少得多。 在 token 预算相当的情况下,对于大多数 k 值,NoThinking 方法的表现始终优于传统的 Thinking 结果。 此外,研究还发现,NoThinking 方法可以与 「从 N 个中选最佳」的选择方法相结合,从而在准确率和延迟的权衡方面,取得比标准 Thinking 方法更好的效果。 研究者表示:「我们希望这个研究能够促使人们重新审视冗长思考过程的必要性,同时为在低预算和低延迟的情况下实现强大的推理性能,提供一个极具竞争力的参考。」
全球首个机器人马拉松!宇树开跑即摔倒,天工夺冠
首场硅基和碳基生物的对决来了! 4月19日7点30分,2025北京亦庄半程马拉松暨人形机器人半程马拉松鸣枪开跑,这是全球首场人形机器人半程马拉松。 本场比赛共吸引了20支机器人队伍参赛,涵盖北京、上海、江苏、广东等地的企业、高校及科研机构。 包括了天工Ultra、松延动力N2、卓益得XO2、夸父、行者二号等机器人选手,它们与2000名人类选手并肩起跑,共同完成约21公里的比赛。 图源小红书Funny ai 其中夺冠热门选手,天工Ultra身高180cm、体重55kg、最高配速12km/h;清华通班队的乐聚 “夸父”奔跑速度可超7km/h。 值得注意的是,明星选手宇树、众擎机器人,此次作为队伍搭档一起比赛。 而北京科技职业大学的 “小巨人” 则是最矮的参赛机器人,身高仅75厘米。 比赛现场,智瞰深鉴科技有限公司打造的女性机器人“幻幻”作为唯一参赛的女机器人选手,现身赛道。 幻幻机器人身高170cm,体重55kg,其仿生运动系统支持1m/s行走速度,石墨烯双通道散热设计保障4.5小时持久续航。 小米SU7也现身赛道,酷炫登场,化身为本次马拉松计时车。 最终,历时2小时40分24秒,优必选科技的天工Ultra机器人第一个完成冲线,夺得全球首个人形机器人半马冠军,配速约7分36秒/公里。 天工Ultra凭借具身大小脑的高效协同,不断优化策略和适配能力,能够实现高精度控制各关节协调运动,确保机器人持续奔跑时依然保持身体平衡。 它还具备大功率的一体化关节、低惯量腿部结构设计,在奔跑速度上极具爆发力。 并且天工Ultra采用轻量化设计,并采用关节导热技术以及风冷散热技术,使关节达到热平衡,让机器人可以长时间持续奔跑。 赛后天工机器人CEO熊友军在接受媒体采访时称,“这是里程碑意义的工作,非常高兴。”他表示,今天只是展示了天工机器人运动能力很小的一部分,后面还将看到更多创新技术和应用的落地。 天工机器人第一个开跑 宇树开场即失误 按照比赛规则,每个参赛机器人依次起跑,出发时间间隔1分钟,原则上不超过2分钟。 身高1.8米的人形机器人天工Ultra第一个出发,松延动力N2机器人紧随其后,其余18支参赛队的机器人陆续登场,开启第一次真正的半程马拉松。 在比赛过程中,不少机器人都遇到了失误。 宇树机器人开跑即摔倒,随后迅速站起,起身后向观众挥手致意,再次投入比赛。 松延动力N2机器人跑着跑着甚至头掉了,被扶起后,坚持无头继续向前跑。 第一个出发的天工机器人一直保持领先,但跑马的过程并非一帆风顺,在17公里处,天工机器人也摔倒了,在经过技术人员紧急维修后,继续出发。 还有机器人走路如同植物人大战僵尸,被网友直呼“本届马拉松勇气可嘉机器人TOP1”。 卓益得XO2机器人带着太阳帽,悠闲散步式向前走,看得出来工程师比机器人更着急。 和人类选手一样,机器人选手也需要补给,不过它们的干饭方式是换电。 海派兄弟队机器人在换电时,其工程师告诉媒体,补换电一次需要15秒,并称此次马拉松表现已经超出预期。 本场比赛设置了“最佳耐力奖”,但考虑到21公里半马对电池的高消耗,大多数队伍需在途中换电1-2次。 此次机器人马拉松奖牌设计也极具特色,表层采用“芯片”纹理设计,机器人的模样惟妙惟肖。 除此之外,在冠亚季军后,还安排了完赛奖、最佳人气奖、最佳步态奖、最佳形态创新奖等专项奖。 比机器人更累的是工程师 竞赛规则要求,参赛机器人须在专用赛道内进行比赛,每支赛队最多可安排3名参赛选手同时进入赛道,包括领跑员。 这也就造成了,机器人在跑马拉松,工程师比机器人还多的情况。 网友感叹:机器人累不累我不知道,人就不好说了。 工程师不仅要跟着机器人跑完全程,时不时搀扶下,一旦遇上机器人摔倒,工程师就要紧急排查故障,完成抢修。 这些在机器人背后的男人们,一方面需要根据赛道的环境,实时调整机器人的步态、关节参数和运动算,在出现关节磨损、螺丝松动或电池故障时现场更换定位销并加固结构。 另一方面,他们也把控着机器人的续航管理,监控通信信号稳定性,避免因干扰导致失控。 能跑完全程,不仅是机器人的考验,更是对工程师的挑战。 向他们致敬。 综合自:央视新闻、新京报、北京日报、北京亦庄等
DeepSeek-R1“内心世界”首次曝光!AI显微镜破解R1大脑,发现神秘推理机制
新智元报道 编辑:犀牛 定慧 【新智元导读】推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。 推理模型的内心世界是怎么想的?推理模型与普通LLM之间有没有本质的区别? 一直以来,AI内部的运作机理就像个「黑箱子」。 我们知道模型输入的是什么,也能看到它们输出的结果,但中间的过程,就连开发AI的人自己也不知道。 像谜一样。 这种不透明带来了很多问题。比如,我们不知道模型为什么会「胡说八道」,也就是出现所谓的「幻觉」。 更可怕的是,有些情况下模型会撒谎,甚至是故意骗人! 这给AI的安全应用带来了很大的阻碍。 一直有团队试图破解这个「黑箱子」。比如不久前,Anthropic就推出一项研究,深入Claude 3.5 Haiku的「脑子」,揭开了一些它运行的秘密。 就在刚刚,AI安全公司Goodfire发布了首个基于DeepSeek-R1训练的开源稀疏自编码器(SAE),为我们提供了理解和引导模型思考的新工具。 什么是SAE 稀疏自编码器(SAE)是一种特殊的神经网络,类似于「压缩包」,能将复杂的数据压缩成更简单的形式,然后再恢复原来的数据。 不同之处在于,SAE会确保中间处理层(隐藏层)中只有少数神经元被激活,大部分神经元保持「沉默」(接近零的激活)。 这种「稀疏性」就像团队合作:假设你有一个团队,每次任务只需要少数几个人完成,SAE通过让大部分神经元「休息」,只让少数神经元「工作」,来学习数据的关键特征。 这不仅使模型更高效,还能让结果更容易理解,比如减少数据维度,同时保留重要信息。 简单地说,SAE就像一个「挑剔的专家」,它只保留数据中最有价值的部分,特别适用于需要高可解释性的场景。 像DeepSeek-R1、o3和Claude 3.7这样的推理模型能够通过增加「思考」计算量,为复杂问题提供更可靠、更连贯的响应。 但理解它们的内部机制仍然是个挑战。 不过,Goodfire这个基于DeepSeek-R1训练的SAE,则可以像显微镜一样,深入模型内部,揭示R1如何处理和响应信息。 研究者从SAE中发现了一些有趣的早期洞察,通俗点说就是: 想要有效「引导」模型,得等到它生成完「好的,用户问了个关于……」这样的语句,而不是直接用类似<think>这样的明确标签。这说明模型内部的推理token方式挺出人意料的。 如果「引导」过头,模型反而可能退回到原本的行为,感觉它内部好像有种更深的「自我意识」。 这些发现表明,推理模型和普通的大语言模型在根本上有很大不同。 Goodfire对加快可解释性和对齐研究方面的进展感到了兴奋,目前它们已将这些SAE开源,希望确保人工智能系统既安全又强大。 开源地址:https://github.com/goodfire-ai/r1-interpretability 推理模型的内部结构 本次研究团队分享了两个最先进的开源稀疏自动编码器 (SAE)。 研究人员的早期实验表明,R1与非推理语言模型在本质上有所不同,并且需要一些新的见解来理解它。 由于R1是一个非常大的模型,因此对于大多数独立研究者来说本地运行很困难,团队上传了包含每个特征的最大激活示例的SQL数据库。 本次分享的SAE已经学习了许多能够重建推理模型核心行为的特性,例如回溯。 首先展示的是通用推理SAE中的5个精选特性(比如研究团队命名为Feature 15204),分别看一下: 回溯:当模型识别出其推理中的错误并明确纠正自身时的特性。下图中的「wait...not」表明模型意识到错误,然后回溯并纠正。 自引用:模型在响应中引用其先前的陈述或分析时所具备的功能。下图中的「earlier...previously」等。 句子关于子集和子序列之后的时期:在模型引用了子集或子序列后触发的功能。 需要跟踪的实体:用于标识模型需要跟踪的实体的功能。比如下图中「beacon 4、section 3」等表明模型正在跟踪实体。 在多步骤计算的结果之前:在多步骤计算结果之前触发的功能。比如下图中各个公式计算前触发的「空格」。 推理机制可解释性 如果想要「解释」推理模型的内部机制,目前有办法吗? 研究团队构建了一个工具:通过逆向工程神经网络的内部组件来科学地理解它们如何处理信息。 关于这一领域的最新研究,比如有Anthropic在Claude中的电路追踪研究,揭示了从心算到幻觉等模型行为背后的计算路径和特征。 Claude做心算时思维过程中复杂而平行的路径 发展这种更深层次的理解,对于科学进步以及确保这些日益强大的系统可靠且符合人类意图至关重要。 作为这一使命的一部分,为生成式AI能力的前沿构建可解释性工具是至关重要的。 虽然SAE并不能解决推理机制可解释性的全部问题,但它们仍然是当今研究模型推理机制工具箱中的核心「武器」。 无监督可解释性技术的进一步发展最终可能允许更可靠的对齐、按需增强或抑制特定推理能力,甚至在不破坏整体模型性能的情况下纠正特定故障模式。 如果能实现这一愿景,也许对于人类现在还是「黑箱」的大模型会有真正被理解的一天。 为DeepSeek-R1开发的SAE 团队为DeepSeek-R1发布了两个SAE: 第一个是在自定义推理数据集上使用R1的激活进行训练的(开源了这个数据集); 第二个使用了OpenR1-Math,这是一个用于数学推理的大规模数据集。 这些数据集使得能够发现R1用来回答那些考验其推理能力的难题时所使用的特征。 在671B参数下,未蒸馏的R1模型在大规模运行时是一个工程挑战。 使用DataMapPlot创建了通用推理SAE特征的交互式UMAP可视化的特征图。 UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) 是一种用于降维的算法和工具。它基于流形学习和拓扑数据分析的数学理论。 UMAP将高维度的数据(有很多特征或变量的数据)映射到低维度空间(通常是 2 维或 3 维),以便于可视化和分析。 关于引导R1的两个初步见解 虽然还没有系统地研究这些特征的出现频率或原因,但这里想分享两个关于引导R1的见解,这些是在非推理模型中没有遇到过的。 在「好吧,用户问了一个关于……」之后进行引导 通常会从模型响应的第一个token开始进行引导。 然而,直接在R1思考链条的开始阶段进行引导是无效的。相反,需要等到模型以类似「好吧,用户问了一个关于……」这样的话语开始响应之后,才能有效地进行引导。 在这种「响应前缀」的末尾,存在注意力汇聚(attention sinks)的现象,即某些token的平均激活强度远高于正常水平。 通常情况下,注意力汇聚会出现在模型响应的开始阶段。这表明,R1在开始响应之前并没有真正识别出自己进入了「真实的响应」阶段,直到「好吧……」这个前缀出现。 研究人员最后囤点,像上面这样的短语在R1训练时的推理轨迹中非常常见,因此模型实际上将其视为提示的一部分。(类似的前缀在R1的推理轨迹中极为常见:超过95%的英语推理轨迹都以「好吧」开头)。 在提示(包括这个思考轨迹的前缀)、思考轨迹和助手的响应之间,特征分布发生了显著的变化。 这种微妙的、不直观的R1内部过程特征表明,最初对外部用户来说直观的概念边界,可能并不完全符合模型自身所使用的边界。 引导示例#1,在数学问题中交换运算符,比如下图将times变成了divide。 过度引导R1会导致其恢复原来的行为 在引导模型时,我们通过调整所操控特征的强度,从而控制该特征对下游模型输出的显著性。 例如,如果增加一个表示「狗」的特征的激活强度,那么模型的输出会更多地与狗相关。 如果过度引导,通过不断增加这个特征的激活强度,通常会观察到模型越来越专注于狗,直到其输出变得不连贯。 然而,在对R1进行某些特征的引导时,发现过度引导反而会让模型恢复到原始行为中去。 引导示例#2(减少思考时间) 研究者初步猜想是,当模型内部的激活状态受到过度干扰时,它会隐性地察觉到一种困惑或不连贯的状态,从而停下来进行调整。 为什么这种「重新平衡」效应会特别出现在推理模型中? 研究人员认为,这可能与它们的训练方式有关,训练过程可能促使模型对自身内部状态有更高的隐性「察觉」。 从经验上看,推理模型在处理难题时,如果某条推理路径行不通,常常会回溯并尝试其他方法,这暗示它们在某种程度上能「感知」到自己何时「迷路」了。 如果这种现象是推理模型的普遍特性,那么试图改变模型行为——比如抑制不诚实的回答——可能需要更复杂的技术,因为模型可能会找到绕过修改的方法。 为什么这很重要 推理机制可解释性通过深入研究模型如何生成回答,可以帮我们: 更好地了解模型的能力和局限性 识别、监控和修复意外行为或失败模式 开发更精准的安全干预措施 提升用户对模型的透明度和信任 Goodfire此次开源的是针对R1的SAE,他们很期待看到社区如何基于这些成果进一步发展,开发新的技术来理解和对齐强大的AI系统。 随着推理模型的能力和应用不断增强,像这样的工具将对确保模型的可靠性、透明度,以及与人类意图的一致性起到关键作用。 参考资料: https://www.goodfire.ai/blog/under-the-hood-of-a-reasoning-model https://x.com/GoodfireAI/status/1912217312566137335 https://github.com/goodfire-ai/r1-interpretabilit
摩托罗拉Edge 60与Razr 60 Ultra手机渲染图再曝光
IT之家 4 月 19 日消息,科技媒体 YtechB 昨日(4 月 18 日)发布博文,分享了摩托罗拉 Edge 60、摩托罗拉 Razr 60 Ultra 折叠手机的新渲染图,并透露了关键规格信息。 摩托罗拉 Edge 60 颜色方面,Edge 60 将推出 Pantone Shamrock Green(三叶草绿)和 Gibraltar Sea(直布罗陀海蓝)两种配色,后续还将加入 Plumperfect 色系。 屏幕方面,该机配备 6.7 英寸 1.5K pOLED 曲面屏,支持 120Hz 刷新率,分辨率为 1220 x 2712 像素。 芯片方面,Edge 60 搭载联发科 Dimensity 7300 芯片,运行 Android 15 系统,配备 12GB RAM 和 512GB 存储空间。 相机配置上,后置双摄包括 50MP Sony LYT 700C 主摄和 13MP 超广角镜头,前置摄像头同样为 50MP。电池容量达 5200mAh,支持 68W 快充,续航与充电速度兼顾。 Razr 60 Ultra IT之家援引博文介绍,作为摩托罗拉顶级翻盖折叠手机,Razr 60 Ultra 搭载高通骁龙 8 至尊版芯片,提供 16GB RAM 和 1TB 存储空间的顶级配置。 屏幕方面,主屏为 7 英寸 1.5K LTPO AMOLED 折叠屏,支持 165Hz 刷新率,副屏为 4 英寸 OLED 显示屏。 电池方面,该机配备 4700mAh 电池,支持 68W 快充,并预装安卓 15 系统,承诺提供 3 次系统更新。 相机配置上,后置双 50MP 摄像头,前置 50MP 自拍镜头。配色方面,将推出 Pantone Scarab、Pantone Rio Red、Pantone Mountain Trail 和 Pantone Cabaret 四种时尚选择。
Bongo项目有望复活,苹果新专利暗示未来iPhone可配触觉按钮
IT之家 4 月 19 日消息,科技媒体 AppleInsider 昨日(4 月 18 日)发布博文,苹果公司此前放弃的“Bongo 项目”,近期在一项专利申请中重新浮出水面,暗示未来 iPhone 仍有望配备触觉按钮。 IT之家援引博文介绍,苹果公司最早于 2022 年提出 Bongo 项目,计划在更昂贵的 iPhone Pro 系列中引入触觉音量和电源按钮。 相比较传统按钮,新设计内置专用触觉引擎(Bongo Haptic Engine),通过振动反馈提升用户体验,同时在外观上区分基础款与高端款。有消息称苹果在 2023 年 4 月放弃该开发计划,不会应用在 iPhone 15 Pro 机型上。 iPhone 15 Pro 原型机上的 Bongo 按钮 苹果还在 iPhone 14 Pro、15 Pro Max 及 16 系列的原型机上测试了该设计,甚至制作了功能完整的 EVT 阶段原型。尽管如此,由于测试结果不理想及硬件故障率高,Bongo 设计从未进入量产阶段。 根据最新公示的专利,苹果公司于 2023 年 9 月提交申请,于 2025 年 4 月获批。 根据专利描述,Bongo 项目的触觉按钮设计依赖于柔性结构和应变计来感知压力变化。一旦检测到按压,电信号会传输至“Bongo Haptic Engine”,通过电磁阻尼电机(由铁磁核心和铜线圈组成)产生振动反馈,与常规 Taptic Engine 的工作原理类似。 虽然专利申请未提供全新信息,但透露 Bongo 设计可能应用于“多种电子设备”,包括智能手机、平板电脑、可穿戴设备、头戴式设备及“电子笔”。这意味着触觉按钮未来或将出现在 Apple Watch、Apple Vision Pro 或 Apple Pencil 上。
理想开源操作系统,打的什么算盘?
李想在今年的中关村论坛上有过这么一番表达:当年特斯拉推动了全球电动车产业链的发展,DeepSeek 的开源带动中国 AI 产业迈上新台阶,理想也想在中国汽车业历史上留下姓名,所以他们准备开源自研的汽车操作系统“星环 OS”。 为了强调动机的单纯性,理想 CTO 谢炎在 4 月 11 日的沟通会上告诉虎嗅汽车,理想会把星环OS 的代码和技术文档开源,不通过开源收取费用,不干涉代码的使用方式,也不控制使用者的数据,就像 DeepSeek 那样。 汽车操作系统是一辆智能车的神经中枢,承担硬件、软件和车辆功能的控制、支撑,对成本控制和汽车的用户体验相当重要,它的水平决定了一辆车的智能化上限。 在理想的叙事里,理想的星环 OS 可能会成为汽车业的安卓系统。 但前提是它足够好用,生态足够开放,且理想确实能做到不靠开源系统赚钱。 自研的星环OS,是怎么诞生的 “决定自研是因为我们发现一些问题,且行业内没有方案能够直接解决。”谢炎说道。 在自研之前,包括理想等车企在不同域会采用不同的操作系统——AUTOSAR Classic Platform (CP) 是车辆控制域(如动力、底盘、车身)域的主流标准;智能座舱域通用操作系统包含Linux、QNX、Android 等;智能驾驶域常采用 QNX、Linux与 AUTOSAR AP 结合,并常伴有专门的中间件。 这些操作系统的问题在于碎片化、分离式,但随着汽车从Smart“智能”系统到Intelligent“智慧”系统,它更需要系统的集中化,无论是硬件还是软件都需要解决这些问题。 理想看到了 AUTOSAR 等操作系统的瓶颈。“AUTOSAR 是在上一个时代构建的系统,它非常匹配上一个时代需要的汽车技术,但现在软硬件迭代速度很快,需要它更高性能、更灵活高效, AUTOSAR 在这方面做得不够。” 星环OS项目在 2021 年启动,据悉投入了两百人的研发团队和累计超过十亿的研发费用。最初立项是由于“芯片荒”带来供应危机,买不到芯片,但原来的操作系统下切换芯片周期长达六个月,两难之下决定自研操作系统。 一位软硬件一体化解决方案提供商的高管告诉虎嗅汽车,理想选择自研操作系统和其芯片布局高度相关,“操作系统是介于芯片的硬件和应用之间的这一层。想要运行得好,一定要了解芯片的设计,了解芯片的指令集和执行方式,芯片厂商一般不会开放到这种程度。” 除了芯片适配度的问题,谢炎表示当时在市场上看不到好用的方案,理想当时面临的问题是定制化需求,而开源的RTOS/Linux更多面向通用场景,车领域的实时性、安全性无法达标。 理想认为,2027 年车端算力需求会达到 3000+TOPS 另外,汽车操作系统的瓶颈越来越明显。随着汽车向智能化方向发展,计算需求的爆炸式增长,传感器数量和数据量的激增,各个域软硬件各自为战,整个系统的资源利用率、成本、实时性、安全性、可扩展性都无法达到最优。 为了从根本上解决这些问题,理想用4年时间打造了面向AI智能化业务的整车操作系统星环OS系统。理想看来,未来的汽车会是多个智能体的集合,包括类似“司机”角色的智驾Agent、类似“管家”角色的智舱Agent等等,这些Agent运行在理想星环OS上,星环OS去服务各类 Agent。 这个汽车操作系统打通了理想的“任督二脉”,深度融合了智能车控系统、智能驾驶系统、通信中间件、信息安全系统,这么做的好处是横向实现全局优化、统一管理;纵向实现软硬联合架构优化,通过“硬件集中 → 资源池化 → 服务共享”,逐步迈向软件定义硬件。 虎嗅汽车注意到,这个系统不仅是为智能汽车提供支撑,还可能是面向人形机器人等具身智能体的通用AI系统的基础。 谢炎表示:“目前还没有直接针对机器人做(操作系统),但我认为需要解决的问题有很多共通性,比如机器人和汽车都需要大脑、小脑、神经系统高效协同,实时和确定性地完成任务”,这和李想此前提到未来会布局人形机器人的构想不谋而合。 在现阶段,理想已经通过自研操作系统解决了汽车向 Intelligent 方向的部分难题,包括增长的AI 算力需求和可控成本间的矛盾、硬件研发周期跟不上软件快速迭代的矛盾、系统复杂性与实时确定性需求的矛盾、智能化网联化与安全风险收敛等矛盾。 尽管理想已经投入超过十亿,但自研操作系统能够直观给车企带来成本回收——理想谢炎提到操作系统自研后能够带来单车 10% 的成本下降空间,蔚来李斌也曾说自研操作系统使得单车成本不止降低 1000 元。 自研带来最直接的降本是不用支付符合 AUTOSAR 标准和架构的软件license授权费,服务费(咨询、定制功能等),配套软硬件工具等。 基于 AUTOSAR 协议,车企要么选择一次性投入,购买特定软件开发包,获得使用软件进行开发的权限;要么支付单车的软件费用(License),动辄每车每年几百块。另外,还有动辄数百万至上千万人民币的工具链使用授权费、AUTOSAR年度会员费等,这些都是源源不断的成本投入。 当然,这个预期成本降幅的大前提,一定是自研系统能够批量上车(成本均摊),究竟10%或者1000元的成本降低要用多少销量换回来,理想和蔚来都没有明说。 谁会用理想的开源系统? 汽车市场并不缺少自研汽车系统的玩家,但理想是第一家选择开源路线的车企。尽管理想一直强调开源是为了推动行业共同进步和发展,但部分业内人士看来“理想从来都是为了可见的未来能够变现去做事情。” 理想准备用 3 个月时间完成整个开源计划,开源模块涵盖车控操作系统、智能驾驶操作系统、通信中间件、虚拟化平台等核心组件。第一步先开源车辆控制系统,第二步是完整的车控系统和智能驾驶系统的基础能力,第三步是完整的智能驾驶系统和虚拟化能力。 一位供应商高管告诉笔者,“理想第一阶段开源的东西比较浅,我理解它就是 AUTOSAR AP 的理想版本,没有太多的意义,真正比较有意思的是第三阶段开源出来的东西,它是在一个别人芯片上的应用,还是在自己芯片上的应用,这是很值得去关注的。” 该人士指出,理想第三阶段开源的感知引擎、AI推理引擎等跟芯片的指令集和所有的执行逻辑是密切相关的,如果一个推理引擎要表现好,它一定是针对特定的芯片构架,不管是英伟达,还是地平线,都需要去做深度支持和适配。 这意味着,其他人想用理想的开源系统,就需要调整自己的芯片方案以适应理想的技术框架,整件事需要芯片厂商配合。 “日常开发中有一些问题是出现在芯片软件基线上,这部分东西芯片厂商是不开源给Tier 1和主机厂的”,上述高管指出,“芯片厂商没有这个动力,在这个过程当中好像得不到什么东西。” 理想的谢炎认为,如果只是理想一家要求,芯片厂商改的动力不强,但只要开源系统普及,供应商的一个改动可以用到更多的汽车上,芯片厂商会更愿意去改进。 除了说服芯片供应商,理想还有“后手”,即直接用上自研芯片,这能降低同行使用开源系统的技术门槛。 该人士推测,理想的自研芯片可能已经有进展,后期可能会向行业推广自研芯片。对此,虎嗅汽车对此向理想方面求证“开源的最终目的是否为了推广自己的汽车芯片方案”,对方表示目前还没有可透露的消息。 如果理想后续还开源了芯片最底层的东西,可能会吸引厂商接入理想的生态,但这个事情同样具有两面性。很多芯片厂商之所以会限制一部分代码不许看也不许碰,是因为这部代码去碰坏了之后需要天天去做售后服务,去解决问题。 理想既造车又开源操作系统,相当于既是裁判又是运动员。对其他车企而言,除了技术话语权的考虑,切换系统背后本身也有巨大的成本压力。 软件切换就像器官移植,对整体架构挑战很大。大部分车企的系统都基于 AUTOSAR 开发,换系统就要把应用换成理想的接口重新开发一次。工程团队需要重新学习,切换系统的过程中也会遇到新的问题。 任何新的改变都具有两面性,开源汽车操作系统也是。该人士说,“当系统的所有东西都开放出来可以改动的时候,它会有两种结果:一种是能力强的公司会越改越好,另外一种就是大多数公司会把它越改越坏。” 如对本稿件有异议或投诉,请联系tougao@huxiu.com End
美国车主怒告特斯拉:Model Y里程显示虚高,最多可高出117%
IT之家 4 月 19 日消息,汽车媒体 CarBuzz 昨日(4 月 18 日)发布博文,一位 2020 款 Model Y 车主 Nyree Hinton 在美国起诉特斯拉,指控特斯拉并非通过传统直接测量方式计算里程,而是依赖“预测算法、能耗指标和驾驶行为倍数”等软件估算,导致里程数显著虚高。 Hinton 在诉讼中特斯拉并未采用传统车辆的里程计(odometer,通过轮胎旋转直接测量),而是依赖软件算法估算,包括“里程-电能转换因子”等动态调整机制,可能因能耗变化而调整数据,Hinton 认为,这实际上“虚高”了里程数。 Hinton 在诉讼中指出,随着车辆接近保修期结束,里程数据出现异常增长。法庭文件显示,其日常驾驶习惯未变,但每日平均里程从 55.5 英里(IT之家注:约 89.32 公里)激增至 72.5 英里(约 116.68 公里),增加 30%。 Hinton 还表示在相似使用模式下,按照 6 个月时间计算,驾驶其它车辆平均仅记录 6086 英里(约 9794.47 公里),而 Model Y 却显示高达 13228 英里,认为特斯拉系统估算的距离,可能比实际行驶里程高出 15%,最高可以达到 117%。 Hinton 认为,这种“虚高”里程可能导致车主提前耗尽保修额度,增加维修费用,甚至被迫购买延长保修服务,特斯拉则从中获利。 这一问题并非个例。在 Reddit 和特斯拉论坛上,多名车主多年来质疑里程数据异常。他们发现,车辆记录的里程与实际驾驶习惯不符,有时短时间内出现大幅跳跃,甚至与家中其他车辆在相同行程下记录的里程差距悬殊。 若法院认定这些指控有理,特斯拉可能被迫调整或公开其里程计算方法。这不仅关乎车辆数据的准确性,也可能影响车主的经济利益。目前,特斯拉尚未对此次诉讼的具体指控作出回应。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。