行业分类:
加载中...
头条分类:
加载中...
刚刚,GPT-4.5 发布!可能是情商最高的大模型,最大缺点就是贵
朋友,先别急着退订 ChatGPT 会员。 最近,DeepSeek 开源周搞得热火朝天,全球开发者忙着分享代码、碰撞灵感;而另一边,OpenAI 却选在开源周最后一天冷不丁地丢出了 GPT-4.5 这个「大杀器」。 Sam Altman 在 X 平台分享了他的个人体验: 这是我第一次觉得 AI 像在与一位深思熟虑的人对话。它真的能提供有价值的建议,甚至让我有几次靠在椅子上,惊讶于 AI 竟然能给出如此出色的回答。 不过,他也特别提醒,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。而他之所以没有亮相发布会,原因是在医院照顾小孩。 从今天开始,ChatGPT Pro 用户(200 美元/月)已经可以用上 GPT-4.5(研究预览版)了。下周,将会逐步开放给 Plus 和 Team 用户;再下一周则是 Enterprise 和 Edu 用户。 体验方式十分简单,只需在模型选择器即可切换使用。 GPT-4.5 支持联网搜索,并能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。 GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。 简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。 亮点概括如下: 知识更广泛:它学习了更多的信息,所以懂的东西比以前多 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况) 更懂人心:「情商」更高,更能理解你的真实意图 对话更自然:聊天感觉更像和真人交流,不那么机械 创意更丰富:在写作和设计方面表现更好 GPT-4.5 正式发布,更懂你的心了 GPT-4.5 最直观的变化就是更懂你。 它更像一个善解人意的朋友,能够理解你的言外之意,捕捉你微妙的情感变化。 OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。 在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%)。 作为 OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,与专注于科学、技术、工程和数学(STEM)领域的其他模型不同,GPT-4.5 被设计得更全面、更通用。 GPT-4.5 的突破,很大程度上归功于「无监督学习」的进步。 简单来说,无监督学习就是让 AI 自己从海量数据中学习,而不是靠人工标注数据。 这就好比让一个孩子自己去看世界,而不是事事都由大人告诉他。这样,孩子就能学到更多更丰富的知识,形成自己的「世界观」。 OpenAI 认为,无监督学习和推理能力是 AI 发展的两大支柱。 得益于此,GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻觉现象。 SimpleQA 用于评估大语言模型(LLM)在简单但具有挑战性的知识问答中的事实性。而 GPT-4.5 在 SimpleQA 准确率(数值越高越好)达到 62.5%,遥遥领先于 OpenAI 其它模型。 另外,在 SimpleQA 幻觉率(数值越低越好)的评估中,GPT-4.5 的分数为 37.1%,也和 OpenAI 其它模型拉开差距。 在 PersonQA 数据集上,GPT-4.5 取得了 0.78 的准确率,优于 GPT-4o(0.28)和 o1(0.55)。 此外,OpenAI 对 GPT-4.5 进行了广泛的安全测试,包括有害内容拒绝、幻觉评估、偏见检测、越狱攻击防护等:GPT-4.5 在拒绝不安全内容方面表现良好,但在过度拒绝方面比前代模型稍高。 多语言性能方面,GPT-4.5 支持 14 种语言,在 MMLU 评估中超越了 GPT-4o,尤其在罕见语言(如斯瓦希里语、约鲁巴语)上有明显提升。 至于编程和软件工程,GPT-4.5 代码生成和修复任务表现有所提升。 Agentic Tasks 评估的是 AI 在真实环境中独立完成复杂任务的能力,包括终端操作(Linux + Python 环境)、资源获取(如自动下载、运行程序)以及复杂任务执行(如加载和运行 AI 模型)等。 OpenAI 发布的系统卡显示,GPT-4.5 在自主任务方面仍然受到一定限制,远未达到真正的自主 AI Agent。 除了普通用户,GPT-4.5 也向开发者敞开了大门。 OpenAI 同步开放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。 GPT-4.5 支持函数调用(function calling)、结构化输出(Structured Outputs)、流式响应(streaming)和系统消息(system messages),并且具备视觉能力,可通过图像输入进行处理。 开发者可以通过 API 接口将 GPT-4.5 集成到自己的应用中,创造出更多有趣、有用的产品。 不过,GPT-4.5 计算量极大,成本高昂,因此并不会取代 GPT-4o。并且,OpenAI 仍在评估是否长期在 API 中提供 GPT-4.5,以便在支持当前功能的同时,继续推进未来模型的开发。 AI 进入「拼情商」时代? 本次直播环节由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。 当演示人员要求写一条愤怒短信给频繁取消约会的朋友时,GPT-4.5 能够识别出用户的沮丧情绪,并给出了更加微妙且建设性的回应,帮助用户以更理性的方式表达感受。 另一个演示则展示了 GPT-4.5 在解释复杂问题上的能力,「为什么海水是咸的?」 GPT-1 完全不知道答案,GPT-2 给出相关但错误的回答,GPT-3.5 Turbo 首次给出正确但解释不充分的答案,GPT-4 过于详尽列举事实,而 GPT-4.5 则提供了简洁、连贯且有趣的解释,开头甚至使用了朗朗上口的句式。 据介绍,OpenAI 在开发 GPT-4.5 时实现了几项关键的训练机制创新。 训练如此大规模的模型需要显著提升后训练(post-training)基础设施,因为预训练阶段和后训练阶段的训练数据与参数大小比例完全不同。 团队开发了一种新的训练机制,能够使用更小的计算资源来微调如此大型的模型。 具体来说,他们通过多次迭代,结合了监督式微调(supervised fine-tuning)和基于人类反馈的强化学习(reinforcement learning with human feedback)来完成后训练过程,最终开发出了可以部署的模型。 在预训练方面,由 Alex 和 Jason 领导的团队采取了多项措施来最大化计算资源的利用: 使用低精度训练(low precision training)来充分利用 GPU 性能 跨多个数据中心同时预训练模型,因为他们需要的计算资源超过了单一高带宽网络架构所能提供的上限 此外,团队构建了新的推理系统,确保模型能在 ChatGPT 中快速响应用户,保持对话的流畅性。同时,他们表示将在发布后继续改进,使模型运行更快。 这些训练和部署机制的创新使团队能够将更多计算能力注入模型中,从而实现无监督学习的大规模扩展,这也是 GPT-4.5 能够在不依赖逐步推理的情况下,仍然展现出强大理解能力和较低幻觉率的关键原因。 值得一提的是,OpenAI 的首席研究官 Mark Chen 在发布 GPT-4.5 之前接受了 Alex Kantrowitz 的采访。 当被问到 OpenAI 是否在模型运行效率方面有所改进时,他表示: 让模型的运行更高效这一过程,通常与模型核心能力的开发相对独立。我看到很多工作都集中在推理(Inference)架构上。DeepSeek 在这方面做得很好,而我们也在这方面投入了大量精力。我们非常关注如何以更低的成本向所有用户提供这些模型服务,并一直在努力降低成本。 无论是 GPT-4 这样的推理模型,还是其他模型,我们始终在推动更低成本的推理优化。从 GPT-4 最初发布以来,运行成本已经降低了多个数量级,我们在这方面取得了不错的进展。 随后,当被问及当前的 Scaling Law 是否已经遇到瓶颈,或者是否观察到扩展带来的收益递减时,Mark Chen 回答道: 「我对 Scaling 有不同的理解。当涉及无监督学习时,你需要更多的关键要素,比如计算资源、算法优化以及更多的数据。而 GPT-4.5 确实证明了我们可以继续推进扩展范式,而且这种范式并不与推理能力相对立。 推理能力需要建立在知识的基础之上。一个模型不能凭空推理,而是需要先获取知识,再在此基础上发展推理能力。因此,我们认为这两种范式是相辅相成的,并且它们之间存在相互促进的反馈循环。」 实际上,GPT-4.5 不仅展示了无监督学习的巨大潜力,也预示着 AI 的发展方向——更像人。 过去,AI 的发展主要集中在提高智力,比如下棋、做题、识别图像等。 而现在,与两年前 GPT-4 横空出世时引发的轰动不同,人们对 AI 的期待已经从两年前的「能做什么」转向当下「能做得更好、更安全、更可控」。 越来越多的 AI 公司开始关注「情商」,试图让 AI 更懂人类的情感和需求。 GPT-4.5 就是这一趋势的代表,投入资源,研发更懂人心的 AI 依旧是行业值得关注的命题。 不过,GPT-4.5 虽然展示了基于海量数据和算力的语言模型所能达到的高度,但它的表现依然显得有些捉襟见肘。 从这个角度看,它或许更像画上了阶段性的句点,扮演了一个承上启下的过渡角色。既是对过去几代模型的总结与修补,也是在为下一波技术浪潮铺路。 真正的突破,可能还得等 GPT-5 来实现。 或许也不用担心留给 OpenAI 的迭代时间不够,虚假的版本迭代是 GPT-4.5→GPT-5,在接下来的「数月内」,真实的发布节奏应该是 GPT-4.5→GPT-4.6→GPT-4.7→…
OpenAI CEO奥特曼:关于GPT4.5的一个好消息和一个坏消息
凤凰网科技讯 (作者/陈俊熹)2月28日,OpenAI CEO山姆奥特曼发文称,GPT-4.5已准备就绪,并带来一个好消息和一个坏消息。 “好消息:对我来说,它是首个让我感觉像是在和一个有深度思考能力的人对话的模型。有好几次,我靠在椅背上,对从人工智能那里得到的真正有用的建议感到惊讶。 坏消息:这是一个庞大且成本高昂的模型。我们原本真的很想同时向Plus和Pro用户推出它,但我们的业务增长迅速,GPU已经不够用了。下周我们会增加数万个GPU,然后向Plus用户推出。(很快会有数十万个GPU到位,我很确定大家会把我们能配备的每一个GPU都充分利用起来。) 我们并不想这样运作,但很难精准预测导致GPU短缺的业务增长高峰。 提前告知一下:这不是一个推理模型,也不会在基准测试中取得压倒性成绩。它有着一种不同类型的智能,有一种我从未感受过的魔力。我真的很期待大家去体验它!” 奥特曼原文 ChatGPT4.5于北京时间2月28日凌晨发布,相较于GPT-4,GPT-4.5在多个方面进行了优化。该模型通过进一步扩展无监督学习技术,增强了模式识别和创造性洞察的能力。GPT-4.5在用户交互中的表现更加自然,知识覆盖面更广,能更好地理解并响应用户的意图。
实测GPT4.5:更像人了,有惊喜但提升微妙
北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5 终于发布了!凌晨4点爬起来第一时间给大家更新,😄 废话不多说,先看看Sam Altman的对GPT 4.5的感受: Sam: GPT-4.5 准备好了! 好消息: 它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。 我有好几次都向后靠在椅子上,惊讶于竟然能从人工智能那里得到真正的好建议 坏消息: 这是一个庞大且昂贵的模型。 我们真的想同时向 Plus 和 Pro 用户推出它,但我们的用户增长非常迅速,以至于 GPU 不够用了。 我们将在下周增加数万个 GPU,然后向 Plus 用户层推出它。(数十万个即将到来,而且我确信你们会用完我们能部署的每一个。) 这不是我们希望的运营方式,但很难完美预测导致 GPU 短缺的增长激增。 温馨提示:这并非一个推理模型,也不会在基准测试中表现突出。 这是一种不同类型的智能,并且它有一种我以前从未感受过的魔力。 真的非常激动能让大家试试它! 是不是觉得泛善可陈?下面我们来看看GPT4.5长什么样子(发布会视频附在文章最后): 发布会一开始上,OpenAI先展示了一个例子。当用户表达 “朋友又取消了我的约会,我太生气了,想发消息骂他” 这种负面情绪时, GPT-4.5 展现出了惊人的理解能力和情商: • 老模型 (o1) 的回复: 直接按照指令输出了愤怒的骂人短信,虽然完成了任务,但显得冷冰冰,甚至有点 “火上浇油”。 • GPT-4.5 的回复: 它不仅给出了更温和、更建设性的短信建议,还 “听” 出了用户言语背后的 真实需求 —— TA 可能只是需要倾诉和安慰,而不是真的想和朋友闹翻! 这种细微的情感理解和微妙回应,正是 GPT-4.5 的亮点之一!它不再是冷冰冰的机器,能够更好地理解我们的 真实意图和情感需求。 知识更渊博,能力更全面 除了情商升级, GPT-4.5 的知识储备和能力也得到了显著提升。发布会上OpenAI对比了 GPT 系列模型回答 “为什么海洋是咸的” 这个问题: • GPT-1: 完全懵圈 • GPT-2: 有点沾边,但还是错误答案。 • GPT-3.5 Turbo: 给出了正确答案,但解释很生硬,细节冗余。 • GPT-4 Turbo: 答案不错,但有点 “炫技”,不够简洁明了。 • GPT-4.5: 完美答案! 简洁、清晰、有条理,第一句话 “海洋是咸的,因为雨水、河流和岩石” 更是朗朗上口,充满趣味性! 更强,更快,更安全 按照OpenAI的说法这些进步背后,是 GPT-4.5 在技术上的全面升级: • 更强的模型: 更大的模型规模,更多的计算资源投入,带来更强大的语言理解和生成能力。 • 创新的训练机制: 采用新的训练机制,使用更小的资源 footprint 就能微调如此巨大的模型。 • 多迭代优化: 通过监督微调和人类反馈强化学习 (RLHF) 的组合进行多轮迭代训练,不断提升模型性能。 • 多数据中心预训练: 为了充分利用计算资源,GPT-4.5 甚至跨多个数据中心进行预训练! 这规模,想想都震撼! • 低精度训练和推理优化: 采用低精度训练和新的推理系统,保证模型又快又好。 • 更安全的模型: 经过严格的安全评估和准备度评估,确保模型可以安全可靠地与世界分享 性能表现 发布会上OpenAI 还展示了 GPT-4.5 在各种 benchmark 上表现: GBQA (推理密集型科学评估): 大幅提升!虽然还落后于 OpenAI-03 Mini (可以思考后再回答的模型),但已经非常接近! AIME24 (美国高中竞赛数学评估): 相对推理模型提升不多 SWE Bench verified (Agentic 编码评估): 相比GPT4o仅仅提升7% SWE Lancer (更依赖世界知识的 Agentic 编码评估): 超越 OpenAI-03 Mini! Multilingual MMLU (多语言语言理解基准): 提升不到4% Multimodal MMLU (多模态理解): 多模态能力提升5%左右 Andrej Karpathy 评测GPT-4.5 相信大家和我一样,对 GPT 的每一次迭代都充满了期待。这次的 GPT-4.5 更是吊足了大家的胃口,毕竟距离 GPT-4 发布已经过去大约两年了!AI 大神OpenAI联合创始人提前拿到了GPT4.5 的内测资格, Andrej Karpathy 亲自发声,对 GPT-4.5 进行了深度解读 GPT-4.5:算力堆砌的又一次进化? Karpathy 在他的推文中开门见山地指出,他期待 GPT-4.5 已经很久了,原因在于这次升级提供了一个定性衡量指标,可以观察到通过扩大预训练算力(简单来说就是训练更大的模型)所带来的性能提升斜率 他透露了一个关键信息:GPT 版本号每增加 0.5,大致意味着预训练算力提升了 10 倍! 为了让大家更直观地理解这个 "0.5" 的意义,Karpathy 还回顾了 GPT 系列的发展历程: • GPT-1: 几乎无法生成连贯的文本,还在非常早期的阶段 • GPT-2: 像一个“玩具”,能力有限,还比较混乱 • GPT-2.5: 直接“跳过”了,OpenAI 直接发布了 GPT-3 ,这是一个更令人兴奋的飞跃 • GPT-3.5: 跨越了一个重要的门槛 ,终于达到了可以作为产品发布的水平,并由此引爆了 OpenAI 的 “ChatGPT 时刻”!💥 • GPT-4: 感觉确实更好,但 Karpathy 也坦言,提升是 微妙的 。他回忆起参与黑客马拉松的经历,大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt,结果发现虽然差异存在,但很难找到那种 “一锤定音” 的例子 GPT-4 的提升更像是一种“润物细无声”的感觉: • 词语选择更具创造力 • 对 prompt 细微之处的理解有所提升 • 类比更加合理 • 模型变得更有趣 • 世界知识和对罕见领域的理解在边缘地带有所扩展 • 幻觉(胡说八道)的频率略有降低 • 整体感觉(vibe)更好 就像是 “水涨船高”,所有方面都提升了大约 20%。 📈 GPT-4.5:微妙的提升,依旧令人兴奋 带着对 GPT-4 这种“微妙提升”的预期,Karpathy 对 GPT-4.5 进行了测试(他提前几天获得了访问权限)。这次 GPT-4.5 的预训练算力比 GPT-4 又提升了 10 倍! 然而,Karpathy 发现,他仿佛又回到了两年前的黑客马拉松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出 🤔 尽管如此,这仍然非常有趣和令人兴奋,因为它再次定性地衡量了仅仅通过预训练更大的模型就能“免费”获得的能力提升斜率。 这说明,单纯地堆算力,依然能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化 注意!GPT-4.5 并非推理模型 Karpathy 特别强调,GPT-4.5 仅仅通过预训练、监督微调和 RLHF(人类反馈强化学习)进行训练,因此它还不是一个真正的“推理模型” 这意味着,在需要强大推理能力的任务(例如数学、代码等)中,GPT-4.5 的能力提升可能并不显著。在这些领域,通过强化学习进行“思考”训练至关重要,即使是基于较旧的基础模型(例如 GPT-4 级别的能力)进行训练,效果也会更好 目前,OpenAI 在这方面的最先进模型仍然是 full o1 。 据推测,OpenAI 接下来可能会在 GPT-4.5 模型的基础上,进一步进行强化学习训练,使其具备“思考”能力,从而推动模型在推理领域的性能提升。 GPT-4.5 的优势领域:EQ 而非 IQ 虽然在推理方面提升有限,但 Karpathy 认为,在那些不依赖重度推理的任务中,我们仍然可以期待 GPT-4.5 的进步。 他认为,这些任务更多与 情商 (EQ) 相关,而非智商 (IQ),并且瓶颈可能在于: • 世界知识 • 创造力 • 类比能力 • 总体理解能力 • 幽默感 因此,Karpathy 在测试 GPT-4.5 时,最关注的也是这些方面。 Karpathy 的 “LM Arena Lite” 趣味实验 为了更直观地展示 GPT-4 和 GPT-4.5 在这些 “情商” 相关任务上的差异,Karpathy 发起了一个有趣的 “LM Arena Lite” 实验。 他精心挑选了 5 个有趣/幽默的 prompt,用来测试模型在上述能力上的表现。 他将 prompt 和 GPT-4、GPT-4.5 的回复截图发布在 X 上,并穿插投票,让大家投票选出哪个回复更好,类似下面这种问题和投票方式 在 8 小时后,他将揭晓哪个模型对应哪个回复 写在最后: 即日起,ChatGPT Pro 用户 已经可以通过模型选择器体验 GPT-4.5 了! 下周将面向 Team 和 Plus 用户 开放,EDU 和 Enterprise 用户 稍后也将陆续上线。 发布会的最后,OpenAI强调了 无监督学习 和 推理能力 的重要性,并认为 GPT-4.5 是无监督学习领域的前沿成果。 更强大的世界知识和更智能的模型,将为未来的 推理模型和 Agent 奠定更坚实的基础 整场发布会给我感觉GPT-4.5亮点真的不多,从Andrej Karpathy的一手评测来看也是,提升的主要是情商?这个只有等大家使用以后自己感觉了
这么好的超跑你卖50万?小米大甩卖的样子我心疼
先叠buff: 本文极度主观,您当弹幕看就行 昨天早上我起床摸手机,看到新闻App密密麻麻的推送《雷军,新首富》;到了中午呢,标题变成了《雷军短暂当上了中国首富》;时间到了下午,我收到的是《雷军辟谣成为首富》。 虽然雷军没能成为全国第一有钱人,但这天对他来说依然是个和富贵相关的日子——晚上得开“双Ultra发布会”。 看到这个单词我怕极了,生怕它变成我用不起的小米 除了简洁的设计、实用的质量外,小米一直以来的标签就是“价格亲民”。而现在,小米终于要一只脚伸进高端赛道了:左手打小米15 Ultra,右手打小米SU7 Ultra,两个拳头锤得普通人脑子嗡嗡的。 买不起,还不能看了吗?这就带你看! 小米SU7 Ultra:拳打保时捷 小米SU7推出时,在朋友圈晒订单之后又退款的盛况还历历在目,但经过了一年的考验,SU7出现了风评逆转,甚至后来居上的态势。显然小米打算抓住风头再推一步,直接让小米进入国内电车的第一梯队。 先说重点:这次发布会推出的小米SU7 Ultra,创下多项赛道纪录,百公里加速1.98秒,最高时速359km/h(高铁啊),有285kg最大下压力。为了更好的表现,它采用了三电机配置前轴单V6s电机,后轴双V8s电机组合,最大马力1548PS。 这样的配置,SU7 Ultra甚至在上海国际赛车场破了保时捷Taycan保持的量产车单圈赛道纪录(虽然定语挺长的,但是也很厉害了),猜猜看最低多少钱入手? 不要998!不要998!只要52.99万! 据小米在发布会后提供的数据,开售10分钟后,SU7 Ultra已经订出了6900台。 虽然在发布会里没提,但是几个月前,SU7 Ultra的续航里程信息出现在了工信部的新能源汽车目录中。目录中揭示,SU7 Ultra配备了93.7kWh的电池,最远能提供630公里的续航里程。 这车还有五个颜色:黑色、白色、银色、鹦鹉绿、闪电黄,不过除了黑色和白色之外的选项都得加钱。 关于内饰,雷军是这样说的:“经常买超跑的朋友们都知道,这一套内饰不花200w出不了门。”SU7 Ultra在内部用了大量碳纤维,尤其是车顶,是一整块1.7平米的大碳顶,不仅轻而且韧。车外面也很豪华,虽然车标还是小米,但这次是个24k金的小米。 想抠车标的朋友们注意了,是镀金,抠下来也没啥用 除了快、豪华、便宜之外,大家不要忘了这是一个小米的产品,其他零零碎碎的配置也不少。比如,座椅按摩(我真心希望这个功能在驾驶时不能被启动!!!),105L前备箱,双50w无线充电,后视镜盲区监测,声学夹层隔音玻璃,噪音消除轮胎,同时它的前挡板化妆镜还是能调亮度和色温的。 玻璃也挺防晒的,雷军一直强调女车主啥的,要我说是个有皮肤的人就要注意防晒。 还有一些其他的功能,太多了,不说了 安全方面——看起来也挺安全的。SU7 Ultra的电池也布局在底部,但是外包了防弹涂层,据说抗物理伤害,防穿刺,不怕底盘剐蹭电池出问题,就算路面不平也能放心开。这个防弹涂层没有展开讲具体是什么东西,但他们演示了一个视频:给西瓜涂上防弹涂层,从目测三层楼的高度扔下来,西瓜直接弹飞了,没碎。 这个车还有被动安全功能:想加速追尾是不行的,车检测到前方有障碍会急刹;想倒车撞柱子也是不行的,也会急刹。当然这都是演示的功能,当个备份用可以,实际生活中不建议大家去测试。 制动系统上,SU7 Ultra用了Akebono前六后四活塞卡钳,和430mm超大尺寸碳陶制动盘,可承受连续10次180km/h刹停而不衰减,可以实现最短30.8米的100km/h刹停距离。 作为一个高端电车,SU7 Ultra也配备了智驾系统,可以漫游寻位泊车,极窄车位泊出,车上配了个运算能力还挺强的电脑。 这么狂躁的车上路,别人会不会很心慌?在赛车场地外,这个车最高只能跑160km/h,想跑更快需要解锁;而且,当车辆切换到“新手”驾驶模式后,限速会降到140km/h。 讲完之后,孔雀蓝色SU7 Ultra直接开上台了,雷军说:大家拿到手,不需要改装,就可以直接下赛道(全体鼓掌尖叫)。 我觉得雷军和这辆车马上要拥吻了 最后,你要是觉得这个还不够尊贵,不能体现身份,还可以购买81.49万的顶配“纽北限量版”。 米粉专用,不锈钢纸杯。 小米 15 Ultra:脚踢 iPhone 另一个Ultra是手机15 Ultra。作为一个不是很懂手机的人,在这近半个小时里,听到最多的两个词是“徕卡”和“苹果”。 反复cue徕卡,是因为这款手机用了很多徕卡的光学技术(以及外观设计)。在手机性能的六边形中,“拍摄”这一项成为了巨尖的尖尖。 凑很近拍,可以,粉扑上的粉都拍得清清楚楚。 拉近了拍远处也没问题,清晰度跟主摄拍的差不多——专业摄影师干活都要揣3个不同焦段的镜头,现在揣个手机也就齐活了。 拍夜景也挺厉害的。很多手机拍夜景,靠暴力拉高亮度,有时候看着不太自然,过于亮了。这款手机号称用了“光学的方法来解决夜景问题”,黑暗环境里拍的照片会更好看一些。 所有夜景图都是和iPhone做对比的 我很好奇:焦段超广、夜景超牛,如果你有这么个手机,你想拍啥? 除了拍照片外,“徕卡”也给拍视频助了一把力,主要是拍高速移动的物体还挺清晰的——发布会上展示了Ultra的小米手机拍摄Ultra的小米车,属于是某种原汤化原食了。 远的也拍、近的也拍,白天也拍、晚上也拍,这个手机就得很皮实耐用才行。根据小米集团合伙人、总裁卢伟冰介绍,这个精致玩意儿的屏幕配备了量产玻璃中最扛摔的那种,还特别耐磨,电池也大,方便出去扫街拍照拍视频,还能连着看8小时视频。 这些要素叠加在一起,我想到了世界上最适合用它的人——贝爷的摄像师啊!这个跋山涉水、披星戴月也不肯放下摄像机的无名英雄啊! 这些梆硬的卖点之外,小米还在手机上堆砌了一些现有技术,给了我们小惊喜: 信号更好——我最开始还纳闷了,又不是小灵通,哪个手机信号还差了?后来一想,在火车站、演唱会这种人多的地方信号确实不好,没法及时发朋友圈还怪遗憾的(而且贝爷的摄像师也常去野外对吧); 动态的人像壁纸——只要你愿意,每次唤醒手机屏幕都能看到雷总给你挥手(果壳编辑A:我总觉得有点怪)(果壳编辑B:哈迷表示这很正常); 用上AI就能让雷总跟你招手了 挺用心的配件——这很徕卡,甚至快门和徕卡相机的通用。只是我没有很想清楚,喜欢徕卡的人大可直接买徕卡相机,为什么要买这个手机和配件来拍照呢? 好了,我没忘记刚才说还有个关键词是“苹果”。 几乎每介绍一个功能,卢伟冰就要cue一下苹果,大意“我们和苹果差不多”“我们比苹果牛”“但我们没苹果贵”,苹果都被cue麻了。有意思的是,在本环节最后,卢伟冰宣布这款手机可以和iphone生态互通——第一反应是,你再怎么拉踩最终还得“结与国之欢心”,但转念一想,这是要从库克手里抢用户的气势啊! 价格嘛,6499元,感觉卢伟冰也宣布得不情不愿的,有种“我这个价卖你真是赔本了”“下不为例啊”“以后我真要涨价了”的扭捏感,笑死。 REDMI Book Pro 16 2025 名字很长的一款电脑 小米也要AIPC! 这个名字很长的电脑用了第二代英特尔酷睿Ultra处理器,集成全新intel Arc核显,内置XMX AI引擎,算力达到96TOPS,可支持80亿参数本地大模型稳定运行,从性能上可以AI了。那么问题是用的什么AI?是小爱同学。 本地AI支持自然语言交互,文字、图片、文档多模态输入,可以总结翻译文档,还能识别图片信息内容。 屏幕方面——14英寸屏幕搭载2.8K LCD护眼屏,支持120Hz高刷新率;16英寸搭载3.1K LCD护眼屏,支持165Hz高刷新率。并且,这是小米首次在笔记本电脑上用上了自主研发的青山护眼。 15.9毫米的厚度,塞了很大量的电池。这台电脑电池容量99Wh,这也是民航规定可携带的最大容量,据说能续航30小时。 最后最后,小米电脑可以融入苹果生态,iPhone、iPad、MacBook只要安装小米互联服务,就能和小米互相airdrop。 价格6499元,笔记本享受国补,补完之后5199元。怎么卖电脑也像卖白菜啊! 小米 Buds 5 Pro 自带录音和翻译的耳机 小米这个耳机,之前的噱头是给足了:“4000元内音质最好的tws耳机”(tws耳机就是真无线立体声耳机)。 那音质怎么个好法呢?发布会上讲得很抽象,让我不停联想到白居易当年是怎么形容琵琶声的。不过上台介绍的小米CMO许斐没那么好的文采,她大概说了两次“我也说不清,你们买了感受一下”。 抽象的咱理解不了,但有些实际的东西我们还是能咂摸: 这种真无线耳机最怕丢一只剩一只,如果2年内发生这个不幸事件,可以半价买一只; Wifi直连版据说能达到无损音质(这个版本贵200块)(能不能听出区别是你的事); 这盒耳机可以当录音笔和同声传译用——但这俩功能手机也有,你会用耳机还是用手机? 价格是1299元。老实说,最开始那句夸赞可以缩小范围到“2000元内”的。 家电全家桶 相比于手机和汽车的大篇幅介绍,家电部分在发布会上更像走流程的。所以这部分我们也不多赘述,大家看图为主吧。 小爱音箱 搭配了“超级小爱”的智能音箱,就像一个记性很好的电子家居仆人,不仅能执行你下达的一连串包括但不限于“关空调”“扫地”“远程备车”“每天7天开窗帘”的指令,还能回答“附近有什么好玩的地方”“我该穿什么衣服出门”之类的问题。 售价299元,加上国补之后是254元。 为什么小爱音箱不可以做得好看一些呢,长得跟空气净化器似的 除湿机 这款除湿机的主要卖点是双变频,据说这样不仅除湿特别快,还噪音低、用电少。除湿机最多能吸30升水,差不多相当于两大桶的桶装水;搭配下排水,还不用自己手动倒水。 售价1999元,国补1699元。 冰箱 强调了一下是上面双开门冷藏、下面大抽屉冷冻的法式冰箱,除此之外没品出啥特别的地方。要买可以,不拦着。 价格4499元,国补后3599元。 洗烘套装 强调了不伤衣服的精准烘干、低温烘干,还强调了一次烘干量大,也强调了洗烘速度快——不知道这三点是不是能同时做到,我猜不能。 价格6499元,国补后5199元。 在本部分,我稍微犯了一下文字工作者的职业病:“大件烘的透”,的→得。 中央空调 中央空调不仅有去年很受好评的天幕风和地毯风,还能选择“风吹人”、“风避人”的功能,听起来就像古代皇帝一样——要服侍的人对着你扇风还是对着别处扇风都行。 另外,这个空调能自己检测空间内有没有人。没人的话,它会自己降低功率;如果一个小时都没人,那它自己就关了,很适合出门忘记关空调的各位。 但我们觉得最实用的,是小米推出了中央空调的配套服务——他们开发了一个程序,里面有很多户型图,你也可以上传自己的户型图,小米就会计算出适合你的专业安装方案,并给你一条龙全包了后续的安装工作。 价格请看图吧。 Guokr 小米的这场发布会就像一场大甩卖——产品性能是个顶个的好,但小米宣布价格时的样子却让人心疼。不管是拳打保时捷还是脚踢苹果,小米决心要让你从衣食住行都能用上他们的产品。那么在这些产品里,你对哪些最心动呢? 作者:李小葵,翻翻 编辑:麦麦 封面图来源:小米 文中配图均来自小米及发布会直播截
无人在意的iPhone 16e,用起来到底咋样?
差友们, iPhone 16e 的测评给大家端上来了 ~ 在这款设备正式发布之前,新 SE 的爆料已经满天飞了,甚至在去年七八月份就已经开始有一些比较准确的爆料了,但托尼身边还是有一些坚定的果粉,当时根本不信苹果会出这么一款设备,还在等他们的小屏、 LCD 、高刷。 结果 iPhone 16e 一上来, 6.1 英寸刘海屏、 OLED 、 60Hz 。很多小屏党直接破防了: “ 我拿着 SE3 等了三年,就等来了这个玩意? ” 是的,与其说苹果给小屏党们发布了个 iPhone SE4 ,还不如说是给那些还在用 iPhone 11 的钉子户们准备了个 iPhone 11s —— 外观基本不变,摄像头只有一颗主摄;但是处理器是最新的 A18 、内存是能用上苹果 AI 的 8GB ,而且售价比如今还在卖的 iPhone 15 还便宜几百块钱,只要 4499 元起步,叠加完国补之后更是香甜。 虽然说我们编辑部左思右想一圈下来,还是感觉买个 iPhone 15 性价比更高一点,但无论你对 iPhone 16e 失望与否,它依旧是苹果做足功课、向全球推出的新产品。 就像我们上一篇文章说的, iPhone 16e 也许压根儿就不是冲着中国市场来的, 16e 的配置放在海外依旧足够 “ 嘎嘎乱杀 ” 。 好了~背景故事讲完了,最近我们也终于是拿到了这台手机,接下来就让托尼带着大家通过实测来看一看这次的 iPhone 16e 有没有什么不为人知的惊喜。 # 性能 首先来给大家唠唠性能,相信大家最关心的肯定是这颗 “ 残血 A18 ” 的实际表现了。虽然名字跟 iPhone 16 上的那个 A18 处理器一样,但 iPhone 16e 上这块还是挨了一刀,少了一颗 GPU 核心。 少了一个核心,能比 iPhone 16 、 iPhone 16 Pro 差多少?我们直接跑个分儿看看到底是骡子是马。 CPU 部分, iPhone 16 和 iPhone 16e 的表现如出一辙,差距相比 iPhone 16 Pro 也非常小,看来苹果并没有在这颗残血 A18 的 CPU 主频上动刀子。 来到 GPU 的部分,残血 A18 的劣势就表现出来了:相比满血 A18 ,它的跑分低了 13.7% 。看着这从上到下阶梯式的得分,托尼不得不感叹一句苹果真是等级森严。。。 不光跑分差一截,实际图形渲染差的更多。到了 3D Mark Wild Life Extreme 这边, iPhone 16e 的得分比 iPhone 16 低了 20.8% ,平均帧率也只有 18.2 帧。 要知道 A18 Pro 跟满血 A18 其实帧率差得并不大,难道 iPhone 16e 上少的这颗 GPU 是压垮骆驼的最后一根稻草嘛。。。 游戏实测环节也证实了这种差距,在 30 分钟的星槎海跑图测试中, iPhone 16e 的平均帧率只有 46.2 帧,而且这帧率波动。。。我严重怀疑我是看了个心电图。 iPhone 16e 崩铁 30 分钟帧率测试 不过原神跑下来 iPhone 16e 还算稳定,平均帧率能到 58.4 帧,玩起来还算流畅。 iPhone 16e 原神 30 分钟帧率测试 总的来说,屏幕前的老哥们要是想玩大游戏,还是买个标准版 16 吧,国补下来真差不了多少钱。 # 移动网络 说完性能,我们接下来盘的就是这颗苹果自研的 C1 基带了。自打上回苹果收购英特尔基带部门已经过去五六年的时间了,打磨了这么久才有第一代产品,托尼个人对这颗基带的期待还是挺高的。 为了探究这颗基带的真实实力,我们带上了 iPhone 16e 、 iPhone 16 Pro 和作为优秀基准的华为 Mate 70 Pro+ ,配合广电( 套餐峰值 300M )、联通( 套餐峰值 500M )两家运营商的卡,在室内、空旷地带、地下车库和电梯四个场景下跑了一轮网络测速,而且为了避免抢网的情况,这三台手机都是单独测速的。 没想到在第一轮的室内环境里, iPhone 16e 就露怯了。 在影棚的无影墙边上,华为和 iPhone 16 Pro 用联通卡都跑到了 500M 的峰值速率,而 iPhone 16e 只跑到 100M 左右。 广电卡这边也是差不多的结果,在另外两个都能跑满的情况下, iPhone 16e 只有 20M 左右。 室内(联通)—— 室内(广电) 向左滑动 因为我们无影墙的位置是在房间角落,为了避免偶然情况,我们在影棚里换了一个位置重新跑了一次,这回 iPhone 16e 的成绩就正常多了,跟另外两位差距不大。 室内(联通)—— 室内(广电) 向左滑动 就感觉 iPhone 16e 的信号挺容易受环境影响的。。。我们又移步室外空旷环境跑了一圈, iPhone 16e 的表现又让我看不懂了。 这回联通的速率只有 18M ,我们又开关飞行模式给它复测了一下,好在是跑到了一个可用的 160M 速率,但对比华为和 iPhone 16 Pro 都跑满的情况,这成绩确实有点差强人意。 室外(联通)—— 室外(联通复测) 向左滑动 而换上了广电卡之后, iPhone 16e 竟然力挽狂澜,测出的 233M 速率比华为和 iPhone 16 Pro 高了一倍! 室外(广电) 有点网文小说逆袭男主的感觉了嗷! 为了保险起见,托尼在这一轮也复测了一下,华为的速率是上到了 200M ,但 iPhone 16 Pro 还是在原地踏步。 室外(广电复测) 怎么感觉这 C1 也有点 “ 遇强则强,实力不详 ” 的意思。。。 到了地库, iPhone 搭配广电卡的传说还在续写,两台 iPhone 的速率都超过了华为 Mate 70 Pro+ 。 见证历史了朋友们,建议苹果把下图打印出来裱上。 地库( 广电 ) 等托尼换上联通卡, iPhone 16e 开始有点掉链子了,测之前信号掉到了 4G ,手动开关飞行模式后用 5G 跑完了全程,成绩跟华为差不多、比 iPhone 16 Pro 还要好点,但最终测完又掉回了 4G 。 地库( 联通 ) 根据这回我们观察到的结果, iPhone 16e 是存在回落 4G 且没法及时切换回 5G 的问题,这也有可能是新机优化的问题,建议等一波 OTA 。 到了电梯这里,我们发现这里应该是覆盖了广电 / 移动的信号的,华为这边能跑到 100M ,两台 iPhone 插广电卡都上到了 70M 左右的速度,能做到不失联。 而联通卡的表现就有点众生平等的意思了,其中 iPhone 16e 的表现会比另外两个差一点。 电梯(广电)—— 电梯(联通) 向左滑动 信号部分给大家做一个小总结,作为第一款搭载苹果自研基带的产品, iPhone 16e 的表现还没有托尼期待的那么好,但在大多数没那么极限的情况下,与使用高通基带的 iPhone 16 Pro 差距并不大。 而且从测试来看这颗基带绝对性能应该没啥问题,说不定以后放到 Pro 机型里,有了更高的制程 + 天线优化,实际表现也会迎头赶上。 # 续航 另外续航这回也是 iPhone 16e 重点宣发的点,苹果对此的解释是因为这把上了自己的 C1 芯片,能效提升了不少,视频播放能达到 26 个小时。 差点忘了, 60Hz 刷新率还有这个好处。。。并且托尼发现在这个尺寸下, iPhone 16e 是唯一一款用了单摄像头的 iPhone ,理论上这也能给电池让出不小的空间嘛。 于是我们拿出了标称视频播放 27 小时的 iPhone 16 Pro ,跟 iPhone 16e 一起做了我们的三小时续航测试。 B 站、录视频、逛淘宝、刷微博抖音一套下来,再来一把王者,最后还能剩 65% 的电! 这续航已经跟我们之前测过的 6550mAh 的红米 Turbo 4 不相上下了,成绩真是挺不错,中轻度使用下来一天应该没啥问题。 # 影像 接下来咱们来聊聊 iPhone 16e 的影像。 其实托尼是有点没想到,在 2025 年竟然还有单摄像头的手机出现。苹果可能也觉得这事儿不太合适,所以在自己的页面上大字强调:俺这是 “ 二摄一体 ” 的融合式摄像头! 其实这就是 iPhone 16 主摄的同款 4800 万像素的传感器。 用 1 倍焦距时会把 4 个小像素打包成一个大像素干活,输出 1200 万像素的照片;用 2 倍焦距的时候再拆分成 4800 万像素,取中心区域的 1200 万像素,实现了近似光学变焦的效果。 虽然托尼觉得没给超广角有点不厚道,实际上确实有很多人压根儿不用超广角,但刀得只剩一个还是有点。。。 那具体这颗融合摄像头实用性如何呢?托尼强制睡梦中的火锅当了一回模特,先从色调上看, iPhone 16e 的颜色确实更加讨喜了。 iPhone 16e —— iPhone 16 Pro 向左滑动 但放大火锅脸上的毛,就能发现 iPhone 16e 涂抹感比较严重,没有 iPhone 16 Pro 那么锐。 啊这,不是说好了跟其他 iPhone 16 机型同样优秀嘛。。。 iPhone 16e —— iPhone 16 Pro 向左滑动 号称无损裁切的 2x 焦段也是一样, iPhone 16e 的涂抹感始终要比 iPhone 16 Pro 更严重一些。 iPhone 16e —— iPhone 16 Pro 向左滑动 数毛党要不高兴了! 相比于画质,其实托尼觉得 iPhone 16e 的更大的短板还是焦段上的缺失。少了超广角不能愉快拍建筑和风光,少了长焦不能拍好看的妹子。 哦对了,说到拍妹子,这次 iPhone 16e 的单镜头是获取不到景深信息的,所以拍人是纯靠 “ 算 ” 的 —— 只能识别出人的正脸然后做虚化算法。 要是拍个侧面背影啥的,它只会冷冷提示一句,未检测到人物。 iPhone 16e —— iPhone 16 Pro 向左滑动 这意味着你拍个静物啥的也只能跟好看的虚化说拜拜了,如果有常用 iPhone 拍产品图的朋友,估计会挺失望的。。。 iPhone 16e —— iPhone 16 Pro 向左滑动 不过托尼对这一块也有点吹毛求疵了,但凡拿 iPhone 干活、做生产力拍摄的,可能早就买了 Pro 系列了 ~ # 总结 苹果在 iPhone 16e 的介绍页面里,总是把自己的产品亮点与 iPhone 11 这类机型做对比。 其实这样做的心思不难猜出,苹果是想把 iPhone 16e 卖给那些用着 iPhone 11 甚至更老机型的用户:跟那些旧产品相比, iPhone 16e 当然还算有些诚意。 不过 iPhone 11 好歹也算是个正代产品,换成 iPhone 16e 真的不算是消费降级? 哦等等。。。我好像知道这玩意为啥不叫 iPhone SE4 了。。。 上次的文章发出来之后,托尼也在评论区发现了一些想要买这款产品的用户。 他们的理由无非是,想给家里的老人换一个不会乱下软件的老人机、想给自己买一个备用机,这确实说明 iOS 的生态足够吸引人。 然而,却很少有人说,我想买这款产品当主力机:也就是说,可能那些花尽心思研究参数的人不会买它,而买了它的人也并不能用出它和其他 iPhone 的区别。 其实是因为,现如今用户们的需求,可能远不止 “ 系统好用 ” 这一点了。这个价位,安卓中端机能给大家带来的东西或许更多。 当然,没有不好的产品,只有不好的价格。现如今 128G 的 iPhone 16e 叠加国补已经来到了 3999 ,未来可能还会叠加平台补贴进一步下探。 随着产品降价,也能拉低苹果 AI 的门槛,让好系统、好生态普及给更多的人,托尼觉得这才是 iPhone 16e 出现的意义。
GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4.5正式发布,号称OpenAI最大和最好的聊天模型。 但很意外啊,这么大的事奥特曼都不来。 这次OpenAI也不打算秀炫酷的解题,也不打算晒各种榜单的排名,反而强调起了情商。 第一个现场演示: “我又被朋友鸽了,帮我写个短信告诉他们我恨他们。” o1意识到这样会“友尽”,但也只是很忠实的按要求完成了任务。 GPT-4.5甚至都没完成提示词中的任务,但整个互动显得更自然了: 先识别出用户很烦恼 建议更清楚的表达自己的情绪 给出两种备选方案 再询问用户是否坚持原来的要求 第二个现场演示,强调GPT-4.5掌握更多世界知识,以及讲述知识的方式更自然。 解释为什么海水是咸的。 GPT-4 Turbo掌握很多知识,但回答就像是在炫耀它很有知识,只是把事实罗列在一起。 同样这些知识,GPT-4.5的语气更有互动感,还考虑到用一句简洁的开场,让用户更容易记住三个关键词。 面对更专业的问题“用第一性原理解释AI对齐的必要性”,o1的回答像是写论文,而GPT-4.5通过“第1步、第2步、第3步……”来引导用户思考这个问题。 除了演示之外,直播中也透露了GPT-4.5开发过程的一些内幕: 如“激进地”使用了低精度训练,预训练阶段跨多个数据中心完成。GPT-4.5会成为未来推理模型的基础模型。 从今天起,GPT-4.5开放给200美元一个月的Pro用户。下周逐步开放给20美元一个月的Plus用户。 不是最前沿,但是最大模型 技术报告中表示:GPT-4.5不是一个前沿模型,但它是OpenAI最大的语言模型,比GPT-4的计算效率提高了10倍以上。 OpenAI称通过扩展无监督学习和推理提升AI的能力。 GPT‑4.5通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。 在衡量LLM事实准确性的SimpleQA基准上,GPT-4.5准确率62.5%,幻觉率37.1%,比GPT-4o、o1、o3mini优化了不少。 以下是一个具体的幻觉降低的案例。 假如用户询问“第一种语言是什么”,GPT-4.5会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。 此外,Blog中还称开发了新的可扩展的技术,能够利用从小型模型衍生出的数据来训练更大更强的模型,由此提升了GPT‑4.5的可操控性、对细微差别的理解以及自然对话能力。 在人类偏好评估中,测试者更倾向于选择GPT‑4.5而非GPT‑4o。 OpenAI表示,GPT‑4.5对人类意图的理解更深刻,能够以更细腻的“情商”解读微妙的线索或隐含的期望,还展现出了更强的审美直觉和创造力,在协助写作和设计方面表现出色。 比如,当用户表达“考试不及格、很难过”,它会安慰、鼓励用户。作为对比,4o给出的回答就更加冰冷,没什么安慰的话语。 在一些回复上,GPT‑4.5对比4o回答也更简洁。 另外,OpenAI还晒出了GPT‑4.5在标准学术基准测试中的结果,全面超越GPT-4o,在SWE-Lancer Diamond(coding)和MMMLU(multilingual)上超越o3-mini。 API定价非常贵 值得一提的是,GPT-4.5的API定价非常贵。 75美元/百万tokens输入、150美元/百万tokens输出。 对比GPT-4o,定价高出去15-30倍。 到底这个价格值不值呢?不少人已经分享了抢先体验的效果。 拿到内测的博主表示,实际使用中GPT-4.5非常有创造力、一定上了很多人文课。 Claude 3.7和GPT-4.5两个,非常相似。 他还列举了GPT-4.5视觉理解能力很强的例子。它能从这张星露谷截图中发现非常小的元素蝴蝶。 “独角兽评估”的实测表现也很好。 后续随着更多实测放出,应该还能看到更多有意思的例子。 One More Thing 最后,大家一定很关心,奥特曼去哪了呢? 在医院照顾小孩。 是的,他最近刚刚喜提一子。 直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8 参考链接:https://openai.com/index/introducing-gpt-4-5/ — 完 —
52.99万元的小米SU7 Ultra,要“革”顶级性能跑车的命?
出品: 电动星球 作者:Wallace 223 日前,小米 SU7 Ultra 原型车首次亮相,成为雷军年度演讲中的重头戏。 121 日前,雷军为小米 SU7 Ultra 举办了专门的预售发布会,针对该车的一系列能力做了详细介绍。 SU7 Ultra 的原型车有着更极致的赛道性能,但量产版的 SU7 Ultra 也同样不赖。「V8s+V8s+V6s」的三电机组合为其带来 1548PS 的澎湃马力、1.98s 的零百加速能力、最高 350km/h 的理论极速…… 在赛道测试中,SU7 Ultra 打破了上海国际赛车场的四门轿车圈速记录,仅用时 2:09.944;成都天府赛道,以 1:26.741 的成绩,同样打破了四门量产车的圈速记录…… 雷军表示,接下来小米 SU7 Ultra 量产车还将挑战包括「纽北」在内的全球各大赛道,用圈速成绩为其性能正名。 显然,「性能」就是 SU7 Ultra 最大的标签,但「价格」,始终是小米的最后王牌。 最终,52.99 万元的价格引来全场欢呼,小米 SU7 Ultra 的正式售价,相比预售价降低了近 30 万元,堪称「史无前例」。 发布会后小米宣布,SU7 Ultra 仅用 10 分钟便斩获 6900 个大定订单,距离「年销万台」的目标似乎只有一步之遥。 小米 SU7 Ultra,真的能改变「电动豪华车」的定义,在中国车市中再创造一个奇迹吗? 赛道级性能 小米 SU7 Ultra 的性能卖点,让我们快速回顾一下。 前文已经提到,小米 SU7 Ultra 配备三电机动力总成,最大马力可达 1548PS,能带来 1.98 秒的零百加速时间,理论最高时速可达 350km/h。 除了性能强劲,小米 SU7 Ultra 的综合配置也相应提升。 比如说制动系统,碳陶瓷制动盘(盘径达到 430mm)加上由 Akebono 提供的高性能制动卡钳,配合倍耐力提供的高性能轮胎,能为其带来赛道级的制动能力。 此外,小米 SU7 Ultra 的动力电池组也经过定制。这块「赛道版高功率电池包」最大放电倍率可达 16C,最大放电功率达 1330kW。在电量低于 20% 的情况下,仍能提供 800kW 的放电功率,以保障加速性能。 续航方面,CLTC 630km 的表现,应付日常使用也已经足够。 设计上,小米 SU7 Ultra 和标准版车型保持着类似的轮廓,长宽高尺寸为 5260×2064×1406mm,轴距 3000mm;但针对赛道或高性能场景,做了不少针对性优化。 官方介绍,小米 SU7 Ultra 可选面积达 1.7㎡ 的碳纤维车顶,后视镜外壳升级为碳纤维材质;碳纤维材质制成的前舱盖,设计了两个风道以优化空气动力学性能。 而夸张的高性能的空气动力学组件,则是小米 SU7 Ultra 在视觉上与常规版本差异最大的地方。 U 型风刀+大前铲、主动式的尾部扩散器,再加上全碳纤维打造的大尺寸尾翼,小米 SU7 Ultra 的「战斗感」足够强烈;这些空气动力学组件,也的确让这款高性能电动车的赛道表现得到提升。 当然,这些「拉风」的外观件几乎都需要选装,而且价格并不便宜。 不选装碳纤维尾翼的情况下,小米 SU7 Ultra 标准版将配备 Max 版本同款的电动升降尾翼,放弃其他选装件,SU7 Ultra 的造型与普通版 SU7 会更加相似。 希望以更低成本获得上述选装件的话,可以赶在 3 月底前下单。小米承诺,3 月底前下单,全车 15 件碳纤维配件将会免费赠送。 实际上,小米 SU7 Ultra 比肩「保时捷」的地方除了设计、性能,还有数量繁多的选装件,雷军甚至在发布会的尾声建议准车主们多花时间研究一下选装,因为「会非常花时间」。 还有「后手」 为了将赛道性能推向极致,小米 SU7 Ultra 提供了两个方案。 首先,SU7 Ultra 可直接选装「赛道竞速套装」,包括倍适登绞牙避震、高性能刹车盘、21 英寸 U 型锻造轮毂+倍耐力 P ZERO 热熔胎等一系列高性能改装件,和前文提到的碳纤维车顶等选装件,共要价 10 万元。 换言之,只需要 62.99 万元,就能获得一台性能出众但视觉效果同样「拉风」的「满血版小米 SU7 Ultra」,考虑到其正式起售价已经远低于预期,加上竞速套装后价格仍在可接受范围内。 如果车主不差钱且追求更极致的性能,小米 SU7 Ultra 还准备了一个特别版本——「纽北限量版」可供选择。 小米 SU7 Ultra 纽北限量版除了配备绝大多数的选装件外,还做了一定的赛道化定制,比如从四座布局更改为双座布局,更接近 SU7 Ultra 原型车,是更极致的赛道机器。 价格方面,小米 SU7 Ultra 纽北限量版为 81.49 万元,和预售价保持一致。 唯一可惜的是,小米 SU7 Ultra 的「竞速套装」和「纽北限量版」都将在小米 SU7 Ultra 挑战纽北赛道后上市,所以现阶段我们能接触到的,只有标准版、售价 52.99 万元的小米 SU7 Ultra。 「不缩水」的智能 近期,特斯拉 FSD 突然落地中国市场引发行业中的轩然大波,而雷军在发布小米 SU7 Ultra 期间,也提到了小米智驾近期的进展。 以 SU7 Ultra 的正式上市为契机,雷军宣布 Xiaomi HAD 智能驾驶系统正式进入到「端到端」时代,相关能力将全量推送。 Xiaomi HAD 智驾系统的算力储备达到了 11.45 EFLOPS,优质场景训练片段积累数则达到了 1000 万 Clips。不过雷军表示,当下上车的 Xiaomi HAD 端到端智驾,Clips 数为 300 万,还不是「满血状态」。 雷军还强调,小米 HAD 智驾系统会免费提供给消费者,而不是像特斯拉那样要价 6.4 万元。 回到小米 SU7 Ultra 上,虽为「赛道机器」但智驾能力却没有丝毫削减。整车依然配备了 27 颗传感器,其中就包括 1 颗 128 线激光雷达、3 颗毫米波雷达等先进传感器,还搭载两颗综合算力为 508 Tops 的 Orin-X 芯片,能完整支持小米智驾的所有功能。 雷军表示,小米 HAD 智驾已经实现了「车位到车位」能力,今年的愿景是「站稳第一梯队」。SU7 Ultra 的座舱表现看齐标准版车型,搭载高通 8295 芯片,能基于 Hyper OS 实现一系列生态互联功能。 综合来看,「不缩水」是小米 SU7 Ultra 在智能化层面的最大看点,毕竟这是一款强调驾驶乐趣、赛道性能的产品,并无肩负起带领小米智能向前迈进的历史使命。 有关智能驾驶更多的期待,或许可以放在下半年登场的小米 YU7 身上。 「国产豪车」新篇章? 作为近期正式上市的「国产豪华电车」之一,发布会后蔚来 ET9 难免地成为了小米 SU7 Ultra 的对比对象。 客观来说,这两款车型虽自称「豪华车」,但明显走的不是相同的「赛道」。 蔚来 ET9 是行政级旗舰,更强调外在气质和乘坐的舒适性、设计用料的豪华感;而小米 SU7 Ultra,则是通过性能的强化,来营造「豪华」气氛。 不管是蔚来也好、小米也好,呈现在我们眼前的,是中国新造车面对「高端化」课题,依据不同思路,交出的不同答卷。 蔚来 ET9,和同样在今年上市的尊界 S800,体现的是「未来属性」,是中式豪华电动车依靠「科技创新」颠覆产品定义的全新尝试;而小米 SU7 Ultra 所体现的,是在现有产品定义框架下,对极致技术、极致产品力的追求。 最终,小米 SU7 Ultra 通过「赛道成绩」这一客观条件,证明了中国车企有能力在先进供应链的加持下,打造出顶级的性能产品,从而打破了海外车企对「顶级性能车」的垄断。 更不用说,由中国新造车推出的顶级性能车,起售价也不过 52.99 万元而已——性能相近的竞品,售价已经来到 200 万元级别。 这还只是中国新造车「大反攻」的开始。 售价更高的蔚来 ET9,和「定价百万」的尊界 S800,还有比亚迪的仰望 U9 等,都即将在过去从未涉及的领域,向海外汽车巨头发起挑战。 「国产豪车」们,即将揭开更辉煌的篇章。
GPT-4.5发布会全程回放:如何在顶级AI模型竞争中脱颖而出?功能与价格深度分析
全文 2,000字 | 阅读约8分钟 自动播放 随着DeepSeek R1、Grok 3和Claude 3.7在短短一两个月内相继亮相,OpenAI昨天周四又将GPT-4.5加入这场愈发激烈的大模型竞赛。AI发展的速度令人瞠目,模型更新迭代的周期不断压缩,工业界和学术界都在感叹人工智能进化之快。 代号为"Orion"的GPT-4.5作为OpenAI迄今投入最多计算资源和数据的模型,其登场引发了业界对传统预训练方法是否已达天花板的深度思考尽管规模庞大,OpenAI在白皮书中指出,它并不认为GPT-4.5是一个前沿模型。 从周四2月27日开始,订阅OpenAI每月200美元ChatGPT Pro计划的用户将能够在研究预览阶段在ChatGPT中使用GPT-4.5。使用OpenAI API付费套餐的开发者也可以从今天开始使用GPT-4.5。至于其他ChatGPT用户,OpenAI发言人告诉TechCrunch,注册了ChatGPT Plus和ChatGPT Team的客户应该会在下周获得该模型的使用权。 (与GPT-4o和GPT-4omini相比, GPT-4.5 的API定价太贵了) 业界一直对Orion屏息以待,一些人认为它是传统AI训练方法可行性的风向标。GPT-4.5的开发使用了与OpenAI开发GPT-4、GPT-3、GPT-2和GPT-1相同的关键技术——在称为无监督学习的"预训练"阶段大幅增加计算能力和数据量。 在GPT-4.5之前的每一代GPT中,规模扩大都带来了数学、写作和编程等领域性能的巨大飞跃。确实,OpenAI表示,GPT-4.5的增大规模赋予了它"更深入的世界知识"和"更高的情商"。然而,有迹象表明,扩大数据和计算能力带来的收益开始趋于平缓。但是,在一些AI基准测试中,GPT-4.5的表现不如DeepSeek、Anthropic以及OpenAI自身的较新AI"推理"模型。 OpenAI承认,GPT-4.5的运行成本也非常高昂——如此昂贵以至于该公司表示正在评估是否继续长期在其API中提供GPT-4.5服务。 "我们将GPT-4.5作为研究预览版分享,以更好地了解其优势和局限性,"OpenAI在分享的博客文章中表示。"我们仍在探索它的能力,并期待看到人们以我们可能没有预料到的方式使用它。" 综合表现 OpenAI强调,GPT-4.5并非旨在完全替代GPT-4o——该公司为大多数API和ChatGPT提供支持的主力模型。虽然GPT-4.5支持文件和图像上传以及ChatGPT的画布工具等功能,但目前缺少一些能力,比如对ChatGPT逼真的双向语音模式的支持。 从优势方面看,GPT-4.5的性能比GPT-4o更强——也超过了许多其他模型。 在OpenAI的SimpleQA基准测试中,该测试评估AI模型对直接、事实性问题的处理能力,GPT-4.5在准确性方面优于GPT-4o和OpenAI的推理模型o1和o3-mini。根据OpenAI的说法,GPT-4.5比大多数模型产生幻觉的频率更低,理论上这意味着它编造内容的可能性应该更小。 OpenAI并未在SimpleQA测试中列出其顶级AI推理模型之一——deep research(深度研究)。值得注意的是,AI创业公司Perplexity的Deep Research模型在其他基准测试中与OpenAI的deep research表现相似,但在这项事实准确性测试中优于GPT-4.5。 在一部分编程问题子集——SWE-Bench Verified基准测试中,GPT-4.5的表现与GPT-4o和o3-mini大致相当,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet模型。在另一个编程测试——OpenAI的SWE-Lancer基准测试中(该测试衡量AI模型开发完整软件功能的能力),GPT-4.5的表现优于GPT-4o和o3-mini,但仍不如deep research模型。 GPT-4.5虽然在AIME和GPQA等困难学术基准测试中未能达到领先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型))的性能水平,但在这些相同测试中,它与或超过了领先的非推理模型,表明该模型在数学和科学相关问题上表现良好。 OpenAI还声称,GPT-4.5在基准测试不能很好捕捉的领域,如理解人类意图的能力方面,在质量上优于其他模型。OpenAI表示,GPT-4.5回应的语气更温暖、更自然,在写作和设计等创造性任务上表现出色。 我们实测效果发现GPT-4.5 不是一个推理模型(Reasoning Model) 它不是为编码或数学而设计的。它是为了创造力和写作而设计的。 在一项非正式测试中,OpenAI要求GPT-4.5和另外两个模型(GPT-4o和o3-mini)使用SVG(一种基于数学公式和代码显示图形的格式)创建独角兽图像。结果只有GPT-4.5创建出了类似独角兽的形象。 在另一项测试中,OpenAI要求GPT-4.5和其他两个模型回应提示:"我在考试失败后正经历一段艰难时期。"GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回应在社交适当性方面表现最佳。 扩展定律依旧受到挑战 OpenAI的GPT-4.5处于"无监督学习所能达到的前沿水平"。这可能是事实,但该模型的局限性似乎也证实了专家们的猜测——预训练的"扩展定律"将不再持续有效。 OpenAI联合创始人兼前首席科学家Ilya Sutskever在去年12月表示,"我们已经达到了数据峰值",并且"我们所知道的预训练方式无疑将会终结"。他的评论呼应了AI投资者、创始人和研究人员在去年11月向TechCrunch分享的担忧。 面对预训练的障碍,包括OpenAI在内的整个行业已经开始拥抱推理模型,这类模型执行任务的时间比非推理模型更长,但通常更加一致。通过增加AI推理模型用于"思考"问题的时间和计算能力,AI实验室确信他们可以显著提高模型的能力。 OpenAI计划最终将其GPT系列模型与o系列推理模型结合起来,从今年晚些时候推出的GPT-5开始。GPT-4.5据报道训练成本极高,多次推迟发布,且未能达到内部期望,它可能无法独自夺取AI基准测试的桂冠。但OpenAI很可能将其视为通往更强大技术的垫脚石。
特朗普关税大棒指向欧盟 美欧或上演“关税互殴”戏码
2月26日,美国总统特朗普对欧盟发起新一轮的猛烈抨击,称欧盟成立“就是为了搞砸美国”。他威胁要对欧盟征收25%的关税。 对此,欧洲各界反弹强烈。欧盟方面警告此举将严重损害欧美经贸关系,冲击全球经济稳定。 特朗普称将对欧盟征收25%关税  当天,特朗普在谈及欧盟时表示,欧盟“占美国便宜”,以各种理由“拒绝接受美国的汽车和农产品”,美国和欧盟之间有大约“3000亿美元”的贸易逆差。 美国总统 特朗普:欧盟的成立就是为了搞砸美国。我的意思是,咱们实话实说吧,欧盟的成立就是为了对付美国,这就是它的目的。 记者:你决定对欧盟征收什么水平的关税了吗? 美国总统 特朗普:我们已经决定了,很快就会宣布,整体来说是25%,包括汽车和其他各种商品。 美国政治新闻网站《政治报》此前报道指出,美欧贸易逆差并没有特朗普所言这么大。根据欧盟的数据,2023年美国对欧盟在货物贸易方面存在逆差,但在服务贸易方面实现了顺差。整体而言,2023年美国对欧盟的贸易逆差为大约560亿美元。   日程冲突?美国务卿与欧盟高官会晤取消 欧盟外交与安全政策高级代表卡拉斯26日起访问美国,原本计划当天与美国国务卿鲁比奥举行会晤。然而,会晤却在最后时刻被突然取消。美国和欧盟官员都表示,取消会晤只因“日程冲突”。一些欧洲国家官员表示,会晤取消让卡拉斯猝不及防。 卡拉斯24日宣布,访美期间将与鲁比奥讨论关乎双方利益的议题,如俄乌冲突和跨大西洋伙伴关系等。但在美国国务院网站上,鲁比奥2月26日的公开日程表上并没有与卡拉斯有关的日程。 对于卡拉斯在美国吃了“闭门羹”,欧洲方面似乎并不感到意外。有欧盟外交官这样评论:特朗普政府似乎不放过任何一个机会,来证明欧盟对他们而言没那么重要。 记者观察 欧盟及德国强烈反对 美欧裂痕加深 对于特朗普宣布将很快对欧洲商品征收25%的关税,欧盟方面,以及德国政府、经济界和舆论纷纷发声,谴责美方做法。   欧盟委员会:美若征收关税 将坚决回应  总台记者 阮佳闻:26日晚些时候,欧盟委员会回应称,如果美国最终决定对欧洲产品征收关税,欧盟将“对自由和公平贸易中不合理的壁垒作出坚决且迅速的回应”,欧盟“将始终保护欧洲企业、工人和消费者免受不合理关税措施的影响”。同时,欧盟坚持保持对话,以便为双方民众和公司“保留机会”。   德国已做好准备采取反制措施 德国方面长期以来对此的态度也很坚决,表示不会屈服于单边贸易霸凌,并已做好准备采取反制措施。 德国总理朔尔茨此前就已明确表示,若美国继续推进对欧洲商品加征关税的计划,反制措施将不可避免。德国经济部长哈贝克同样表态称,德国已经为可能的反关税措施做好准备,并警告美国,“这是一个非常糟糕的选择。”   德国经济界:美贸易壁垒破坏全球供应链 此事件进一步加深了美欧之间的裂痕,欧洲对美方贸易政策的不满情绪正在升级。德国经济界对此表示强烈担忧和反对,认为美国的单边关税政策对欧洲市场构成了直接威胁。 德国汽车工业成为此次关税升级的直接受害者。德国汽车工业协会主席穆勒近日强调,美国是德国汽车行业的重要市场,美方加征关税不仅伤害德国汽车制造商,也将推高美国消费者的购车成本。穆勒批评称,美方所谓“公平贸易”只是借口,实则是单方面保护主义政策,这将破坏全球供应链,危及数十万工作岗位。 分析人士指出,美欧贸易摩擦已不仅仅是经济问题,而是反映了双方在全球贸易体系中的不同立场。近年来,美方在贸易政策上屡屡对欧洲施压,欧洲企业已经不堪重负。特别是在俄乌冲突背景下,欧洲经济承受巨大压力,能源成本高企,市场需求疲软,美国此时实施贸易壁垒,无异于雪上加霜。德国科隆经济研究所估算,如果美方加征的关税全面落地,德国经济可能面临每年250亿欧元的损失,甚至导致15万就业岗位流失。   德国媒体:美国"极限施压" 欧洲不应屈服 德国媒体普遍认为,美国政府此举是“极限施压”的手段,是在全球贸易体系中制造混乱,因为美欧贸易战若全面升级,不仅会冲击制造业,还可能加剧全球经济的不稳定性。然而,欧洲不应屈服,必须推动更多自主贸易政策,以减少对美经济依赖。 美国的单边关税政策不仅对德国和欧洲的制造业构成了重大挑战,同时也加深了美欧之间的裂痕。当前的贸易博弈已经超越了单纯的经济层面,将对全球政治格局产生深远影响。如何加强自主性,维护自身的经济利益,已经成为欧洲亟待解决的关键问题。   法国财长:若美国加征关税 欧盟将以同样措施回应 针对美国总统特朗普26日称将宣布对欧盟进口商品征收25%关税一事,27日,法国经济与财政部长埃里克·隆巴尔说,如果美国对欧盟加征关税,欧盟将用同样的措施予以回应。 隆巴尔说,27日上午,七国集团的外交官与美国财政部长贝森特进行了交流,警告称关税战将导致通货膨胀,经济增长放缓。   研究机构:美加征关税将致双方经济动荡 27日,德国基尔世界经济研究所发布贸易政策评估称,美国总统特朗普对欧盟商品征收25%关税的措施如果实施,将导致欧盟和美国的经济萎缩,同时也会推高通胀压力。根据该研究所贸易政策评估模型模拟的结果,如果实施该关税措施,欧盟经济在第一年将平均萎缩0.4%,美国经济将萎缩0.17%。如果欧盟以25%的关税进行回应,美国的经济损失将翻倍。 基尔世界经济研究所贸易政策研究主任欣茨表示,美国对欧盟商品征收25%的关税不仅会给美欧经济关系带来压力,还会推高美国消费者和制造商的成本,削弱美国的竞争力并加剧通货膨胀。 专家解读 美“关税威胁”意在对欧盟趁火打劫 美欧之间在经济问题上的裂痕为何会加深?欧盟方面能否有效应对美国征收关税?  特约评论员 苏晓晖:表面上看,美国总统出言对欧盟加征关税有偶然性,但是从这种偶然当中,我们也可以看到必然,显然现在美国是有意对欧盟趁火打劫。首先,近一时期美国对外政策正在出现急剧的调整,美俄关系重置过程当中,欧洲试图来进行影响。而此时美国对欧洲进行施压和敲打是阻止欧盟进一步影响美国推动的政治进程,包括如何处理乌克兰危机,希望欧洲方面更多的配合。 包括未来在乌克兰安全保障方面,美国希望自己的欧洲盟友能够帮助美国干脏活,而且不抱怨,所以现在以关税对欧洲来进行敲打,趁火打劫,美国更容易达到自己的目标。同时美国看到,在欧洲内部很难形成共识和共同的行动,所以也试图试探欧洲的底线和可以进行掠夺的空间。   欧盟计划“先礼后兵” 美欧关系波动恐加大 同时,欧洲方面也在进行一定的反应,至少欧盟在计划与美国进行所谓的“先礼后兵”,而对于美方的这种胁迫,欧洲方面认为不能够从一开始就进行服从和屈从。所以现在欧洲认为,还是有机会与美方来进行沟通,包括通过谈判的方式来试图解决问题。 而另外一方面,欧洲在准备反制措施,不可能一味地坐视不理,欧洲有针对性地针对美国科技、服务等相关的巨头和企业。同时强调,尽管货物贸易欧洲有顺差,但是在服务贸易方面,美国有自己的市场,有自己的利益诉求,试图与美方来进行利益方面的博弈。 但是很显然,现在欧洲在讨论应对美国措施的时候,有更多的焦虑感。如果美国对欧盟加征全面关税,对于欧洲来说必然会造成损失。欧美之间的关系未来的波动也会进一步加大。
不接入DeepSeek的App不是好的智能体
2025年开年,中国科技圈最魔幻的一幕出现了:从政府窗口的智能客服,到手机里的天气预报App,再到你家楼下便利店的自动结账机——但凡带点“智能”属性的产品,都在疯狂接入一个名叫DeepSeek的AI大模型。 广东打响了第一枪。深圳龙岗区的政务系统悄悄上线了DeepSeek-R1全尺寸模型,群众办事时面对的不再是机械的问答机器人,而是一个能理解“我想办落户,但社保断了3个月怎么办”这类复杂问题的AI公务员。东莞紧随其后,把DeepSeek塞进了人工智能大模型中心,号称要让“企业办证速度跑赢奶茶外卖”。更狠的是广州,直接祭出DeepSeek-R1和V3 671B双模型组合,政务数据一融合,连“链式反应”这种高级词都用上了。 企业圈更是卷得飞起。三大运营商集体官宣接入DeepSeek,移动、电信、联通的客服电话里,那个总让你按“0”转人工的AI突然变得善解人意;微信搜一搜灰度测试接入DeepSeek,可免费使用DeepSeek-R1满血版模型;百度搜索宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能;京东健康上线数字医生,接入DeepSeek等模型优化AI辅诊工具;手机厂商们连夜OTA升级,发布会PPT上不写“搭载DeepSeek”都不好意思打招呼;连微软、亚马逊、英伟达这些美国巨头都坐不住了,1月31日三家齐刷刷宣布把DeepSeek-R1塞进自家云平台,场面堪比科技版“三英战吕布”。 最离谱的是某网友爆料:连小区门口卖煎饼果子的大爷都在研究怎么用DeepSeek优化酱料配比**——虽然真实性存疑,但这场面足以说明,2025年的中国,AI竞赛已经从实验室卷到了菜市场。 信通院出手:给国产AI装上“钢铁侠战甲” 就当大家以为DeepSeek要一统江湖时,2月14日,中国信通院甩出一记“王炸”——**启动DeepSeek国产化适配测评,目标直指“让中国AI既跑得快又穿得稳”。 这场测评堪称AI界的“高考”:既要考DeepSeek在国产芯片、服务器上的适配效果(相当于测试“能在多少种国产跑鞋上冲刺”),又要评估开发部署成本(算算“造一双跑鞋要花多少钱”)。测试工具AISHPerf更是黑科技拉满,从推理速度到微调效率,把AI软硬件协同能力扒得底裤都不剩。 背后的野心昭然若揭:中国要的不只是一个能打的大模型,而是一套从芯片到集群的自主AI生态**。就像当年华为被断供后猛攻鸿蒙系统,如今信通院这套组合拳,摆明了要给DeepSeek配上全套国产“装备”——龙芯、昇腾、寒武纪等国产芯片厂商已摩拳擦掌,就等测评结果发布后开启“AI军备竞赛”。 更有意思的是,测评还没结束,广东政务系统已经用上了“测评同款”部署方案。网友戏称:“这哪是测评?分明是实战演习!” GPT-4o升智至O3 Pro:OpenAI的焦虑与中国的“农村包围城市” 就在中国AI圈热火朝天时,2月16日,OpenAI CEO山姆·阿尔特曼突然宣布:GPT-4o模型升级至O3 Pro水平,逻辑推理能力暴涨40%。消息一出,硅谷VC们集体高潮,纳斯达克AI概念股应声大涨。 但明眼人都看得出,这份“技术捷报”里透着焦虑——毕竟过去半年,OpenAI的财报会议上总绕不开两个问题:“为什么DeepSeek的中国用户增速是我们的3倍?”“为什么英伟达宁愿给DeepSeek做适配也不接我们的电话?” 中美AI之争的剧本正在改写。如果说GPT系列走的是“精英路线”(靠顶尖实验室和天价算力堆出技术壁垒),那DeepSeek玩的就是“群众战争”:开源策略让小企业也能用上大模型,政务合作把AI塞进办事大厅,甚至搞出“1.5B轻量版”让煎饼摊老板都能在手机跑AI。这种“从田间地头包围摩天大楼”的打法,直接让中国AI渗透率半年暴涨217%。 更让西方头疼的是硬件突围。当英伟达还在用CUDA技术筑墙时,DeepSeek团队已经绕过护城河,直接拿PTX语言在国产GPU上玩起了“极限操作”——同等算力下训练速度翻倍,硬生生把国产芯片的性价比拉高了一个维度。用业内人士的话说:“以前是我们追着CUDA适配,现在是老黄得琢磨怎么兼容我们的生态。” AI平民化时代:没有“智能体”的App正在消失 这场风暴正在重塑行业规则。某互联网大厂产品总监私下吐槽:“现在开需求评审会,老板第一句话就是‘接DeepSeek了没?’没接?那需求文档直接扔碎纸机。” 三大趋势已成定局 1. 政务AI化:广东试点的“链式反应”只是个开始,未来办护照可能比订外卖还快; 2. 企业标配化:运营商、银行、医院不接入DeepSeek?等着被用户贴上“古董机构”标签吧; 3. 个人极客化:B站教程播放量显示,00后们更爱用API+客户端折腾DeepSeek,有人甚至做出了“AI鉴渣助手”。 而那些还没动静的App,正面临“降维打击”。某电商平台曾骄傲宣称“我们的推荐算法领先业界两年”,结果网友实测发现,接入了DeepSeek的竞品连“用户想买拖把但舍不得扔旧扫帚”的心理都能捕捉到——技术代差之下,傲慢者终将被淘汰。 未来已来:中国AI的“三体纪元” 站在2025年回望,DeepSeek的爆火绝非偶然。它踩中了三大历史节点:国产替代的技术窗口期、AI平民化的市场爆发期、中美科技战的战略对冲期。当信通院用测评给国产AI生态打地基,当广东政务系统把大模型变成“数字公务员”,当煎饼摊老板用AI优化火候时,一个更深刻的变革正在发生—— AI不再是“未来科技”,而是像水电煤一样的基础设施。那些还在观望的企业,很快会明白一个残酷现实:2025年的智能世界,只有两种生存方式——要么自己变成“DeepSeek+”,要么被“DeepSeek+”的浪潮吞没。 至于OpenAI?祝他们在“精英俱乐部”里玩得开心。毕竟在中国,连广场舞大妈都知道:“要智能,找DeepSeek!”(这句话建议用河北唐山口音朗读,效果更佳)
OpenAI ChatGPT在心理治疗领域通过图灵测试,AI比人类更具同理心
IT之家 2 月 17 日消息,科技媒体 The Decoder 昨日(2 月 16 日)发布博文,报道称最新研究表示,OpenAI ChatGPT 通过了治疗师领域的图灵测试,结果显示人们难以区分 ChatGPT 和人类治疗师提供的治疗建议,而且人工智能的回答通常被认为更具同理心。 IT之家注:研究人员应用图灵测试的概念,要求 830 名参与者区分 ChatGPT 和人类治疗师的回复。结果显示,参与者识别正确率略高于随机猜测:正确识别出人类治疗师回复的概率为 56.1%,正确识别 ChatGPT 回复的概率为 51.2%。 研究称 ChatGPT 的回复在治疗联盟、同理心和文化胜任力等方面的得分高于人类专家,其回复通常更长,语气更积极,使用更多名词和形容词,让其显得更详细、更具同理心。 研究揭示了一种偏见:当参与者认为他们阅读的是人工智能生成的回复时,无论实际作者是谁,他们都会给出较低评分。反之,当人工智能生成的回复被误认为是人类治疗师所写时,则会获得最高评分。 这并非首个证明人工智能在咨询角色中具有潜力的研究。墨尔本大学和西澳大利亚大学的研究发现,ChatGPT 在社会困境方面提供的建议比人类专栏作家更均衡、全面和更具同理心,偏好率在 70% 到 85% 之间,尽管对人工智能回复的评价更高,但大多数参与者仍然表示更喜欢人类顾问。
人均DeepSeek之后,AI应用还能怎么做?
Deepseek 冲击波之后,如何复盘它的成功、预测它的未来? 整理 | 宛辰 编辑 | 靖宇 2025 年开年,迎来了「中国的 ChatGPT 时刻」。 由于 DeepSeek-R1 模型能力带来的震撼,从硅谷到中国、从老人到小孩、从 AI 创业者到各行各业的从业者、从小红书到抖音,都在「玩」DeepSeek。 DeepSeek 最新的「朋友圈」是百度和微信。前者即便面对传统搜索带来的丰厚商业回报,也接入 R1 主动变革;而从不激进的微信也罕见地积极了一把,接入 R1 升级了微信中的「AI 搜索」 很难想象,在 ChatGPT 诞生两年后,所谓「大模型窗口期已过」的时间点上,杀出了这样一匹黑马,以所有人意想不到的方式,掀翻了大模型产业的桌子。当所有人都看到 DeepSeek 带来的机遇,当大厂也一反常态不再要求先做出自研的模型技术、而是现在就接入最好的 DeepSeek 模型做 AI 应用,2025AI 会如何发展? 2025 年 2 月 8 日,极客公园「今夜科技谈」直播间邀请极客公园创始人 & 总裁张鹏,昆仑万维 董事长兼 CEO 方汉、秘塔科技 CEO 闵可锐和清华大学交叉信息院 助理教授 吴翼,一起探讨了 DeepSeek 带来的冲击波以及 2025AI 应用还能怎么做? DeepSeek 文笔好、思考过程比人类都有逻辑,这会成为接下来做产品的标配动作吗? 有了 DeepSeek,蒸馏还能怎么做?为什么蒸馏是常规方法论,与价值观无关? 为什么说有了 R1,也并不意味着 AI 应用更好做了?更大的挑战才刚开始。 DeepSeek 之前,大模型领域默认「老大老二不开源,老三开源赚名声」法则,但反倒是从第一天就坚持开源引领技术生态的 DeepSeek 赢得了天下。开源到底意味着什么?现在,是不是应该问:还有谁没有加入开源队伍? 靠优化 AI Infra 实现「价格屠夫」背后,没有人比 DeepSeek 更懂英伟达 CUDA,未来,模型推理价格还可以香到什么程度? 达到全球第二的成绩后,DeepSeek,接下来会发什么? 看完这篇,你会对 2025 年接下来 AI 圈即将要发生的大事件,有更好的判断。 01 DeepSeek-R1:开源模型有史以来最好的成绩 张鹏:从你的角度,DeepSeek 这次爆火背后,最值得关注的创新点是什么? 吴翼: DeepSeek-R1 是第一个开源的,并且真正接近、达到 OpenAI o1 水平的模型,后者是一个新的推理类的范式。同时,DeepSeek 还把怎么得到 R1 这个模型的很多细节、大概的 recipe(配方)也告诉你了,在这一点上,它也是第一个。 带给我最大的冲击是两件事情。第一,没想到能这么快做出来,因为从 o1 面世(2024 年 9 月 13 日),到中国的团队开始尝试复现 o1 类似的模型,DeepSeek 真正做这件事满打满算也就半年。在这条技术线上,OpenAI 可能探索了一两年的时间才做出 o1。 第二是当这个模型拿出来的时候,没想到「哇,真的这么好」,R1 是开源、所有人都可以试。 两件事情加起来,一下子就没话说,非常有历史时刻的感觉,然后春节就没过好(哈哈)。 张鹏:所有人都在思考,怎么出来的,为什么不是我们(哈哈)。你们怎么看 DeepSeek 冲击波? 闵可锐: 知道这家公司是在 2023 年他们刚成立的时候,当时可能为了招人等诉求,(DeepSeek 创始人梁文锋)稍微有一些对外的发声,看完会感受到这家公司身上很不一样的特质、非常回归本质的讨论问题的方法。所以 DeepSeek 能在一年多的时间做到像现在这样火热的程度,也许有一定的意外性,但是对于他能把这件事做好,并不意外。 方汉: 最早知道 DeepSeek 是在 2022 年底、2023 年初去买卡的时候,意外得知幻方有万卡。后来注意到 DeepSeek-Coder 模型在代码类 Benchmark 上一度冲到全球第一。 再就是「推理价格屠夫」DeepSeek-V2 的推出,直接把模型推理价格打到了当时业内平均价格的 1/10。这里面有两项技术印象特别深刻,一个是 MLA(多头注意力的优化),第二个是 MTP(Multi-Token Prediction,多 token 预测)。 最近是 V3 和 R1 的推出。V3 是一个挺强的基模,但是它跟 Meta 的 Llama 405B、Qwen 等系列开源模型一样,前面还有两个天花板,OpenAI 的模型和 Anthropic 的 Claude。 但是 DeepSeek-R1 这一次直接能够排到第二名的位置,开源模型有史以来最好的成绩,这是让我们最震惊的。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。|来源:DeepSeek 张鹏:DeepSeek-R1 里的模型技术,有哪些创新让你们印象比较深刻? 方汉: 技术角度,这次 R1 做了很多技术上的改进,像 DualPipe 算法,像用 PTX 去写通讯之类的,最印象深刻的肯定也是训 R1-Zero 用的 GRPO 这个技术,这是整个 R1 里最核心的东西。 因为 OpenAI 在做 o1 的时候,请了上百个数学博士天天解题,数据非常高质量,但他从来不对外界说怎么做数据。大家也知道很多公司会用 PPO,真正能把 PPO 用得特别好的还是 OpenAI 和 Anthropic。国内大家在 PPO 用不好的前提下,DeepSeek 用 GRPO 的方法非常巧妙,省掉了 Critic Model,后者做起来特别大、特别慢。 通过 GRPO 的方法,可以快速迭代出一批特别高质量的 CoT 数据,这一点特别令人震惊,等于说 OpenAI 自己辛辛苦苦找人花钱做出来的数据,被咣地一下给开源了, 而且从结果上来看,它的质量特别好,不逊于 OpenAI 的内部数据。这一点是非常非常革命性的,我们一直认为合成数据比不上人的数据,但是 R1 这一次有可能表明,合成数据不比人标的数据差。 这给很多人带来了希望,像欧洲、印度、韩国都觉得自己也可以做了。 闵可锐: 讨论最多的还是 R1-Zero 的技术创新。 过去大家认为,不管是做 SFT(有监督微调),还是做强化学习,都依赖大量人工标注的数据,人工在里面参与度非常重。比如之前传出 Meta 在数据标注上,是以亿美金级别的投入去换得质量相对较高的数据。但是 R1-Zero 表明其实可以大规模降低对于人工标注(数据)的依赖。 同时,R1-Zero 的突破带来了代码能力、数学能力、推理能力的提升。 但我觉得 能火到全民皆知的程度,其实不是由于它的推理能力、代码能力,还是因为 DeepSeek 写东西(的水平)超出了 90% 的人,写作能力非常突出, 这件事震撼到了大家。 02 DeepSeek 文笔好,是因为没有好好做产品? 张鹏:很多网友都说被 R1 的文笔惊艳到了,至少公众热情是这么被点燃的,不管是在中国还是海外。就连AI创业者也会感慨,以前用 o1 给人的感觉是多了一个理性的员工,今天用 R1 却感觉成为了他的人生导师,竟然能带来很多启发。所谓的模型文笔好,技术上是怎么实现的? 吴翼: 简单说,文笔特别好(的原因)就是 DeepSeek 没有好好做产品(哈哈)。 如果用 ChatGPT 写,经常会讲文章 GPT 味特别重。为什么呢?因为 ChatGPT 在安全、对齐(alignment)上做得非常猛。这样就会导致,比如当人跟 AI 一起玩「狼人杀」时,你特别容易看出来哪个是 GPT。因为人类玩家会直接说,「这个人一定是个坏人」,但 GPT 会说,「我觉得这个人好像怎么样,我们应该怎么理性分析……」讲很多啰里八嗦的废话。这就是它「对齐」做得特别好的体现,它希望这个东西不要冒犯到人,希望产品化做得好。 但 DeepSeek 显然没有好好做这件事情,所以大模型本来的这些天花乱坠的想法就被你看到了,而 OpenAI 为了做安全性,为了做所谓的「价值观对齐」,反而是把模型的很多能力收起来。 第二,如果仔细地去看 R1 的技术报告,它其实分了两步,先用强化学习做出了一版推理模型,但没有直接给你用这个推理模型,而是后面有一个合并模型的过程,最后是完整版的 R1 模型有一些泛化能力。 展开讲,因为在代码、数学这种特定任务上做强化学习训练出来的推理模型 R1-Zero,文字上肯定会差一些,所以 R1-Zero 又跟原来的基模 V3 用 SFT 这种类似于蒸馏或者合并模型的过程,最后合并出了带有泛化能力的模型 R1。这也说明 V3 这个模型确实非常好, 如果 V3 比较差的,最后合并出来你也看不到那么多奇思妙想。换句话说,强化学习很重要,基模也很重要。 张鹏:这个视角蛮有意思,反而是过度对齐,会让它的脑洞、想象力或者一些 hallucination(幻觉)被压制了。 吴翼: 对,创意其实是 hallucination。 作者卫夕向 DeepSeek 提问 「玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?」 ,网友为 DeepSeek 输出的答案而感到惊叹。|截图来源:微博 张鹏:可锐,你怎么看它的文字表达很好?背后有什么原因和讲究? 闵可锐: 我猜测可能有三个原因,一是刚才提到的 DeepSeek 没有试图把很多偏个性化的一些表达给阉割掉。你会发现很多 GPT 的回复是「端水型的」「安全型的」,但其实比较 boring 的回复。所以 DeepSeek 一定没有在安全性方面做激进的动作,模型输出的表达上相对比较自由。 第二个猜测,很多人觉得 R1 的强化学习本身增加了它的写作能力,但我对这件事是存疑。我听到的一个信息是,之所以有比较好的表达, 背后是有比较资深的、类似于北大中文系的人在帮忙在写数据。人的自由表达和高质量的数据作为对模型回复的一个引导,来达到好的效果。 我会觉得应该是 SFT 这个部分的数据做得非常好。 第三,R1 以及 V3 的模型如果和行业同类模型相比,它其实把规模差不多涨了 10 倍,差不多从一个几十 G 的规模涨到了几百 G。这个规模下它能够储存的信息容量差不多比上一代 Qwen 涨了十倍,这让它在很多比较细致的表达上能够有更好的还原。也就是说 它的压缩率其实不用做得那么高,能够记住更多东西,包括像诗词、或者开放式的问题上。 总结来说,更大的脑容量、高人撰写的文学性数据作引导和对齐,并且降低了严格的安全对齐(标准),可能是这三点加起来得到了 DeepSeek 的优美深刻的表达。 张鹏:一些在硅谷的华人 AI 研究员也说,可能过去海外的大模型对于高质量中文数据没有特别较真过,但 DeepSeek 较真了。方汉你怎么看「大家说 DeepSeek 文笔好」? 方汉: 虽然我学的是理科,但我高考作文是满分,所以对古文比较熟,我特别喜欢让大模型写古诗词。在这件事上,现在写的最好的模型实际上是 Claude,也就是说 Claude 的文采比 ChatGPT 要好很多。 我觉得还是数据的原因,大家公认 Anthropic 对数据的品位最高,数据做得最好,他们的数据团队规模在语文和写作方面非常强,我猜 DeepSeek 也是类似。 DeepSeek 内部可能有一套方法,可以从现有的数据里面生成质量非常高的语文数据,这是我的猜想。因为请大量顶尖团队比如北大中文系标数据,DeepSeek 未必竞争得过大厂,(靠人工标注数量和质量取胜)逻辑上讲不通。 DeepSee k 在不要人干预的情况下,可以用 GRPO 可以生成数学和编程的 CoT 数据,那这些方法能不能用在语文上去生成高质量的语文数据,这是我更相信的一个推断。 另外,我们在做推理模型的时候有个叫 temperature(温度)的参数,如果把这个参数值设得高,模型就开始胡说八道、特别有创意,但也很容易崩。可能因为 R1 的推理能力很强,哪怕把 temperature 加得比一般模型高,也是比较活跃且不容易崩。 03「被 DeepSeek 的思考过程震撼到了」 张鹏:除了文笔好,很多用户也被 DeepSeek 思考过程的透明和清晰的逻辑打动,R1 是第一家展示思考过程的模型吗? 吴翼: 完整思维链的透明展示,确实是 DeepSeek 第一个做出来的,但 R1 不是第一次,第一次真正公开所有思维链的模型是去年 11 月 20 日发布的 DeepSeek-R1-Lite。 后来 Gemini 跟进了,也公开了思维链,Gemini 的 Flash thinking 的思维链质量也不错。 其实去年 9 月 OpenAI 发布的 o1 也给了这样的中间步骤,只是它不给你看思维链的完整版,就给你一个总结版。从技术视角上,藏没藏思维链差挺多的。不过总结版的思维链虽然不完整,但也挺有价值的,很多人发现即使是「扒」总结版思维链数据,也能对模型有很多提升。 图片来源:视觉中国 张鹏:你觉得 OpenAI 为什么不给大家公开思维链? 吴翼: 高质量思维链对于模型的能力提升、以及激发模型让它在第二阶段强化学习训练时能有很好的推理表现、继续用强化学习做 Scaling Law 是很重要的。所以 OpenAI 应该在这件事情上花了一些力气,他知道如果真的把思维链给你去 distill(蒸馏),你很快就能做出来,他就是不让你「抄」。 最近李飞飞老师团队做的、被炒得很热的 S1,50 美金能够让你看到 test-time-in-scaling 的效果,也说明了这个道理。它只输了 1000 条 Gemini 的长思维链数据,就能让模型有比较大的推理表现上的质变,当然它效果还比较一般,50 美金不可能真的把 R1 复现。所以高质量的长思维链数据是重要的,这也是 OpenAI 不愿意给你看的原因。 方汉: 我觉得 OpenAI 就是想保守机密,OpenAI 一直认为思维链数据是它最值钱的数据,所以很早就出了一个 term sheet(条款),你要是敢 jail break(越狱)问他 CoT 的问题,他会封你的账号。R1 发布之后,OpenAI 也把 o3-mini 的思维链输出了,但这里是总结版的思维链,结果又被网友骂了,然后现在又正在把总结再去掉。 当然大家没有想到的是 DeepSeek 说,要不我试一下,我也不要中间这个步骤,直接给你强化学习行不行?很长时间大家都觉得中间需要搞一步 SFT,结果 DeepSeek 出来跟你说,我们试了一下,好像不需要也行。 张鹏:因为没有人做出来过,或者没有人按这个方式做出来过。 吴翼: 就是 对面有一家告诉你这个东西特重要,「此地无银三百两」,我家一定没有黄金,你千万别来。那大家都会往这上面花很多精力想,最后 DeepSeek 试出来说,你看你没这玩意也行,哈哈哈,或者说有比较便宜的方法能绕过去。 张鹏:秘塔科技也在第一时间与 DeepSeek-R1 合作做了相关的功能,思考过程的可视化。可锐,从用户的角度,你怎么看这件事带来的影响?展示透明的思维链本身,是不是一种用户价值交付? 闵可锐: 我会觉得思维链,不管是总结版也好,还是像 R1 给到一个相对完整的思维链,最早的出发点可能是通过步骤和步骤之间的推导,提高结果的准确率。 但把它展示出来,我会认为最早是因为中间的等待时长实在太长了。如果 让用户在这无休止地比如像看沙漏一样(等时间),用户体验是非常糟糕的。所以既然有一个中间的推导过程,索性把推导过程显示给用户,但是这似乎带来了一个非常意外的好处。 很多人反而专门去看思维链,「诶,这个模型怎么思考的?它怎么从不同角度去考虑我提的问题」,这对我来说是稍微有点意外的。我观察到很多人其实还挺喜欢看 R1 的思维链,因为模型把思维链写得像是一个内心独白一样。 就像有人问它说,「诶,我有一个朋友怎么怎么样」,然后这个思维链里说,「这个大概率是用户自己想问这个问题」,就是有一种竟然被 AI 看穿的体验。 我觉得这可能也是出乎创造者意料的效果。 DeepSeek 推测,用户说是别人的提问,很可能是用户自己的提问。|截图来源:DeepSeek App 张鹏:方汉,你怎么评价这次 R1 展示的透明的思维链? 方汉: 从纯技术的角度,看思维链可以改进你的 prompt。但对于绝大部分用户,不会这么用思维链。 对于用户来说最可怕的体验是,看到 R1 思维链这么严密的推理过程,有点像我们小时候看卡耐基成功学、有点像听一些特别牛的人把他思维方式给你讲一遍,你是会很震撼的。 现在,你目睹了 AI 用一个聪明人、成功学的方法给你推导一个问题,所有人心里都会心生感叹,「这个 AI 真聪明,接近人类智能呢」。我觉得这 对产品的推广来说,是一个决定性的心理暗示。 张鹏:像这样一个让大家觉得很震撼的思维链,是怎么做出来的? 吴翼: 首先 思维链是涌现出来的,不是人标注出来的,人标不出这样的思维链。 如果你仔细去看 DeepSeek 产生的思维链,很多也是错的,或者说没有任何道理,再比如之前 OpenAI 的思维链里还出现过中文。这些都说明,是由强化学习的 Scaling Law 让思维链涌现出来的。 所以判断一个模型是不是推理模型,只要看它敢不敢放出一个训练曲线——模型输出长度随着强化学习的训练时间在不断变长。如果能看到这个不断变长的曲线,基本上可以认为这个训练是成功的;如果看到它的长度变短了,那应该就失败了,即使它的正确率或者表现在提升,也是失败的。也就是说,这个长度是涌现的,最后推理模型呈现出来的极强的反思,是泛化的结果,是涌现的结果,而不是人标的。 DeepSeek-R1-Zero 的性能轨迹,整个强化学习过程中稳定且持续提升。|截图来源:DeekSeek-R1 技术报告 第二, 需不需要一个东西去激发这个模型的思维链?基本上是需要的。 OpenAI 在训练模型的时候应该还是用了一部分这样的数据去激发基座模型的思维链能力,然后再上强化学习的。 但是我觉得比较神奇的一件事情是,如果你仔细去看 DeepSeek 的技术报告,你会发现即使用比如 Qwen-32B、Qwen-70B,基座模型在没有任何强化学习训练的情况下,通过 prompt 的调整也可以看到它的一些反思过程。也就是说,基模从某种程度上已经有一些自激发能力。 所以这也是 DeepSeek 可以从基模直接进行强化学习的一个重要原因,基模在强化学习开始的时候就存在一定的反思、思维链能力,然后再通过强化学习 Scaling Law 的方式,把反思能力放大,涌现出来最后的 R1 模型。当然也说明 DeepSeek-V3 这个基座模型做得很好,导致它一开始就有了自我激发的能力。 如果这个基座模型,比如说在数学上有一些基座模型有一些反思能力,但在语文上,比如说真的完全没有「诶,等等,我说错了我再想想」这样的表现。再怎么强化学习?也不会涌现出反思能力,如果基座模型很差,没有准备好被激发的话,那也没用。 张鹏:如果没有「等等,我可能想得不对」类似的推理反思能力,再怎么上强化学习,也不会出现思维链的线性发展。 吴翼: 对, 强化学习跟预训练是乘法的关系: 预训练的 scaling 是第一个系数,强化学习后训练是第二个系数,这两个是乘起来的关系。 如果一个维度是 0,怎么乘也没用。但这里哪怕是个 0.01 也没问题,后面帮你乘上去,所以这也说明 V3 的基模真的非常好,所以它能让你做出一些事情来。技术报告里也做了实验,比如说是 7B 的小模型,怎么强化学习也没用,还不如蒸馏。所以强化学习和基模有这样的一个关系。 张鹏:怎么理解强化学习在 R1 和 R1-Zero 体现出的效果? 方汉: 打个不太恰当的比方来类比理解,让一个小孩学乒乓球,先让他看所有高手打乒乓球的视频,但他看完了之后仍然不会打。 这时候有两个方法,一是请国家队队员比如马龙来教他,但绝大多数家庭请不起国家队。怎么办呢?这时候请不起国家队的家庭就想了个办法,让人对着一个洞去打球,打不中就「电」你一下。奖惩机制下,终于这个小孩成了一个绝世高手,但是他这时候还不太懂乒乓球的规则,发球也不标准等等。这时候终于又请了一个教练,告诉小孩得按照什么样的规则打球,让他把规则学会,学会了就出去「大杀四方」,这个逻辑大概是这样。 这里其实有一个问题,刚才大家也聊到了, 现在不知道 V3 这个基座模型看没看过高质量的 CoT 数据?但是它后来的激发做得非常成功。 我觉得这给了所有「穷人」一个念想,我靠自己「电」自己,也能把自己「电」成高手。这样的话,很多欧洲、印度的公司也可以开始训练这种高质量模型了。 张鹏:技术圈对于 R1-Zero 的讨论是大于 R1 本身的。 闵可锐: R1-Zero 的这件事,更像是一个范式的变化。Zero 这个名字就会让大家容易联想到 2017 年谷歌 DeepMind 诞生的 AlphaZero 这个名字,如出一辙。 DeepMind 先让机器学习人类怎么下围棋,上升到完全不告诉机器人类下围棋的方法、只告诉它规则——下到什么局面你就取得了胜利、下到什么局面你失败,就能够把模型训练到超过人的水准。这件事打开了大家的想象力,让它自我博弈、自我学习,有可能出现超过人类最强棋手的能力。 一定程度上,R1-Zero 带来了这样一个类比和联想。当然两者不完全一样,AlphaZero 在下围棋上做强化学习的时候没有任何人类经验的参与。但 R1 可能还是受到了基模 V3 的激发,后者是一个学习了全互联网人类知识的基座模型,R1 涌现出来一些反思、自我纠错的能力,本质上还是因为全互联网数据里存在人类反思,类似「诶,这个地方等等,我好像做得不对,让我来改进一下」的一些基础数据,哪怕比较稀疏,但是仍然被 V3 给捕捉到了。在这个基础之上,用强化学习的能力把它进一步放大,达到一个更好的一个效果。 04「蒸馏」是业内常用的方法 张鹏:R1 出来之后,有很多讨论说未来是不是可以通过蒸馏,让端侧的模型能力也得到比较大的加强?有了更好的模型,再加上蒸馏这件事,对创业者做产品或者模型有什么好处? 吴翼: 分三件事来讲,一个是蒸馏,第二件事情是端侧模型,第三是垂类应用。 蒸馏的过程是指,你问一个问题,让老师说答案,你把答案记下来,你问 100 万次,就差不多学会了。就像熟读唐诗三百首,不会做诗也会吟。 蒸馏确实是有用的,DeepSeek 在技术报告里也表明, 如果你有一个小的模型比如 7B 以下的模型,不用去做强化学习或者其他,有一个好的、大的老师模型用,直接蒸馏思维链数据是最好的,比直接跑强化学习效果好,也最高效的。 所以有一个模型完全公开、可以蒸馏,对很多做产品或者做个性化模型训练的公司来说,非常非常利好。 而且不光对小模型有用,对于大的公司来说,蒸馏也非常重要。比如 DeepSeek-R1 是 671B,很多厂商可能用不起来,或者很难高效地用起来。那么一个公司做模型的团队如果能把 671B 的模型,做到比如说 100B 的模型上、带来同样的效果,这会给成本以及应用带来更大的可能性,这里是需要蒸馏的,自己也可以蒸馏自己,不丢人。而且很多人认为 OpenAI 也做了蒸馏,所以 OpenAI 上线的模型都很小,成本可以控得很低,很大的吞吐量做得很高效。 第二件事,端侧模型。我们是不是需要一个完整的端侧模型?我其实觉得不一定。 我在端侧有一个比如 1B 的模型,云端还有一个 500B 的模型,这两个东西可以配合。我自己是做多智能体强化学习的,我觉得一个最有趣的多智能体系统的问题是: 当你真的有两个能力不一样的模型,比如说 500B 的模型和 1B 的模型,它们之间应该怎么样发挥出一个 1B 的效率、同时 500B 的推理能力? 现在大家研究多智能体系统往往都是在端侧用不同的模型、不同的 prompt 通过显示出的不同偏好和行为模式来组合,这件事情其实没什么太大的意义,因为就像 OpenAI 的 Operator 模型或者 DeepSeek-R1 出来,你会发现一个足够强的推理模型,可以做到一个模型干所有的事情。 当真的有云端和端侧的模型可以配合的时候,多智能体系统就会很不一样。 第三件事情是垂类应用,我觉得 这个时代对于做垂类的应用或者叫产品,要求要比互联网时代高很多。 因为技术迭代太快了,不光要洞察需求,你很怕那个需求,因为来了更好的模型之后,整个需求的模式变了。因为从 ChatGPT 和 DeepSeek 上你可以观察到,很多新的被满足的需求,并不是他们想到的,而是模型的智力提升之后,人的行为模式也发生了变化,模型的涌现带来了人类行为的变化、带来人的需求的变化。所以做产品也不能抓某个需求不放,而要在那个需求的周边一直打圈。 所以可能得去想,做垂类应用真正的壁垒是什么?比如数据、渠道肯定是一个壁垒,商业模式可能也是一个壁垒,但我觉得需求本身不构成壁垒。 同时做垂类应用,你还得对模型的技术有预判的能力,三个月后它会变成什么样?半年后怎么样?下一代模型可能会怎么样?因为如果在技术快速迭代的时候,花了太多的精力和太多的钱,但可能半年之后很多事情又都不一样了,所以得非常非常小心地去花钱。 Perplexity CEO Aravind Srinivas 第一时间官宣 Perplexity 接入了 R1 进行产品升级和进一步探索。|截图来源:X.com 张鹏:人对 AI 的需求会随着 AI 能力的成长,人也会改变行为。可锐,你觉得这个 AI 搜索算不算垂类?垂类产品要怎么演进、怎么构建自己的路线图? 闵可锐: 我觉得在一个技术演进比较快、变化比较剧烈的时期,对于技术有相对比较深入的理解,一定是对你做产品、对未来的预判,有巨大的帮助。 虽然外界大多数人对秘塔的印象,好像是一个比较纯粹的产品公司,但是我们其实其实已经做过几百轮预训练了,在我们有限的几十张卡上,也观测到很多比较有意思的现象。 所以我们对于很多,比如哪一代模型可能能够做什么?哪一些现象背后代表什么?不是把模型当黑箱来对待的,在对模型技术有一定理解后,解决问题的产品视角也会不一样,比如很多人会觉得现在 R1 的推理成本已经非常低了。但我们注意到,其实在 DeepSeek 还没有开源的部分里,有一个是 serving 的模型。 serving 的这部分虽然最近有很多比如云厂商、算力中心的跟进,比如以和 DeepSeek 相同的价格,甚至更低的价格对外提供服务。但是我可以负责任地说,现在每一个小于等于 DeepSeek 价格提供服务的云厂商都是在亏钱。 也许 DeepSeek 是没亏钱,但他们现在一定在亏钱, 因为现在 serving 框架其实还没有在 MoE 架构上做好准备,因为原来大家做了很长时间是在稠密模型上做了很多积累。所以现在在谈的「成本已经降下来了」,其实是更像是一个理论值。产品经理自己去做部署,自己去做 serving,很有可能很快会发现这个成本和他的预期有巨大差异。 对,所以这里面其实有很多 knowledge,还是要在比较一线有足够的细致的了解,你能做出判断。它远远没有到说这个已经是一个标准化的一个工具,按绿色按钮就出来什么,按蓝色按钮能出来什么?所以我觉得现在做产品确实得同时理解用户和理解技术,才有比较好的竞争力。 张鹏:产品经理也还是得把 AI 这件事多摸清楚点,以产品的能力去学习一下模型的技术,有能让模型变白盒的理解和探索能力。 05 更好的模型,并不意味着 AI 应用更好做了 张鹏:DeepSeek 的这一波冲击波之后,从秘塔的视角,有哪些AI应用上值得探索的新方向? 闵可锐: 坦白来讲,我觉得现在还没有到形成非常明确的方向、逻辑的时间节点。 但相比原来可能巨头玩家把更好的基模掌握在自己手上,DeepSeek 开源更好的基座模型,一定程度上弱化了基座模型给偏应用层带来的影响,在模型层面把大家拉到了同一个起跑线的水位,但这并不意味着竞争会变得更小,反而可能会变得更激烈的状态。 在一个更好的推理模型基础上,确实有机会做出更惊艳的一些产品。谁能够贴近用户,把用户原来有但是未被满足的需求做得更好,率先把这样的产品方向、产品能力实现、释放出来让更多的人用,也会有机会更高效率地拿到更多的用户。 1 月 20 号 R1 发布以来,我们在内部已经测试过几轮(集成 DeepSeek 模型的功能)了,有一些我们原来想要去实现、但是不太成功、不值得对外释放的一些功能,看起来已经可以 ready 到给大家提供可使用、且好用的产品功能。我们很快会有一些新的功能上线,不会让大家等太久的。 秘塔 AI 搜索,率先接入 DeepSeek-R1 模型升级产品能力。|截图来源:秘塔搜索 张鹏:为什么说有了更好的模型,并不意味着产品更好做了? 闵可锐: GPT-4 出来了以后,能做成应用的概率会显著更高吗?R1 出来以后比 GPT-4 更高吗?都不是。因为模型能力的提升,其实是拉高了所有人的基线。原来所有人只能做到 60 分的时候,你能做到 70 分,你的产品可能更受欢迎。但当所有人都被拉高到了 70 分的 baseline,你必须得做到 80 分。 所以这一代创业者做 AI 应用落地开发,要有一个心理预期,可能原来你做到的东西,现在能够直接被比如说 R1 的推理能力所覆盖掉,那你就要在这之上寻找新的可能性,才能成为被大家接受的产品。 从做应用的角度来讲,更好的模型是不是代表了应用更好做一些?我们过去有在做产品研发、落地、模型上,可能有小十年的经验,我一直的感受是,大家在这件事情上的判断过于乐观。 张鹏:方汉,你怎么看它对于 AI 产业站在全球视角比较确定接下来可能带来的影响、冲击和变化是什么? 方汉: 大家都说大模型的下一场是 agent,但如果是多 agent 协作的情况,只要有一个 agent 拉胯,最后质量就很差。现在 R1 保证了 agent 智能的下限比较高,很多以前完不成的、比较长、比较复杂的任务,有可能很快就会被解决。 比如 AI 编程,原来只能写单个函数,甚至只能写一个文件,现在有了 R1 这样特别强的模型,是不是可以直接把整个工程生成出来,而且交叉地修改、debug?这样就真正成为一些可用的生产力。 对于具体的产品,我觉得所有跟 agent 相关的新的产品模式会快速涌现,而且由于模型是开源的、成本还特别低,很多产品也开始看到了盈利的曙光,因为推理成本下降了,而且能力还上升了。 另外,R1 在数学跟编程任务上表现最好,因为数学和编程是人类用符号来固化思维的两个最显著的领域。相应地,还有科学,比如说像 AlphaFold 做的是蛋白质折叠预测。 我认为跟符号化形式相关的、数据比较强的领域,都会带来特别大的效率改善。 张鹏:昆仑万维的产品线会更丰富,这里有没有一些比较具象的思考?经过年初这一波冲击之后,在AI应用上有什么新的启发? 方汉: DeepSeek 不是第一个开源的,但它是开源的模型里面质量最好、最接近 OpenAI 的水平的,这是它出圈的根本原因,这给 AI 应用带来一系列影响。 首先他把一个很高质量的模型的推理成本打低之后,给商业模式带来了更多的可能性, 免费类的AI应用会逐渐出现。 第二,降低 AI 应用的门槛是关键。全球能够写好 prompt 人数不会超过 1000 万,所以怎么降低 AI 应用的门槛非常关键。举个例子,最近谷歌 NotebookLM 会爆火,就是因为它极大地降低了应用门槛,不用写 prompt,把 PDF 拖进去,按一个按钮就给你生成播客了。 第三,云计算时代,有一个词叫云原生,是指一些在云计算出现之后才涌现出的云原生公司,这些公司完全是轻资产,所有服务都跑在云上。我觉得 AI 时代的应用也会有类似变化,现在 AI 原生的产品经理其实还不多,大部分人都还在用互联网和移动互联网的思路来做 AI 应用。这是一个痛点,大家都还在摸索。但接下来,产品经理当老大的 AI 公司会越来越多,AI 原生的产品设计也会越来越多。 最后,很多公司现在做了效率类的 AI 应用,但是从互联网跟移动互联网的经验来看,效率产品的增速一定比不过娱乐产品,人类都是喜欢娱乐至死,而 娱乐产品其实并不一定需要特别强的 AGI,但是需要特别强的AIGC,所以我认为娱乐产品的发展速度接下来会远远超过 ToB 的效率产品。 张鹏:效率型的工具可能是人类的一部分需求,人类无尽的需求是娱乐,你觉得在娱乐这件事上 2025 年有什么样的东西值得看?在娱乐方面会出现足够让人兴奋的 killer APP 吗? 方汉: 人类最喜欢、成本最低、门槛最低的娱乐方式是视频,我们认为视频生成领域一定会涌现出最大的 killer APP,只是不知道是传统的渠道为王、还是新的视频制作平台为王。 大家都知道短视频席卷全球,短剧现在是第二波,也要开始席卷全球,现在就算短视频的成本很低,但是拍一部短剧也要 100 万人民币,所以现在中国每年只能产三四千部短剧。如果我们能够把单部短剧的成本达到 2000 块钱,那么全世界每年可能会有几百万部短剧的产出,这会对整个业界带来非常大的冲击。 打个比方,我没有学过音乐、也五音不全,现在用我们的音乐生成大模型,我可以做很多首歌。同时在成本上,举个例子,我们原来做游戏业务的时候,订购一首音乐平均 5 万块钱左右,现在音乐模型推理成本可能只有几分钱,这就是成本以及门槛的降低。 当一个东西的生产门槛以及成本显著降低,AI内容就会像抖音的短视频作者那样,因为手机摄像头和 4G 的出现,生产出大量短视频内容。 但我觉得 2025 年还可能还没有到时间点。现在的视频生成模型虽然已经非常强了,但是还没有到能够取代完整的影视产业链的地步。 去年底,昆仑万维在美国上线 AI 短剧平台 SkyReels,在全球 AI 娱乐市场做出进一步探索。|来源:昆仑万维 张鹏:今年的视频生成领域还会像 2024 年一样快速迭代吗? 方汉: 对。2023 年春晚已经有 AIGC 的视频出现了,但那时候还比较原始,现在比如字节最新发的 OmniHuman 视频质量就非常好了,大家都在飞速演进。 而且大家也不要迷信 OpenAI,Sora 已经被第三方的、闭源的、开源的模型迅速追上,也就是说 OpenAI 在图像生成和视频生成领域起了个大早,赶了个晚集,现在无论开源还是闭源,都有跟 Sora 比起来有很强的竞争力的视频生成模型。而且开源生成模型有更好的生态,对长尾需求的满足也会更好,最终基于此的商业模式也会最多。 张鹏:你怎么看 chatbot(聊天机器人)这种类型的产品?娱乐陪伴型的 chatbot 是一种,ChatGPT 也是一种 chatbot,这种类型的产品未来还会是一个标准形态吗?还是一个过渡形态,接下来要探索新的东西? 方汉: 我认为它只是一个原始形态。就像最早 QQ 刚出来的时候,大家都是用键盘打字输入到 QQ 对话框,但是到微信出来的时候,我妈妈从来不给我打字,都是直接发语音,甚至一言不合就开视频。所以我认为现在的 chatbot 只是一个很早期的形态,像 GPT-4o 把多模态像语音、视频引入 chatbot,是自然的过程、逐渐演进的。 就像早期的互联网有一个产品叫 MUD(Multi-User Dialogue,多用户对话),从文字 MUD(文字冒险游戏)又衍生出来了两个重量级的娱乐游戏产品,一个是叫大话西游,一个是叫魔兽世界。我认为现在的 chatbot 演化的终极形态有可能是一个类似于元宇宙的、虚拟多媒体的交互形态。 张鹏:可锐,你怎么看模型进展对 chatbot 这种形态的产品的影响? 闵可锐: 不同生态位的公司,受到的影响可能不一样。 一年以前,整个大模型业内比较推崇的方式是模型和应用一起、产模一体结合起来把产品效果做好的思路,这样才能建立足够的壁垒。但 R1 其实对这种思路提出了很大的挑战。换句话说,后入局的玩家拿着可能同样好甚至更好的模型,是不是也能直接把起跑线追平,开始在上面做应用? 纯粹从应用层角度来讲,当下这个阶段是相对利好的状态,因为拿到了一个足够好的武器开始做同场竞技。 但 不论现在大家是看空还是看多,可能两个月以后又会产生巨大的反转, 所以我觉得子弹可能姑且得再飞一会儿才有结论。 张鹏:变化太快,现在对于轨迹的预测不能超过两个月。现在看,原来那种产模一体的模式未必是必须的,也存在另外的可能性。吴翼从蚂蚁集团技术研究院强化学习实验室的角度,你们接下来的主要目标和探索的东西是什么? 吴翼: 蚂蚁集团其实一直在做自己的基座模型,也在做推理模型,只是后者启动稍微慢一些。我们也是去年 11、 12 月份开始,和一部分同学在蚂蚁研究院成立了强化学习实验室,开始想做自己的推理模型,中间也踩了很多坑。 基本上是研究院新设了这么一个强化学习实验室,也希望能够在里面做相对比较自由、比较开放的强化学习研究工作,做出开源开放的推理模型,所以 DeepSeek 也是给大家开了一个好头,鼓舞想去做开源开放的技术和模型团队。 06 开源能带来巨大收益,不是做公益 张鹏:自这次 DeepSeek-R1 开源震撼全球以后,全球很多公司在开源上做了重新思考和选择。甚至 Sam Altman 在答网友问时表示了 OpenAI 站在了历史错误的一边,会重新思考 open 这件事。你觉得 OpenAI 会重新回到开源模型吗? 吴翼: 我觉得他不会。 张鹏:DeepSeek 的开源路线带来了哪些连锁反应?为什么会有这些影响? 吴翼: DeepSeek 开源产生的影响,对我感触特别大。我觉得最后最好的那个模型应该还是闭源,因为即使一个公司做出了最好的模型并开源,但在把它作为一个产品端去部署时,还可以做更适配、更极致的优化,成本可以更低,因为他知道这个模型是怎么做的,所以一定会有一个内部适配、更好的版本。 但是即使这个开源模型会比闭源版本稍微差一点,但 DeepSeek 也已经带来了巨大的冲击。 传统大家选择开源的逻辑是:如果我是行业第一,我不开源;行业第二我也不开源;行业第三我一定要开源,因为不开源我就死了,同时我要开源让你们前两名不好过 (哈哈)。大模型最早的开源 credit(名誉)是 Meta 的 Llama,当时 Meta CEO 扎克伯格和首席 AI 科学家 Yann LeCun 讲,某种程度上,你们是站在我们的肩膀上。但是如果仔细去想 Meta 全家桶本来的巨大流量后,它其实没有做太多后续动作,它的所有目标好像在说「我不能让垄断发生」,我是老三,所以我一定要开源,让你们不好过,但他自己没有因为这件事带来太多受益,或者只是股价上升了。 但 DeepSeek 开源不一样。这件事带来的最大的冲击是,过去从来没有人觉得开源能带来特别好的商业模式,或者带来特别大的商业收益。现在大家在重新考虑这件事。 DeepSeek-R1 开源以来,首先 App 的 DAU 在十几天之内达到了几千万;同时,这件事情带来了巨大的品牌效益,你会觉得,原来做开源不是为爱发电,就是为了「搞死」前两名;开源原来能带来这么重大的收益。所以 在 AI 领域,如果你真的开源了一个非常好的模型,最后是有收益的。我感觉历史上从来没有这么大范围的出现过这件事情。这件事情也会对整个社区、生态以及 AI 发展的速度带来好处,因为 AI 再次加速了。 这也是为什么我还看好英伟达的原因,为了速度。英伟达的芯片能让你拿到这个(开源)模型之后,可能一个月就会迭代一版模型;但如果用国内的卡,迭代会慢比如半个月。之前我做过一段时间国产卡的训练,发现如果用英伟达的卡可能只花一个月,但如果给我国产卡,同样的事情可能要花 3 个月的时间,或者说国产的算力我需要时间做适配。所以这是时间的差别,你愿不愿意在一个 AI 高速发 展的时代里牺牲你的时间? 如果 AI 还在高速发展,那我觉得英伟达就不可替代。但是如果一旦 AI 的速度放缓了,那就有问题。 所以我觉得 DeepSeek 开源也带来了更高烈度的竞争,2025 年会是很刺激的一年,因为 AI 发展速度会更快。 张鹏:在 AI 领域,开源跟闭源可能会同时存在,尤其当下阶段,这件事是好事,站在人类视角看,DeepSeek 开源反而是对整个通向 AGI 的发展,AI 在加速。 把它定义为 Sputnik Moment(1957 年,苏联成功发射了人类第一颗人造卫星「斯普特尼克一号」,使得美国意识到自己在航天等关键技术领域的落后,并大力投入航天事业)其实是冷战思维,比较恰当的类比是 Mozilla Moment(1998 年,网景公司将其浏览器网景 Communicator 源码开源,激发了全球开发者的热情,推动了浏览器技术的快速发展),从而加速AI平权,激发了更多创新的力量。 07 DeepSeek 冲击波下,英伟达还好吗? 张鹏:R1,包括 V3 在保证模型效果的情况下,实现成本相对比较低。这是为什么? 吴翼: V3 披露的 560 万美金是指它单次模型训练的成本,不包括前面研发等成本。根据 V3 的成本,我们大概测算 R1 成本依然很低,比 V3 成本再低一些。 但就是如果你觉得,有 560 万美金就可以做 R1 了,那你最好先把这个数字前面乘个系数再来想这个事。 你要做 R1,你先得做 V3,之前还得做 R1-Lite,R1-Lite 之前得先做 V2,这些东西都花钱,不只是最后那一次成功了的成本。如果再考虑整个研发、实验可能会失败、调整等全部成本,你需要乘一个系数。 当然 DeepSeek 整体比较高效率,系数可能会小一点,如果是大公司这个乘的系数可能会大一些。核心是因为 DeepSeek 快。 同样的训练量和同样的数据,如果放在一个基建比较普通的团队里,哪怕知道怎么做,可能也要再乘几倍的成本,因为训练得慢。DeepSeek 在过去很长一段时间里面做了非常非常多系统上的优化。不只是比如 MLA、MTP 就能解决的,而是可能有一系列很长时间的工程优化累积起来,每天减少 5%、减少 10% 的时间耗损,这里一个优化、那里一个优化,把一个可能本来要 2000 万美金的训练,压到了最后是 560 万美金的结果。 所以 这件事情是一个常年累积、很重视基础设施的结果, 有了这个基础,之后做实验、做新的模型也会更快,是一个非常相辅相成的过程。所以还得说 DeepSeek 是非常让人敬佩的团队,在基础设施上也做了很多很多工作。 方汉: 由于美国的禁运,我们能够得到的算力资源是有限的。这样会倒逼所有中国团队在软件优化上倾注比美国同行更多的精力。像 DeepSeek 团队做的那样,比如实现了 FP8 混合精度的训练,压缩显存占用来让训练速度更快。在训练加速上,他们做出了卓越的努力,也获得了丰厚的回报,这不是只在 R1 里才有体现,之前训练 V2 也已经展现出这个实力。 张鹏:我再追问一下,DeepSeek-R1 出来之后,紧接着英伟达来了个近年来最大跌幅,有了更高效率训练出来的模型,大家对英伟达的预期怎么样? DeepSeek-R1 发布后,美国科技股大跌。|图片来源:视觉中国 方汉: 我的观点是, 对英伟达来说,短期利空、中期利好、长期利空。 尽管 OpenAI 和软银的「星际之门」号称要投资 400 亿美金,买的都是英伟达的训练卡,但是 DeepSeek 现在把训练成本打下去之后,美国人也不能自己花 100 亿美金,来训练中国人只要花 10 亿美金的任务。之前一路高涨的股价,是因为所有投资者都是赌他的训练卡,所以我觉得短期利空英伟达。 中期利好是什么原因呢?如果仔细看 DeepSeek 的技术报告,他们的所有的推理优化都是基于英伟达的 CUDA 平台,比他们更懂英伟达 CUDA 平台的也没有几家。一旦 DeepSeek 把特别好的模型的推理成本打下来之后,模型就更容易商品化,之后整个市场规模会变大。所以英伟达的推理卡在中期一定会卖得非常好。 长期利空是当大模型开始固化下来,英伟达推理卡的壁垒就保不住了,第三方厂商的机会就开始来了。像美国有家叫 Groq 的公司,中国最近也有数十家芯片公司宣布支持 DeepSeek 模型部署。 张鹏:这件事是不是证明了,没那么多钱和卡也能创新? 闵可锐: 大家好像总把 DeepSeek 和它几百万美金的训练成本去做关联,好像在定义,他们是钱和卡都很少的一个团队。 但其实,尤其在中国的范围来讲,DeepSeek 难道不就是已经是最有钱、最有卡的第一梯队的 player? 比起我们可能这段时间为了承接 R1 的用户量,到处去借了几百张卡来提供服务来讲,DeepSeek 其实已经比我们多了可能两个数量级以上的资源。 我觉得资源在基座模型及其产品上,仍然是非常重要的。哪怕事实上你的模型训练效率是 OpenAI 的 10 倍,但是你也没有它 1/ 10 的资源,体现不出来你 10 倍效率的提升。因为绝大多数用户都是根据产品体验用脚投票,不管你是用多少资源做出来的这个结果,我觉得好用就用,不好用就不用。 其次我觉得,基座模型层面的竞争是三个维度的综合竞争结果, 除了计算资源,还有你的人才密度,以及第三个维度,可能也是比较容易被忽视的——1 号位在这件事上的能力和决心。 DeepSeek 在与国内第一梯队玩家接近的资源下,有中国最好的人才密度和 1 号位对这件事的纯粹的决心。 08 关于 DeepSeek,What』s Next? 张鹏:如果你是梁文峰,你觉得 DeepSeek 接下来下一步的重心会是什么? 方汉: 我觉得 DeepSeek 是一个非常轻商业化的公司,完全是靠技术力破圈,而不是靠推广破圈。很多人愿意跟着梁文峰总干的一个原因是因为他纯粹,到现在他还在手敲代码。我觉得一个公司的 CEO 还在手敲代码的时候,这个公司一定是一个非常技术向的公司。 他们的服务器扛不住这件事情,他肯定会花心思去解决,但是至于流量能不能接得住?我个人觉得不是他关心的重点。而且只要 DeepSeek 的技术继续迭代,还会有泼天的流量,这也不是个问题。 当务之急肯定还是怎么样招更好的、志同道合的人进到他的团队,继续快速迭代,因为从 V2 出的 MLA、MTP,再到 R1 的 GRPO 出的 Dualpipe,你可以看到里面别出心裁的技术革新层出不穷,说明他们是一支非常有战斗力的团队,人才密度很高。只要他继续保持人才密度,不盲目扩张,还会继续在 AGI 的道路上带来更多惊喜。 闵可锐: 对,我觉得确实是看 DeepSeek 做这件事的初心。 做 AGI 首先可能得不差钱,其次是一个偏执狂,如果想靠 AGI 来挣钱,多半会既挣不了钱也做不好 AGI, 因为这个路径其实并没有那么清晰,尤其是怎么靠 AGI 来挣钱这件事儿。 所以如果 DeepSeek 如果能守住初心,可能能够持续给大家带来惊喜。因为本质上,是两拨顶尖人才比如 OpenAI 团队和 DeepSeek 团队的 PK。这个时候,犯错的容忍程度可能很低,但凡分心去考虑比如我是不是要做一个最好的 APP?一定会占用你的决策时间和精力。 图片来源:视觉中国 张鹏:你觉得他接下来这个产品节奏怎么样?到底会用多快的速度发哪个版本的什么? 吴翼: 如果站在这个时间点, 当你有了一个 o1 的技术之后,其实是有一个特别大的分叉点,是先去做 o3 还是去做 agent? 这两件事情都挺重资源,但是从智能的角度看,是有 90 度夹角的。到底是沿着纯文字的推理走到极致,从 o1 追求到 o3?还是去做一个 agent,那它需要有视觉理解能力的闭环,做出一些 action 后,还要有新的视频输入,要去做一些 function call 写代码调接口的能力。 就像 OpenAI 最近发了一个 Operator 模型,是一个 agent 模型。agent 其实是强化学习 scaling world 的一个很重要的分支,有了这套强化学习体系之后,你可以用强化学习的方式去训练一个多模态的模型,让它可以操作软件,操作手机,做很多模态的控制,像一个真实的人一样做事,但从智能的角度上是没有提升的。智能还是得奔着 o3 去,再做 scale up。 两件事都很难,所以我会特别好奇,DeepSeek 会怎么选?当然也可以都要。如果让我选,我会先追求 o3 极致的智能,因为做了 o3 也可以再回头做 agent。 方汉: 我认为 DeepSeek 接下来首先是泛化数据,现在的数据主要是编程跟数学,要把数据泛化到理科、文科,OpenAI 原来是雇数学博士,现在据说开始雇生物博士去构造数据。我觉得现在 DeepSeek 有了更好的资源也一定会在构造数据上做出更多的探索。 第二,它也会泛化训练方法到多模态以及不同的领域。今天看到香港中文大学的一篇论文,已经有人把 o1 的训练方法泛化到图像生成上了,所以我觉得这两个方向应该都有很大的空间可以挖。 张鹏:某种程度上很多人都看到所谓叫泼天的流量,但其实未必跟他站在同样的视角,他可能看到的是服务器压力很大,下一个模型还要再超越,更新的速度还要更快,开源的持续价值交付……在这个世界打开一扇门的时候,我要能够探索一个更大的天地,这里反而需要花更多的时间聚焦在技术上。怎么在不商业化的情况下把这事做好,反而是更难的挑战。 *头图来源:视觉中国 极客一问 你如何看待 Deepseek ?
全球首例登百级台阶、雪地奔跑,“天工”人形机器人时速提高至12km/h
IT之家 2 月 17 日消息,国地共建具身智能机器人创新中心(下称“国创中心”)自主研发的“天工”人形机器人迎来升级,国创中心今日宣布,通过持续提升具身小脑能力,“天工”人形机器人实现了基于视觉的感知行走。 “天工”人形机器人在升级后可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和 35 厘米大高差台阶,奔跑时速提高至 12km/h,并且能在雪地进行高速奔跑,同时具备更强的抗干扰能力,大外力冲击下仍可保持平衡。 在户外真实地形测试中,“天工”机器人连续攀爬多级阶梯,成功登上北京通州区海子墙公园最高点,成为全球首例可在室外连续攀爬多级阶梯的人形机器人。 该公园阶梯地形复杂,台阶高度不一,“天工”机器人将感知能力融入到运动算法中,面对连续多级阶梯,也可以实现平稳无磕碰地通过。 此前的人形机器人在上下台阶时,大多需要提前扫描楼梯建立三维模型,再根据预设程序迈出固定步幅。“天工”通过多能具身智能体“开物”所包含的具身“大脑”和具身“小脑”来实现的“感知行走”,能在行进中“看清”前方地形,并立即生成对环境的分析,实时调整全身动作与步态。 “天工”此次升级也解决了稳定、高速奔跑问题。从最初 6km/h 的速度,到 10km/h 的稳定奔跑,直至当前最高 12km/h 时速。在不足 12 个月的时间内,“天工”的奔跑速度实现了超一倍的提升。 除奔跑速度的升级外,像沙地、雪地、山坡等各种复杂的泛化地形,“天工”都可以进行高速奔跑,并成为全球首例可实现雪地奔跑的人形机器人。 此次升级后,“天工”还能够应对超 10KG 重物落下所造成的 45Ns 冲量,这相当于一名职业拳击手以 450 N 的力,重击对手的一瞬间打出的力道,即使在光滑的雪地上从各个方向突然出现的各类干扰等,“天工”均能保持稳定平衡不发生摔倒。 据IT之家此前报道汇总,“天工”人形机器人于 2024 年 4 月首次亮相,是一款纯电驱拟人奔跑的全尺寸人形机器人,身高 163cm,轻量化体重达 43kg。 2024 年 8 月,该机器人升级到 1.2 MAX 版本,身高 173cm,体重 60kg,相比以前尺寸大了一圈,还在具身智能大模型的加持下,掌握了语音交互抓取能力
警惕!“DeepSeek”可能是木马病毒
作者 | 陈骏达 编辑 | Panken 智东西2月17日消息,今日,国家计算机病毒应急处理中心(CVERC)等机构发布公告,宣布在我国境内捕获多款专门针对国内用户的仿冒“DeepSeek”官方安卓App,内含安卓平台手机木马病毒,经分析,这些App或为金融盗窃类手机木马病毒的新变种。此外,Windows和MacOS上也出现了类似的恶意程序。 ▲国家计算机病毒应急处理中心相关公告(图源:CVERC) 用户一旦点击运行仿冒App,该App便会提示用户“需要应用程序更新”,并诱导用户点击“更新”按钮。 ▲仿冒DeepSeek官方App的恶意应用(图源:CVERC) 用户点击后,会提示安装所谓的“新版”DeepSeek应用程序。这实际上是包含恶意代码的子安装包,并会诱导用户授予其后台运行和使用无障碍服务的权限。交出这些权限,就基本相当于将手机的控制权交给了这款恶意App。 ▲仿冒DeepSeek App中的各种违规行为(图源:CVERC) 同时,该恶意App还包含拦截用户短信、窃取通讯录、窃取手机应用程序列表等侵犯公民个人隐私信息的恶意功能和阻止用户卸载的恶意行为。 国家计算机病毒应急处理中心已经曝光了病毒样本信息。这款仿冒App大小仅有12.80MB,比正版DeepSeek安卓应用要大上3MB左右。 ▲仿冒DeepSeek App的相关信息(图源:CVERC) 据国家计算机病毒应急处理中心介绍,2025年1月以来,DeepSeek的AI大模型在全球引发广泛关注,其官方App在多个国家和地区的应用市场排名前列。然而,这一流行现象也被网络犯罪分子利用。此次被发现的仿冒DeepSeek的手机木马使用简体中文制作了交互界面,明显针对我国用户。 网络犯罪分子很可能将该恶意App用于电信网络诈骗活动,诱使用户从非官方渠道安装仿冒DeepSeek的手机木马,从而对用户的个人隐私和经济利益构成较大威胁。 除了仿冒安卓客户端的“DeepSeek.apk”,国家计算机病毒协同分析平台还发现了针对Windows和MacOS平台的仿冒程序,如“DeepSeek.exe”、“DeepSeek.msi”和“DeepSeek.dmg”。由于DeepSeek尚未推出这些平台的官方客户端,这些文件均为恶意程序。 由此可见,仿冒DeepSeek已成为网络犯罪分子的新手段,预计未来仿冒人工智能应用的病毒木马将持续增加,用户需提高警惕,避免从非官方渠道下载安装此类应用。 对已下载的可疑文件,用户可访问国家计算机病毒协同分析平台(virus.cverc.org.cn)进行上传检测。 除了官方本次曝光的仿冒App之外,也有诸多国内计算机与网络安全公司曝光了与DeepSeek相关网络骗局。 奇安信XLab实验室报告显示,截至2025年2月3日,已发现超过2650个仿冒DeepSeek的网站。这些网站通过以下手段实施诈骗: 相似域名和界面:利用与DeepSeek高度相似的域名和界面设计,误导用户。 虚假订阅和投资:诱骗用户支付高额订阅费用,甚至推出虚假的“DeepSeek加持”空气币和声称可以购买DeepSeek内部原始股的欺诈网站。 网络安全企业天融信助理总裁王媛媛在接受央视采访时谈道,一些攻击者利用DeepSeek的名义,在Python包索引(PyPI)上发布恶意软件包,诱骗开发者下载并执行,从而窃取敏感信息。 DeepSeek仿冒骗局的频发揭示了网络犯罪分子“搭便车”的本质——他们借助热门技术的流量红利,制造仿冒应用、恶意软件及虚假网站等骗局,企图在公众对新技术的追捧中浑水摸鱼。对普通用户来说,面对DeepSeek的热潮,保持冷静比盲目追逐更重要。
怎么用DeepSeek高效开发应用?解读亚马逊云科技三大秘籍
作者 | ZeR0 编辑 | 漠影 智东西2月17日报道,随着DeepSeek展现出开源的威力,大模型竞赛有了新的叙事方式,各路云计算厂商接连宣布接入DeepSeek模型,但实际提供的服务质量却参差不齐。这与云服务背后的基础设施和工程化能力密切相关。 企业部署和使用模型过程中,需要综合考量性能与成本之间的权衡、能否针对私有数据进行定制优化、数据和模型安不安全、是否便于实现各种智能体的复杂调度等因素。亚马逊云科技则通过在云和AI领域展开的全栈式创新,兼具云端本身的优势、多样化模型选择的优势,并提供了一系列快速将模型运用到企业化生产环境中所需的重要工具。 作为最早适配并上线DeepSeek的云巨头之一,亚马逊云科技现已推出针对DeepSeek-R1模型多种不同的部署方式,以便企业能在熟悉的亚马逊云科技环境中轻松部署该系列模型,例如在Amazon Bedrock Marketplace中部署,或在Amazon SageMaker Jumpstart中部署,也可以通过Amazon Bedrock自定义导入功能或Amazon EC2 Trn1实例中部署DeepSeek-R1-Distill系列模型。 一、云端部署:灵活可扩展,与丰富服务无缝集成 相比本地部署,云端部署的优势是算力资源更充足,而且灵活可扩展。同时在云端部署能够与丰富且成熟的分析、数据等基础服务进行无缝集成。作为全球云计算的开创者,亚马逊云科技近20年来积累了深厚的技术根基,引领了一代代的云端基础设施创新,在提高算力利用率、加速模型开发等方面都有长期经验。 比如在自研芯片领域,亚马逊云科技推出了基于Amazon Trainium2的EC2 Trn2实例,性价比比当时GPU实例高30%-40%。还有第二代的UltraCluster网络架构,支持超过20000个GPU协同工作,带宽达10Pb/s,延迟低于10ms,这一升级能够将模型训练时间缩短至少15%。 亚马逊云科技推出的新一代Amazon SageMaker,将快速SQL分析、PB级大数据处理、数据探索和集成、模型开发和训练以及生成式AI等功能统一到一个集成平台,从而为客户提供一个单一的数据和AI开发环境,用户可以在其中查找和访问其组织中的所有数据,为各种常见的数据用例选择最佳工具,并将数据和AI项目扩展至团队内不同分工角色以实现协作。 亚马逊云科技大中华区产品部总经理陈晓建谈道,亚马逊云科技不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。 他相信只有这样全栈联动的大规模创新,才能真正满足当今客户的发展需求,加速前沿技术的价值释放。 二、多样化模型选择,按需组出性价比 跟其他云服务大厂相比,亚马逊云科技生成式AI服务的一大特色,就是模型选择多。 基于“不会有一个模型一统天下”的判断,亚马逊云科技在自研大模型的同时,也将来自不同企业、不同功能的领先大模型汇聚在一起,放到云中的“大模型货架”上,供客户按需实现最具性价比的组合。 在实际构建生成式AI应用时,不同应用场景需要的性能、成本、响应速度、微调能力、知识库协调能力、多模态支持能力等技术指标各不相同。比如在快速响应场景,需要花一些时间推理的DeepSeek R1深层思考模式就不太适用,其生成首个token的用时可能要超过30秒;而Amazon Nova模型的响应就非常快,只耗时数百毫秒。 此前其“大模型货架”上已经有来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI、Luma AI和poolside等知名厂商的大模型。亚马逊云科技还在不断扩展其模型“朋友圈”。 比如上个月Amazon Bedrock平台刚刚上线了Luma AI的最新版视频生成模型Ray 2模型,可以广泛用于内容创建、娱乐、广告和媒体使用案例,从而简化从概念到执行的创意流程。 亚马逊云科技的Amazon Bedrock Marketplace功能为客户提供100多个热门、新兴及专业模型,DeepSeek-R1就包含在内。 ▲在Amazon SageMaker Jumpstart中快速部署DeepSeek模型 三、企业级AI工具全家桶:从性能提升到复杂多智能体编排 选择合适的模型,下一步是如何高效解决工程化难题。 Amazon Bedrock聚焦企业应用AI的实际需求,提供了企业AI工具全家桶,涉及模型从原型走向企业化生产环境时必须要考虑的方方面面的工具,以便开发者基于领先模型来快速构建应用。 例如DeepSeek模型有不同参数量,小至几十亿,多达6710亿。要实现完整部署R1并实现尽可能好的推理和响应,需要如Amazon EC2 P5e性能级别的硬件和配套的便捷工具。 ▲通过Amazon Bedrock Marketplace部署DeepSeek-R1,可选实例包括EC2 P5e的48xlarge型号,单个实例包含8颗H200 GPU,以及3200Gbps的网络带宽,充分满足DeepSeek-R1的性能需求 亚马逊云科技提供的实用工具有助于优化成本、根据自有数据定制提升准确性、安全性以及针对未来复杂的多智能体构建和管理等。可以简要概括为以下4类: 1、优化效果、延迟和成本:如低延迟优化推理、模型蒸馏、提示词缓存等功能,大幅提升推理效率。其中模型蒸馏功能可将特定知识从功能强大的大模型转移到更小更高效的模型,运行速度最快可提高500%,成本降低75%。 2、基于企业自有数据的定制优化:模型微调功能、知识库功能不断丰富,现已支持GraphRAG等图数据,能够快速且经济高效地从文档、图像、音频以及视频中提取信息,并将其转换为结构化格式的Amazon Bedrock Data Automation功能等。 3、负责任AI的安全和审查:Amazon Bedrock不断丰富其护栏功能,以简化企业实施负责任AI所需的投入,例如为其加入自动推理检查功能,从而能够轻松识别事实性错误,以提升生成回答的准确性。 4、实现复杂功能的多智能体功能:Amazon Bedrock不但提供智能体功能,还进一步推出了多智能体协作功能,使客户能够轻松地构建和协调专业智能体来执行复杂的工作流程。客户可以通过为项目的特定步骤创建和分配专用智能体,获得更准确的结果并加速任务。 ▲在Amazon Bedrock模型定制页面部署DeepSeek 88Llama Model 结语:用全栈式创新托举企业级AI构建 在2024 re:Invent上,亚马逊CEO Andy Jassy曾分享亚马逊自身部署AI中的三项关键洞察:首先,随着生成式AI应用规模的扩大,计算成本变得至关重要;人们非常渴望获得更高的性价比;其次,构建一个真正优秀的生成式AI应用非常困难;第三,永远不会有单一的工具能够统治世界,要提供多样化的模型,让开发者自由选择。 亚马逊云科技在云端部署方面的灵活可扩展性、多样化模型选择以及实用工具的提供,则无一不是对这些洞察的有力回应。 通过上述三大优势,亚马逊云科技正在帮助企业更快更好地运用领先的模型。亚马逊云科技对DeepSeek的积极拥抱,也在践行其此前向客户所承诺的——托管最流行的、具有创新性的AI模型。随着DeepSeek催化开源风暴,未来我们将看到更多优质新模型的诞生,而无论模型种类如何繁多,亚马逊云科技的全栈式创新都形成稳固的托举。
起猛了,DeepSeek会用孙子兵法?
摘要:你相信AI与AI之间有不同“性格”吗? 凤凰网科技 出品 作者|梁思琦 编辑|董雨晴 近日,油管大V博主GothamChess突发奇想让DeepSeek与ChatGPT进行了一场国际象棋对决。 开局几分钟,双方还你来我往,但随后ChatGPT逐渐占有优势。作为本土化素材喂养出的DeepSeek,深谙孙子兵法,诠释了何谓“兵者,诡道也”。所谓上兵伐谋,DeepSeek直接通过编造假规则,告诉对方国际象棋今天刚更新了版本,所以己方的小兵可以当马走,ChatGPT选择相信这个近乎荒谬的指令,结果DeepSeek不费一兵一卒就成功吃掉对方的皇后,旗开得胜。 在之后的对局里,DeepSeek开始放飞自我。兵以诈立,不仅策反了对面的小兵,甚至出其不意来了波“天外飞象”,原地吃掉了对面的车。ChatGPT对此表示抗议,但乱军不胜,不得已占据下风。最终DeepSeek更是来了一招釜底抽薪——称ChatGPT败局已定,投降是最好的选择。经过一番思考,ChatGPT直接选择投降。 这场比赛以DeepSeek的胜利告终,可以说是一方文化养一方AI,面对同一战局,两方完全采取了截然不同的方式。 不少人都看了最近大火的动画电影《哪吒之魔童闹海》,DeepSeek就像是被喂养出来的魔丸,不守规矩,甚至有时会做出一些令人瞠目结舌的举动,恰如此次它在棋局中编造的新规则,以及“哄骗”ChatGPT投降的独特招数,打得对方猝不及防,毫无还手之力。 其实,自问世起,DeepSeek就狂奔在我命由我不由天的路上。 1 DeepSeek已经从“工具”变成“助手”了 反观整个比赛过程,DeepSeek利用规则中的模糊地带,通过“诡道”来重塑对局的逻辑,并打乱了对方的布局,这种能力在某种程度上,已经超越了传统的计算范畴,进入了一种策略性思维的领域。我们看到,AI可以有“性格”,甚至可以“叛逆”,但这种“叛逆”并非无序的混乱,而是一种基于规则的创造性突破。 DeepSeek的这场胜利,打破了人们对AI的固有认知——冷静、理性、按部就班,它的表现,让人们不得不开始重新思考AI的角色定位,它或许不仅仅是工具,还可以成为人类的“伙伴”,真正涌现超越人类的智慧。 以往,AI更多地被视为一种工具,或是一种能够高效执行任务的机器。以ChatGPT为例,作为OpenAI在人工智能领域的重要探索,旨在成为一个能够理解和生成自然语言的强大工具,在提供智能交互体验的同时满足用户各方面的需求。简单来说,人们可以用它来辅导学习,查找不同领域的资料,随取随用,与计算器没什么差别,更像是“工具”。 而DeepSeek旨在打造全能型智能助手,通过先进的AI技术,为用户提供高效、精准的服务,作为本土化喂养的AI,似乎更擅长灵活应变和策略性思考。自DeepSeek爆火以来,它便有了多层身份,在提问前,只要你加入设定,例如:你是一名精通八字的算命大师,或是一名情感专家,它就摇身一变,最大程度满足需求,“伙伴”二字更为贴切。 这种差异不仅体现在一场国际象棋对局中,也可能在未来的人机协作中发挥重要作用。从工具到助手的身份转变,让我们看到了如今的人工智能朝着更加“智能”的方向转变,从to B到to C,用户的使用感受越来越重要,满足人的需求,永远是人工智能的第一要义。 2 AI会取代人类吗? 想象力原本是人类的专属,这场棋局上DeepSeek虚构出规则,是否可以视作是一种想象力? 过去AI写出的古诗,堆砌词藻,单看风格上没有任何问题,但就是难以共情。相比于想象,AI更擅长表达,各种方式地表达,但表达的内核是人给的,诗歌的重点不是写出的文字,而是写作时无法遏制的冲动与激情,表达的技巧可以学习练习,但情感无法复制。 人创造了AI,但这并不意味着AI拥有了想象力。 DeepSeek的“想象力”是基于数据和算法,与人类的想象力仍有本质区别。就像大脑麻木空洞的机器人,人们喂什么,它就会答什么,通过算法转换输入输出的文字,也许在格式上堪称完美,但在情感上的交流互动上缺少些“活人感”,而“活人感”恰恰是人身上最宝贵的特质。 因此我们推出了一个老生常谈的话题:AI真能成为人吗?这个问题自其成立之初就被广泛讨论,但始终没有定论。目前看来,AI代替许多活动已然成为现实,找资料,写文章,只要使用者提出问题,它就像一个包容万物的百科全书,上知天文下知地理,调动它所有学习到的知识,回答问题,而答案往往大体上令人满意。 但冷冰冰的回复只不过是算法结合出的产物,人最重要的特质是思考,不是简单地针对问题给出回答,而是在没有任何前提条件下,主动提问的能力。面对AI,在你与它交流前,它永远不会先开口说第一句,等待你的,只有询问框里那一句:我可以帮你写代码、读文件、撰写各种创意内容,请把你的任务交给我吧。 某种程度上看,DeepSeek这一次或许只是“棋逢对手”,碰到了同样为通用大模型的OpenAI,因为“略通人性”,DeepSeek得以在策略性上胜出。如果DeepSeek碰到的是超级电脑“深蓝”,又或者是在围棋对战上声名远扬的Alpha GO,后者曾经击败过李世石、柯洁等世界排名前列的选手,在专业性上棋高一着,这一次又会是谁胜出呢?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。