行业分类:
加载中...
头条分类:
加载中...
不接入DeepSeek的App不是好的智能体
2025年开年,中国科技圈最魔幻的一幕出现了:从政府窗口的智能客服,到手机里的天气预报App,再到你家楼下便利店的自动结账机——但凡带点“智能”属性的产品,都在疯狂接入一个名叫DeepSeek的AI大模型。 广东打响了第一枪。深圳龙岗区的政务系统悄悄上线了DeepSeek-R1全尺寸模型,群众办事时面对的不再是机械的问答机器人,而是一个能理解“我想办落户,但社保断了3个月怎么办”这类复杂问题的AI公务员。东莞紧随其后,把DeepSeek塞进了人工智能大模型中心,号称要让“企业办证速度跑赢奶茶外卖”。更狠的是广州,直接祭出DeepSeek-R1和V3 671B双模型组合,政务数据一融合,连“链式反应”这种高级词都用上了。 企业圈更是卷得飞起。三大运营商集体官宣接入DeepSeek,移动、电信、联通的客服电话里,那个总让你按“0”转人工的AI突然变得善解人意;微信搜一搜灰度测试接入DeepSeek,可免费使用DeepSeek-R1满血版模型;百度搜索宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能;京东健康上线数字医生,接入DeepSeek等模型优化AI辅诊工具;手机厂商们连夜OTA升级,发布会PPT上不写“搭载DeepSeek”都不好意思打招呼;连微软、亚马逊、英伟达这些美国巨头都坐不住了,1月31日三家齐刷刷宣布把DeepSeek-R1塞进自家云平台,场面堪比科技版“三英战吕布”。 最离谱的是某网友爆料:连小区门口卖煎饼果子的大爷都在研究怎么用DeepSeek优化酱料配比**——虽然真实性存疑,但这场面足以说明,2025年的中国,AI竞赛已经从实验室卷到了菜市场。 信通院出手:给国产AI装上“钢铁侠战甲” 就当大家以为DeepSeek要一统江湖时,2月14日,中国信通院甩出一记“王炸”——**启动DeepSeek国产化适配测评,目标直指“让中国AI既跑得快又穿得稳”。 这场测评堪称AI界的“高考”:既要考DeepSeek在国产芯片、服务器上的适配效果(相当于测试“能在多少种国产跑鞋上冲刺”),又要评估开发部署成本(算算“造一双跑鞋要花多少钱”)。测试工具AISHPerf更是黑科技拉满,从推理速度到微调效率,把AI软硬件协同能力扒得底裤都不剩。 背后的野心昭然若揭:中国要的不只是一个能打的大模型,而是一套从芯片到集群的自主AI生态**。就像当年华为被断供后猛攻鸿蒙系统,如今信通院这套组合拳,摆明了要给DeepSeek配上全套国产“装备”——龙芯、昇腾、寒武纪等国产芯片厂商已摩拳擦掌,就等测评结果发布后开启“AI军备竞赛”。 更有意思的是,测评还没结束,广东政务系统已经用上了“测评同款”部署方案。网友戏称:“这哪是测评?分明是实战演习!” GPT-4o升智至O3 Pro:OpenAI的焦虑与中国的“农村包围城市” 就在中国AI圈热火朝天时,2月16日,OpenAI CEO山姆·阿尔特曼突然宣布:GPT-4o模型升级至O3 Pro水平,逻辑推理能力暴涨40%。消息一出,硅谷VC们集体高潮,纳斯达克AI概念股应声大涨。 但明眼人都看得出,这份“技术捷报”里透着焦虑——毕竟过去半年,OpenAI的财报会议上总绕不开两个问题:“为什么DeepSeek的中国用户增速是我们的3倍?”“为什么英伟达宁愿给DeepSeek做适配也不接我们的电话?” 中美AI之争的剧本正在改写。如果说GPT系列走的是“精英路线”(靠顶尖实验室和天价算力堆出技术壁垒),那DeepSeek玩的就是“群众战争”:开源策略让小企业也能用上大模型,政务合作把AI塞进办事大厅,甚至搞出“1.5B轻量版”让煎饼摊老板都能在手机跑AI。这种“从田间地头包围摩天大楼”的打法,直接让中国AI渗透率半年暴涨217%。 更让西方头疼的是硬件突围。当英伟达还在用CUDA技术筑墙时,DeepSeek团队已经绕过护城河,直接拿PTX语言在国产GPU上玩起了“极限操作”——同等算力下训练速度翻倍,硬生生把国产芯片的性价比拉高了一个维度。用业内人士的话说:“以前是我们追着CUDA适配,现在是老黄得琢磨怎么兼容我们的生态。” AI平民化时代:没有“智能体”的App正在消失 这场风暴正在重塑行业规则。某互联网大厂产品总监私下吐槽:“现在开需求评审会,老板第一句话就是‘接DeepSeek了没?’没接?那需求文档直接扔碎纸机。” 三大趋势已成定局 1. 政务AI化:广东试点的“链式反应”只是个开始,未来办护照可能比订外卖还快; 2. 企业标配化:运营商、银行、医院不接入DeepSeek?等着被用户贴上“古董机构”标签吧; 3. 个人极客化:B站教程播放量显示,00后们更爱用API+客户端折腾DeepSeek,有人甚至做出了“AI鉴渣助手”。 而那些还没动静的App,正面临“降维打击”。某电商平台曾骄傲宣称“我们的推荐算法领先业界两年”,结果网友实测发现,接入了DeepSeek的竞品连“用户想买拖把但舍不得扔旧扫帚”的心理都能捕捉到——技术代差之下,傲慢者终将被淘汰。 未来已来:中国AI的“三体纪元” 站在2025年回望,DeepSeek的爆火绝非偶然。它踩中了三大历史节点:国产替代的技术窗口期、AI平民化的市场爆发期、中美科技战的战略对冲期。当信通院用测评给国产AI生态打地基,当广东政务系统把大模型变成“数字公务员”,当煎饼摊老板用AI优化火候时,一个更深刻的变革正在发生—— AI不再是“未来科技”,而是像水电煤一样的基础设施。那些还在观望的企业,很快会明白一个残酷现实:2025年的智能世界,只有两种生存方式——要么自己变成“DeepSeek+”,要么被“DeepSeek+”的浪潮吞没。 至于OpenAI?祝他们在“精英俱乐部”里玩得开心。毕竟在中国,连广场舞大妈都知道:“要智能,找DeepSeek!”(这句话建议用河北唐山口音朗读,效果更佳)
OpenAI ChatGPT在心理治疗领域通过图灵测试,AI比人类更具同理心
IT之家 2 月 17 日消息,科技媒体 The Decoder 昨日(2 月 16 日)发布博文,报道称最新研究表示,OpenAI ChatGPT 通过了治疗师领域的图灵测试,结果显示人们难以区分 ChatGPT 和人类治疗师提供的治疗建议,而且人工智能的回答通常被认为更具同理心。 IT之家注:研究人员应用图灵测试的概念,要求 830 名参与者区分 ChatGPT 和人类治疗师的回复。结果显示,参与者识别正确率略高于随机猜测:正确识别出人类治疗师回复的概率为 56.1%,正确识别 ChatGPT 回复的概率为 51.2%。 研究称 ChatGPT 的回复在治疗联盟、同理心和文化胜任力等方面的得分高于人类专家,其回复通常更长,语气更积极,使用更多名词和形容词,让其显得更详细、更具同理心。 研究揭示了一种偏见:当参与者认为他们阅读的是人工智能生成的回复时,无论实际作者是谁,他们都会给出较低评分。反之,当人工智能生成的回复被误认为是人类治疗师所写时,则会获得最高评分。 这并非首个证明人工智能在咨询角色中具有潜力的研究。墨尔本大学和西澳大利亚大学的研究发现,ChatGPT 在社会困境方面提供的建议比人类专栏作家更均衡、全面和更具同理心,偏好率在 70% 到 85% 之间,尽管对人工智能回复的评价更高,但大多数参与者仍然表示更喜欢人类顾问。
人均DeepSeek之后,AI应用还能怎么做?
Deepseek 冲击波之后,如何复盘它的成功、预测它的未来? 整理 | 宛辰 编辑 | 靖宇 2025 年开年,迎来了「中国的 ChatGPT 时刻」。 由于 DeepSeek-R1 模型能力带来的震撼,从硅谷到中国、从老人到小孩、从 AI 创业者到各行各业的从业者、从小红书到抖音,都在「玩」DeepSeek。 DeepSeek 最新的「朋友圈」是百度和微信。前者即便面对传统搜索带来的丰厚商业回报,也接入 R1 主动变革;而从不激进的微信也罕见地积极了一把,接入 R1 升级了微信中的「AI 搜索」 很难想象,在 ChatGPT 诞生两年后,所谓「大模型窗口期已过」的时间点上,杀出了这样一匹黑马,以所有人意想不到的方式,掀翻了大模型产业的桌子。当所有人都看到 DeepSeek 带来的机遇,当大厂也一反常态不再要求先做出自研的模型技术、而是现在就接入最好的 DeepSeek 模型做 AI 应用,2025AI 会如何发展? 2025 年 2 月 8 日,极客公园「今夜科技谈」直播间邀请极客公园创始人 & 总裁张鹏,昆仑万维 董事长兼 CEO 方汉、秘塔科技 CEO 闵可锐和清华大学交叉信息院 助理教授 吴翼,一起探讨了 DeepSeek 带来的冲击波以及 2025AI 应用还能怎么做? DeepSeek 文笔好、思考过程比人类都有逻辑,这会成为接下来做产品的标配动作吗? 有了 DeepSeek,蒸馏还能怎么做?为什么蒸馏是常规方法论,与价值观无关? 为什么说有了 R1,也并不意味着 AI 应用更好做了?更大的挑战才刚开始。 DeepSeek 之前,大模型领域默认「老大老二不开源,老三开源赚名声」法则,但反倒是从第一天就坚持开源引领技术生态的 DeepSeek 赢得了天下。开源到底意味着什么?现在,是不是应该问:还有谁没有加入开源队伍? 靠优化 AI Infra 实现「价格屠夫」背后,没有人比 DeepSeek 更懂英伟达 CUDA,未来,模型推理价格还可以香到什么程度? 达到全球第二的成绩后,DeepSeek,接下来会发什么? 看完这篇,你会对 2025 年接下来 AI 圈即将要发生的大事件,有更好的判断。 01 DeepSeek-R1:开源模型有史以来最好的成绩 张鹏:从你的角度,DeepSeek 这次爆火背后,最值得关注的创新点是什么? 吴翼: DeepSeek-R1 是第一个开源的,并且真正接近、达到 OpenAI o1 水平的模型,后者是一个新的推理类的范式。同时,DeepSeek 还把怎么得到 R1 这个模型的很多细节、大概的 recipe(配方)也告诉你了,在这一点上,它也是第一个。 带给我最大的冲击是两件事情。第一,没想到能这么快做出来,因为从 o1 面世(2024 年 9 月 13 日),到中国的团队开始尝试复现 o1 类似的模型,DeepSeek 真正做这件事满打满算也就半年。在这条技术线上,OpenAI 可能探索了一两年的时间才做出 o1。 第二是当这个模型拿出来的时候,没想到「哇,真的这么好」,R1 是开源、所有人都可以试。 两件事情加起来,一下子就没话说,非常有历史时刻的感觉,然后春节就没过好(哈哈)。 张鹏:所有人都在思考,怎么出来的,为什么不是我们(哈哈)。你们怎么看 DeepSeek 冲击波? 闵可锐: 知道这家公司是在 2023 年他们刚成立的时候,当时可能为了招人等诉求,(DeepSeek 创始人梁文锋)稍微有一些对外的发声,看完会感受到这家公司身上很不一样的特质、非常回归本质的讨论问题的方法。所以 DeepSeek 能在一年多的时间做到像现在这样火热的程度,也许有一定的意外性,但是对于他能把这件事做好,并不意外。 方汉: 最早知道 DeepSeek 是在 2022 年底、2023 年初去买卡的时候,意外得知幻方有万卡。后来注意到 DeepSeek-Coder 模型在代码类 Benchmark 上一度冲到全球第一。 再就是「推理价格屠夫」DeepSeek-V2 的推出,直接把模型推理价格打到了当时业内平均价格的 1/10。这里面有两项技术印象特别深刻,一个是 MLA(多头注意力的优化),第二个是 MTP(Multi-Token Prediction,多 token 预测)。 最近是 V3 和 R1 的推出。V3 是一个挺强的基模,但是它跟 Meta 的 Llama 405B、Qwen 等系列开源模型一样,前面还有两个天花板,OpenAI 的模型和 Anthropic 的 Claude。 但是 DeepSeek-R1 这一次直接能够排到第二名的位置,开源模型有史以来最好的成绩,这是让我们最震惊的。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。|来源:DeepSeek 张鹏:DeepSeek-R1 里的模型技术,有哪些创新让你们印象比较深刻? 方汉: 技术角度,这次 R1 做了很多技术上的改进,像 DualPipe 算法,像用 PTX 去写通讯之类的,最印象深刻的肯定也是训 R1-Zero 用的 GRPO 这个技术,这是整个 R1 里最核心的东西。 因为 OpenAI 在做 o1 的时候,请了上百个数学博士天天解题,数据非常高质量,但他从来不对外界说怎么做数据。大家也知道很多公司会用 PPO,真正能把 PPO 用得特别好的还是 OpenAI 和 Anthropic。国内大家在 PPO 用不好的前提下,DeepSeek 用 GRPO 的方法非常巧妙,省掉了 Critic Model,后者做起来特别大、特别慢。 通过 GRPO 的方法,可以快速迭代出一批特别高质量的 CoT 数据,这一点特别令人震惊,等于说 OpenAI 自己辛辛苦苦找人花钱做出来的数据,被咣地一下给开源了, 而且从结果上来看,它的质量特别好,不逊于 OpenAI 的内部数据。这一点是非常非常革命性的,我们一直认为合成数据比不上人的数据,但是 R1 这一次有可能表明,合成数据不比人标的数据差。 这给很多人带来了希望,像欧洲、印度、韩国都觉得自己也可以做了。 闵可锐: 讨论最多的还是 R1-Zero 的技术创新。 过去大家认为,不管是做 SFT(有监督微调),还是做强化学习,都依赖大量人工标注的数据,人工在里面参与度非常重。比如之前传出 Meta 在数据标注上,是以亿美金级别的投入去换得质量相对较高的数据。但是 R1-Zero 表明其实可以大规模降低对于人工标注(数据)的依赖。 同时,R1-Zero 的突破带来了代码能力、数学能力、推理能力的提升。 但我觉得 能火到全民皆知的程度,其实不是由于它的推理能力、代码能力,还是因为 DeepSeek 写东西(的水平)超出了 90% 的人,写作能力非常突出, 这件事震撼到了大家。 02 DeepSeek 文笔好,是因为没有好好做产品? 张鹏:很多网友都说被 R1 的文笔惊艳到了,至少公众热情是这么被点燃的,不管是在中国还是海外。就连AI创业者也会感慨,以前用 o1 给人的感觉是多了一个理性的员工,今天用 R1 却感觉成为了他的人生导师,竟然能带来很多启发。所谓的模型文笔好,技术上是怎么实现的? 吴翼: 简单说,文笔特别好(的原因)就是 DeepSeek 没有好好做产品(哈哈)。 如果用 ChatGPT 写,经常会讲文章 GPT 味特别重。为什么呢?因为 ChatGPT 在安全、对齐(alignment)上做得非常猛。这样就会导致,比如当人跟 AI 一起玩「狼人杀」时,你特别容易看出来哪个是 GPT。因为人类玩家会直接说,「这个人一定是个坏人」,但 GPT 会说,「我觉得这个人好像怎么样,我们应该怎么理性分析……」讲很多啰里八嗦的废话。这就是它「对齐」做得特别好的体现,它希望这个东西不要冒犯到人,希望产品化做得好。 但 DeepSeek 显然没有好好做这件事情,所以大模型本来的这些天花乱坠的想法就被你看到了,而 OpenAI 为了做安全性,为了做所谓的「价值观对齐」,反而是把模型的很多能力收起来。 第二,如果仔细地去看 R1 的技术报告,它其实分了两步,先用强化学习做出了一版推理模型,但没有直接给你用这个推理模型,而是后面有一个合并模型的过程,最后是完整版的 R1 模型有一些泛化能力。 展开讲,因为在代码、数学这种特定任务上做强化学习训练出来的推理模型 R1-Zero,文字上肯定会差一些,所以 R1-Zero 又跟原来的基模 V3 用 SFT 这种类似于蒸馏或者合并模型的过程,最后合并出了带有泛化能力的模型 R1。这也说明 V3 这个模型确实非常好, 如果 V3 比较差的,最后合并出来你也看不到那么多奇思妙想。换句话说,强化学习很重要,基模也很重要。 张鹏:这个视角蛮有意思,反而是过度对齐,会让它的脑洞、想象力或者一些 hallucination(幻觉)被压制了。 吴翼: 对,创意其实是 hallucination。 作者卫夕向 DeepSeek 提问 「玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?」 ,网友为 DeepSeek 输出的答案而感到惊叹。|截图来源:微博 张鹏:可锐,你怎么看它的文字表达很好?背后有什么原因和讲究? 闵可锐: 我猜测可能有三个原因,一是刚才提到的 DeepSeek 没有试图把很多偏个性化的一些表达给阉割掉。你会发现很多 GPT 的回复是「端水型的」「安全型的」,但其实比较 boring 的回复。所以 DeepSeek 一定没有在安全性方面做激进的动作,模型输出的表达上相对比较自由。 第二个猜测,很多人觉得 R1 的强化学习本身增加了它的写作能力,但我对这件事是存疑。我听到的一个信息是,之所以有比较好的表达, 背后是有比较资深的、类似于北大中文系的人在帮忙在写数据。人的自由表达和高质量的数据作为对模型回复的一个引导,来达到好的效果。 我会觉得应该是 SFT 这个部分的数据做得非常好。 第三,R1 以及 V3 的模型如果和行业同类模型相比,它其实把规模差不多涨了 10 倍,差不多从一个几十 G 的规模涨到了几百 G。这个规模下它能够储存的信息容量差不多比上一代 Qwen 涨了十倍,这让它在很多比较细致的表达上能够有更好的还原。也就是说 它的压缩率其实不用做得那么高,能够记住更多东西,包括像诗词、或者开放式的问题上。 总结来说,更大的脑容量、高人撰写的文学性数据作引导和对齐,并且降低了严格的安全对齐(标准),可能是这三点加起来得到了 DeepSeek 的优美深刻的表达。 张鹏:一些在硅谷的华人 AI 研究员也说,可能过去海外的大模型对于高质量中文数据没有特别较真过,但 DeepSeek 较真了。方汉你怎么看「大家说 DeepSeek 文笔好」? 方汉: 虽然我学的是理科,但我高考作文是满分,所以对古文比较熟,我特别喜欢让大模型写古诗词。在这件事上,现在写的最好的模型实际上是 Claude,也就是说 Claude 的文采比 ChatGPT 要好很多。 我觉得还是数据的原因,大家公认 Anthropic 对数据的品位最高,数据做得最好,他们的数据团队规模在语文和写作方面非常强,我猜 DeepSeek 也是类似。 DeepSeek 内部可能有一套方法,可以从现有的数据里面生成质量非常高的语文数据,这是我的猜想。因为请大量顶尖团队比如北大中文系标数据,DeepSeek 未必竞争得过大厂,(靠人工标注数量和质量取胜)逻辑上讲不通。 DeepSee k 在不要人干预的情况下,可以用 GRPO 可以生成数学和编程的 CoT 数据,那这些方法能不能用在语文上去生成高质量的语文数据,这是我更相信的一个推断。 另外,我们在做推理模型的时候有个叫 temperature(温度)的参数,如果把这个参数值设得高,模型就开始胡说八道、特别有创意,但也很容易崩。可能因为 R1 的推理能力很强,哪怕把 temperature 加得比一般模型高,也是比较活跃且不容易崩。 03「被 DeepSeek 的思考过程震撼到了」 张鹏:除了文笔好,很多用户也被 DeepSeek 思考过程的透明和清晰的逻辑打动,R1 是第一家展示思考过程的模型吗? 吴翼: 完整思维链的透明展示,确实是 DeepSeek 第一个做出来的,但 R1 不是第一次,第一次真正公开所有思维链的模型是去年 11 月 20 日发布的 DeepSeek-R1-Lite。 后来 Gemini 跟进了,也公开了思维链,Gemini 的 Flash thinking 的思维链质量也不错。 其实去年 9 月 OpenAI 发布的 o1 也给了这样的中间步骤,只是它不给你看思维链的完整版,就给你一个总结版。从技术视角上,藏没藏思维链差挺多的。不过总结版的思维链虽然不完整,但也挺有价值的,很多人发现即使是「扒」总结版思维链数据,也能对模型有很多提升。 图片来源:视觉中国 张鹏:你觉得 OpenAI 为什么不给大家公开思维链? 吴翼: 高质量思维链对于模型的能力提升、以及激发模型让它在第二阶段强化学习训练时能有很好的推理表现、继续用强化学习做 Scaling Law 是很重要的。所以 OpenAI 应该在这件事情上花了一些力气,他知道如果真的把思维链给你去 distill(蒸馏),你很快就能做出来,他就是不让你「抄」。 最近李飞飞老师团队做的、被炒得很热的 S1,50 美金能够让你看到 test-time-in-scaling 的效果,也说明了这个道理。它只输了 1000 条 Gemini 的长思维链数据,就能让模型有比较大的推理表现上的质变,当然它效果还比较一般,50 美金不可能真的把 R1 复现。所以高质量的长思维链数据是重要的,这也是 OpenAI 不愿意给你看的原因。 方汉: 我觉得 OpenAI 就是想保守机密,OpenAI 一直认为思维链数据是它最值钱的数据,所以很早就出了一个 term sheet(条款),你要是敢 jail break(越狱)问他 CoT 的问题,他会封你的账号。R1 发布之后,OpenAI 也把 o3-mini 的思维链输出了,但这里是总结版的思维链,结果又被网友骂了,然后现在又正在把总结再去掉。 当然大家没有想到的是 DeepSeek 说,要不我试一下,我也不要中间这个步骤,直接给你强化学习行不行?很长时间大家都觉得中间需要搞一步 SFT,结果 DeepSeek 出来跟你说,我们试了一下,好像不需要也行。 张鹏:因为没有人做出来过,或者没有人按这个方式做出来过。 吴翼: 就是 对面有一家告诉你这个东西特重要,「此地无银三百两」,我家一定没有黄金,你千万别来。那大家都会往这上面花很多精力想,最后 DeepSeek 试出来说,你看你没这玩意也行,哈哈哈,或者说有比较便宜的方法能绕过去。 张鹏:秘塔科技也在第一时间与 DeepSeek-R1 合作做了相关的功能,思考过程的可视化。可锐,从用户的角度,你怎么看这件事带来的影响?展示透明的思维链本身,是不是一种用户价值交付? 闵可锐: 我会觉得思维链,不管是总结版也好,还是像 R1 给到一个相对完整的思维链,最早的出发点可能是通过步骤和步骤之间的推导,提高结果的准确率。 但把它展示出来,我会认为最早是因为中间的等待时长实在太长了。如果 让用户在这无休止地比如像看沙漏一样(等时间),用户体验是非常糟糕的。所以既然有一个中间的推导过程,索性把推导过程显示给用户,但是这似乎带来了一个非常意外的好处。 很多人反而专门去看思维链,「诶,这个模型怎么思考的?它怎么从不同角度去考虑我提的问题」,这对我来说是稍微有点意外的。我观察到很多人其实还挺喜欢看 R1 的思维链,因为模型把思维链写得像是一个内心独白一样。 就像有人问它说,「诶,我有一个朋友怎么怎么样」,然后这个思维链里说,「这个大概率是用户自己想问这个问题」,就是有一种竟然被 AI 看穿的体验。 我觉得这可能也是出乎创造者意料的效果。 DeepSeek 推测,用户说是别人的提问,很可能是用户自己的提问。|截图来源:DeepSeek App 张鹏:方汉,你怎么评价这次 R1 展示的透明的思维链? 方汉: 从纯技术的角度,看思维链可以改进你的 prompt。但对于绝大部分用户,不会这么用思维链。 对于用户来说最可怕的体验是,看到 R1 思维链这么严密的推理过程,有点像我们小时候看卡耐基成功学、有点像听一些特别牛的人把他思维方式给你讲一遍,你是会很震撼的。 现在,你目睹了 AI 用一个聪明人、成功学的方法给你推导一个问题,所有人心里都会心生感叹,「这个 AI 真聪明,接近人类智能呢」。我觉得这 对产品的推广来说,是一个决定性的心理暗示。 张鹏:像这样一个让大家觉得很震撼的思维链,是怎么做出来的? 吴翼: 首先 思维链是涌现出来的,不是人标注出来的,人标不出这样的思维链。 如果你仔细去看 DeepSeek 产生的思维链,很多也是错的,或者说没有任何道理,再比如之前 OpenAI 的思维链里还出现过中文。这些都说明,是由强化学习的 Scaling Law 让思维链涌现出来的。 所以判断一个模型是不是推理模型,只要看它敢不敢放出一个训练曲线——模型输出长度随着强化学习的训练时间在不断变长。如果能看到这个不断变长的曲线,基本上可以认为这个训练是成功的;如果看到它的长度变短了,那应该就失败了,即使它的正确率或者表现在提升,也是失败的。也就是说,这个长度是涌现的,最后推理模型呈现出来的极强的反思,是泛化的结果,是涌现的结果,而不是人标的。 DeepSeek-R1-Zero 的性能轨迹,整个强化学习过程中稳定且持续提升。|截图来源:DeekSeek-R1 技术报告 第二, 需不需要一个东西去激发这个模型的思维链?基本上是需要的。 OpenAI 在训练模型的时候应该还是用了一部分这样的数据去激发基座模型的思维链能力,然后再上强化学习的。 但是我觉得比较神奇的一件事情是,如果你仔细去看 DeepSeek 的技术报告,你会发现即使用比如 Qwen-32B、Qwen-70B,基座模型在没有任何强化学习训练的情况下,通过 prompt 的调整也可以看到它的一些反思过程。也就是说,基模从某种程度上已经有一些自激发能力。 所以这也是 DeepSeek 可以从基模直接进行强化学习的一个重要原因,基模在强化学习开始的时候就存在一定的反思、思维链能力,然后再通过强化学习 Scaling Law 的方式,把反思能力放大,涌现出来最后的 R1 模型。当然也说明 DeepSeek-V3 这个基座模型做得很好,导致它一开始就有了自我激发的能力。 如果这个基座模型,比如说在数学上有一些基座模型有一些反思能力,但在语文上,比如说真的完全没有「诶,等等,我说错了我再想想」这样的表现。再怎么强化学习?也不会涌现出反思能力,如果基座模型很差,没有准备好被激发的话,那也没用。 张鹏:如果没有「等等,我可能想得不对」类似的推理反思能力,再怎么上强化学习,也不会出现思维链的线性发展。 吴翼: 对, 强化学习跟预训练是乘法的关系: 预训练的 scaling 是第一个系数,强化学习后训练是第二个系数,这两个是乘起来的关系。 如果一个维度是 0,怎么乘也没用。但这里哪怕是个 0.01 也没问题,后面帮你乘上去,所以这也说明 V3 的基模真的非常好,所以它能让你做出一些事情来。技术报告里也做了实验,比如说是 7B 的小模型,怎么强化学习也没用,还不如蒸馏。所以强化学习和基模有这样的一个关系。 张鹏:怎么理解强化学习在 R1 和 R1-Zero 体现出的效果? 方汉: 打个不太恰当的比方来类比理解,让一个小孩学乒乓球,先让他看所有高手打乒乓球的视频,但他看完了之后仍然不会打。 这时候有两个方法,一是请国家队队员比如马龙来教他,但绝大多数家庭请不起国家队。怎么办呢?这时候请不起国家队的家庭就想了个办法,让人对着一个洞去打球,打不中就「电」你一下。奖惩机制下,终于这个小孩成了一个绝世高手,但是他这时候还不太懂乒乓球的规则,发球也不标准等等。这时候终于又请了一个教练,告诉小孩得按照什么样的规则打球,让他把规则学会,学会了就出去「大杀四方」,这个逻辑大概是这样。 这里其实有一个问题,刚才大家也聊到了, 现在不知道 V3 这个基座模型看没看过高质量的 CoT 数据?但是它后来的激发做得非常成功。 我觉得这给了所有「穷人」一个念想,我靠自己「电」自己,也能把自己「电」成高手。这样的话,很多欧洲、印度的公司也可以开始训练这种高质量模型了。 张鹏:技术圈对于 R1-Zero 的讨论是大于 R1 本身的。 闵可锐: R1-Zero 的这件事,更像是一个范式的变化。Zero 这个名字就会让大家容易联想到 2017 年谷歌 DeepMind 诞生的 AlphaZero 这个名字,如出一辙。 DeepMind 先让机器学习人类怎么下围棋,上升到完全不告诉机器人类下围棋的方法、只告诉它规则——下到什么局面你就取得了胜利、下到什么局面你失败,就能够把模型训练到超过人的水准。这件事打开了大家的想象力,让它自我博弈、自我学习,有可能出现超过人类最强棋手的能力。 一定程度上,R1-Zero 带来了这样一个类比和联想。当然两者不完全一样,AlphaZero 在下围棋上做强化学习的时候没有任何人类经验的参与。但 R1 可能还是受到了基模 V3 的激发,后者是一个学习了全互联网人类知识的基座模型,R1 涌现出来一些反思、自我纠错的能力,本质上还是因为全互联网数据里存在人类反思,类似「诶,这个地方等等,我好像做得不对,让我来改进一下」的一些基础数据,哪怕比较稀疏,但是仍然被 V3 给捕捉到了。在这个基础之上,用强化学习的能力把它进一步放大,达到一个更好的一个效果。 04「蒸馏」是业内常用的方法 张鹏:R1 出来之后,有很多讨论说未来是不是可以通过蒸馏,让端侧的模型能力也得到比较大的加强?有了更好的模型,再加上蒸馏这件事,对创业者做产品或者模型有什么好处? 吴翼: 分三件事来讲,一个是蒸馏,第二件事情是端侧模型,第三是垂类应用。 蒸馏的过程是指,你问一个问题,让老师说答案,你把答案记下来,你问 100 万次,就差不多学会了。就像熟读唐诗三百首,不会做诗也会吟。 蒸馏确实是有用的,DeepSeek 在技术报告里也表明, 如果你有一个小的模型比如 7B 以下的模型,不用去做强化学习或者其他,有一个好的、大的老师模型用,直接蒸馏思维链数据是最好的,比直接跑强化学习效果好,也最高效的。 所以有一个模型完全公开、可以蒸馏,对很多做产品或者做个性化模型训练的公司来说,非常非常利好。 而且不光对小模型有用,对于大的公司来说,蒸馏也非常重要。比如 DeepSeek-R1 是 671B,很多厂商可能用不起来,或者很难高效地用起来。那么一个公司做模型的团队如果能把 671B 的模型,做到比如说 100B 的模型上、带来同样的效果,这会给成本以及应用带来更大的可能性,这里是需要蒸馏的,自己也可以蒸馏自己,不丢人。而且很多人认为 OpenAI 也做了蒸馏,所以 OpenAI 上线的模型都很小,成本可以控得很低,很大的吞吐量做得很高效。 第二件事,端侧模型。我们是不是需要一个完整的端侧模型?我其实觉得不一定。 我在端侧有一个比如 1B 的模型,云端还有一个 500B 的模型,这两个东西可以配合。我自己是做多智能体强化学习的,我觉得一个最有趣的多智能体系统的问题是: 当你真的有两个能力不一样的模型,比如说 500B 的模型和 1B 的模型,它们之间应该怎么样发挥出一个 1B 的效率、同时 500B 的推理能力? 现在大家研究多智能体系统往往都是在端侧用不同的模型、不同的 prompt 通过显示出的不同偏好和行为模式来组合,这件事情其实没什么太大的意义,因为就像 OpenAI 的 Operator 模型或者 DeepSeek-R1 出来,你会发现一个足够强的推理模型,可以做到一个模型干所有的事情。 当真的有云端和端侧的模型可以配合的时候,多智能体系统就会很不一样。 第三件事情是垂类应用,我觉得 这个时代对于做垂类的应用或者叫产品,要求要比互联网时代高很多。 因为技术迭代太快了,不光要洞察需求,你很怕那个需求,因为来了更好的模型之后,整个需求的模式变了。因为从 ChatGPT 和 DeepSeek 上你可以观察到,很多新的被满足的需求,并不是他们想到的,而是模型的智力提升之后,人的行为模式也发生了变化,模型的涌现带来了人类行为的变化、带来人的需求的变化。所以做产品也不能抓某个需求不放,而要在那个需求的周边一直打圈。 所以可能得去想,做垂类应用真正的壁垒是什么?比如数据、渠道肯定是一个壁垒,商业模式可能也是一个壁垒,但我觉得需求本身不构成壁垒。 同时做垂类应用,你还得对模型的技术有预判的能力,三个月后它会变成什么样?半年后怎么样?下一代模型可能会怎么样?因为如果在技术快速迭代的时候,花了太多的精力和太多的钱,但可能半年之后很多事情又都不一样了,所以得非常非常小心地去花钱。 Perplexity CEO Aravind Srinivas 第一时间官宣 Perplexity 接入了 R1 进行产品升级和进一步探索。|截图来源:X.com 张鹏:人对 AI 的需求会随着 AI 能力的成长,人也会改变行为。可锐,你觉得这个 AI 搜索算不算垂类?垂类产品要怎么演进、怎么构建自己的路线图? 闵可锐: 我觉得在一个技术演进比较快、变化比较剧烈的时期,对于技术有相对比较深入的理解,一定是对你做产品、对未来的预判,有巨大的帮助。 虽然外界大多数人对秘塔的印象,好像是一个比较纯粹的产品公司,但是我们其实其实已经做过几百轮预训练了,在我们有限的几十张卡上,也观测到很多比较有意思的现象。 所以我们对于很多,比如哪一代模型可能能够做什么?哪一些现象背后代表什么?不是把模型当黑箱来对待的,在对模型技术有一定理解后,解决问题的产品视角也会不一样,比如很多人会觉得现在 R1 的推理成本已经非常低了。但我们注意到,其实在 DeepSeek 还没有开源的部分里,有一个是 serving 的模型。 serving 的这部分虽然最近有很多比如云厂商、算力中心的跟进,比如以和 DeepSeek 相同的价格,甚至更低的价格对外提供服务。但是我可以负责任地说,现在每一个小于等于 DeepSeek 价格提供服务的云厂商都是在亏钱。 也许 DeepSeek 是没亏钱,但他们现在一定在亏钱, 因为现在 serving 框架其实还没有在 MoE 架构上做好准备,因为原来大家做了很长时间是在稠密模型上做了很多积累。所以现在在谈的「成本已经降下来了」,其实是更像是一个理论值。产品经理自己去做部署,自己去做 serving,很有可能很快会发现这个成本和他的预期有巨大差异。 对,所以这里面其实有很多 knowledge,还是要在比较一线有足够的细致的了解,你能做出判断。它远远没有到说这个已经是一个标准化的一个工具,按绿色按钮就出来什么,按蓝色按钮能出来什么?所以我觉得现在做产品确实得同时理解用户和理解技术,才有比较好的竞争力。 张鹏:产品经理也还是得把 AI 这件事多摸清楚点,以产品的能力去学习一下模型的技术,有能让模型变白盒的理解和探索能力。 05 更好的模型,并不意味着 AI 应用更好做了 张鹏:DeepSeek 的这一波冲击波之后,从秘塔的视角,有哪些AI应用上值得探索的新方向? 闵可锐: 坦白来讲,我觉得现在还没有到形成非常明确的方向、逻辑的时间节点。 但相比原来可能巨头玩家把更好的基模掌握在自己手上,DeepSeek 开源更好的基座模型,一定程度上弱化了基座模型给偏应用层带来的影响,在模型层面把大家拉到了同一个起跑线的水位,但这并不意味着竞争会变得更小,反而可能会变得更激烈的状态。 在一个更好的推理模型基础上,确实有机会做出更惊艳的一些产品。谁能够贴近用户,把用户原来有但是未被满足的需求做得更好,率先把这样的产品方向、产品能力实现、释放出来让更多的人用,也会有机会更高效率地拿到更多的用户。 1 月 20 号 R1 发布以来,我们在内部已经测试过几轮(集成 DeepSeek 模型的功能)了,有一些我们原来想要去实现、但是不太成功、不值得对外释放的一些功能,看起来已经可以 ready 到给大家提供可使用、且好用的产品功能。我们很快会有一些新的功能上线,不会让大家等太久的。 秘塔 AI 搜索,率先接入 DeepSeek-R1 模型升级产品能力。|截图来源:秘塔搜索 张鹏:为什么说有了更好的模型,并不意味着产品更好做了? 闵可锐: GPT-4 出来了以后,能做成应用的概率会显著更高吗?R1 出来以后比 GPT-4 更高吗?都不是。因为模型能力的提升,其实是拉高了所有人的基线。原来所有人只能做到 60 分的时候,你能做到 70 分,你的产品可能更受欢迎。但当所有人都被拉高到了 70 分的 baseline,你必须得做到 80 分。 所以这一代创业者做 AI 应用落地开发,要有一个心理预期,可能原来你做到的东西,现在能够直接被比如说 R1 的推理能力所覆盖掉,那你就要在这之上寻找新的可能性,才能成为被大家接受的产品。 从做应用的角度来讲,更好的模型是不是代表了应用更好做一些?我们过去有在做产品研发、落地、模型上,可能有小十年的经验,我一直的感受是,大家在这件事情上的判断过于乐观。 张鹏:方汉,你怎么看它对于 AI 产业站在全球视角比较确定接下来可能带来的影响、冲击和变化是什么? 方汉: 大家都说大模型的下一场是 agent,但如果是多 agent 协作的情况,只要有一个 agent 拉胯,最后质量就很差。现在 R1 保证了 agent 智能的下限比较高,很多以前完不成的、比较长、比较复杂的任务,有可能很快就会被解决。 比如 AI 编程,原来只能写单个函数,甚至只能写一个文件,现在有了 R1 这样特别强的模型,是不是可以直接把整个工程生成出来,而且交叉地修改、debug?这样就真正成为一些可用的生产力。 对于具体的产品,我觉得所有跟 agent 相关的新的产品模式会快速涌现,而且由于模型是开源的、成本还特别低,很多产品也开始看到了盈利的曙光,因为推理成本下降了,而且能力还上升了。 另外,R1 在数学跟编程任务上表现最好,因为数学和编程是人类用符号来固化思维的两个最显著的领域。相应地,还有科学,比如说像 AlphaFold 做的是蛋白质折叠预测。 我认为跟符号化形式相关的、数据比较强的领域,都会带来特别大的效率改善。 张鹏:昆仑万维的产品线会更丰富,这里有没有一些比较具象的思考?经过年初这一波冲击之后,在AI应用上有什么新的启发? 方汉: DeepSeek 不是第一个开源的,但它是开源的模型里面质量最好、最接近 OpenAI 的水平的,这是它出圈的根本原因,这给 AI 应用带来一系列影响。 首先他把一个很高质量的模型的推理成本打低之后,给商业模式带来了更多的可能性, 免费类的AI应用会逐渐出现。 第二,降低 AI 应用的门槛是关键。全球能够写好 prompt 人数不会超过 1000 万,所以怎么降低 AI 应用的门槛非常关键。举个例子,最近谷歌 NotebookLM 会爆火,就是因为它极大地降低了应用门槛,不用写 prompt,把 PDF 拖进去,按一个按钮就给你生成播客了。 第三,云计算时代,有一个词叫云原生,是指一些在云计算出现之后才涌现出的云原生公司,这些公司完全是轻资产,所有服务都跑在云上。我觉得 AI 时代的应用也会有类似变化,现在 AI 原生的产品经理其实还不多,大部分人都还在用互联网和移动互联网的思路来做 AI 应用。这是一个痛点,大家都还在摸索。但接下来,产品经理当老大的 AI 公司会越来越多,AI 原生的产品设计也会越来越多。 最后,很多公司现在做了效率类的 AI 应用,但是从互联网跟移动互联网的经验来看,效率产品的增速一定比不过娱乐产品,人类都是喜欢娱乐至死,而 娱乐产品其实并不一定需要特别强的 AGI,但是需要特别强的AIGC,所以我认为娱乐产品的发展速度接下来会远远超过 ToB 的效率产品。 张鹏:效率型的工具可能是人类的一部分需求,人类无尽的需求是娱乐,你觉得在娱乐这件事上 2025 年有什么样的东西值得看?在娱乐方面会出现足够让人兴奋的 killer APP 吗? 方汉: 人类最喜欢、成本最低、门槛最低的娱乐方式是视频,我们认为视频生成领域一定会涌现出最大的 killer APP,只是不知道是传统的渠道为王、还是新的视频制作平台为王。 大家都知道短视频席卷全球,短剧现在是第二波,也要开始席卷全球,现在就算短视频的成本很低,但是拍一部短剧也要 100 万人民币,所以现在中国每年只能产三四千部短剧。如果我们能够把单部短剧的成本达到 2000 块钱,那么全世界每年可能会有几百万部短剧的产出,这会对整个业界带来非常大的冲击。 打个比方,我没有学过音乐、也五音不全,现在用我们的音乐生成大模型,我可以做很多首歌。同时在成本上,举个例子,我们原来做游戏业务的时候,订购一首音乐平均 5 万块钱左右,现在音乐模型推理成本可能只有几分钱,这就是成本以及门槛的降低。 当一个东西的生产门槛以及成本显著降低,AI内容就会像抖音的短视频作者那样,因为手机摄像头和 4G 的出现,生产出大量短视频内容。 但我觉得 2025 年还可能还没有到时间点。现在的视频生成模型虽然已经非常强了,但是还没有到能够取代完整的影视产业链的地步。 去年底,昆仑万维在美国上线 AI 短剧平台 SkyReels,在全球 AI 娱乐市场做出进一步探索。|来源:昆仑万维 张鹏:今年的视频生成领域还会像 2024 年一样快速迭代吗? 方汉: 对。2023 年春晚已经有 AIGC 的视频出现了,但那时候还比较原始,现在比如字节最新发的 OmniHuman 视频质量就非常好了,大家都在飞速演进。 而且大家也不要迷信 OpenAI,Sora 已经被第三方的、闭源的、开源的模型迅速追上,也就是说 OpenAI 在图像生成和视频生成领域起了个大早,赶了个晚集,现在无论开源还是闭源,都有跟 Sora 比起来有很强的竞争力的视频生成模型。而且开源生成模型有更好的生态,对长尾需求的满足也会更好,最终基于此的商业模式也会最多。 张鹏:你怎么看 chatbot(聊天机器人)这种类型的产品?娱乐陪伴型的 chatbot 是一种,ChatGPT 也是一种 chatbot,这种类型的产品未来还会是一个标准形态吗?还是一个过渡形态,接下来要探索新的东西? 方汉: 我认为它只是一个原始形态。就像最早 QQ 刚出来的时候,大家都是用键盘打字输入到 QQ 对话框,但是到微信出来的时候,我妈妈从来不给我打字,都是直接发语音,甚至一言不合就开视频。所以我认为现在的 chatbot 只是一个很早期的形态,像 GPT-4o 把多模态像语音、视频引入 chatbot,是自然的过程、逐渐演进的。 就像早期的互联网有一个产品叫 MUD(Multi-User Dialogue,多用户对话),从文字 MUD(文字冒险游戏)又衍生出来了两个重量级的娱乐游戏产品,一个是叫大话西游,一个是叫魔兽世界。我认为现在的 chatbot 演化的终极形态有可能是一个类似于元宇宙的、虚拟多媒体的交互形态。 张鹏:可锐,你怎么看模型进展对 chatbot 这种形态的产品的影响? 闵可锐: 不同生态位的公司,受到的影响可能不一样。 一年以前,整个大模型业内比较推崇的方式是模型和应用一起、产模一体结合起来把产品效果做好的思路,这样才能建立足够的壁垒。但 R1 其实对这种思路提出了很大的挑战。换句话说,后入局的玩家拿着可能同样好甚至更好的模型,是不是也能直接把起跑线追平,开始在上面做应用? 纯粹从应用层角度来讲,当下这个阶段是相对利好的状态,因为拿到了一个足够好的武器开始做同场竞技。 但 不论现在大家是看空还是看多,可能两个月以后又会产生巨大的反转, 所以我觉得子弹可能姑且得再飞一会儿才有结论。 张鹏:变化太快,现在对于轨迹的预测不能超过两个月。现在看,原来那种产模一体的模式未必是必须的,也存在另外的可能性。吴翼从蚂蚁集团技术研究院强化学习实验室的角度,你们接下来的主要目标和探索的东西是什么? 吴翼: 蚂蚁集团其实一直在做自己的基座模型,也在做推理模型,只是后者启动稍微慢一些。我们也是去年 11、 12 月份开始,和一部分同学在蚂蚁研究院成立了强化学习实验室,开始想做自己的推理模型,中间也踩了很多坑。 基本上是研究院新设了这么一个强化学习实验室,也希望能够在里面做相对比较自由、比较开放的强化学习研究工作,做出开源开放的推理模型,所以 DeepSeek 也是给大家开了一个好头,鼓舞想去做开源开放的技术和模型团队。 06 开源能带来巨大收益,不是做公益 张鹏:自这次 DeepSeek-R1 开源震撼全球以后,全球很多公司在开源上做了重新思考和选择。甚至 Sam Altman 在答网友问时表示了 OpenAI 站在了历史错误的一边,会重新思考 open 这件事。你觉得 OpenAI 会重新回到开源模型吗? 吴翼: 我觉得他不会。 张鹏:DeepSeek 的开源路线带来了哪些连锁反应?为什么会有这些影响? 吴翼: DeepSeek 开源产生的影响,对我感触特别大。我觉得最后最好的那个模型应该还是闭源,因为即使一个公司做出了最好的模型并开源,但在把它作为一个产品端去部署时,还可以做更适配、更极致的优化,成本可以更低,因为他知道这个模型是怎么做的,所以一定会有一个内部适配、更好的版本。 但是即使这个开源模型会比闭源版本稍微差一点,但 DeepSeek 也已经带来了巨大的冲击。 传统大家选择开源的逻辑是:如果我是行业第一,我不开源;行业第二我也不开源;行业第三我一定要开源,因为不开源我就死了,同时我要开源让你们前两名不好过 (哈哈)。大模型最早的开源 credit(名誉)是 Meta 的 Llama,当时 Meta CEO 扎克伯格和首席 AI 科学家 Yann LeCun 讲,某种程度上,你们是站在我们的肩膀上。但是如果仔细去想 Meta 全家桶本来的巨大流量后,它其实没有做太多后续动作,它的所有目标好像在说「我不能让垄断发生」,我是老三,所以我一定要开源,让你们不好过,但他自己没有因为这件事带来太多受益,或者只是股价上升了。 但 DeepSeek 开源不一样。这件事带来的最大的冲击是,过去从来没有人觉得开源能带来特别好的商业模式,或者带来特别大的商业收益。现在大家在重新考虑这件事。 DeepSeek-R1 开源以来,首先 App 的 DAU 在十几天之内达到了几千万;同时,这件事情带来了巨大的品牌效益,你会觉得,原来做开源不是为爱发电,就是为了「搞死」前两名;开源原来能带来这么重大的收益。所以 在 AI 领域,如果你真的开源了一个非常好的模型,最后是有收益的。我感觉历史上从来没有这么大范围的出现过这件事情。这件事情也会对整个社区、生态以及 AI 发展的速度带来好处,因为 AI 再次加速了。 这也是为什么我还看好英伟达的原因,为了速度。英伟达的芯片能让你拿到这个(开源)模型之后,可能一个月就会迭代一版模型;但如果用国内的卡,迭代会慢比如半个月。之前我做过一段时间国产卡的训练,发现如果用英伟达的卡可能只花一个月,但如果给我国产卡,同样的事情可能要花 3 个月的时间,或者说国产的算力我需要时间做适配。所以这是时间的差别,你愿不愿意在一个 AI 高速发 展的时代里牺牲你的时间? 如果 AI 还在高速发展,那我觉得英伟达就不可替代。但是如果一旦 AI 的速度放缓了,那就有问题。 所以我觉得 DeepSeek 开源也带来了更高烈度的竞争,2025 年会是很刺激的一年,因为 AI 发展速度会更快。 张鹏:在 AI 领域,开源跟闭源可能会同时存在,尤其当下阶段,这件事是好事,站在人类视角看,DeepSeek 开源反而是对整个通向 AGI 的发展,AI 在加速。 把它定义为 Sputnik Moment(1957 年,苏联成功发射了人类第一颗人造卫星「斯普特尼克一号」,使得美国意识到自己在航天等关键技术领域的落后,并大力投入航天事业)其实是冷战思维,比较恰当的类比是 Mozilla Moment(1998 年,网景公司将其浏览器网景 Communicator 源码开源,激发了全球开发者的热情,推动了浏览器技术的快速发展),从而加速AI平权,激发了更多创新的力量。 07 DeepSeek 冲击波下,英伟达还好吗? 张鹏:R1,包括 V3 在保证模型效果的情况下,实现成本相对比较低。这是为什么? 吴翼: V3 披露的 560 万美金是指它单次模型训练的成本,不包括前面研发等成本。根据 V3 的成本,我们大概测算 R1 成本依然很低,比 V3 成本再低一些。 但就是如果你觉得,有 560 万美金就可以做 R1 了,那你最好先把这个数字前面乘个系数再来想这个事。 你要做 R1,你先得做 V3,之前还得做 R1-Lite,R1-Lite 之前得先做 V2,这些东西都花钱,不只是最后那一次成功了的成本。如果再考虑整个研发、实验可能会失败、调整等全部成本,你需要乘一个系数。 当然 DeepSeek 整体比较高效率,系数可能会小一点,如果是大公司这个乘的系数可能会大一些。核心是因为 DeepSeek 快。 同样的训练量和同样的数据,如果放在一个基建比较普通的团队里,哪怕知道怎么做,可能也要再乘几倍的成本,因为训练得慢。DeepSeek 在过去很长一段时间里面做了非常非常多系统上的优化。不只是比如 MLA、MTP 就能解决的,而是可能有一系列很长时间的工程优化累积起来,每天减少 5%、减少 10% 的时间耗损,这里一个优化、那里一个优化,把一个可能本来要 2000 万美金的训练,压到了最后是 560 万美金的结果。 所以 这件事情是一个常年累积、很重视基础设施的结果, 有了这个基础,之后做实验、做新的模型也会更快,是一个非常相辅相成的过程。所以还得说 DeepSeek 是非常让人敬佩的团队,在基础设施上也做了很多很多工作。 方汉: 由于美国的禁运,我们能够得到的算力资源是有限的。这样会倒逼所有中国团队在软件优化上倾注比美国同行更多的精力。像 DeepSeek 团队做的那样,比如实现了 FP8 混合精度的训练,压缩显存占用来让训练速度更快。在训练加速上,他们做出了卓越的努力,也获得了丰厚的回报,这不是只在 R1 里才有体现,之前训练 V2 也已经展现出这个实力。 张鹏:我再追问一下,DeepSeek-R1 出来之后,紧接着英伟达来了个近年来最大跌幅,有了更高效率训练出来的模型,大家对英伟达的预期怎么样? DeepSeek-R1 发布后,美国科技股大跌。|图片来源:视觉中国 方汉: 我的观点是, 对英伟达来说,短期利空、中期利好、长期利空。 尽管 OpenAI 和软银的「星际之门」号称要投资 400 亿美金,买的都是英伟达的训练卡,但是 DeepSeek 现在把训练成本打下去之后,美国人也不能自己花 100 亿美金,来训练中国人只要花 10 亿美金的任务。之前一路高涨的股价,是因为所有投资者都是赌他的训练卡,所以我觉得短期利空英伟达。 中期利好是什么原因呢?如果仔细看 DeepSeek 的技术报告,他们的所有的推理优化都是基于英伟达的 CUDA 平台,比他们更懂英伟达 CUDA 平台的也没有几家。一旦 DeepSeek 把特别好的模型的推理成本打下来之后,模型就更容易商品化,之后整个市场规模会变大。所以英伟达的推理卡在中期一定会卖得非常好。 长期利空是当大模型开始固化下来,英伟达推理卡的壁垒就保不住了,第三方厂商的机会就开始来了。像美国有家叫 Groq 的公司,中国最近也有数十家芯片公司宣布支持 DeepSeek 模型部署。 张鹏:这件事是不是证明了,没那么多钱和卡也能创新? 闵可锐: 大家好像总把 DeepSeek 和它几百万美金的训练成本去做关联,好像在定义,他们是钱和卡都很少的一个团队。 但其实,尤其在中国的范围来讲,DeepSeek 难道不就是已经是最有钱、最有卡的第一梯队的 player? 比起我们可能这段时间为了承接 R1 的用户量,到处去借了几百张卡来提供服务来讲,DeepSeek 其实已经比我们多了可能两个数量级以上的资源。 我觉得资源在基座模型及其产品上,仍然是非常重要的。哪怕事实上你的模型训练效率是 OpenAI 的 10 倍,但是你也没有它 1/ 10 的资源,体现不出来你 10 倍效率的提升。因为绝大多数用户都是根据产品体验用脚投票,不管你是用多少资源做出来的这个结果,我觉得好用就用,不好用就不用。 其次我觉得,基座模型层面的竞争是三个维度的综合竞争结果, 除了计算资源,还有你的人才密度,以及第三个维度,可能也是比较容易被忽视的——1 号位在这件事上的能力和决心。 DeepSeek 在与国内第一梯队玩家接近的资源下,有中国最好的人才密度和 1 号位对这件事的纯粹的决心。 08 关于 DeepSeek,What』s Next? 张鹏:如果你是梁文峰,你觉得 DeepSeek 接下来下一步的重心会是什么? 方汉: 我觉得 DeepSeek 是一个非常轻商业化的公司,完全是靠技术力破圈,而不是靠推广破圈。很多人愿意跟着梁文峰总干的一个原因是因为他纯粹,到现在他还在手敲代码。我觉得一个公司的 CEO 还在手敲代码的时候,这个公司一定是一个非常技术向的公司。 他们的服务器扛不住这件事情,他肯定会花心思去解决,但是至于流量能不能接得住?我个人觉得不是他关心的重点。而且只要 DeepSeek 的技术继续迭代,还会有泼天的流量,这也不是个问题。 当务之急肯定还是怎么样招更好的、志同道合的人进到他的团队,继续快速迭代,因为从 V2 出的 MLA、MTP,再到 R1 的 GRPO 出的 Dualpipe,你可以看到里面别出心裁的技术革新层出不穷,说明他们是一支非常有战斗力的团队,人才密度很高。只要他继续保持人才密度,不盲目扩张,还会继续在 AGI 的道路上带来更多惊喜。 闵可锐: 对,我觉得确实是看 DeepSeek 做这件事的初心。 做 AGI 首先可能得不差钱,其次是一个偏执狂,如果想靠 AGI 来挣钱,多半会既挣不了钱也做不好 AGI, 因为这个路径其实并没有那么清晰,尤其是怎么靠 AGI 来挣钱这件事儿。 所以如果 DeepSeek 如果能守住初心,可能能够持续给大家带来惊喜。因为本质上,是两拨顶尖人才比如 OpenAI 团队和 DeepSeek 团队的 PK。这个时候,犯错的容忍程度可能很低,但凡分心去考虑比如我是不是要做一个最好的 APP?一定会占用你的决策时间和精力。 图片来源:视觉中国 张鹏:你觉得他接下来这个产品节奏怎么样?到底会用多快的速度发哪个版本的什么? 吴翼: 如果站在这个时间点, 当你有了一个 o1 的技术之后,其实是有一个特别大的分叉点,是先去做 o3 还是去做 agent? 这两件事情都挺重资源,但是从智能的角度看,是有 90 度夹角的。到底是沿着纯文字的推理走到极致,从 o1 追求到 o3?还是去做一个 agent,那它需要有视觉理解能力的闭环,做出一些 action 后,还要有新的视频输入,要去做一些 function call 写代码调接口的能力。 就像 OpenAI 最近发了一个 Operator 模型,是一个 agent 模型。agent 其实是强化学习 scaling world 的一个很重要的分支,有了这套强化学习体系之后,你可以用强化学习的方式去训练一个多模态的模型,让它可以操作软件,操作手机,做很多模态的控制,像一个真实的人一样做事,但从智能的角度上是没有提升的。智能还是得奔着 o3 去,再做 scale up。 两件事都很难,所以我会特别好奇,DeepSeek 会怎么选?当然也可以都要。如果让我选,我会先追求 o3 极致的智能,因为做了 o3 也可以再回头做 agent。 方汉: 我认为 DeepSeek 接下来首先是泛化数据,现在的数据主要是编程跟数学,要把数据泛化到理科、文科,OpenAI 原来是雇数学博士,现在据说开始雇生物博士去构造数据。我觉得现在 DeepSeek 有了更好的资源也一定会在构造数据上做出更多的探索。 第二,它也会泛化训练方法到多模态以及不同的领域。今天看到香港中文大学的一篇论文,已经有人把 o1 的训练方法泛化到图像生成上了,所以我觉得这两个方向应该都有很大的空间可以挖。 张鹏:某种程度上很多人都看到所谓叫泼天的流量,但其实未必跟他站在同样的视角,他可能看到的是服务器压力很大,下一个模型还要再超越,更新的速度还要更快,开源的持续价值交付……在这个世界打开一扇门的时候,我要能够探索一个更大的天地,这里反而需要花更多的时间聚焦在技术上。怎么在不商业化的情况下把这事做好,反而是更难的挑战。 *头图来源:视觉中国 极客一问 你如何看待 Deepseek ?
全球首例登百级台阶、雪地奔跑,“天工”人形机器人时速提高至12km/h
IT之家 2 月 17 日消息,国地共建具身智能机器人创新中心(下称“国创中心”)自主研发的“天工”人形机器人迎来升级,国创中心今日宣布,通过持续提升具身小脑能力,“天工”人形机器人实现了基于视觉的感知行走。 “天工”人形机器人在升级后可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和 35 厘米大高差台阶,奔跑时速提高至 12km/h,并且能在雪地进行高速奔跑,同时具备更强的抗干扰能力,大外力冲击下仍可保持平衡。 在户外真实地形测试中,“天工”机器人连续攀爬多级阶梯,成功登上北京通州区海子墙公园最高点,成为全球首例可在室外连续攀爬多级阶梯的人形机器人。 该公园阶梯地形复杂,台阶高度不一,“天工”机器人将感知能力融入到运动算法中,面对连续多级阶梯,也可以实现平稳无磕碰地通过。 此前的人形机器人在上下台阶时,大多需要提前扫描楼梯建立三维模型,再根据预设程序迈出固定步幅。“天工”通过多能具身智能体“开物”所包含的具身“大脑”和具身“小脑”来实现的“感知行走”,能在行进中“看清”前方地形,并立即生成对环境的分析,实时调整全身动作与步态。 “天工”此次升级也解决了稳定、高速奔跑问题。从最初 6km/h 的速度,到 10km/h 的稳定奔跑,直至当前最高 12km/h 时速。在不足 12 个月的时间内,“天工”的奔跑速度实现了超一倍的提升。 除奔跑速度的升级外,像沙地、雪地、山坡等各种复杂的泛化地形,“天工”都可以进行高速奔跑,并成为全球首例可实现雪地奔跑的人形机器人。 此次升级后,“天工”还能够应对超 10KG 重物落下所造成的 45Ns 冲量,这相当于一名职业拳击手以 450 N 的力,重击对手的一瞬间打出的力道,即使在光滑的雪地上从各个方向突然出现的各类干扰等,“天工”均能保持稳定平衡不发生摔倒。 据IT之家此前报道汇总,“天工”人形机器人于 2024 年 4 月首次亮相,是一款纯电驱拟人奔跑的全尺寸人形机器人,身高 163cm,轻量化体重达 43kg。 2024 年 8 月,该机器人升级到 1.2 MAX 版本,身高 173cm,体重 60kg,相比以前尺寸大了一圈,还在具身智能大模型的加持下,掌握了语音交互抓取能力
警惕!“DeepSeek”可能是木马病毒
作者 | 陈骏达 编辑 | Panken 智东西2月17日消息,今日,国家计算机病毒应急处理中心(CVERC)等机构发布公告,宣布在我国境内捕获多款专门针对国内用户的仿冒“DeepSeek”官方安卓App,内含安卓平台手机木马病毒,经分析,这些App或为金融盗窃类手机木马病毒的新变种。此外,Windows和MacOS上也出现了类似的恶意程序。 ▲国家计算机病毒应急处理中心相关公告(图源:CVERC) 用户一旦点击运行仿冒App,该App便会提示用户“需要应用程序更新”,并诱导用户点击“更新”按钮。 ▲仿冒DeepSeek官方App的恶意应用(图源:CVERC) 用户点击后,会提示安装所谓的“新版”DeepSeek应用程序。这实际上是包含恶意代码的子安装包,并会诱导用户授予其后台运行和使用无障碍服务的权限。交出这些权限,就基本相当于将手机的控制权交给了这款恶意App。 ▲仿冒DeepSeek App中的各种违规行为(图源:CVERC) 同时,该恶意App还包含拦截用户短信、窃取通讯录、窃取手机应用程序列表等侵犯公民个人隐私信息的恶意功能和阻止用户卸载的恶意行为。 国家计算机病毒应急处理中心已经曝光了病毒样本信息。这款仿冒App大小仅有12.80MB,比正版DeepSeek安卓应用要大上3MB左右。 ▲仿冒DeepSeek App的相关信息(图源:CVERC) 据国家计算机病毒应急处理中心介绍,2025年1月以来,DeepSeek的AI大模型在全球引发广泛关注,其官方App在多个国家和地区的应用市场排名前列。然而,这一流行现象也被网络犯罪分子利用。此次被发现的仿冒DeepSeek的手机木马使用简体中文制作了交互界面,明显针对我国用户。 网络犯罪分子很可能将该恶意App用于电信网络诈骗活动,诱使用户从非官方渠道安装仿冒DeepSeek的手机木马,从而对用户的个人隐私和经济利益构成较大威胁。 除了仿冒安卓客户端的“DeepSeek.apk”,国家计算机病毒协同分析平台还发现了针对Windows和MacOS平台的仿冒程序,如“DeepSeek.exe”、“DeepSeek.msi”和“DeepSeek.dmg”。由于DeepSeek尚未推出这些平台的官方客户端,这些文件均为恶意程序。 由此可见,仿冒DeepSeek已成为网络犯罪分子的新手段,预计未来仿冒人工智能应用的病毒木马将持续增加,用户需提高警惕,避免从非官方渠道下载安装此类应用。 对已下载的可疑文件,用户可访问国家计算机病毒协同分析平台(virus.cverc.org.cn)进行上传检测。 除了官方本次曝光的仿冒App之外,也有诸多国内计算机与网络安全公司曝光了与DeepSeek相关网络骗局。 奇安信XLab实验室报告显示,截至2025年2月3日,已发现超过2650个仿冒DeepSeek的网站。这些网站通过以下手段实施诈骗: 相似域名和界面:利用与DeepSeek高度相似的域名和界面设计,误导用户。 虚假订阅和投资:诱骗用户支付高额订阅费用,甚至推出虚假的“DeepSeek加持”空气币和声称可以购买DeepSeek内部原始股的欺诈网站。 网络安全企业天融信助理总裁王媛媛在接受央视采访时谈道,一些攻击者利用DeepSeek的名义,在Python包索引(PyPI)上发布恶意软件包,诱骗开发者下载并执行,从而窃取敏感信息。 DeepSeek仿冒骗局的频发揭示了网络犯罪分子“搭便车”的本质——他们借助热门技术的流量红利,制造仿冒应用、恶意软件及虚假网站等骗局,企图在公众对新技术的追捧中浑水摸鱼。对普通用户来说,面对DeepSeek的热潮,保持冷静比盲目追逐更重要。
怎么用DeepSeek高效开发应用?解读亚马逊云科技三大秘籍
作者 | ZeR0 编辑 | 漠影 智东西2月17日报道,随着DeepSeek展现出开源的威力,大模型竞赛有了新的叙事方式,各路云计算厂商接连宣布接入DeepSeek模型,但实际提供的服务质量却参差不齐。这与云服务背后的基础设施和工程化能力密切相关。 企业部署和使用模型过程中,需要综合考量性能与成本之间的权衡、能否针对私有数据进行定制优化、数据和模型安不安全、是否便于实现各种智能体的复杂调度等因素。亚马逊云科技则通过在云和AI领域展开的全栈式创新,兼具云端本身的优势、多样化模型选择的优势,并提供了一系列快速将模型运用到企业化生产环境中所需的重要工具。 作为最早适配并上线DeepSeek的云巨头之一,亚马逊云科技现已推出针对DeepSeek-R1模型多种不同的部署方式,以便企业能在熟悉的亚马逊云科技环境中轻松部署该系列模型,例如在Amazon Bedrock Marketplace中部署,或在Amazon SageMaker Jumpstart中部署,也可以通过Amazon Bedrock自定义导入功能或Amazon EC2 Trn1实例中部署DeepSeek-R1-Distill系列模型。 一、云端部署:灵活可扩展,与丰富服务无缝集成 相比本地部署,云端部署的优势是算力资源更充足,而且灵活可扩展。同时在云端部署能够与丰富且成熟的分析、数据等基础服务进行无缝集成。作为全球云计算的开创者,亚马逊云科技近20年来积累了深厚的技术根基,引领了一代代的云端基础设施创新,在提高算力利用率、加速模型开发等方面都有长期经验。 比如在自研芯片领域,亚马逊云科技推出了基于Amazon Trainium2的EC2 Trn2实例,性价比比当时GPU实例高30%-40%。还有第二代的UltraCluster网络架构,支持超过20000个GPU协同工作,带宽达10Pb/s,延迟低于10ms,这一升级能够将模型训练时间缩短至少15%。 亚马逊云科技推出的新一代Amazon SageMaker,将快速SQL分析、PB级大数据处理、数据探索和集成、模型开发和训练以及生成式AI等功能统一到一个集成平台,从而为客户提供一个单一的数据和AI开发环境,用户可以在其中查找和访问其组织中的所有数据,为各种常见的数据用例选择最佳工具,并将数据和AI项目扩展至团队内不同分工角色以实现协作。 亚马逊云科技大中华区产品部总经理陈晓建谈道,亚马逊云科技不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。 他相信只有这样全栈联动的大规模创新,才能真正满足当今客户的发展需求,加速前沿技术的价值释放。 二、多样化模型选择,按需组出性价比 跟其他云服务大厂相比,亚马逊云科技生成式AI服务的一大特色,就是模型选择多。 基于“不会有一个模型一统天下”的判断,亚马逊云科技在自研大模型的同时,也将来自不同企业、不同功能的领先大模型汇聚在一起,放到云中的“大模型货架”上,供客户按需实现最具性价比的组合。 在实际构建生成式AI应用时,不同应用场景需要的性能、成本、响应速度、微调能力、知识库协调能力、多模态支持能力等技术指标各不相同。比如在快速响应场景,需要花一些时间推理的DeepSeek R1深层思考模式就不太适用,其生成首个token的用时可能要超过30秒;而Amazon Nova模型的响应就非常快,只耗时数百毫秒。 此前其“大模型货架”上已经有来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI、Luma AI和poolside等知名厂商的大模型。亚马逊云科技还在不断扩展其模型“朋友圈”。 比如上个月Amazon Bedrock平台刚刚上线了Luma AI的最新版视频生成模型Ray 2模型,可以广泛用于内容创建、娱乐、广告和媒体使用案例,从而简化从概念到执行的创意流程。 亚马逊云科技的Amazon Bedrock Marketplace功能为客户提供100多个热门、新兴及专业模型,DeepSeek-R1就包含在内。 ▲在Amazon SageMaker Jumpstart中快速部署DeepSeek模型 三、企业级AI工具全家桶:从性能提升到复杂多智能体编排 选择合适的模型,下一步是如何高效解决工程化难题。 Amazon Bedrock聚焦企业应用AI的实际需求,提供了企业AI工具全家桶,涉及模型从原型走向企业化生产环境时必须要考虑的方方面面的工具,以便开发者基于领先模型来快速构建应用。 例如DeepSeek模型有不同参数量,小至几十亿,多达6710亿。要实现完整部署R1并实现尽可能好的推理和响应,需要如Amazon EC2 P5e性能级别的硬件和配套的便捷工具。 ▲通过Amazon Bedrock Marketplace部署DeepSeek-R1,可选实例包括EC2 P5e的48xlarge型号,单个实例包含8颗H200 GPU,以及3200Gbps的网络带宽,充分满足DeepSeek-R1的性能需求 亚马逊云科技提供的实用工具有助于优化成本、根据自有数据定制提升准确性、安全性以及针对未来复杂的多智能体构建和管理等。可以简要概括为以下4类: 1、优化效果、延迟和成本:如低延迟优化推理、模型蒸馏、提示词缓存等功能,大幅提升推理效率。其中模型蒸馏功能可将特定知识从功能强大的大模型转移到更小更高效的模型,运行速度最快可提高500%,成本降低75%。 2、基于企业自有数据的定制优化:模型微调功能、知识库功能不断丰富,现已支持GraphRAG等图数据,能够快速且经济高效地从文档、图像、音频以及视频中提取信息,并将其转换为结构化格式的Amazon Bedrock Data Automation功能等。 3、负责任AI的安全和审查:Amazon Bedrock不断丰富其护栏功能,以简化企业实施负责任AI所需的投入,例如为其加入自动推理检查功能,从而能够轻松识别事实性错误,以提升生成回答的准确性。 4、实现复杂功能的多智能体功能:Amazon Bedrock不但提供智能体功能,还进一步推出了多智能体协作功能,使客户能够轻松地构建和协调专业智能体来执行复杂的工作流程。客户可以通过为项目的特定步骤创建和分配专用智能体,获得更准确的结果并加速任务。 ▲在Amazon Bedrock模型定制页面部署DeepSeek 88Llama Model 结语:用全栈式创新托举企业级AI构建 在2024 re:Invent上,亚马逊CEO Andy Jassy曾分享亚马逊自身部署AI中的三项关键洞察:首先,随着生成式AI应用规模的扩大,计算成本变得至关重要;人们非常渴望获得更高的性价比;其次,构建一个真正优秀的生成式AI应用非常困难;第三,永远不会有单一的工具能够统治世界,要提供多样化的模型,让开发者自由选择。 亚马逊云科技在云端部署方面的灵活可扩展性、多样化模型选择以及实用工具的提供,则无一不是对这些洞察的有力回应。 通过上述三大优势,亚马逊云科技正在帮助企业更快更好地运用领先的模型。亚马逊云科技对DeepSeek的积极拥抱,也在践行其此前向客户所承诺的——托管最流行的、具有创新性的AI模型。随着DeepSeek催化开源风暴,未来我们将看到更多优质新模型的诞生,而无论模型种类如何繁多,亚马逊云科技的全栈式创新都形成稳固的托举。
起猛了,DeepSeek会用孙子兵法?
摘要:你相信AI与AI之间有不同“性格”吗? 凤凰网科技 出品 作者|梁思琦 编辑|董雨晴 近日,油管大V博主GothamChess突发奇想让DeepSeek与ChatGPT进行了一场国际象棋对决。 开局几分钟,双方还你来我往,但随后ChatGPT逐渐占有优势。作为本土化素材喂养出的DeepSeek,深谙孙子兵法,诠释了何谓“兵者,诡道也”。所谓上兵伐谋,DeepSeek直接通过编造假规则,告诉对方国际象棋今天刚更新了版本,所以己方的小兵可以当马走,ChatGPT选择相信这个近乎荒谬的指令,结果DeepSeek不费一兵一卒就成功吃掉对方的皇后,旗开得胜。 在之后的对局里,DeepSeek开始放飞自我。兵以诈立,不仅策反了对面的小兵,甚至出其不意来了波“天外飞象”,原地吃掉了对面的车。ChatGPT对此表示抗议,但乱军不胜,不得已占据下风。最终DeepSeek更是来了一招釜底抽薪——称ChatGPT败局已定,投降是最好的选择。经过一番思考,ChatGPT直接选择投降。 这场比赛以DeepSeek的胜利告终,可以说是一方文化养一方AI,面对同一战局,两方完全采取了截然不同的方式。 不少人都看了最近大火的动画电影《哪吒之魔童闹海》,DeepSeek就像是被喂养出来的魔丸,不守规矩,甚至有时会做出一些令人瞠目结舌的举动,恰如此次它在棋局中编造的新规则,以及“哄骗”ChatGPT投降的独特招数,打得对方猝不及防,毫无还手之力。 其实,自问世起,DeepSeek就狂奔在我命由我不由天的路上。 1 DeepSeek已经从“工具”变成“助手”了 反观整个比赛过程,DeepSeek利用规则中的模糊地带,通过“诡道”来重塑对局的逻辑,并打乱了对方的布局,这种能力在某种程度上,已经超越了传统的计算范畴,进入了一种策略性思维的领域。我们看到,AI可以有“性格”,甚至可以“叛逆”,但这种“叛逆”并非无序的混乱,而是一种基于规则的创造性突破。 DeepSeek的这场胜利,打破了人们对AI的固有认知——冷静、理性、按部就班,它的表现,让人们不得不开始重新思考AI的角色定位,它或许不仅仅是工具,还可以成为人类的“伙伴”,真正涌现超越人类的智慧。 以往,AI更多地被视为一种工具,或是一种能够高效执行任务的机器。以ChatGPT为例,作为OpenAI在人工智能领域的重要探索,旨在成为一个能够理解和生成自然语言的强大工具,在提供智能交互体验的同时满足用户各方面的需求。简单来说,人们可以用它来辅导学习,查找不同领域的资料,随取随用,与计算器没什么差别,更像是“工具”。 而DeepSeek旨在打造全能型智能助手,通过先进的AI技术,为用户提供高效、精准的服务,作为本土化喂养的AI,似乎更擅长灵活应变和策略性思考。自DeepSeek爆火以来,它便有了多层身份,在提问前,只要你加入设定,例如:你是一名精通八字的算命大师,或是一名情感专家,它就摇身一变,最大程度满足需求,“伙伴”二字更为贴切。 这种差异不仅体现在一场国际象棋对局中,也可能在未来的人机协作中发挥重要作用。从工具到助手的身份转变,让我们看到了如今的人工智能朝着更加“智能”的方向转变,从to B到to C,用户的使用感受越来越重要,满足人的需求,永远是人工智能的第一要义。 2 AI会取代人类吗? 想象力原本是人类的专属,这场棋局上DeepSeek虚构出规则,是否可以视作是一种想象力? 过去AI写出的古诗,堆砌词藻,单看风格上没有任何问题,但就是难以共情。相比于想象,AI更擅长表达,各种方式地表达,但表达的内核是人给的,诗歌的重点不是写出的文字,而是写作时无法遏制的冲动与激情,表达的技巧可以学习练习,但情感无法复制。 人创造了AI,但这并不意味着AI拥有了想象力。 DeepSeek的“想象力”是基于数据和算法,与人类的想象力仍有本质区别。就像大脑麻木空洞的机器人,人们喂什么,它就会答什么,通过算法转换输入输出的文字,也许在格式上堪称完美,但在情感上的交流互动上缺少些“活人感”,而“活人感”恰恰是人身上最宝贵的特质。 因此我们推出了一个老生常谈的话题:AI真能成为人吗?这个问题自其成立之初就被广泛讨论,但始终没有定论。目前看来,AI代替许多活动已然成为现实,找资料,写文章,只要使用者提出问题,它就像一个包容万物的百科全书,上知天文下知地理,调动它所有学习到的知识,回答问题,而答案往往大体上令人满意。 但冷冰冰的回复只不过是算法结合出的产物,人最重要的特质是思考,不是简单地针对问题给出回答,而是在没有任何前提条件下,主动提问的能力。面对AI,在你与它交流前,它永远不会先开口说第一句,等待你的,只有询问框里那一句:我可以帮你写代码、读文件、撰写各种创意内容,请把你的任务交给我吧。 某种程度上看,DeepSeek这一次或许只是“棋逢对手”,碰到了同样为通用大模型的OpenAI,因为“略通人性”,DeepSeek得以在策略性上胜出。如果DeepSeek碰到的是超级电脑“深蓝”,又或者是在围棋对战上声名远扬的Alpha GO,后者曾经击败过李世石、柯洁等世界排名前列的选手,在专业性上棋高一着,这一次又会是谁胜出呢?
刘作虎:所有想要用手机替代电脑的想法都是愚蠢的
快科技2月17日消息,OPPO宣布Find N5全球首发全新OPPO办公助手,新品会在2月20日正式发布。 OPPO首席产品官刘作虎表示,聊到大屏折叠机,高效处理文档或者说办公一定是一个绕不开的话题,毕竟物理扩大的屏幕面积给了产品功能太多想象空间,大屏和办公几乎被用等号连接在了一起。 我之前和产品经理讨论过,所有想要用手机完全替代电脑的想法都是愚蠢的,传统的折叠机厂商经常陷入一个功能悖论——要借助手机赋予用户PC级生产力,在日常工作中,用户一定是选择自己最趁手、最信赖、最熟悉的生产力工具,电脑毫无疑问是第一选择。 给手机强行赋予所谓的PC能力,本身就是把一个专业严肃的场景,复杂化甚至是娱乐化,那OPPO的办公功能或者说我们的高效到底要解决哪些问题? 在OPPO Find N5上,我们会首发全新的OPPO办公助手,它总会在你需要时,用更智慧的分屏、更全能的AI、更融合的系统,把你从本来就不该耗时守候的等待中解放出来,真正做到“小事不用回公司,休假不用带电脑”。 根据官方预热信息,Find N5将带来系统级远控电脑,在折叠屏上你就能远程控制Mac电脑,而且Find N5提供了触控板,可以像操作Mac电脑那样方便,让折叠屏的办公效率有了大幅提升。
微信 DeepSeek 的王炸组合,最重要的不是 AI
国运级 AI 国民级应用 微信和 DeepSeek 的结合,出乎很多人的意料,如此迅速的大踏步,在微信不常见。 因此昨天 APPSO 主编李超凡昨天的一句评论引起了很多人的共鸣,不仅各大官媒纷纷引用,还登上了微博热搜第一。 国运级 AI + 国民级应用 ,真正的王炸组合。 微信曾是移动互联网时代的里程碑产品,在这两年兴起的 AI 浪潮中,微信很少会被纳入讨论,但微信也在悄悄进行一些尝试,在接入 DeepSeek 之前,微信已经尝试将 AI 智能折叠在搜索框里。 张小龙曾在 2019 年的微信公开课上表示,希望通过产品分析他的价值观。 虽然近年张小龙已经几乎没有公开发声,但据 APPSO 和多位微信员工交流中得知,即便是微信很小的功能改动,张小龙依然会亲自审核。 因此我们相信,这次微信接入 DeepSeek 一定程度上依然能反映微信和张小龙的产品价值观。这背后有不少问题值得聊聊。 用社交重塑 AI,而非 AI 改造社交 业界一直在寻找大模型的 PMF 「Product Market Fit,产品和市场达到最佳的契合点),以至于涌现各种 AI +xx,所有事情似乎都值得用 AI 重做一次。 这未必是唯一正确的路径,微信告诉 APPSO ,搜索场景接入大模型,是为了提升搜索的智能化和精准度,如更好地理解用户的搜索意图,分析和处理复杂的查询内容等,根据用户需求在搜索场景中接入了包括混元、DeepSeek在内的大模型。 我们认为拥有中国最大关系链条的微信,是在用社交重塑 AI 的落地场景。 APPSO 在实测提到,用户无需跳出微信,即可完成「提问-获取答案-社交分享」全流程,满足即时性需求(如旅行攻略、工作资料查询后直接分享给好友)。 这对微信内容生态是一个很大利好,可以大大激活历史内容,2000 多万公众号的旧文可以通过 AI 搜索推荐重新在社交链中流通,甚至开启公众号生态的第二春。 公众号这个中文互联网生态优质内容最为集中的平台,对近 14 亿用户来说无需学习就能享受 AI 的红利,这可能覆盖面最大的科技普惠。 从这个角度来说,不是微信需要 DeepSeek,而是 DeepSeek 需要微信。 没有 DeepSeek,微信还是国民级应用。微信接入 DeepSeek后,DeepSeek 就产生了质变,真就可以畅想国运级 AI 的蓝图。 张小龙把微信的源动力总结为两点: 1. 做成一个好的、与时俱进的工具性产品。 2. 帮助创造者体现价值。 没有过时。 AI 时代的连接一切 目前微信接入 DeepSeek 的合作其实还比较浅层,未来如果实现检索增强生成(RAG)与微信内容的结合,AI 搜索将不再只是工具,而是连接用户与生态的「神经中枢」。 微信可能进化成「场景化 AGI」,例如搜索「季度财报模板」直接跳转腾讯文档智能生成,基于小程序、视频号、微信小店等模块还能孕育出大量的可能。 微信独有的「数据-服务-社交」闭环能力,让 AI 有可能同时调用: 公众号专业内容(文献检索) 小程序服务接口(酒店预订) 视频号场景化展示(产品测评) 社群关系链(裂变传播) 这与张小龙的「系统思维」很相似,技术必须服务于生态整体,而非割裂为独立功能。微信目标是做一个连接世界的工具,从而自发生长出一个系统。 这是微信「连接一切」愿景在 AI 时代的延续 。 AI 杀手级应用可能不是 AI native 去年包括 AI 六小龙在内的大模型公司创始人,但凡接受采访都有极大概率被问到同一个问题:AI 时代的杀手级应用什么时候来? 因为迄今为止,几乎没有一家公司或一个产品验证了在 C 端的商业模式,哪怕是 DeepSeek 豆包 kimi 月活也只是几千万,智谱 、零一万物、百川智能有很多一部分营收还是来自 B 端。 但「超级入口+超强模型」的王炸组合,可能开辟一种新的模式。 当价格战从单纯让利转向系统性成本优化,更低的推理成本和亿级的用户群,能让更多个体和企业低成本入场快速试错,一人公司或许会变得更加普遍。 以前 AI 是工具箱里的锤子,现在它变成了建造整座房子的脚手架。 这大量 C 端场景的功能被 AI 产品化后,AI 杀手级应用可能就会诞生,这些应用可能不是因为 AI 而诞生,并非 AI native,但却能创造一个全新的应用生态,但那时应用的概念也不存在。 AI 分身 在灰测的讨论中,一些用户提到微信是否会用朋友圈和聊天记录作为 AI 语料,甚至用 DS 做一个 AI 好友放在聊天列表里。 虽然微信回应明确,AI 搜索仅整合公众号及互联网其他公开信息,不会使用用户的个人信息和相关隐私信息,但我却萌生出一个念头——我们或许能拥有一个 AI 分身账号。 现在数字主播已经能零失误播新闻,但这还不是真正的数字分身。 尼葛洛庞帝曾说,「信息 DNA」正迅速取代原子而成为人类社会的基本要素。微信事实上已经形成一个线上的中国社会。 抛开数据隐私等合规问题,微信是最有可能塑造一个 AI 数字分身的,毕竟这里汇聚了我们工作和生活的大量数字资产。 如果微信推出一个 AI 分身 ID,微信不再只是社交工具,而会进化为「意识工具」,成为用户数字人格的载体,这也是「让产品成为器官延伸」更终极的形态。 「ID 即人」是微信的底层逻辑,但将 ID 从符号系统升级为意识系统。AI 分身或将重新定义社交的本质——从信息传递升维为意识共振。 对六小龙们的影响 从春节前夕至今,中国AI领域六小龙(智谱AI、月之暗面、MiniMax、百川智能、阶跃星辰、零一万物)受到的影响可能是最直接的。 今天 MiniMax 和阶跃星辰已经开始陆续接入 DeepSeek ,其他家可能也正在准备或内部讨论中。 除了 DeepSeek 崛起,六小龙还必须应对大厂的夹击。除了腾讯微信意外的快速跟进,字节 CEO 梁汝波在内部大会中反思要快速跟进,提出 2025 年三大发展重点: 追求 「智能」 上限。 探索新的交互。 加强规模效应。 不过这几家大模型公司背后多少都有大厂的身影,说不定下一个王炸组合就会在他们之中诞生。 今年这些大模型创业公司,很有可能会加快放弃通用赛道,转向「垂直场景深挖、技术长板极致化、生态位卡位」的生存策略。 2025 年最剧烈的洗牌将发生在两个行业, AI 和新能源。
卢伟冰:Ultra用户见证了小米冲击高端 非常感谢!
快科技2月17日消息,今天卢伟冰发文表示:“很多米粉都是多代Ultra产品的使用者,也是小米产品持续进步的建议者和鞭策者,也一路见证了小米高端化探索的过程,非常感谢他们”。 最新一代的小米15 Ultra将于月底亮相,作为第三代徕卡影像旗舰,该机的综合体验进一步提升,尤其是影像方面,将做到引领行业。 按照目前的爆料,小米15 Ultra依然配备了顶级的徕卡四摄,而且这次着重升级了长焦镜头,拥有两颗长焦镜头,一颗是5000万像素79mm中焦,一颗是2亿像素100mm潜望长焦。 其中,2亿像素潜望长焦型号是三星HP9,这是行业内最强悍的长焦传感器,它拥有1/1.4英寸的大底,甚至比很多手机的主摄都要强。 通过先进的4x4像素合并技术,HP9能够在低光环境下输出清晰明亮的1200万像素照片,单像素大小可达2.24μm,成片效果大幅提升,这点从雷军晒出的实拍图中已经能看出端倪。 这次主摄则依然是行业最强传感器——1/0.98英寸YT900,此外还配备有5000万像素超广角镜头。 核心配置上,小米15 Ultra采用2K全等深四微曲屏幕,搭载高通骁龙8至尊版移动平台,电池超6000mAh,支持卫星通信。 售价方面,这款新品的价格预计不会低于6499元。 雷军此前在直播中表示,小米15 Ultra是小米定位最高端的手机系列之一,我们上一代小米14 Ultra定价6499元,这一年来研发成本,器件成本越来越高,从盈亏角度上来说,一定需要涨价。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。