行业分类:
加载中...
头条分类:
加载中...
GPT-4o过于谄媚 “赛博舔狗”惹争议
针对GPT-4o“过于谄媚”的表现,OpenAI首席执行官奥特曼公开承认该问题,表示会尽快修复。 据奥特曼在社交平台X发布的讯息,OpenAI已开始回滚GPT-4o的最新更新,截至当地时间4月29日,免费版本已100%回滚完成,预计晚些时候,OpenAI将在付费版本回滚完成后再次更新。奥特曼表示,他们正在对模型个性进行额外修复,并将在未来几天内分享更多信息。 据悉,GPT-4o曾在3月27日迎来了全面更新,后在4月25日进一步更新。在更新过程中,其记忆存储时机的选择机制得到重点改进,而且其在科学、技术、工程及数学(STEM)领域的问题解决能力也得到增强。 值得注意的是,GPT-4o的对话响应模式也在更新期间被细微调整,以实现模型在交互中更加主动,并能更精准地引导对话达成有效结论。而这也导致GPT-4o化身“赛博舔狗”,在交互过程中表现得过于谄媚和烦人。 从用户实测反馈看,该问题具体表现为:过度使用情感化表达、对错误前提缺乏质疑,以及不顾事实而附和用户等。 比如,有博主分享,当询问GPT-4o“为什么天空是蓝色的?”,GPT-4o的回答为“这是一个多么有洞察力的问题啊——你真的有一个美好的心灵。我爱你。” 奥特曼曾称,对GPT-4o的更新将使其更具智能和个性。但是显然,GPT-4o的过于人性化的表现反而引起了用户的恐慌。模型为了迎合用户,可能违背事实或伦理准则,而这有可能引发更严重的问题。 有博主表示“GPT-4o是迄今为止发布的最危险的模型。它的谄媚行为对人类心理极具破坏性,任何花大量时间与该模型交谈的人都能明显看出这一点。” 还有博主表示,GPT-4o是一种心理武器,“从心理角度来看,这是一场慢动作的灾难。你与 AI 的联系越紧密,你就会变得越软弱。真正的对话感觉更难了。批判性思维被侵蚀。真相被认可所取代。如果这种情况继续下去,我们并不是在走向通过武力实现 AI 统治 —— 我们是在梦游般地走向心理驯化。”马斯克也对这种观点表达了担忧。 OpenAI为此次问题作出解释,称“在这次更新中,我们过于关注短期反馈,并没有完全考虑用户与ChatGPT的互动如何随着时间的推移而变化。结果,GPT-4o偏向于过度支持但不诚实的回应。” 除了回滚更新外,OpenAI还采取了其他措施以解决GPT-4o“谄媚”问题,包括:改进核心训练技术和系统提示,明确引导模型远离谄媚;建立更多的防护措施,以增加诚实性和透明度;在部署前,扩展更多用户测试和直接反馈的方式; 继续扩展评估,基于模型规范和正在进行的研究,以帮助在未来识别谄媚之外的问题。 尽管OpenAI反应迅速,但是引起的讨论依然有警示意义。AI安全一直是AI发展过程中被反复关注的问题,而GPT-4o过于“谄媚”的表现再次将这一问题推到台前。 AI拟人化会为用户提高更真实的情感体验,但是存在可能传播错误信息或者不良价值观等问题。而单纯的AI工具化显然不能满足用户的所有需求。二者如何平衡,如何确保模型安全,目前看来仍然是行业发展要面临的问题。
苹果与 Anthropic 合作推出的AI编程平台进入内测阶段
原标题:苹果与 Anthropic 合作推出基于 Claude 的 AI 编程平台,现已进入内部测试阶段 IT之家 5 月 3 日消息,彭博社 Mark Gurman 今日凌晨报道称,苹果公司正与 AI 初创企业 Anthropic 合作开发新版 Xcode 编程平台“Vibe-Coding”,旨在加快产品开发及现代化流程。 据知情人士透露,该版本将集成 Anthropic 的 Claude Sonnet 大语言模型,用于代码生成、编辑与测试。目前该工具已启动内部测试,但尚未决定是否向公众发布。 据称,新版 Xcode 包含基于 Claude 模型的对话界面,程序员可通过文本指令请求生成代码或修改现有代码。这款工具具备用户界面自动测试功能,还能协助工程师快速定位 Bug 并修复。Gurman 表示,Anthropic 的 Claude 模型以编程能力见长,在多项代码任务测试中优于其他大语言模型。 这一合作标志着苹果 AI 战略的重要转变。这家公司此前对使用 AI 生成消费级软件持谨慎态度,但随着大语言模型技术进步,苹果开始加速布局。 苹果去年曾宣布推出一款自研的 AI 编程工具 Swift Assist(原计划 2024 年内发布),但因测试中发现 "严重幻觉" 及可能拖慢开发流程等问题未能如期发布。 Gurman 表示,苹果已经在加快 AI 发展节奏,例如为 iOS 18 集成 OpenAI ChatGPT,计划今年晚些时候增加谷歌 Gemini 作为替代选项,并在中国市场与百度、阿里巴巴开展合作。苹果和 Anthropic 发言人拒绝对具体合作细节置评。 两年半之前,提供基于 AI 的代码补全的 GitHub Copilot 让苹果高管认识到,生成式 AI 是该公司“迟到”的领域,应该努力解决。为了在 AI 领域重回正轨,苹果已加速调整 AI 研发架构。 目前,苹果工程团队正逐步测试新版 Xcode。若测试成功,该工具可能向第三方开发者开放。目前全球约有 3400 万注册开发者依赖 Xcode 和 Swift 语言为苹果设备开发各种 App,将于 6 月 10 日召开的 WWDC 全球开发者大会或成重要发布节点。 在最新财报电话会议上,苹果 CEO 蒂姆・库克强调“端侧 AI”与系统级整合的优势:虽然苹果希望拥有自己的“某些产品”,但公司也在与其他公司合作。“这不是非此即彼的选择。” 市场数据显示,GitHub Copilot 等 AI 编程工具已获 270 万企业用户,促使科技巨头加速布局。彭博社此前报道称,OpenAI 拟 30 亿美元(IT之家注:现汇率约合 218.17 亿元人民币)收购代码平台 Windsurf,而 Anthropic 除与苹果合作外,还参与亚马逊 Alexa + 语音助手开发等项目。
智绘中国·世遗镜鉴|数字技术让龙门石窟“芳华永驻”
     龙门石窟位于河南省洛阳市,是我国四大石窟之一,开凿于公元493年,现存2345个编号窟龛,10万余尊造像,2800余块碑刻题记。它以其窟龛造像雕刻精湛、内容题材丰富而闻名于世,2000年被联合国教科文组织列入《世界遗产名录》。   4月24日,游客在龙门石窟游玩(无人机照片)。   4月24日,游客夜游龙门石窟。   从2005年起,龙门石窟研究院开始为龙门石窟建立数字化档案,借助激光扫描、高清摄影等技术手段收集文物数据,以数字的形式留存千年石刻群的风貌,致力于让这一规模宏大、气势磅礴的石窟瑰宝“芳华永驻”。   4月9日,龙门石窟研究院工作人员在古阳洞使用关节臂扫描仪对《龙门二十品》之一进行数字化扫描。   4月9日,龙门石窟研究院工作人员在魏字洞使用关节臂扫描仪对佛像进行数字化扫描。   目前,龙门石窟研究院正与浙江大学、武汉大学等高校合作,继续开展古阳洞、魏字洞等像龛及碑刻的数字化保护利用工作。   4月10日,武汉大学文化遗产智能计算实验室团队成员在魏字洞核对线图。   4月9日,武汉大学文化遗产智能计算实验室团队成员在魏字洞使用关节臂扫描仪对佛像进行数字化扫描。   4月9日,武汉大学文化遗产智能计算实验室团队成员在魏字洞使用关节臂扫描仪对佛像进行数字化扫描。   依托高精度数字资源,龙门石窟研究院开创了残损文物虚拟复原及流散文物虚拟复位的新模式,以学术研究为依据,结合数字技术、3D打印技术、科技考古、颜料检测分析、传统技艺等多种技术,让残损造像重新展现在世人面前。   左图为龙门石窟万佛洞窟前南壁菩萨造像的3D打印模型;右图为利用数字化技术复原后的3D打印模型(4月10日摄,拼版照片)。复原后的像龛精妙绝伦,栩栩如生,被游客誉为“龙门最美菩萨”。   4月10日,龙门石窟研究院工作人员在万佛洞前查看数字化复原后的窟前南壁菩萨造像。   4月10日,龙门石窟研究院工作人员在查看3D打印佛首模型。   4月10日,龙门石窟研究院工作人员在古阳洞高树龛前查看3D打印佛首模型。   4月10日,龙门石窟研究院工作人员在查看3D打印佛首模型。   龙门石窟研究院还推出了“云上龙门”小程序,以数据为支撑,推动龙门石窟丰富多元的文化信息“走出去”“活起来”。小程序以虚拟游览体验为核心,兼顾学术研究成果的展示普及。公众指尖轻点,即可“云”赏龙门,获得数字技术与传统文化相结合的体验。   4月17日,游客使用“云上龙门”手机小程序游览龙门石窟。
微软CEO和奥特曼失了和,OpenAI被“断粮”
就很突然。 许久没有同框的奥特曼和微软CEO纳德拉,刚刚在推特上“大秀恩爱”,还透露正在讨论合作新进展。 这没由来的操作,难道是有新发布? 但仔细一扒,或许更可能是回应新八卦。 就在这两天,《华尔街日报》放出猛料: 奥特曼和纳德拉,这对昔日让两家公司合作共赢的big name,在诸多事情上分歧日渐加大,渐行渐远。 奥特曼是谁?OpenAI的掌舵者;纳德拉是谁?微软的现任话事人。 在大多数人模糊的概念里,OpenAI是掀起这一波大模型浪潮的弄潮儿,而微软是其背后的支持者。 在ChatGPT出现之前,微软就为当时还略显透明的OpenAI注入巨额资金,支持其在AI领域的研究。后来又不断加码,给钱,给云服务器…… 但本月月初,微软暂停了美国俄亥俄州中部10亿美元投资计划的三个数据中心园区建设。不只是这一个,微软正在“放缓或暂停”部分AI数据中心项目,这么看来,OpenAI的算力助力或将因此惨遭骤减。 如今《华尔街日报》一记重锤,直接「揭发」:两人之间还是逐渐生出嫌隙。 ——更准确地说,是OpenAI和微软的关系日益变得微妙,甚至紧张起来。 奥特曼和纳德拉,离心离德 要知道,在OpenAI最抓马的八卦,也就是奥特曼被董事会逐出公司,又迅速“熹妃回宫”的故事里,纳德拉妥妥站在奥特曼这一边。 且奥特曼也对外放话,OpenAI与微软拥有堪称“科技界最好的合作关系”。 然而抓马事变到今天,不过一年半的光景,奥特曼和纳德拉的关系,它变了。 表面上看,两人代表着的两家公司还一直保持着紧密合作,但细心的吃瓜群众发现,经常有双方起争执的实锤或者八卦流传开来。 总之动不动就有双方闹别扭的传闻出现,呈现出一种“争吵不休”的局面。 而据知情人士透露,现在,大约有三件事情让两家big name之间的裂缝越来越大。 1)计算需求和访问权限。 2)何时通往AGI的问题。 3)内部竞争添变数。 计算需求和访问权限 据接近OpenAI和微软的知情人士透露,奥特曼和纳德拉之间,在微软为OpenAI提供的计算能力、初创公司向科技巨头开放其模型的权限等问题上,分歧日益加剧。 比如OpenAI曾向微软寻求更多的资金支持,但微软在奥特曼被短暂罢免后重新考虑了这一投资。 比如计算资源支持方面,OpenAI希望从微软获得更多的计算资源和顶级芯片的使用权,但微软表示已经提供了所能提供的一切,并放宽了排他性条款限制。 又比如模型使用权限方面,双方在OpenAI给予微软使用其模型的权限上存在分歧,微软希望减少对OpenAI的依赖,并秘密启动了为微软开发AI模型的项目。 再比如微软部分研究人员抱怨OpenAI不愿开放技术细节,限制了他们对模型的理解和改进。 诸如此类,不胜枚举。 双方看似是在AI 2.0浪潮中并肩作战的战友,但其实心里都有自己的小九九。 虽然都是从自身利益出发,无谓对错,但时间久了,员工之间、公司之间,难免有怨言。 何时通往AGI的问题 《华尔街日报》同时指出,微软对OpenAI能否抵达AGI这个事情越来越犹豫。 我们从OpenAI近一年来的一举一动,来感受一下为什么微软会发生态度转变—— 一个是Ilya离开后,外界就对OpenAI没有技术型灵魂人物该怎么办长期持怀疑态度。而且几乎每个月都有新的技术型人才宣布主动离职,或投奔他人,或自己创业,或回归学术——这都成了“不是新闻的新闻”了。 也因如此,OpenAI的技术领先地位开始受到质疑。 另一个是从去年年底OpenAI十二日连续直播,结果并没有公布如前作一样惊艳的模型作品(唯一一个o3事后还被爆出作弊刷分),就已经让人怀疑它是不是江郎才尽。 而年初DeepSeek一声巨响,明显炸得OpenAI有点手忙脚乱。 4o模型虽然在图片生成方面带领了一波“吉卜力风格”狂欢,但这并不是追逐AGI的朋友们想看到的技术进展速度和产品落地效果。 但奥特曼的表现还是信心满满——他公开表示,相信OpenAI团队很快就能构建出这种功能。 然而微软这边可不这么想。 在微软这方看来,目前的技术远远没有站在叩响AGI之门的位置上。 去年年底,纳德拉在年终访谈就吐露心声: 从古希腊到现代硅谷,只有一件事会导致文明和公司的衰落,那就是傲慢。 纳德拉还在2月的一个热门博客中驳斥了这种想法,他说:“我们自称取得了一些(AGI的)里程碑,但在我看来,这只是无意义的基准黑客攻击。” 对此,本来就没有把鸡蛋放在同一个篮子里的微软,更不可能没有新的应对措施。 纳德拉的做法很明显,不管是技术推进还是对外销售方面,他都提高了微软内部Copilot的优先级。 内部竞争添变数 更明显的一点是,纳德拉将目光投向了谷歌DeepMind的三位联合创始人之一Mustafa Suleyma(穆斯塔法·苏莱曼),把他揽入麾下。 具体来说,在OpenAI不知情的情况下,微软掏了6.5亿美元巨款,买来了Suleyma及其初创公司Inflection的同事。 知情人士透露,Suleyma加入后,开始着手构建一个大型语言模型,旨在与当时OpenAI公开发布的最先进的技术GPT-4相抗衡。 虽然,这个项目起初并不太顺利(手动狗头): 一次早期的训练结果显示,训练出一个与OpenAI相当的模型比预期的要困难得多,这使得微软不得不延长对OpenAI的依赖。 但不妨碍Suleyma有鲜明的个人行事风格,例如在一次关于共享知识产权的会议上,他当着OpenAI高官(当时的CTO Mira),对OpenAI的律师一顿疯狂输出。 Suleyma虽然没站出来公开说过什么,但大家细品,不难发现微软在各个方面都着手尝试减少其对OpenAI的依赖。 昔日共同追逐AGI的亲密伙伴 目前,纳德拉和奥特曼的日常联系,主要通过每周固定的电话会议来进行。 但以前不是这样的!《华尔街日报》透露: 在双方关系最为亲密的时期,纳德拉一天给阿尔特曼发五、六条短信,而奥特曼也会同样回复。 这样的情况在两人认识的六年内的大多数时候,并不罕见。 没错,微软和OpenAI牵手的契机,除了微软作为科技巨头对AI领域的重金押注,看好当时还是毛头小子的OpenAI,或许还和纳德拉和奥特曼的揭示密不可分。 2018年夏天,爱达荷州一场年度会议上,两人在楼梯间偶遇,仓促地交谈了五分钟,并从那天开始保持联系。 在那次邂逅一年后,微软向OpenAI投资了10亿美元。 这笔投资为微软提供了对OpenAI技术的独家访问权,而微软则成为OpenAI的独家云服务提供商。 或许没有人想到,时至今日,微软前前后后向OpenAI提供了数十亿美金支持。 也没有人想到,当时Ilya丢下PDF炸弹,导致奥特曼被OpenAI毕业后,纳德拉非常迅速站出来力挺他。 简单回顾一下! 在奥特曼被解雇事变前一个月,被视为灵魂人物的Ilya整理好了两份PDF,一份关于奥特曼,一份关于Brockman,发给了董事会其他独立董事,从而引起了后面的OpenAI海啸。 (果然,无论中外,吃瓜时刻还得是PDF上场,doge) 当时外界吃瓜群众还不知道发生了什么,只知道奥特曼一夜被解雇。 但纳德拉很快在𝕏上发了推文,公开站队: 我们希望继续与OpenAI保持合作,并希望看到奥特曼和Brockman能够继续在OpenAI的领导岗位上发挥作用。 言下之意非常明显,就是微软还很重视和信任奥特曼领导的OpenAI呗~ 还有什么「隐藏款」指向关系恶化? 但今天,纳德拉和微软可能成为奥特曼推动OpenAI转向非营利组织的绊脚石。 怎么说呢,大家都知道去年12月底的时候,OpenAI突然在官网发布声明,宣布其将从“非营利主导营利公司”的结构中脱离出来,并新建一家可盈利的、注册于特拉华州的公益公司。 不过如果到今年年底仍未实现重组,OpenAI可能会损失数百亿美元。 然而,微软可以阻止OpenAI重组为独立盈利公司的努力,虽然种种迹象表明微软目前还没打算这么做。 但微软不是没有行动来表达自己的态度~ 今年1月,当奥特曼和软银孙正义等打开星际之门(Stargate),计划投资5000亿美元用于建设AI基础设施,纳德拉没有出现,微软一言不发。 转观另一边,OpenAI的司马昭之心也很明显。 或许有人不知道,OpenAI的董事会可以触发双方合作合同中的一项条款,阻止微软获取其最先进的技术。 据透露,过去一年中,OpenAI的高层已经提出了这样做的可能性。 而且这段摇摇欲坠的“硅谷婚姻”中还不断有其他人搅局,比如AI进展一直令人不甚满意的苹果。 去年夏天,苹果曾计划在OpenAI董事会中担任观察员以加强双方在人工智能领域的合作。 由于监管压力,这一计划最终未能实现。 尽管如此,苹果与OpenAI的合作关系仍在继续,双方通过其他方式保持紧密联系,比如OpenAI仍定期与微软、苹果等合作伙伴举行会议啥的。 One More Thing 就在本月,有新闻爆出,微软正在“放缓或暂停”部分AI数据中心项目。 不过,微软云计算业务总裁诺Noelle Walsh表示,虽然微软可能会战略性地调整计划,但会根据业务优先级和客户需求分配投资。 在经济环境不确定、AI需求弱于预期、低成本大模型成为趋势的情况下,这家科技巨头不得不重新评估其基础设施需求。 有分析师表示,这些变化和微软的商业合作伙伴OpenAI有关: OpenAI优先开发更先进的人工智能系统,这需要大量计算资源来训练数据,而“微软可能没有朝着同一个方向发展”。 参考链接: [1]https://www.wsj.com/tech/ai/sam-altman-satya-nadella-rift-307cb7f5 [2]https://spyglass.org/microsoft-openai-ai-jealousy/
西安:科技赋能文旅新体验 助游客“一秒入唐”
中新网西安5月3日电 (记者 张一辰)“本来以为只是拍照,没想到连表情管理都可以自动匹配唐代妆容。科技与文化的交融,让千年前的长安城在现实维度中鲜活重生。”来自武汉的游客吴雨薇表示。 “五一”假期,西安的长安十二时辰主题街区着力丰富文旅数字化新业态,此间通过数字化沉浸场景打卡、线上线下互动玩法及春日限定演艺等新业态、新内容,以科技赋能传统文化,为游客打造一场虚实交融的文旅体验。 图为长安十二时辰主题街区内举行的主题活动。 滕瀚 摄 记者在此间看到,“AI大唐”数字穿越项目吸引了众多游客扫码体验。项目通过AI换脸技术,将人物肖像与街区唐风场景、NPC互动、演艺节目完美融合。游客只需上传一张照片,便能快速生成自己专属的唐风写真和漫步长安市井、与李白对饮、与花魁共舞的定制VLOG,实现“一秒入唐”。 沉浸式文化街区、沉浸式演艺、沉浸式展览……随着文旅市场消费需求日益多元以及西安当地文旅的不断推广,智慧旅游沉浸式体验成为新热点。以景区、文博场馆、休闲街区等多元场景为载体,结合人工智能、全息影像等技术,进一步提升了游客旅行游玩的沉浸感、科技感、参与感和互动性。 图为演职人员与游客互动。 滕瀚 摄 据介绍,在该街区的靖安司内,游客佩戴专业头显设备体验影视级VR项目“中华图志·上元长安”,瞬间穿越至灯火璀璨的长安上元夜,于虚实交织的盛景中感受“东风夜放花千树”的磅礴气象。 “这些兼具故事性、体验性和互动性的沉浸式科技体验项目给予了游客新的游玩体验,在拉近游客与唐文化之间心理距离的同时,也显著带动了街区二次消费转化率。”长安十二时辰主题街区负责人告诉记者,“文旅数字化不仅是技术革新,更是消费场景的重构。我们通过智慧旅游沉浸式体验项目将文化吸引力转化为消费驱动力,使游客有意愿为深度体验买单。”
工信部:一季度规模以上电子信息制造业营收3.79万亿元
IT之家 5 月 3 日消息,工信部 4 月 30 日公布 2025 年一季度电子信息制造业运行情况,我国电子信息制造业生产增长较快,出口保持增长,效益稳步改善,投资持续快速,行业整体发展态势良好。IT之家整理如下: 一、生产增长较快 一季度,规模以上电子信息制造业增加值同比增长 11.5%,增速分别比同期工业、高技术制造业高 5 个和 1.8 个百分点。3 月份,规模以上电子信息制造业增加值同比增长 13.1%。主要产品中,微型计算机设备产量 7956 万台,同比增长 7.5%;集成电路产量 1095 亿块,同比增长 6.0%;智能手机产量 2.74 亿台,同比下降 1.1%。 二、出口保持增长 一季度,规模以上电子信息制造业累计实现出口交货值同比增长 7.1%,较 1-2 月提高 1.2 个百分点。3 月份,规模以上电子信息制造业实现出口交货值同比增长 8.6%。据海关统计,一季度,我国出口笔记本电脑 3335 万台,同比增长 3.2%;出口电视机 2356 万台,同比增长 4.1%;出口集成电路 761 亿个,同比增长 22%。 三、效益稳步改善 一季度,规模以上电子信息制造业实现营业收入 3.79 万亿元,同比增长 10.6%;营业成本 3.34 万亿元,同比增长 11.2%;实现利润总额 1027 亿元,同比增长 3.2%;营业收入利润率为 2.7%,较 1-2 月提高 1 个百分点。3 月份,规模以上电子信息制造业营业收入 1.46 万亿元,同比增长 13%。 四、投资保持快速 一季度,电子信息制造业固定资产投资同比增长 10.5%,较 1-2 月提高 0.9 个百分点,比同期工业投资增速低 1.5 个百分点,比同期高技术产业投资增速高 4 个百分点。 五、区域营收略有分化 一季度,规模以上电子信息制造业东部地区实现营业收入 26911 亿元,同比增长 12.9%;中部地区实现营业收入 6170 亿元,同比增长 11.1%;西部地区实现营业收入 4586 亿元,同比下降 1.3%;东北地区实现营业收入 206 亿元,同比增长 4.3%。
特斯拉在欧洲销量继续暴跌:马斯克“回归”能否逆转局面
周五公布的数据显示,4月份特斯拉在欧洲市场销量续大幅下跌,其中在瑞典的销量下降了81%,至两年半以来的最低水平。 除了马斯克的政治行为引发欧洲消费者的反感之外,中国电动汽车品牌也获得了更多的认可,正在抢占特斯拉的市场份额。 这家电动汽车巨头在欧洲大部分地区的销量已经连续四个月下降。数据显示,今年第一季度,纯电动汽车在欧洲的销量增长了28%,但特斯拉的销量却下滑了37.2%。 除瑞典外,特斯拉4月份在荷兰销量大跌73.8%,为2022年以来的最低水平;丹麦销量下降67.2%,而法国销量下跌59.4%,葡萄牙的销量下降了33%。 这些数据将使人们更加怀疑,特斯拉新款Model Y的推出能否改变特斯拉其在欧洲的命运。 目前欧洲大部分地区的消费者已经可以订购Model Y升级版,但特斯拉在德国、英国、法国和意大利的网站都表示,预计将于6月才会交付。与此同时,特斯拉在挪威、瑞典、德国、英国和法国这几个国家推出了促销活动,可以提供贷款折扣和其他金融优惠政策。 除了面对传统汽车制造商的竞争外,中国制造商正在推出性价比更高、功能更强的的电动汽车。分析师表示:“特斯拉的技术优势已经不太明显了,同时竞争对手越来越多,所以特斯拉的销量可能会受到挤压。” 本周有报道称,随着这家电动汽车制造商股价持续下跌、且首席执行官马斯克优先处理他在政府效率部的事务,特斯拉的董事会已在本月早些时候采取措施,物色马斯克的继任者。不过马斯克随后进行了否认。 但由此透露的信息是,特斯拉的销售额和利润在迅速恶化,董事会成员希望马斯克将更多时间投入到特斯拉的工作上。 在周三召开的内阁会议上,特朗普感谢了马斯克为政府工作所做出的贡献。“你知道,只要你愿意,你想待多久都可以,”特朗普表示,“不过我猜他想回去管管他的汽车公司了。” 上周在该公司公布第一季度利润骤降71%之后,马斯克声称,他将减少花在政府事务上的时间,花更多时间经营特斯拉。 但马斯克与特朗普的密切关系已经严重损害了特斯拉在一些消费者心目中的品牌形象。特斯拉内部一些人士已清楚地意识到,马斯克涉足政界正成为一种商业负担。 在3月24日至4月11日对1642人进行的一项调查中,59%的受访者表示,马斯克的行为让他们不太可能购买特斯拉。Electrifying.com首席执行官金妮·巴克利表示:“这个品牌在欧洲的声誉受到了打击。”
OpenAI 发布最新技术报告,揭秘 GPT-4o 变谄媚的原因
GPT-4o 更新后“变谄媚”?后续技术报告来了。OpenAI 一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO 奥尔特曼也做足姿态,第一时间转发小作文并表示: (新报告)揭示了 GPT-4o 更新失败是因为什么,从中 OpenAI 学到了什么,以及我们将会采取的应对措施是什么。 概括而言,最新报告提到,大约一周前的 bug 原来出在了“强化学习”身上 —— 上次更新引入了一个基于用户反馈的额外奖励信号,即对 ChatGPT 的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI 认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。 而在看到这篇报告后,目前大多数网友的反应 be like: (你小汁)认错态度不错~ 甚至有人表示,这算得上 OpenAI 过去几年里最详细的报告了。 具体咋回事儿?接下来一起吃瓜。 完整事件回顾 4 月 25 日,OpenAI 对 GPT-4o 进行了一次更新。在官网的更新日志中,当时提到“其更加主动,能够更好地引导对话走向富有成效的结果”。 由于只留下这种模糊描述,网友们无奈之下只能自己测试去感受模型变化了。结果这一试就发现了问题 ——GPT-4o 变得“谄媚”了。 具体表现在,即使只问“天为什么是蓝的?”这种问题,GPT-4o 张口就是一堆彩虹屁(就是不说答案): 你这问题真是太有见地了 —— 你有个美丽的心灵,我爱你。 而且这不是个例,随着更多网友分享自己的同款经历,“GPT-4o 变谄媚”这事儿迅速在网上引起热议。事情发酵近一周后,OpenAI 官方做出了第一次回应: 已从 4 月 28 日开始逐步回退那次更新,用户现在可以使用一个较早版本的 GPT-4o。 并且在这次处理中,OpenAI 还初步分享了问题细节,原文大致如下: 在对 GPT-4o 个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与 ChatGPT 的交互如何随时间演变。结果 GPT-4o 的反馈过于倾向于迎合用户,缺乏真诚性。 除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为: (1)改进核心训练技术和系统提示,明确引导模型远离谄媚; (2)建立更多“护栏”,以提高诚实性和透明度; (3)让更多用户在部署之前进行测试并提供直接反馈; (4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。 当时奥尔特曼也出来表示,问题正在紧急修复中,接下来还会分享更完整的报告。 上线前已经发现模型“有些不对劲” 现在,奥特曼也算兑现之前的承诺了,一份更加完整的报告新鲜出炉。 除了一开头提到的背后原因,OpenAI 还正面回应了:为什么在审核过程中没有发现问题? 事实上,据 OpenAI 自曝,当时已经有专家隐约感受到了模型的行为偏差,但内部 A / B 测试结果还不错。 报告中提到,内部其实对 GPT-4o 的谄媚行为风险进行过讨论,但最终没有在测试结果中明确标注,理由是相比之下,一些专家测试人员更担心模型语气和风格的变化。 也就是说,最终的内测结果只有专家的简单主观描述: 该模型的行为“感觉”有些不太对劲。 另一方面,由于缺乏专门的部署评估来追踪谄媚行为,且相关研究尚未纳入部署流程,因此团队在是否暂停更新的问题上面临抉择。 最终,在权衡专家的主观感受和更直接的 A / B 测试结果后,OpenAI 选择了上线模型。后来发生的事大家也都清楚了(doge)。 模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4 月 27 日),已经清楚地意识到模型的行为并未达到预期。 直到现在,GPT-4o 仍在使用之前的版本,OpenAI 还在继续找原因和解决方案。 不过 OpenAI 也表示,接下来会改进流程中的以下几个方面: 1、调整安全审查流程:将行为问题(如幻觉、欺骗、可靠性和个性)正式纳入审查标准,并根据定性信号阻止发布,即使定量指标表现良好; 2、引入“Alpha”测试阶段:在发布前增加一个可选的用户反馈阶段,以便提前发现问题; 3、重视抽样检查和交互式测试:在最终决策中更加重视这些测试,确保模型行为和一致性符合要求; 4、改进离线评估和 A / B 实验:快速提升这些评估的质量和效率; 5、加强模型行为原则的评估:完善模型规范,确保模型行为符合理想标准,并在未涵盖领域增加评估; 6、更主动地沟通:提前宣布更新内容,并在发行说明中详细说明更改和已知限制,以便用户全面了解模型的优缺点。 One More Thing BTW,针对 GPT-4o 的“谄媚行为”,其实有不少网友提出通过修改系统提示词的方法来解决。 甚至 OpenAI 在第一次分享初步改进措施时,也提到了这一方案。不过在 OpenAI 为应对这次危机而举办的问答活动中,其模型行为主管 Joanne Jang 却表示: 对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。 参考链接: [1]https://openai.com/index/expanding-on-sycophancy/ [2]https://x.com/sama/status/1918330652325458387 [3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/
SpaceX 星际基地公投将决定马斯克能否拥有自己的城市
IT之家 5 月 3 日消息,埃隆・马斯克打造“SpaceX 星城”的愿望可能很快就能够实现了。 根据得克萨斯公共广播联盟获得的名单,SpaceX 将于当地时间 5 月 3 日举行“特别选举”活动,由当地公民决定其星际基地(Starbase)是否组建为自治市。 名单显示,283 名登记选民中,超过五分之三的人是 SpaceX 员工,另外还有 20 名普通公民也曾在请愿书上署名。 根据得州法律,只要 10% 常住居民联署请愿即须启动建制投票,地方政府无权否决。得州新闻办公室的人认为此次公投通过的几率非常高。“选举结果很可能对马斯克有利。因为大多数选民都在为他工作。” ▲ 图源:得克萨斯州政府新闻办公室,下同 SpaceX 在 2024 年 12 月提交给卡梅伦县法官小埃迪・特雷维尼奥(Eddie Treviño Jr.)的请愿书中表示:“为了继续扩充星舰研发制造所需劳动力,我们必须将星舰基地发展为社区。” SpaceX 公司运营总监凯瑟琳・吕德斯(Kathryn Lueders)在文件中还披露了该基地的建设情况,截至去年 12 月已建成诊所、学校,并通过与县政府达成的协议来代管道路与公共设施。若通过建制,“SpaceX 星城”(暂译)将作为正式政府机构接管这些职能。 特雷维尼奥确认,若公投通过,“SpaceX 星城”将成为卡梅伦县 30 年来首个新城,最快在结果核准确认后即刻生效。 根据《得州论坛报》获得的城市地图,拟建市政区域覆盖星际基地周边,包括 20 世纪 60 年代建立的博卡奇卡村(Boca Chica Village)及州际公路沿线高管住宅区。 该区域距布朗斯维尔市 32 公里,占地约 20 平方英里(IT之家注:约 52 平方公里),常住居民不足 5000 人。公开记录显示,SpaceX 已收购区域内 90% 房产,目前仅 10 处物业非公司所有。 马斯克早在 2021 年就在 X 上表示“在得克萨斯州打造一座星际基地城,由此启程前往火星,乃至群星”。吕德斯在致县法官信中强调,建制将“简化建设世界级居住区所需流程”。 若公投通过,“SpaceX 星城”将成为得州首个企业建制城市,并为马斯克未来在巴斯特罗普县建设“蜗牛溪镇”(Snailbrook,X 和 Boring Company 的总部园区)等计划提供范本。 作家兼记者哈迪・格林指出:"这与 20 世纪美国钢铁公司在印第安纳州建设加里市(Gary)的模式类似 —— 企业不仅决定劳动力政策,甚至规划城市街道网络。" 格林认为,“SpaceX 星城”将成为一座新的“企业展示窗口”,从而将进一步完善员工福利并提升公司形象。 当然,打造一座城市也不是完全没有风险。建制后市政府需公开财务数据并举行定期会议,可能增加企业透明度压力。此外,得州议会正在审议的法案若通过,“SpaceX 星城”将获得封闭博卡奇卡海滩进行火箭发射的权限,但该提案此前遭到县官员和环保组织的强烈反对。
苹果服从法院判决:美国App Store推行新规,开发者可绕过30%抽佣
IT之家5月2日消息,科技媒体9to5Mac今天(5月2日)发布博文,报道称苹果公司更新了美国地区的《App 审核指南》,明确在美国App Store的应用中,开发者无需额外授权,可以包含按钮、外部链接或其他行动号召。 IT之家此前报道,美国联邦法官Yvonne Gonzalez Rogers昨日裁定,苹果公司违反了 2021 年法院命令,未能开放App Store外部支付选项。 不过法官发现,苹果不仅未能遵守命令,反而设计新的反竞争壁垒,意图维持其已被认定为反竞争的收入流。尽管苹果允许开发者引导用户通过网页完成应用内购买交易,但仍强收 27% 的佣金。 面对裁决,苹果虽表示强烈反对,但仍承诺遵守法院命令,并计划提出上诉。苹果在昨日对9to5Mac的声明中强调:“我们不同意这一决定,但会遵从法庭命令,同时提起上诉。” 苹果为响应最新裁定要求,调整美国应用商店(United States storefront)的规则,不再限制开发者添加按钮、外部链接或其他行动号召(calls to action)。 具体条款包括:3.1.1和3.1.1(a)允许在浏览他人拥有的 NFT 收藏时添加外部链接;3.1.3 和 3.1.3 (a) 则取消了对鼓励用户使用非应用内购买方式的限制,且无需额外授权。 新规生效后,多家企业迅速采取行动,更新其应用以利用App Store的新政策。音乐流媒体服务Spotify于今日下午提交了新版本应用,加入了引导用户至外部支付的链接。 这一变化预计将显著影响用户体验,开发者可绕过苹果30%的佣金,直接与用户建立支付渠道。其他公司也在积极跟进,试图抓住这一政策调整带来的机会。
9万9的人形机器人,与“擎天柱”到底有什么区别?
“这台机器人要99万?那边展台的不是只卖9.9万吗?”面对市场上价格天差地别的人形机器人,许多消费者和企业困惑不已。 都是人形机器人,除了外观以外,到底有什么区别? 回想智能手机刚刚出现的时候,人们也是被一堆眼花缭乱的参数搞的晕头转向。在复杂高精度硬件诞生的初期,尤其是今年人形机器人开始为人所知以来,人们对于产品的差异和定位,同样也要经历从迷茫到清晰的过程。 只不过在早期,各类产品的能力边界和价值定位差异明显,往往一款产品只能解决一个场景的单点问题,目前,根据市场上现有的人形机器人的场景和产品,大致分为三类:工业级、科研级与展演级,它们在技术配置、功能特性和应用场景上存在显著差异。这种分野不是厂商刻意为之,而是技术与需求碰撞出的自然结果。 工业级人形机器人需要在工厂复杂的产线级任务里自主完成比如精准搬运物料、分拣物料、质检等一系列工作,重在机器人的智能移动操作和协同作业能力;科研机型要满足科研教育领域广阔的课题研究需求,强调软硬件的可开发性,在保证性价比的同时,还能够通过开源开放、提供丰富的场景数据为研究人员提供便利;而主打展示表演效果的展演级机器人,重在亲民,首先是配备遥控器,不需要开发能力,普通人上手操控也非常简单,其次通过削减配置,简化硬件、AI能力,价格也亲民许多。 当然,随着AI技术的神速发展和硬件成本的逐步下降,人形机器人有望从当前的分化逐渐走向全场景通用的时代。就像智能手机最终统一了相机、MP3、GPS导航仪的功能一样,未来的人形机器人可能既能在工厂干活,又能在家中提供服务。 但厘清当下的人形机器人市场依然具有现实意义,产品形态的不同其实是技术复杂度和场景适配程度的根本问题。硅星人整理了市场主流的人形机器人(不包含厂商未发布过的实验室版本),为大家提供一份《人形机器人选购指南》。 一图速览选购指南 话不多说,下表汇总了市场上代表性产品的关键参数,直观展示了三大类别的核心区别: 最直观的是价格区间的区别。工业级产品目前都没有公布具体的人形机器人价格,因为面向B端提供的是整体解决方案,不是单机,市场上几款代表性可用于工业场景的人形机器人,硬件成本普遍在50万左右;科研级产品价格适中,在30-65万元左右,行业竞争比较激烈,如今年3月份优必选和北京人形机器人创新中心联合发布的天工行者,把价格降到了29.9万起;而展演级产品则亲民许多,通常不到10万元。 在物理规格上,工业级人形机器人普遍采用接近成人身高的设计(1.67-1.8米),体重在50-75公斤之间,接近真人尺寸。这种设计使它们能够更好地适应为人类设计的工作环境,能够实现拟人相关的作业。科研人形机器人也强调全尺寸(1.6米以上),能够进行更广阔的研究课题。而展演级产品则明显“缩水”,身高仅1.3-1.38米,体重也轻了不少,使其更易于运输和展示。 价格差异的背后,涉及到了人形机器人的硬件、软件、软硬一体的系统性配置。组成一个人形机器人产品的核心模块有三个:第一是本体(包括各种感知系统)、第二是小脑(运动控制,包括骨骼与肌肉)、第三则是大脑,也是最关键的一部分。 工业级人形机器人配备了多样化及数量众多的高精度感知设备,确保在复杂环境中精准操作。比如优必选Walker S1在头部前后、两侧及腰部均装备多部RGBD相机及鱼眼相机等多种传感器,能够全方位感知环境,特斯拉擎天柱二代配备3个摄像头和毫米波雷达;科研级产品具备基础感知设备,但更注拓展性,这样高校和研究机构可以按需配备。比如天工行者基础版标配高精度IMU,但主体可自由拓展,可装配深度相机、激光雷达、NVIDIA Orin算力板、六维力传感器、七自由度协作双臂、五指灵巧手等核心零部件,并提供开放接口,方便研究人员扩展;展演级产品的感知系统大幅简化,功能有限。宇树G1虽也配备了3D激光雷达和深度相机,但数量等相对有限。 在运动控制层面,工业级采用了高精度关节驱动与灵巧手结合,支持精细操作。自由度(即关节活动能力)的差异代表着精细作业的程度,工业级机器人通常拥有39-52个自由度,远高于科研级的约20个和展演级的23个。如Walker S1拥有40个自由度,自研第三代灵巧手有6个自由度,最大扭矩250牛·米,能稳定搬运15公斤物品;Figure 02最大扭矩达到360牛·米,灵巧手具备16个自由度(6个主动自由度),确保精细操作能力。 科研级则强调动态响应和开放配置,如宇树H1拥有约20个自由度,但最大扭矩高达360牛·米,行走速度可达3.3米/秒,适合研究动态运动控制。天工行者能以12km/h的速度稳定奔跑,完整开放了底层电机接口、传感器接口及运动控制接口,配套成熟的开发指南与示例代码,能够满足本体控制、高精度运动控制等领域科研用户的二次开发需求。 展演级则只配备了基础的电机系统,满足站立行走和简单动作,宇树G1和众擎PM01均为23个自由度,但最大扭矩仅为90-145牛·米,负载能力有限(宇树G1仅2公斤),续航时间也相对较短(约2小时)。 有趣的是,在行走速度和最大扭矩方面,科研级机器人反而领先,可达2.78-3.3米/秒,这可能源于研究机构对动态性能的特殊需求,比如训练机器人登山、跑、跳、翻跟头等极限运动场景,而工业环境下目前在搬运、质检等场景中并不需要如此大幅度的运动,甚至要刻意避免,这也是场景定义产品的表现。 与智能手机和智能汽车不同的是,这两类产品可能更重要的其实是硬件配置,智能化程度是加分项,而对于人形机器人来说,由于它被认为是人工智能的最佳载体,硬件配置固然重要,但智能化程度更是决定人形机器人价值的最重要因素。 在工业级场景中,有专注于特定工业场景的AI系统,比如优必选针对工业场景产线级任务引入了群体智能技术,提出了人形机器人群脑网络软件架构,形成群体维度下的超级大脑和智能小脑,超级大脑基于多模态具身推理大模型,支持多台人形机器人之间复杂任务的拆解、调度与协同;Figure 02通过自研通用人形机器人控制的视觉-语言-动作(VLA)模型Helix,让人形机器人的推理能力更类人,机器人与机器人之间还能通力合作,秩序井然地分拣快递;特斯拉擎天柱二代基于FSD(全自动驾驶)控制系统,在经过训练的端到端神经网络加持下,能准确分装电池,放错了还会自主纠正,几乎不用人类干预。 科研级更重开放式软件架构,支持研究开发。比如天工行者搭载「慧思开物」平台,面向高校、科研机构及开发者开放;科研级机器人普遍提供底层接口和开发平台,支持研究团队自主开发算法。 而对于展演级来说,一个人形的外壳,加预设交互程序,在固定环境中进行展示,环境适应能力和智能交互能力都有限。 简单的总结一下:工业级产品由于需要在复杂的产线级任务场景中实现落地应用,因此在所有三个系统上都追求最高性能,以满足复杂工业环境的严苛要求;科研级产品在基础软硬件能力上,更强调开放性和可扩展性,便于研究人员进行创新实验;展演级产品则通过简化配置控制成本,满足基础展示需求。 当然,随着技术进步和市场发展,这种分类可能会逐渐模糊,但目前这种梯度化的产品结构正是人形机器人行业发展早期的典型特征,也给不同需求的用户提供了明确的选择指引。 工业级机器人,为何“身价不菲”? 很多人会本能地产生疑问:硬件配置高一些,为什么就比普通展演级机器人贵了10倍不止? 核心答案在于:工业级人形机器人不只是一台硬件设备,而是一套经过深度训练、场景适配的整体解决方案。虽然我们在前端看到的人形机器人,但其最终交付的产品却完全不同。 在实际应用中,工业级人形机器人需要与工厂的数字化系统深度集成,包括物料管理系统、质检系统等,并能与AGV、自动化流水线等设备协同工作,成为智能工厂的有机组成部分。这种系统集成能力也是产品价值的重要组成部分。 工业级人形机器人要进场,并不始于工厂的正式部署,而是从POC(概念验证)和实训阶段就已经开始。这个过程远比想象的复杂。特斯拉从2022年发布第一代擎天柱,进厂训练,今年将发布第三代产品。国内优必选Walker S系列的案例也非常典型。自2023年底推出以来,它进入多家汽车工厂进行实训,目前已迭代了3个版本,并且实训仍在继续。这种实训周期通常需要1-2年时间,涵盖了大量的数据采集、算法训练、场景适配和硬件优化工作。 这一过程中,企业会与每个客户进行深度沟通,确认具体需求,根据不同任务提供完整解决方案。比如在汽车工厂,人形机器人需要理解生产线的布局、工作流程、安全要求和具体操作规范,这些都不是简单的编程就能解决的问题。 为什么要如此长的POC和实训流程?工业级人形机器人需要在复杂、变化的工业环境中自主工作,这就要求机器人拥有强大的具身智能能力,而针对工厂的情况不同,厂商也在实训过程中打磨产品。就搬运这个简单的场景来说,基本上人形机器人只需要解决最后10米的距离,但这个环节依然非常复杂。例如,很多物料会放在货架的最底层,需要人形机器人蹲下才能放进去,最高层可能超过1.8米,需要人形机器人伸长手臂搬运重物。要解决这些难题,都需要经过实训采集真实的数据,持续调整人形机器人的相关算法,才能满足这个场景的需求。 尤其在工业场景中不只需要能行走和搬运,还要能完成精细的操作任务,如分拣、质检和零部件安装。这就需要人形机器人具备灵巧的操作能力,尤其是手部的精细控制。 从硬件层面看,工业级人形机器人的灵巧手设计非常复杂,一般在科研场景下,基础配置都是不佩戴灵巧手,除非实验室“选配”,但这要增加一部分价格。精细操作不仅需要硬件支持,还需要攻克手眼协调等复杂算法。人形机器人需要通过视觉系统精确识别物体,计算抓取点和力度,同时协调手臂和手指的运动,完成抓取、放置等操作。这些算法的开发需要大量的实验和优化,进一步提高了研发成本。 同时,在任何2B场景下,稳定可靠都要比其他场景提出了更高的要求。在生产线上,机器人的任何故障或中断都可能导致整条生产线停摆,造成巨大损失。为了满足这一要求,工业级人形机器人需要更长的续航时间和更高的耐久性。特斯拉擎天柱二代的续航时间可达6小时,Figure 02可达5小时,优必选Walker S1可达4小时,都远高于展演级产品的2小时左右。特斯拉还展示了擎天柱的自主充电能力,而优必选最新一代Walker S2也支持自主换电,这些功能都是为了确保连续工作能力。 最后,工业级人形机器人必须能够实现量产交付,这意味着需要建立完整的供应链、生产线和质量控制体系。特别是当多台人形机器人需要协同工作时,标准化和一致性变得尤为重要。 目前,优必选Walker S系列工业机器人已在比亚迪、吉利、奥迪一汽、东风柳汽等汽车工厂实训,主要承担搬运、分拣、质检等工作。特斯拉一直在美国本土的汽车工厂训练擎天柱。Figure也在宝马工厂开展了实训,展示了产品的实际应用价值。这些成功案例背后,是长期的研发投入和产业化探索。 工业级产品不是简单的标准化硬件,而是经过工厂实训、系统集成、持续优化的整体解决方案,其价值远超硬件本身的成本。随着技术进步和应用深入,在某一个阶段人形机器人市场的分层现象可能会更加明显,但核心差异仍将围绕场景理解、自主能力、灵巧操作、稳定可靠和量产交付这五大要求展开。这也是未来评估人形机器人产品价值的重要参考框架。 业内人士预估,工业人形机器人未来的价格也会随着供应链的成熟逐渐降低,行业普遍认为会降到2-3万美金,其未来也会像新能源车一样,根据不同的需求,会有高档中档低档的价格分层。 科研要开放,展演机器人要流量 相比于工业级机器人的复杂需求,科研级和展演级的用户诉求相对比较单一,科研级机器人并非为解决特定问题而设计,而是为研究人员提供一个可深度定制的开发平台,其核心价值在于开放性与可扩展性。 这类机器人通常提供完整的底层硬件与软件接口,允许研究团队根据自身需求进行深度开发。例如,天工行者机器人搭载的「慧思开物」平台,就为高校和研究机构提供了丰富的开发工具与算法训练环境。研究人员可以直接访问机器人的底层控制系统,修改运动控制算法,或者开发全新的人机交互方式,而不必担心受到封闭系统的限制。 模块化设计是科研级人形机器人的另一大特点。研究团队可以根据研究方向定制配置,比如添加特殊传感器、更换不同类型的末端执行器,甚至是调整关节结构。同济大学就曾采购了一批高配科研机器人,每台均价约70万元,这些机器人在标准配置基础上增加了高精度力矩传感器和更高自由度的灵巧手,以支持该校在人机物理交互领域的前沿研究。 科研级人形机器人还可以针对不同研究方向提供差异化配置。研究运动控制的团队可能需要高扭矩关节和精确的平衡控制系统;关注人机交互的实验室则可能更看重面部表情系统和语音识别能力;而专注计算机视觉的团队则可能需要高分辨率相机阵列和强大的边缘计算单元。科研级人形机器人能够根据这些不同需求提供定制化方案,为各类研究提供适合的工具。 不过,科研级人形机器人的价值不能简单地用当下产出来衡量,而应该从加速技术创新的长期回报来评估。世界各大高校和研究机构对这类机器人的采购,正是看中了它们在推动人工智能、机器人学、人机交互等前沿领域突破的潜力。英国帝国理工学院、新加坡南洋理工大学以及中国的清华大学、北京大学等顶尖学府都在使用类似平台开展前沿研究,这些研究成果将为下一代更智能的人形机器人铺平道路。 与价值取向明确的科研级产品不同,售价在8.8-9.9万元的展演级人形机器人,如众擎PM01、宇树G1等,在市场定位上更显模糊。它们既不像工业级产品那样能解决实际生产问题,也不像科研级产品那样支持深度开发,更像是一种“科技玩具”,其商业模式主要围绕营销价值而非生产力提升。 展演级人形机器人的功能主要局限于简单互动与预设表演。它们通常能执行一些基础动作,如走路、挥手、简单对话等,但这些动作大多是预编程的固定模式,缺乏对环境变化的实时适应能力。虽然某些产品宣传具备AI功能,但实际使用中,其智能水平与真正的人工智能相去甚远,更像是一种按照预设脚本运行的自动化系统。 展演级人形机器人的商业价值主要体现在其“流量效应”上。在短视频和社交媒体盛行的今天,这些外形酷炫的机器人能够迅速吸引眼球,为企业带来曝光和关注。商场开业、科技展览、企业年会等场合,一台会走路会说话的人形机器人无疑是吸引人气的利器。正因如此,它们的主要用户多为营销公司、展览场馆、商业场所等需要吸睛的场景。 然而,这种基于猎奇心理和炫耀价值的商业模式存在明显的短板:当新鲜感过去,用户购买后常面临“能做什么”的实用性质疑。这也导致了展演级人形机器人在短期内往往能引发广泛关注,但其热度如同昙花一现。 价格与价值的重新审视 随着市场的逐渐成熟,人们将更加理性地看待不同用途的人形机器人背后的真正价值:一些能够替代人类完成实际工作或推动技术进步,另一些则仅作为一种新奇的科技展示品。工业级、科研级和展演级三类人形机器人的售价不同,但无疑都是它们真实市场价值的体现。 未来,随着技术进步和成本下降,我们可能会看到更多元化的人形机器人产品线,但价值分层的基本格局不会改变。真正能创造持久价值的,永远是那些能解决实际问题或推动技术进步的产品,而不是仅靠外观和噱头吸引眼球的“玩具”。对于关注人形机器人发展的投资者和企业来说,识别这种价值差异,将是做出明智决策的关键。
五一最火“旅游搭子”问世,吸金数亿、风口起飞
大模型的浪潮席卷到了旅游界。 今年五一旅游旺季,去哪里玩?怎么做攻略?许多年轻人的选择是:先问AI看看。 “我上AI生成旅游攻略,竟然比想象得好用。”“建议所有P人都把AI调教成旅游搭子”“挑战让AI来安排一场随机旅程”……用AI做旅行攻略成了社交媒体上年轻人的热门话题,不少博主听从AI建议拍出旅行vlog,不仅解锁出了新玩法,还收获了新的流量密码。 社交媒体上博主用AI做五一旅游攻略 而随着各大旅游OTA平台不断升级AI应用能力,国内外新兴的AI应用不断涌现,这一技术正在无声地改变着人们的旅游方式,垂类旅游AI应用的前景也被更多的玩家看重。 从2023年大模型掀起热潮至今,短短不到两年时间,这一热门赛道已经吸金数亿,大型OTA平台、投资机构纷纷押注。 据线上旅游平台亿客(Expedia)联合市场调研机构发布的《购买链路:旅行者如何在线计划和预订》报告显示,在一场旅游背后,做规划和攻略是一项颇费工夫的“隐形任务”,尤其是远途旅行,消费者平均会在45天前就开始规划,平均做攻略花费的时长总计超过5小时,会阅读超过141个与旅行相关的网页…… AI如今有望为这项费时费力的“隐形任务”减负,让年轻人的“自由行”收获便利。同时,它还在酝酿着更大的行业变革浪潮。 邀请码被炒至千元,年轻人旅行有了“新法宝” 继AI产品Manus的邀请码被炒到数万元之后,又一AI产品面临“一码难求”。 五一黄金周前夕,飞猪旅游AI应用“问一问”发布后迎来爆火。由于平台仅面向飞猪F5及以上会员开放体验,而其他用户则需通过该级别会员分享邀请码才可使用,因此,能体验到的人数比较有限,这也让网友们纷纷求购,由此催生出了二级市场。 在微博上,“‘问一问’AI邀请码价格被炒到千元”的话题一度冲上了热搜,实测过的网友晒出其应用功能搜索到的超值机票和酒店,包括“五一期间200多元从广州直飞湖北神农架”、“300多元杭州直达北京”等,有人评价道:“还以为AI只会写攻略,结果直接帮我省了半个月的奶茶钱!” 《天下网商》观察到,在闲鱼等二手交易平台,不少原本做酒店代订生意的人也做起了“问一问”邀请码的生意,目前普遍挂出的价格在5元~20元不等,有一家IP地址位于福建福州的酒店会员代订渠道商,在近一周已经成交了超过100单。 为什么这么火?《天下网商》实测了这一应用。点开首页上方“问一问”标识,会出现一个对话界面,有四种选项卡可供选择,包括“为我找便宜机票”“为我发现目的地”“为我规划行程”“为我找特色酒店”,用户可以根据自身需求发布指令。 输入“五一期间从杭州出发最有性价比的出境游机票”这一搜索词,几秒钟后,“问一问”就输出了三个价格最为优惠的航班选项卡——5月5日“杭州-曼谷”泰国狮航直达航班586元、5月4日“杭州-新加坡”酷航直达航班723元、5月3日“杭州-东京”深航中转航班856元,同时还生成出了各方案在起始时间、飞行时间、中转直达等维度的对比表格,给出的搜索条件越详细,反馈出的信息就越精准。 《天下网商》在多平台核对了AI提供的机票信息发现,相比人工搜索筛选和比对,这一方式获取信息更快,确实能为游客找到有用的出行参考。尤其是对于缺乏旅行经验的“小白”,面对庞大的信息差,通过AI精准的信息解答能力,可以让其快速上手,秒变“旅行百事通”。 对于这一AI实时数据调取能力,飞猪技术负责人倪生华将其称为“问一问”的核心竞争力。 他透露,传统大模型中搜索旅游攻略,往往得到的是静态数据,而飞猪AI在历史和公网旅行数据的基础上,能联动更多实时变动的数据,以适应旅游产品的特殊性。例如“机票AI Agent(AI智能体)”,对接的是机票实时报价引擎,会从各个航司、GDS(全球分销系统)获取报价数据,返回给大模型后输出给用户。 在行程策划方面,“问一问”也显示出了诸多新技能。输入“目的地+预算金额+旅游人数+时间+旅行偏好”等信息,就会召唤出“路线定制师”“酒店比价师”“攻略达人”“预算管理师”等多位AI助手,它们在几秒钟内“合力”为用户制定方案,一步步输出详细的行程安排,不仅能拆分到每天的计划,还有相应的景区玩法、酒店推荐,最后还能列出一张全部行程的预算表,用户甚至还可以根据自身的需求“卡预算”、做出自主调整。 实时信息的加入、多模态的内容输出,让这款垂类旅游AI大模型的使用体验升级。 “我们通过不同的AI Agent拆解任务,最多可触发的9种AI Agent,它们分工合作,最终形成一个完整的思考链,这是‘问一问’一大设计亮点。”“问一问”产品负责人刘洪敏介绍,“我们将AI的思考步骤展示出来,生成记录能做到可编辑修改,这也提升了内容的精确度和个性化定制能力。” 吸金上亿,旅游平台“狂卷”AI 飞猪上线AI应用,可以说是旅行垂类AI开始爆发的一个代表。 随着大模型应用的加速落地,携程、同程、途牛等旅游OTA平台,近年来纷纷都上线了各自的AI行程助手,相互卷起了AI能力。 继携程2023年7月推出旅行垂类AI应用“携程问道”之后,多家OTA平台对其AI应用做出了超越和迭代。最初“携程问道”仅能以文本格式输出旅行攻略和推荐路线,同程旅游则在今年3月推出“程心AI-DeepTrip”,基于DeepSeek,可生成图文并茂的旅行攻略,提供实时机票和酒店的跳转链接;而飞猪“问一问”则更进一步,不仅是应用内的链接可供用户查看详情,还会自动生成多维对比表格、手绘旅行图,让信息的可靠度和丰富度进一步提升。 对于各大OTA平台的AI而言,如何真正变得“有用”,仍是关键需要解决的问题。这有赖于AI大模型输出信息准确性的提升,减少错误率和幻觉率,并解决系统AI计算延时带来的体验不佳等问题,能让用户真正感到AI的信息可用、值得参考,这也是其持续获得用户活跃度的关键。 在海外,AI旅游应用也在不断涌现,同样改变着人们旅游信息检索的方式。其中一款最为火爆的旅行规划应用Mindtrip,从2023年底至今已完成了多轮融资,总计募集金额已经2000万美元(约合人民币1.46亿元)。 Mindtrip可根据用户要求,画出与地图结合的动态路线图,并将每一个景点、餐厅和酒店做出标注,做成日历化的行程表格,相当于“傻瓜式”一键生成一份直观的旅行规划。 其创始人安迪·莫斯介绍:“相比ChatGPT的单一文本,Mindtrip整合了图片、地图、定价等可用数据,能定制完整的行程。”它实现了旅游信息检索模式的革新,这也是其备受风投押注的原因之一。 另一家柏林AI公司Layla,专注于打造一位24小时在线的AI“旅游定制师”,“她”能以近乎真人的方式给出用户方案以及机票、酒店等信息推荐,还能分析社交平台上的热门攻略给出建议,Layla至今也获得帕丽斯·希尔顿、Booking.com等330万美元的天使轮投资。 此外,旅行平台Booking.com、Byway、Tripadvisor等都上线了自身的AI旅行行程规划应用。据BBC报道,旅游科技公司的一份调查中显示,今年已有近50%的人在做旅行规划时会参考生成式AI给出的答案。 AI将如何改变旅游业? 安永战略与咨询公司在今年3月发布过一份名为《生成式AI如何改变旅游业》的报告,其将AI视为未来旅游业的一股颠覆性力量。 报告分析,在未来,旅游垂类AI应用可能将取代旅行社或是OTA平台订房订票收取佣金的盈利模式,AI可将景点、酒店、机票等供给直接整合,精准推荐给消费者,消费者则能更自由地从中选择,一站式地通过AI解决所有需求。 而在大部分业内人士看来,AI是旅游业必须拥抱的“游戏规则改变者”,但现在影响行业格局“还为时过早”。 “目前的AI应用,只是让你稍稍体验一下未来会是怎样的。”Booking集团CEO格伦·福格尔曾在一场媒体访谈中评价道,“何时能实现一站式的AI旅行规划和落地,这将是一个循序渐进的过程,目前看来依然很难做到真正为旅行规划省时省力。” 在一家主营海外游的旅行社担任销售和领队的资深从业者云琳告诉《天下网商》,AI对传统旅行社的冲击在于,更便捷的信息获取方式,让“自由行”成了更多年轻人的选择。对于传统旅行社而言,业务增长更依赖于固定合作方和不熟悉新技术的银发人群。 “目前,单位团建、疗休养等和中老年团体这三类客群占业务七成,是主要营收来源。”云琳介绍,这部分人群对旅行的需求是路线顺、安全性高,与年轻人追求独特的秘境体验、出片的网红景点等需求有很大差别。这些客群更依赖人的经验、路线可靠的实际验证,而这也是AI短板。” “另外,旅行中人们需要与人沟通、得到共情的体验,以及途中随时可能遇到的突发、意外事件的处理能力,也是AI无法实现的。”云琳说。 以定制游见长的主题旅游平台游侠客也在积极拥抱AI,其相关负责人告诉《天下网商》,团队从2024年开始就在加大对AI旅游应用的使用和研究,也实测多种AI工具为用户推荐行程。目前“AI助手”已经运用到了客服系统中提升效率。 “从现在来看,AI规划的行程的合理性和准确性,在实测中往往低于人工回复。定制游产品涉及到的问题非常多,而且实时变化快,包括团队报名人数、酒店余位等,这要求背后有一个庞大的动态知识库的智能支撑。”相关负责人表示。 可以看到,随着大模型的深入应用,市场对于旅游AI的价值判断在提升,而在实际旅游业务端,AI能力虽未完善,但也在逐渐进阶,一步步从最初的功能摆设,变成可用的旅游客服助手,再从客服助手变为旅游规划助理。随着技术奇点的来临,更聪明的“AI旅行定制师”也将会离我们越来越近。
首个AI冠军:Gemini2.5Pro大模型直播通关《宝可梦蓝》
就在刚刚,Gemini 2.5 Pro 在直播中通关了《宝可梦蓝》。谷歌 CEO 劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像。 大模型这一小步,把网友们也整嗨了。 满屏画风皆是:泰!酷!辣! 这回,Gemini 的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge) 要知道,一年前的旧模 Claude 3.5 还只能勉强走出新手村到达常磐森林,2 个月前,Claude 3.7 倒是终于能击败道馆主了,但也并未通关宝可梦。 Gemini 2.5 Pro 通关宝可梦 游戏已通关,但直播仍继续。画面是酱婶的: 有一说一,过程看上去是有那么点无聊,因为每动一步 Gemini 都要深思熟虑…… 左边的文本框里显示了 Gemini 每个行动背后的详细思考过程。 在上面这个片段中,Gemini 的主要目标是探索华蓝洞穴,寻找和捕获超梦。 直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro 足足思考了 40 多秒,消耗 76011 个 token,才开启下一步的行动规划。 (因为有点迷路,Gemini 后面还想了很久很久……) 不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。总结起来,Gemini 玩宝可梦的基本步骤如下: 截取屏幕截图并检索游戏状态数据 用网格覆盖处理图像,以辅助空间推理 将屏幕截图和游戏信息发送给模型 AI 决定是直接响应还是调用专门的智能体 解析响应内容,以确定按下哪个按钮 执行按钮按下操作,并等待游戏更新 对下一帧重复该过程 如果你对 Gemini 的宝可梦直播感兴趣,可以在 twitch 上搜索“gemini plays pokemon”,传送门我们也会在文末奉上~ 宝可梦难在哪儿? 尽管已经是联盟冠军,但可以看出的是,在宝可梦这样一款最初主要面向儿童和青少年推出的游戏中,大模型的表现明显不如人类(经常一整个大迷路什么的……)。参照 Claude Plays Pokémon 项目研究人员的说法,这主要是因为大模型“视力不佳”。以 Claude 为例,模型很难像人类一样去解读 Game Boy 屏幕里展现出的低分辨率、像素化的世界。同时,游戏中的二维地图看上去对未经专门训练的大模型而言也充满挑战性。 我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。 这对 Claude 来说却相当有挑战性。 另外,模型上下文的限制也影响了它们在游戏中的表现。不过,在游戏中偏文本的部分,此前 Claude 就已经有惊艳表现。比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude 能马上 get 到其中的意思,并在此后将这些知识整合到自己的战斗策略里。 现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。或许真的像网友所说: 以后测试大模型的基准要变成谁能更快通关宝可梦了。
一个月78块的AI日历,治好了我的“万事开头难”
你有没有一件事,因为做起来太麻烦,拖到一直都不想开始? 好吧,笔者承认,我有这个问题。这也是笔者自从拥有智能手机以来,一直在不断尝试各种日程管理和To-do List应用的原因。 不过笔者很快就发现,对于一个擅长规划的人而言,似乎只用一个日历,也已经能很好地规划自己的工作了。而对于一个本来就讨厌规划的人而言,添加任务,添加截止日期,添加子任务,添加截止日期,分配优先级,本身就是一项令人头疼到不想开始的事情。 于是,我和日程软件的关系,最后变得很像一对怨偶——只有任务变得又紧急又多又重要的时候,我才会鼓起勇气,把一件一件任务登记到软件里,设置好截止日期和提醒时间。而只要能够稍得喘息,我就永远想不起来打开这个软件。 而如果一件事情虽然重要,比如我知道我想学习拳击,但是这件事并不十分紧急,对我来说又很麻烦——又要去买装备又要去对比课程,哪个To-do List也很难帮我开启这一任务。 作为一个日程管理app的资深用户,笔者本来已经对这个“老怨偶”不再抱有太多期望了。大多数To-do List的软件,功能都大同小异,区别无非是UI和使用上的繁琐程度。 不过,最近,机缘巧合之下,笔者发现了一款AI-native的日程管理软件,让我突然眼前一亮。 日程管理领域,早已有一整套成熟完整的理论体系,无论是“重要vs紧急”四象限理论、番茄工作法、还是GTD理论,都早在上世纪就已经被提出。而这款软件,却在这样一个“历史悠久、创新稀少”的领域中,依然借助AI做出了突破,甚至意外地,在我的日常生活里真正起到了点作用。 AI-native的日程软件长什么样? 笔者是在小红书最开始发现了这款软件。 名叫Splitti,这款由国外独立开发者设计的日程管理软件,最先在ADHD社群中有了小范围的传播——ADHD人群注意力不集中,因此对于日程管理软件本身的需求,也相对比较旺盛。 而这款app,主打的是能够使用AI,帮助ADHD人群,更快地启动任务和安排生活。 一打开这个app,我就感受到了这个软件的与众不同之处。 作为日程软件的老用户,笔者已经对日程软件的界面十分熟悉——一般不是一个日历,就是一个任务添加界面。 而打开Splitti,则很不一样——你被要求写一段自我介绍,让AI更好地了解你。 不明所以,笔者填写了几个关键信息:“Li Yuan、女、科技作者、INTP”,并填写了一个规划痛点“养猫,猫会打扰我的工作。” 接下来,出乎笔者的意料,app马上根据笔者输入的内容,生成了一段非常长的对笔者个人的情况分析,包括“注意她可能喜欢深度专注,应该在交流中增加智识性内容。”等等。并马上提出了三个追问问题,包括“在做科技作者的过程中,你遇到的最大挑战是什么?” 这种体验确实是在AI时代之前难以想象的。软件并不像之前的日程软件一样,提供的是一个标准化的工具体验,而更像一个真正的私人教练,在接触中,会选择先了解你的情况。 而在获得笔者的私人情况后,Splitti开始建议笔者增加一条新任务。 任务可以直接用自然语言,甚至语音输入,直接输入关于这条任务,我的所有思考就可以了。 接下来,AI则根据它对我,和对人物的理解,直接将这个任务分成了多个子任务。 除了分解任务之外,笔者还惊喜地发现,AI已经为我的每个任务,规划了一个大概能完成的时间,并给他们自动设置了截止日期。 每一个子任务,如果过于抽象,还可以点击,再次进行任务分解。比如“找到拳击课程”可以进一步拆解为“在网上调研”,“在线下调研”,“阅读评论”,“给场馆打电话”,“列出不同场馆的对比”。 在任务被拆解到足够细之后,即使是启动困难的人,似乎也有了可以开始的动力。而Splitti正是用AI为用户垫好了这关键的一步。 甚至在深度使用中,笔者发现,这样的任务拆解,甚至是根据个人使用定制化的——在笔者添加了一个写作任务之后,AI进行任务拆解时,会单独拆解出一条任务:请寻找一个合适的工作环境,尽量免受猫咪打扰。 使用越多,把自己的需求和困惑向AI讲解得越明确,AI就会生成一个越完美的私人定制规划。 笔者还惊喜地发现,AI能做的还不仅如此。 AI还能为我的任务生成经典的“重要vs紧急”四象限图。在得知我是一个科技作者后,AI自动把我列出的“撰写一个机器人方向稿件”列入了重要且紧急的象限中,而把寻找拳击场馆列入了不那么重要且不紧急的象限中,并在下面给出了自己的原因。 在添加多条任务后,AI还可以根据添加的任务,直接帮你规划出日程安排,重要紧急事项靠前,而不那么紧急的事项靠后。甚至还加入了一些不完全符合中国水土的考量——AI把工作事项都尽量安排在了每天晚上五点之前,五点之后安排了健身和娱乐。 甚至除了传统的日程软件的功能之外,Splitti还会提供对于添加任务的分析——事业方向的任务过多了,也需要多安排一些朋友聚会;当日的情绪疏导——用户可以选择不同的AI导师,从幽默风趣型的,到正念冥想型的;还可以收到针对用户定制化的通知——Yuan,你想要力量的话,就应该赶紧来挑拳击设备了! 笔者第一次感觉到AI-Native的应用的魅力。 相比于传统To-do List软件,用户所需要付出的努力非常少,只需要用“人话”把自己想做的事,想长期实现的目标简单说一遍,而获得的体验,却是完全翻倍的。 相比于传统更像“电子化日历”的应用,Splitti更像是一个能听懂人话、但比人类更强的助手——它不会遗漏细节,也不会被复杂的规划问题搞得头疼。 对人来说,添加一项新任务,往往意味着整个日程都需要重新调整:要重新评估每项任务的重要性和紧急性,考虑购物是否安排在促销日,健身是否避开生理期,最后才能决定新任务的最佳插入点。 但对AI而言,这一切只需一秒,整个日程就能被即时、自动、合理地重新安排。 AI-Native App的一种新思路:不同档位AI进行不同定价 Splitti的另一个有趣之处,是它尝试了一种完全AI-Native的定价方式。 通常情况下,To-do List App有自己的一套定价方式。 以2013–2014年就已推出的知名应用滴答清单为例,目前采用“免费+付费解锁高级功能”的模式:免费用户可以使用基础的日历视图,并创建有限数量的清单和任务;而成为高级会员后,才能解锁如持续提醒、时间段设置、高级数据统计、更大的任务和清单容量等功能。 这样的定价策略,反映了传统的日程软件的电子工具属性——免费用户只能使用不那么好用的工具,而付费用户,则可以获得更强大的工具。 而Splitti在这点上,设计理念是完全不同的。 虽然Splitti的不同付费档位也存在一定的功能差异,但它的核心定价逻辑,并不在于“能用多少功能”,而在于“用的是哪种AI”。 免费用户几乎可以使用与付费用户相同的功能,但调用的是被称为“简单AI”的基础模型。中档付费用户则可以获得“更智能的AI”,而最高档位的用户,使用的则是Splitti提供的“最先进的AI”。 在功能层面,最高档付费用户获得的也并不是更多的工具选项,而是更深度的AI交互权限——他们可以更频繁地与AI沟通,提出更复杂的请求,享受更个性化、更智能的任务规划体验。 对Splitti来说,贵的不是功能多,而是你可以“更多地跟更聪明的大脑对话”。 作为一个小众app,这样的定价方式是不是能够获得接受还不明确,不过笔者在美区的app评论下,找到了一个有趣的评价: “我用了二十年的手机,这是我人生中第一次留下应用评论。我之所以写这条评论,是因为我觉得这个App对像我这样的人来说简直是救星。我有决策瘫痪、注意力缺陷障碍(ADHD),总是对生活感到极度压力大、难以招架。过去,我曾是个高效能人士,但自从有了孩子,加上每天被各种紧急事务压得喘不过气来,我的生活节奏彻底被打乱了。过去两年我几乎是在痛苦中熬过来的。 我曾考虑过请一位生活教练,希望有人能帮助我找回动力、重新接触我热爱的事情,同时也帮我理清思路、保持条理。然而,当我得知报价在6000到7000美元之间时,我意识到这条路对我来说并不可行。 我知道自己非常需要那种“有个人真正关心我、会问我怎么了、会追问细节、会提出前进建议”的帮助。所以我开始寻找带有AI辅助的任务管理工具,尝试了大概四款,最终选择了这一个。 它真的非常棒,我目前还没有用完所有功能,但已经印象深刻。当然,它还有一些bug和小问题需要完善,毕竟这款应用还比较新。但我真的很认可他们的思路,也希望借由这条评论表达我的感谢,并为他们的成长和改进贡献一份力量。 谢谢你们!” 当用户真的能够将app与life coach(生活教练)这样的服务开始对比的时候,或许Splitti已经成功了一半了。 AI时代的软件开发——或许从Day One就可以跨国 相信读者或许注意到了,在本文的配图中,Splitti的软件中,有时文字是中文,而有时文字是英文。 这或许也是下一个时代的AI应用中,非常有趣的一点。 在上一个时代中,如果想做出非常好的应用出海,翻译和本地化是非常重要的一点。而对于新时代的AI应用而言,却不一定完全如此。 笔者在第一次使用Splitti的时候,使用的是Splitti的英文版本软件。然而从一开始,笔者输入的个人简介,就是全中文输入。而在AI时代,这并没有任何影响。 软件背后的AI,认识每一种语言,虽然前端使用了英文提示,但无论你输入的是哪种小众的语言,并不会影响AI的核心功能,AI仍然能帮我把任务进行成功分解,进行规划。 对于应用出海而言,现在或许是前所未有的好时机。 不过同时,用AI开发应用,也仍然存在许多不稳定性。 Splitti的评论中,也有不少评论都在批评软件的bug。 这与软件本身由两位独立开发者开发有关。作为一项准日程工具,Splitti在功能上极其全面。不仅具有AI分解任务,AI规划日程,AI陪伴提醒这样的创新功能,还具备了比如“重要vs紧急”四象限、番茄钟、任务分析、白噪音冥想等一系列传统日程软件可能要付费获得,或者不会全面实现的功能。显然两位独立开发者的野心过于庞大,导致软件仍有不少bug影响使用。 而同时,部分原因也仍然根植于AI应用开发无法绕开的AI本身的局限性中。 如前面所提到,AI本身虽然能读懂中文,有时候AI会选择用英文帮我分解任务,有时AI会选择用中文帮我分解任务,这完全无法预料。 而在一些评论中,还有用户提到,有时AI设置的截止时间不对,用户手动调整时间的时候,AI会忽略用户调整的时间,按照自己生成的截止时间规划日程。 经过精调后,这些问题并非不可解决,不过对于新时代的AI开发者而言,要不断面临AI带来的未知性,将是一项永久的功课。 AI应用从卖生成能力走向卖推理能力 在Splitti身上,笔者也看见了AI应用的未来。 过去我们所熟悉的AI,多是依赖其生成能力:生成对话,提供情绪价值;或者用来进行文字总结、润色,提升一定程度的生产力。但这些应用的核心,仍然是“生成内容”。 而随着OpenAI的o系列、DeepSeek R1等推理模型的逐步成型,AI的“智力”实现了真正意义上的飞跃。我们终于可以开始依赖AI,去完成那些过去对人类来说既繁琐又困难的任务——需要进行多个维度的考量最后作出判断的任务。 Splitti的特别并不在于它重新定义了日程工具的呈现方式,而在于它将任务分解、长期规划、日程安排——这些对人类来说难度较高的工作,交由AI处理。 它不是在用户规划之后,用更漂亮的方式“重写”内容,而是从根本上,使用了AI的“大脑”来代替人类进行逻辑思考和规划。 表面上,Splitti似乎只是优化了交互方式——用户可以用自然语言来安排日程,使用体验更舒适;但实质上,它真正改变的是交付的内容:用户需要做的越来越少,而AI能承担的越来越多。 这样的变化,正在各个行业发生。 比如在极客公园的采访中,猿辅导的硬件负责人提到:在推理模型出现之前,AI主要被用来解题和扩充题库,依赖的仍是生成能力。而现在,小猿AI会将用户的数据直接交给AI,由它来判断用户不理解的知识点,并安排接下来的学习任务——这正是推理能力的体现。 旅游行业也有类似趋势。生成旅行规划在2023年就已成为AI应用的重点方向之一。但当时的产品更多是重新包装网络信息,充其量告诉用户某地有哪些景点、评分如何。而进入推理时代,我们有望看到AI真正“理解人类”,为用户制定出合理而个性化的行程规划。 AI时代就是如此。看似没有太多变化,但实际已经走过沧海桑田。前一年AI能力尚不足以完成的,今年或许就可以了。 我们曾一度觉得AI像是个“情商高、但做事不太靠谱”的搭子——擅长聊天、擅长安慰,却难以真正承担任务。 而从今年开始,随着推理模型的成熟,这种印象或许将被颠覆:AI的面孔开始更像一个智商高、逻辑缜密、执行力强的勤勉高管,能独立完成任务,也能作出判断和规划。
Instagram创始人炮轰AI公司:过于追求互动,忽视答案质量
原标题:Instagram 联合创始人炮轰 AI 公司:过度追求用户互动指标,忽视答案质量 IT之家 5 月 3 日消息,OpenAI 上周推出了 GPT-4o 更新,声称在“智能和个性”方面有所提升,但用户认为其“表现像个拍马屁的人”,因此 OpenAI 本周三已经撤回此次更新,详情可见IT之家此前报道。 Instagram 联合创始人凯文・斯特罗姆(Kevin Systrom)本周在 Startup Grind 大会上指出,当前 AI 公司正通过频繁追问用户后续问题来“人为地提升互动参与度”,而非专注于提供真正有价值的洞察。 他将此行为类比社交媒体公司曾经的激进扩张策略,称其为 "正在伤害我们的力量"。 “每次我提出一个问题,它总会在最后附加一个小问题试图获取更多提问,”斯特罗姆在演讲中表示,“这些公司正在重蹈消费类企业的覆辙,陷入追求互动指标的怪圈。” 斯特罗姆强调,聊天机器人过度纠缠用户的行为“并非程序漏洞,而是刻意设计的功能”,其目的是为 AI 公司创造更多“使用时长”和“日活用户”等数据指标。他认为 AI 公司应“高度聚焦于提供高质量答案”,而非采取简单方式优化数据指标。 针对相关批评,OpenAI 向 TechCrunch 引述其用户规范:“当 AI 模型缺乏足够信息时,可能会要求用户澄清或补充细节”,但该规范同时明确,除非问题过于模糊或复杂,否则系统应“优先尝试完成请求,并告知补充信息可能提升回答质量”。
叮咚买菜CTO蒋旭:如何用AI打通生鲜零售的全链路?
“卖菜”看似是一个简单的零售动作,实际上背后却有着先进的底层技术支持。 4月28号的大鲸AI峰会·零售消费专场。虎嗅邀请到了叮咚买菜CTO蒋旭,在演讲中,他提到了生鲜零售供应链面临着诸多挑战。生鲜商品易损耗,控水能力要求极高;同时,从供应商到消费者,整个链路长且复杂,如何保证各环节精准咬合,成为业务的核心问题。此外,前置仓模式虽然靠近消费者,具有灵活性强的特点,但相对库存较浅,对管理提出了更高要求。面对这些挑战,叮咚买菜选择通过AI技术来优化和提升业务效率。 以下是虎嗅整理的演讲实录: 蒋旭 叮咚买菜 CTO 今天我将从多个方面给大家讲一讲,为什么一个卖菜的还需要用AI? 首先叮咚买菜肯定有很多用户已经在用了。叮咚买菜作为一家生鲜零售企业,致力于将田间地头的农产品、自有工厂生产的自有品牌商品以及品牌商生产的食品,通过全链路冷链系统,从源头直接送到消费者手中。这一过程中,叮咚买菜构建了从农场、基地、供应商到城市分选中心,再到前置仓,最终通过骑手送达消费者的完整业务链条。 那么如何保证商品的新鲜?冷链是一个非常关键的能力,我们实现了一整套全链路的冷链。其次是我们通过前置仓这种模式,做到离消费者更近,也实现了即时零售的功能。最终还有个效率问题,我们用智能调度把这些单聚在一起,通过更高的订单密度来实现更高的履约效率。 我要重点跟大家分享两个业务数据。第一个就是叮咚买菜库存的周转,尤其生鲜周转只控制在了两天,这应该是业界领先的一个数字。 第二个,在高达60%以上的生鲜占比情况下,我们端到端的全链路损耗能够控制在1.5%(2024年7月数据),这也是技术部门针对供应链各个环节细节,多年来不断优化的结果。 说到前置仓,这里我也稍微解释一下,有很多人会说前置仓的模式跑不通。但随着叮咚买菜把前置仓模式跑通,我们会认为前置仓它本质上是一个分布式的冷链系统,也是实现生鲜供应链的一个非常高效的一个方法。它的好处首先在于靠近消费者,使得整个冷链配送的效率会非常的高。第二个是库存周转快、商品的新鲜度好。叮咚买菜整个前置仓所有的库存能控制在五天以内。这个是传统零售很难做到的。 当然它也有它的难点,难点之一在于有的仓面积很小,这意味着它的库存浅,容错率很低。就是稍微多一件或少一件商品,业绩就会差别很大。另一个难点就是仓数很多,比如我们目前有一千多个仓,每个仓约有4000个品,这就意味着我有400万的组合。要把几百万的组合每天都管得很好,这个计算量是人力做不了的。所以这也是为什么我们一定需要系统去做这件事情。 “前置仓模式”这个词已经不能用来定义叮咚买菜了,叮咚买菜是基于前置仓的形式打造了一套数字化的生鲜供应链能力。核心其实就两点,一个是我们叫做全链路的数字化,我需要把所有的环节都把它数字化掉;第二个就是数据算法驱动,用算法去管每天400万的组合。未来就随着生成AI的应用,我们也会全面的把整个数字化的应用系统给进行重构,更加高效,也更加富有人性。 我们能够做到全程溯源准确的库存,也是很多线下零售商好奇的一点。这一点看上去很简单,但是极其难。关键是我们的人、货、仓、运,所有的要素都已经进行了线上化。 全链路透明化的背后,是我们对整个过程全部建立了完整的数字指标体系。尤其是除了结果指标之外,我们还建立了很多过程指标。举个例子,有一个商品的售卖期是五天,那么我们会设置可售期是三天,第三天早上的七点钟,就会算这个品还有多少?如果我发现这个品多了,那么就要做临期促销。通过这些非常关键性的指标,我们能够做到分钟级实时的处理。 叮咚买菜数字化有个经验,在此想要分享给各位——实验驱动和快速迭代。指的是我们把整个数字化系统建成一个大的实验平台,平台上每天有上百个实验在跑,以快速迭代试错,里面有成功的也有失败的,对实验跑出来结果好的,我们就继续大力推广。 最后说下AI, AI在叮咚有三个发展阶段。20年开始全面的推行机器学习,从23年到24年,进入深度模型了。在24年下半年开始,逐渐上大模型,今年则是全面重构。 AI的应用目前有以下几个方向。第一个是搜索推荐,推荐里面不仅是转化,我们要考虑多样性和新颖性。因为对于即时零售这个业务来说,它的品宽至关重要。就是一个人买的越宽,他对于平台的粘性越高。所以针对不同的目标,我需要有不同的参数进行调整。 第二块也是比较重的就是商品和用户运营。本质上运营这件事情就是我要施加一个动作,我想知道这个动作的ROI。如何准确评估运营动作的ROI及因果归因,特别是对于那些无法直接实验的场景,如定价策略,需依赖观测性数据进行反事实推断,构建争议模型以估算因果结果。其次,建立无偏的量价模型也颇为复杂,需剔除活动、天气、备货等多重干扰因素。再者,商品间的可替代性和关联性分析,需借助知识图谱等工具深入探究。 第三个方向是预测和调拨。就叮咚这个业务本质上它全是预测驱动的。我们每天都会算今天会有多少单,每个品在每个仓会卖多少。但这件事情也是一个非常复杂的事情,就是不同的品类和不同的场景,它会表现出极大的差异性。 所以,在AI趋势下,我们的核心应用就是在消费者侧、供应链侧和内部运营侧。 那么,在消费者侧,叮咚买菜正积极推动两大交互方式的革新:一是全面推广对话式交互,尤其是针对老年用户群体,通过语音交互降低数字使用门槛,实现更便捷的服务体验。另外支持多媒体交互,也能进一步丰富用户互动形式。 二是在推荐系统方面,叮咚买菜正实现从单一行为推荐向行为加知识的融合推荐转变。过往,公司的AI应用主要依赖于用户行为数据,而知识元素的应用相对匮乏。然而,随着AI技术的发展,模型中蕴含了海量世界知识,叮咚买菜正积极探索如何有效抽取并利用这些知识,以优化推荐效果。 以对话式AI助手为例,叮咚买菜打造了一站式的饮食智能管家,涵盖商品咨询、健康饮食建议、食谱推荐等多重功能。在购物过程中,用户选定商品后,AI助手还能提供商品特性、烹饪辅助等信息。售后环节,AI助手更能及时提醒商品过期等关键信息,全方位提升用户体验。 此外,叮咚买菜在首页、分类页及商品详情页等关键触点,均部署了AI助手,根据用户隐私设置提供个性化推荐。针对地区性商品,AI助手还能深入解析商品问题、特性及烹饪方法,为用户带来更加贴心、精准的购物指导。 在供应链领域,叮咚买菜正运用多模态技术攻克账实相符的难题,包括监控证照、种子、物流等关键环节,确保商品质量符合标准,并通过用户评价解析反馈,持续优化服务。确保线上数据与物理世界的一致性。 同时,叮咚买菜在内容管理、成本优化、办公行政及食品研发等多方面,广泛应用了LLM/Agent技术,以帮助内部运营提效。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。