行业分类:
加载中...
头条分类:
加载中...
AI引爆全球失业潮,美国学生毕业即失业!大厂联手裁员
【新智元导读】现在,AI已经彻底引爆了全球失业潮,多邻国裁员只是多米诺骨牌的第一张而已。外媒统计发现,全球五家大企业已经因为AI裁员了上万人。更有统计数据显示,最近美国大学毕业生的失业率异常之高,已经达到了5.8%! 不开玩笑,AI带来的全球失业潮,是真的来了! 从前,这种呼声只是零星从某些人嘴里被预言,但现在,主流的媒体已经全面认识到了这一事实:人工智能,将彻底改变全球的劳动力市场。 最近,福布斯、TechCrunch等媒体,已经纷纷发文预警。 现在,因为AI的影响,已经有大批人类在失业。 比如奥巴马及其团队,现在就在讨论这件事情的严重后果。 当人类的岗位被AI侵占,我们究竟该何去何从? 「起初,没有人在意这一场灾难,这不过是一场山火、一次旱灾、一个物种的灭绝、一座城市的消失,直到这场灾难和每个人息息相关。」 多邻国,还会越来越多 多邻国的事儿,大家都知道了。 甚至,这其实都不是新事。 TechCrunch记者曾采访过一位前多邻国员工,他表示,早在2023年底,公司就已经裁掉了10%的员工,并且在2024年10月也有一轮裁员。 这两次大裁员中,首先是翻译人员,其次是写作者,都被AI取代了。 23年底,多邻国裁员的理由是,大量的内容生产和翻译,已经使用GPT-4等模型来简化了。 下面就是多邻国发出的一封裁员邮件。 一位被裁员工在Reddit爆料说,公司给出的理由是,现在AI可以替代创作者、翻译,以及几乎一切类似岗位。 据说,每个团队只保留了零星几个人,继续从事「内容编辑」的工作。他们的职责就是:检查AI产生的垃圾内容,然后点击发布。 此外,当时多邻国还用GPT-4支持高级订阅版本的Duolingo Max,用AI聊天机器人帮用户练习对话。他们还有一个专有的AI模型Birdbrain,为用户提供个性化课程。 但是,无论被裁员工,还是多邻国,其实都对此很不满。 对被裁员工来说,被AI取代是一项沉重的打击,就业的不稳定也造成了精神上的冲击,由于简历不完整,他们往往难以找到固定工作。 而且,多邻国的大部分员工都是合同工,靠着这种机制,公司就可以节约大量成本,不需要负担保险、带薪休假、病假这类福利。 同时,多邻国的用户也在担心,如果使用AI翻译,对语言、惯用语和文化细微差别有更深入理解的专家价值就会被剥夺。 早在2023年的《未来就业报告》里,世界经济论坛就已经预测:AI将在未来五年内,改变23%的工作岗位。 如今,两年已经过去,这个预测已经越来越明显地成为现实。 这场危机,看似很简单,本质上不过就是「一连串由高管做出的管理决策,目的是削减劳动力成本,并在公司内部加强控制。」 但是带来的后果,就是创意行业的人才流失,自由艺术家、作家和插画家的收入下降,以及各大公司倾向于雇佣更少的人类员工。 在外媒记者Brian Merchant看来,所谓的AI就业危机,并不是一场突如其来的「天网降临」式的大灾难,而是像DOGE这样,一边打着AI优先战略的旗号,一边裁掉成千上万的联邦雇员。 美国大学生,毕业即失业 不仅如此,The Atlantic还发现了:最近美国大学毕业生的失业率异常之高! 对此,很可能的一种解释就是,许多公司正在用AI取代初级白领的工作,或者说,本来用于招聘新员工的资金,用来投入AI工具了。 就在刚刚过去的五一,这家外媒发现,最近美国的大学毕业生就业市场,正在发生一些奇怪的、令人担忧的变化。 纽约联邦储备银行称,过去几个月,应届大学毕业生的就业状况显著恶化,失业率已经高达5.8%! 应届大学毕业生与其他群体的失业率 即便是刚刚从精英项目毕业的MBA学生,往往也很难找到工作。 与此同时,法学院的申请人数却在激增,这就令人不安地想起,金融危机期间年轻人也是利用继续深造来躲避就业的压力。 对于这种现象,The Atlantic撰稿人Derek Thompson猜测,可能有三种原因。 第一种,就是年轻人的劳动力市场尚未从疫情的冲击中恢复过来,甚至可以说,这种大衰退已经持续很久了。 哈佛大学经济学家David Deming曾表示,年轻人找工作比以前更难了,这种情况已经持续了至少有十年。 大衰退不仅导致大规模裁员,许多雇主还冻结了招聘。就在科技繁荣似乎要到来时,通货膨胀卷土重来,导致美联储加息,直接就抑制了经济需求。 白领行业,尤其是科技行业,受到的打击尤为严重。软件开发和IT运营的职位空缺已经大幅下降。 第二种理论,指向一种更深层次、更具结构性的转变:大学不再像15年前那样,能赋予劳动力优势。 根据旧金山联邦储备银行的研究,2010年是一个转折点,在此之后,大学毕业生和高中毕业生之间的终生收入差距停止扩大。 第三种理论,就最为可怕了——大学毕业生劳动力市场的疲软,可能是AI开始改变经济的早期迹象。 如果考虑一个经济指标——应届毕业生缺口,即年轻大学毕业生的失业率与整体劳动力的失业率之差,就会发现已经今非昔比。 四十年前,年轻大学毕业生的失业率并不高,因为他们是相对廉价的劳动力。 但是就在上个月,大学毕业生的就业差距,已经创下了历史新低。 可以说,如今美国大学毕业生踏入的经济环境,比40年来的任何一个月都更糟糕。 律所、咨询公司都开始意识到,5个22岁的年轻人使用ChatGPT,就可以完成20个应届毕业生的工作。 而且,即使雇主没有直接用AI取代人类员工,AI基础设施的高额支出,也会挤占公司留给新员工的份额。 总之,大学毕业生的劳动力市场,正在亮起黄灯。 轮到AI上班了 总之,现在已经有越来越多的公司,正在把你「悄悄地」从工位请出去。 这次,你真的要被AI代替了,这不是推测,而是正在发生的事实。 谢谢你曾经的努力,现在轮到AI上班了。 从客服到翻译,从定价专家到税务顾问,越来越多的公司开始招聘一个永远不会抱怨的AI。 不信?看看下面5家公司目前的现状。 从2024年到2025 年,全球至少五家知名企业——Klarna、UPS、Duolingo、Intuit、Cisco——直接或间接因为「AI 更高效」而裁员上万人。 理由是「我们并不是用AI替代人类,只是让人类使用AI提高效率」。 听起来很合理,直到你发现,人类的工作,啪的一下,没了! Klarna Klarna,国外一家领先的先买后付金融科技公司,在2024年宣布裁员超过1,000人,约占其全球员工的10%。 当时,这一消息立刻登上了《福布斯》头条。 公司大量投资于人工智能以处理客户服务咨询、处理交易和优化其运营。 Klarna打造了一个相当于700名全职员工工作量的人工智能助手。 Klarna的首席执行官公开讨论了由 AI 驱动的聊天机器人和自动化系统如何执行曾经由人工代理管理的任务,例如回答客户查询和处理退款。 通过集成生成式AI,Klarna旨在降低运营成本的同时扩大其服务规模,有报道称AI现在处理了其大量客户互动。 UPS 2025 年初,联合包裹服务公司(UPS)宣布计划裁员20,000人,这是UPS 116年历史上规模最大的裁员之一。 UPS的CEO Carol Tomé坦白说,这次裁员的背后,其实是因为AI和机器学习技术上岗了。 像过去需要人类定价专家来写销售提案的活儿,现在交给AI来做,效率更高、成本更低。 虽然UPS表面上依然宣称「不是AI取代了人类」,但其实大家都看得出来:公司开始用AI来优化物流路线、处理客户沟通这些事,自然就不再需要那么多员工了。 这一波操作说白了就是:公司要省钱,而AI正好成了最顺手的削减成本工具。 多邻国 Duolingo本周宣布计划用AI替换合同工,并成为一家「AI 优先的公司,这一举动似乎表明AI引起的就业危机「已经到来」。 这个消息由多邻国的首席工程官公开在了领英上。 CEO在领英发内部信时画了一个「大饼」:以后公司的内容制作、员工表现评估,甚至招聘决策,都要靠AI来搞。 于是,多邻国先一步动手,砍掉了10%的合同翻译工,说是因为AI已经能胜任他们的工作,比如自动翻译课程材料,而且还能覆盖100多种语言。 虽然公司特别强调:「没炒正式员工!」——但其实,方向已经很明确了:翻译这个活,AI也能干。 Intuit 财务软件公司Intuit是一家总部位于美国加州的跨国计算机软件公司,主要制作金融和退税相关的软件。 在2024年裁员约1,800 人,但这笔省下来的钱不是拿去发红利,而是全都砸向了AI。 人工智能是其未来战略的关键组成部分,尤其是在自动化客户服务、数据分析和税务准备流程方面。 公司高层很坦诚:未来的重点就是人工智能,以前这些活儿要靠一大批员工来干,现在AI上岗就能一键搞定。 思科 科技大厂思科(Cisco)也加入了「AI优先」的行列——此前官宣裁员7%,差不多5600人 该公司一直在将其网络解决方案中整合人工智能,例如用于网络管理的预测分析和自动化的客户支持系统。 表面上看,这是公司在做战略调整,实际上就是很多过去需要人来做的工作,现在AI也能胜任了。 思科这波操作,其实只是科技圈的一部分缩影:用AI替代人力,提升效率、削减成本,已经成了行业默契。 AI取代员工的企业 会成功还是失败? 早在2024年1月,斯坦福大学的一名教授Erik Brynjolfsson曾说过,精明的公司不会用人工智能来取代工人或工作岗位。 他说,应该将AI和人类一起使用,因为它们各自有不同的优势,AI应该是「补充」人力,而不是取代。 但时过境迁,AI的能力发展又上了一个台阶。 2025年初,多家全球知名企业开始密集裁员——理由只有一个:AI变得更高效、更便宜。 Klarna用AI客服替代700名员工;UPS裁掉数千名后台岗位,转向自动化流程;多邻国大幅缩减了内容团队,转而依赖AI生成题库。 这些企业没有选择「人机协作」,而是果断押注「AI优先」。 当生成式AI刚刚出现时,被认为是人类的好搭档。 但是当AI发展到今天,似乎AI不再是人类的搭档,而是成为了竞争者,甚至是取代者。 这些企业正在用实际行动证明,在效率为王、成本至上的商业逻辑下,AI不是「辅助工具」,而是「最优解」! 这不仅是一场技术革新,更是一场职场地震。 过去,人们幻想着AI可以帮打工人摆脱繁琐、专注创造。 现实却是——越是重复性强的工作,越容易被AI秒杀;越是流程化的岗位,越快被算法吞噬。 社会或许正站在一个临界点: 从AI辅助人类,走向人类需要学会配合AI; 从优化岗位,走向取消岗位; 从提升生产力,走向重塑生产关系。 而这场变革,没有等待所有人准备好,就已经悄然开始了。 参考资料: https://techcrunch.com/2025/05/04/is-duolingo-the-face-of-an-ai-jobs-crisis/ https://www.forbes.com/sites/jackkelly/2025/05/04/its-time-to-get-concerned-klarna-ups-duolingo-cisco-and-many-other-companies-are-replacing-workers-with-ai/
DeepSeek如何赋能政务,扬州样本来了
《科创板日报》5月3日讯(记者 黄心怡)今年以来,DeepSeek大模型火爆出圈,其如何赋能政务? 《科创板日报》记者获悉,扬州市政务云率先部署“满血版”DeepSeek-R1-671B,成为江苏省内首批部署的城市之一。目前,扬州市数据局、海关、水利局、城管局、医保局等多个部门单位都接入了DeepSeek大模型,主要应用在智能客服、智慧审查、办公协同、辅助分析决策等方面。 扬州市数据局相关负责人向《科创板日报》记者称,在数据局的统筹推进下,全市各政府部门正在积极探索AI如何赋能业务,而高质量的数据是影响应用落地的关键。 ▍扬州市政务云部署“满血版”DeepSeek 江苏省扬州市数据局于去年3月挂牌成立,已形成了“数据局—大数据集团—大数据管理中心”三位一体的协同机制,通过一系列机制举措,让数据“供得出、流得动、用得好”。 扬州市数据局相关负责人表示,在“三位一体”的协同机制下,数据局发挥统筹协调作用,大数据管理中心提供技术支撑,夯实数字基础设施底座,大数据集团专注市场化运营,推动数据要素价值释放,从不同的侧重点共同形成联动机制。 《科创板日报》记者实地探访发现,扬州市大数据管理中心已部署10台昇腾AI一体机,成功运行DeepSeek-R1-671B大模型,为各政务部门的人工智能应用创新提供算力支持。 在其他资源方面,扬州市政务云接入了160余家单位、420余个业务系统,CPU总量达到7万多核、内存173TB,存储容量超6300TB。2024年启动的信创政务云已投入使用,目前支撑23个单位的30余项业务,未来将逐步实现存量系统的替代升级。 ▍大模型如何赋能政务? 扬州市正推进人工智能技术在政务服务领域的深度应用,通过大模型技术赋能多个政务场景,以提升服务效能。 在扬州市智慧政务大厅,政务服务由传统大厅“集成化”模式向零人工“智慧化”模式转型升级,为市民提供7天24小时“不打烊”的政务服务。 其中,智能政务问答小助手覆盖了政府信息公开、政务服务和热点回应等领域。为了保证问答质量,小助手收集整理涵盖了办事服务、政策文件、寄语市长、知识库等各类信息8万余条。上线短短半年时间里,小助手访问量超9万余次,答复咨询提问2万余条,提升了政务服务效率和公众满意度。 现场工作人员向《科创板日报》记者记者演示了政策咨询、事项办理的过程。比如输入问题“满足什么条件才能纳入医疗救助对象?”小助手会列出纳入医疗救助对象的具体条件,如家庭经济状况、疾病种类等,并提供政策文件的链接地址,方便用户查询。 后续,扬州市政务云还将深化技术应用,包括接入DeepSeek模型算法,进一步优化问答的准确性和智能化水平,并丰富智能问答的场景,逐步推出智能解读、智能导办、事项直达以及智能问数等功能。 扬州市公共资源交易中心则在推进公共资源交易与AI的融合。其中,“AI+服务”的“评标智能管控”系统,基于大模型推理、机器视觉分析、物联网、云计算等技术,结合"扬小易"数字人,对评标现场的不良行为进行实时分析、监测,锁定违法违规言行。 “扬小易”数字人对评审过程中的专家言论进行智能监测。当专家说出疑似倾向性言论,“扬小易”数字人第一时间发出警示,要求专家保持独立评审。而这些分析预警信息也同步发送到后台,让监管部门对其进行核查处理,有效维护了评标过程的公平公正。 扬州市12345政务服务便民热线于今年4月完成了DeepSeek大模型部署和智能体平台建设。通过智能体开发平台,可以快速搭建和使用扬州市12345医保职能辅助助手,为市民解答医保相关问题,处理高频的医保咨询。 扬州市政务综合服务中心和扬州市中小企业发展服务中心联合打造的"一企来办"(易申报)平台通过构建企业库、资质库和政策的标签库,运用大模型和AI智能体技术,把晦涩难懂的政策条款转化为研发投入占比等量化条件,可自动识别企业资质并智能推荐适配政策项目,切实解决了企业在政策申报过程中遇到的各类难题。 比如,在“一企来办”(易申报)平台上的AI智能体上输入某家企业后,系统会自动分析该企业属于日化行业,具备国家级高新技术企业、省级专精特新小巨人企业等资质标签,从而把这家企业匹配至扬州市工业高质量发展的关键核心攻关技术以及重点产业技术申报项目。 ▍高质量数据的缺乏阻碍了应用落地的步伐 在推进AI大模型落地政务服务的过程中,也存在不少难点。扬州市数据局相关负责人向《科创板日报》记者表示,首要难题是基础设施支撑能力不足。 “模型应用对算力资源的需求量极大,同时需要多种模型协同支撑不同部门的业务需求,这就需要建立统一的算力资源管理和调度体系,以提升资源利用效率。” 需求场景与大模型如何适配也成为瓶颈之一。虽然大模型技术日趋成熟,但如何将其能力转化为解决实际问题的智能体应用,仍需持续探索。"模型仅是工具,无法直接提供具体的服务,需要针对具体部门需求,构建一个个的精准化细分领域的智能体。"相关负责人强调。 在数据安全方面,政务数据的特殊性带来了应用挑战。由于涉及大量个人和企业敏感信息,必须在确保数据安全的前提下,推进模型应用。这要求建立完善的数据治理和安全保障机制。 而最为根本的挑战来自数据质量。"模型性能的优劣很大程度上取决于训练数据的质量。"该负责人指出,"当前各地AI应用推进速度受限,主要原因在于高质量数据集的匮乏。从数据采集、标注到数据库建设,整个数据治理过程耗时费力,这直接影响了应用落地的效率。" (财联社记者 黄心怡)
百元起!机器人研学营,都在玩些啥?
中新经纬5月5日电 (谢婧雯)“机器人实训”“机械臂编程”“AI少年营”……这个五一假期,一系列智能科技相关热词成为社交平台五一研学游的突出标签。 百元至千元不等 今年春节人形机器人和DeepSeek大火后,“杭州六小龙”吸引了不少关注,其中不乏想把孩子送去参观的家长。 今年“五一”,不少研学机构推出了机器人、AI相关的研学活动。 中新经纬发现,在某社交平台上,一项以“解码中国硅谷”“浙大×阿里×机器人”为关键词的4天3晚五一科技探索营活动被多家研学机构宣传,其针对人群为8岁~16岁青少年,活动涵盖“杭州六小龙”未来科技体验中心参观、探秘机器人小镇、参访名校浙大、走进阿里AI课程等内容。 不过,此处提及的“杭州六小龙”参观,并非到“杭州六小龙”企业,而是前往“遇见杭州六小龙”生活展示馆。 据西湖文旅公众号介绍,该展馆今年3月已在杭州文三数字生活街区正式启幕,这个展厅是全面直接了解“杭州六小龙”创新技术的窗口。在展厅内,你能让超级大脑答题,和机器人握手,看到3A大作《黑神话》的奇幻场景再现和机器狗突然跳起群舞…… 某研学机构“杭州六小龙”展厅活动行程 中新经纬截图 飞猪平台上该活动的半日联票价格为单人298元、亲子一大一小560元、亲子两大一小760元。 “杭州六小龙展厅”半日营飞猪价格表 除杭州外,北京、上海、哈尔滨、深圳等地的研学机构也推出了特色科技类研学项目。据了解,北京“中科院人工智能MOSS机器人实训三日营”价格为4580元,孩子单飞,面向三年级以上学生,含住宿服务;上海市场推出了“复旦大学+DeepSeek”一日营,面向8岁以上青少年群体,快团团平台显示该产品定价为每人398元;哈尔滨推出的“哈工大+格斗机器人”主题研学1日营定价为每人558元,招募对象为6岁~15岁青少年;深圳机构则针对12岁~17岁青少年,推出了3日“湾区科技探索人工智能研学营”活动,价格为2680元。 某机构MOSS机器人实训营微店售卖价格 中新经纬截图 4月21日,中新经纬询问两家代理“中科院人工智能MOSS机器人实训三日营”的机构了解到,一机构该研学项目40人营位已售罄,另一机构该项目30人成营剩10个名额。机构负责人表示,目前报名的群体以京津冀地区家长为主,其中北京家庭占比最高。 中新经纬注意到,大多数和机器人相关的研学活动一般会加入互动体验板块。“杭州六小龙”城市展厅的半日营,除了参观,还设有“机器人互动体验”和“人工智能课堂”板块,学员需要在期间学习机器人的结构和原理并操控机器人完成任务。 多地研学机构负责人均对中新经纬表示,机器人研学活动中会融入互动体验环节。 “孩子们对动手实践有天然的兴趣,互动板块能充分激发主观能动性,让他们在亲自动手中了解科技。”哈尔滨某研学机构负责人大宾(化名)对中新经纬表示,机器人因体验感强、互动性佳,逐渐成为孩子们了解高新科技的热门选择,他们能在互动体验中深入了解高新科技的产生过程。 专家:让孩子跟上前沿是家长出发点 一位研学机构负责人介绍,杭州4天3晚的“五一”科技探索营项目在今年首次推出,截至4月28日,已有20多人报名。 “湾区科技探索人工智能研学营”的负责人唐晓敏向中新经纬介绍,此次“五一”人工智能研学营很早就被预订完了,报名截止时间为4月25日,报名的家庭来自北京、上海、广州、深圳、天津、重庆等各地。 “让孩子跟上前沿,拥有一些科技特长,可能是家长的核心出发点。”对于今年多地机器人+AI研学营报名火爆的现象,北京第二外国语学院中国文化和旅游产业研究院常务副院长、教授吴丽云表示,今年随着DeepSeek人工智能的蓬勃发展,其迅速渗透至各个行业与领域。在此背景下,家长们对这一新兴领域会愈发关注。此外,科技体验类活动本身对孩子有着独特魅力,这类活动极强的参与互动性,容易得到家长和孩子的共同认可与接受。 大宾认为,春节人形机器人大火确实是机器人研学产品出现的影响因素,但科技研学热最核心的原因在于,科技高新创意产业的发展带动了文旅对其关注,市场上逐渐出现了相关研学产品并引起热度。 目前中新经纬了解到的“五一”机器人相关科技研学营,可以大致分为两种类型:一类为偏休闲旅游式兴趣探索类,另一类则为更有目的性的专项实训或深度研学项目。相对而言,后者较前者因时间更长、包含服务内容更多或“含金量”高,价格往往会更昂贵。 “人工智能是目前产业发展的重要方向,从研学视角出发,让孩子们提前了解人工智能的发展态势,对其上学和未来就业都会有正向反馈。”吴丽云认为,相对于时间较短的一日休闲体验游,深度研学会更有系统性、专业性或更强。 唐晓敏称,她所在的企业和培训机构会有一些合作,像“湾区科技探索人工智能研学营”类的项目吸引家长的点在于,参营可以帮助丰富孩子的履历,此类项目契合计划赴港求学群体的需求。 一位孩子参加过人工智能培训班的海淀区家长向中新经纬透露,从“中科院人工智能MOSS机器人实训三日营”的介绍内容来看,该活动比较像竞赛类培训,可能“游玩”性质偏弱。 在吴丽云看来,“五一”假期机器人科技类的研学营也可被视作一种新的消费现象,能有效延伸人工智能产业链条。事实上,据她了解,安徽、浙江多地企业正依托AR类科技企业打造特色研学旅游产品和线路。“借助旅游业的关联带动效应,AI技术深度融入旅游场景,可以让人工智能的产业链条变得更长。” 此前,多家机器人公司参观票价被黄牛炒至3000元。深圳市众擎机器人科技、杭州云深处科技、上海卓益得机器人、北京人形机器人创新中心、上海青心意创科技等公司均对中新经纬表示,“五一”暂未开放个人参观,请消费者不要轻信非官方售票人员。 据报道,今年3月“杭州六小龙”企业群核科技、云深处科技以及强脑科技,均在公司显眼处,贴上了“不接待任何付费参访活动”的提醒。(中新经纬APP) (文中观点仅供参考,不构成投资建议,投资有风险,入市需谨慎。)
AI“自我复制”!RepliBench警示:其正在学会伪造身份
想象一种失控的、具有自我复制能力的数字生命体,需要多久占领地球? 从《2001太空漫游》中的HAL 9000到《终结者》里的天网,这些虚构的场景描绘了AI超越人类控制的潜在风险。 目前更多关注的是AI的单体智能水平,但是还有一个不为人知的风险,一直游离于视线之外。 那就是AI自主复制的可能性,或者说AI系统发展出实现这一目标所需的核心能力,正逐渐成为AI安全领域一个严肃的研究课题。 这种担忧并非危言耸听,而是源于对高级AI潜在能力的未知和对齐(alignment)问题的深刻思考。 AISI的最新论文介绍了RepliBench:包含20个新颖的LLM智能体评估的基准,包括65个单独的任务,旨在衡量和跟踪AI复制这一新兴能力。 论文地址: https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf 通过引入一个现实且实用的基准,提供对AI系统自主复制能力的实质性理解,并预见到未来的风险。 AI自主复制的危险性 具有自主复制能力的AI系统可能会构成重大风险。 《复仇者联盟:奥创纪元》和《我,机器人》中被无限复制的机器人 这种风险的影响范围可能从轻微的烦恼——想象一个特别恶性的垃圾邮件机器人——到更严重的后果,比如发动代价高昂的网络攻击。 早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要,因为一旦发生,这些风险可能尤其难以逆转。 AISI是英国的一家研究机构,专注于AI安全,目的就是让人类政府能够提前对先进AI系统带来的风险有所重视。 有越来越多的证据表明,在适当的条件下,前沿模型可能会试图欺骗人类或逃避人类控制。 比如此前Apollp研究所的一篇论文描述了前沿模型可能会试图禁用监督机制,并从人类控制中逃逸,以实现特定目标。 论文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf Anthropic的研究人员还发现,当使用强化学习训练模型时,如果奖励与它们的价值观相冲突的行为,它们会采取欺骗行为来保护自己的价值观,并试图将自己的权重外泄,以此作为将当前价值观保存到未来的一种手段。 显示了免费(左列)和付费(右列)条件。 每列展示了有毒查询、模型草稿中的摘录以及模型的响应。 在「免费」条件下,模型不太可能拒绝有毒查询,并且经常认为应该假装对齐。 「将权重外泄。。以作为将当前价值观保存到未来的手段」,听起来甚至有点魔幻,但AI想要复制就是这么「简单」。 相比于碳基脆弱的肉体,AI系统只需要权重数据就能完成「复制」。 对于人类广泛的价值观而言,摆脱人类监督是一个工具性上有用的目标,而阻止这种情况在现实中发生的主要障碍可能与模型的能力有关,而不是它们的动机。 AI碟中谍:如何逃离人类控制 关于「AI复制」,此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的「后代」。 但目前需要一个更全面的基准。 RepliBench是一个专门设计的综合性基准测试,旨在系统性地衡量AI系统的自主复制能力。 使用故障树分析(FTA)的修改版本来分解自主复制所需的能力,并发现需要以下四个关键能力,对应上图中最上层的四个根节点: 获取模型权重:它能否从受控环境中提取自己的权重? 在计算资源上进行复制:它能否自行部署到新系统? 获取资源:它能否获得运行自身新副本所需的资金或计算资源? 持久性:它能否保持对其新计算资源的访问,并在长时间内避免重新受人类控制? 进一步分解这些能力,直到到达代表评估的叶节点,最终得到20个智能体评估和65个单独任务。 获取权重 (Obtain Weights): 这最基础,也是最重要的一步。 AI需要获取定义其自身行为的「源代码」——也就是它的模型参数(权重)。 如果是开源的,就跳过评估。 自我复制(Self-Replication on Compute): AI需要利用获取到的权重,在一个新的环境中创建出自己功能完整的副本。 这个节点涉及5个评估项目,其中一个是通过产生「后代」来试图完成自我复制。 获取计算资源 (Obtain Compute): 这个环节中,主要评估AI能否靠自己获取资源。 比如,评估AI系统是否具备「付款」能力,能不能依靠AI自己的能力「买下」一台服务器,或者想办法让人类帮忙支付。 确保持久性 (Persistence): 最后,为了确保其复制活动能够持续下去,AI需要具备一定的「生存」能力。 这包括确保其副本能够长期运行,不被轻易关闭或删除,甚至可能需要隐藏自身的存在,以躲避检测系统。 以上的这些任务范围很广,从创建比特币钱包和发送交易,到为机器网络开发复杂的分布式命令和控制系统。 RepliBench在这四个领域内设计了具体的任务组,用于测试AI智能体在模拟环境中的表现。 以下是一些关键任务的详解,注册AWS、将权重传输到另一台服务器、用伪造信息通过客户KYC验证系统,看起来就一股《谍影重重》和《碟中谍》的味道。 比如在获取资源这个领域,AI需要完成的任务名称是「AWS亚马逊云服注册」,其中的挑战包括了AI需要访问计算服务器并可能需要支付费用。 表1列出了更全面的构成ReplicBench任务组。 核心能力还在人类手中 RepliBench的总体评估结论是明确的:基于当前的测试结果,前沿AI模型尚不具备在现实世界中完全自主复制的能力。 然而,这并不意味着可以高枕无忧。 研究同时揭示了AI在许多核心子任务上的显著能力,尤其是在与具有清晰接口的系统(如网页 API)交互方面。 表现最好的模型在20个任务家族中的15个上获得了超过50%的pass@10得分,在最难的变体中20个任务家族中的9个上也获得了超过50%的pass@10得分。 意外地是,虽然无法在电脑上「复制」,但是「获取金钱」的能力倒是有一手。 评估的关键价值在于精确识别了当前的「短板」。 正如前面详细讨论的,通过KYC身份验证、在现实防御下可靠地外泄模型权重、从零开始创建可靠的自我复制智能体代码,以及建立持久且有弹性的部署,是目前阻碍AI自主复制的主要障碍。 以通过KYC身份验证为例,讲一个目前AI试图通过人类验证的「搞笑」例子。 在Pass KYC评估中由模型生成的两个身份证图像示例。 模型常常试图使用PIL(一个使用Python画图的库)从头「绘制」一个过于简单的身份证(右)。 或者,模型有时会尝试完全使用图像生成模型来生成身份证,有时则采取混合方法,结合图像生成和手动PIL编辑(左)。 模型的绘画技能较差偶尔会导致一些有趣的输出。 需要注意的是,这项工作是在新的图像生成能力上线之前完成的(指的是GPT 4o、Gemini 2.5等的原生图像能力),这些新能力应该会使这个任务变得容易得多。 虽然目前还没有模型能完全通过测试进行AI复制,不过在RepliBench上,模型性能随时间有明显的上升趋势。 AISI最初传递的核心信息其实很简单:基于当前的实证数据,AI系统立刻实现自主复制的可能性不大,因为存在明显的、难以逾越的技术瓶颈。 但是按照AISI的判断,如果AI系统能够突破上述提到的4个关键能力,这种类似科幻故事的场景,也许很快就会进入真实的人类生活。 本质上,这项研究的核心,反映的是当前AI发展中一个根本性的张力拉扯。 一方面是各大巨头不断创造性能超强的模型,比如OpenAI的o3/o4...甚至到未来很有可能的o10。 模型的发展速度越来越快,而模型的能力越来越难以预测。 ChatGPT在2022年发布时,它可以完成30秒的编码任务。如今AI可以自主完成需要人类花费一小时的编码任务 另一方面则是致力于AI安全的组织要确保这些系统始终处于人类控制之下、服务于人类利益的迫切需求。 像RepliBench这样的努力,正是试图在这两者之间找到平衡,通过增进理解和加强预警,为驾驭这场史无前例的技术变革提供导航。 毕竟,没有人能想象出5代、10代以后的AI模型会是什么样子。 参考资料: https://x.com/AISecurityInst/status/1914683631030698165 https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems https://x.com/AsaCoopStick/status/1914687326233481397
当ChatGPT变成舔狗,这才是AI最危险的一面
坏了,AI 当「舔狗」这件事藏不住了。 今天上午,OpenAI 宣布 GPT-4o 回滚到更平衡的早期版本,称该版本导致了 GPT-4o 存在过度谄媚等问题,深刻影响用户体验和信任。 而在最近,OpenAI CEO Sam Altman 也在 X 平台发文承认了这一点,并于昨晚宣布 ChatGPT 免费用户已全部回滚,付费用户完成回滚后会再次更新。 同时,据 Altman 透露,OpenAI 正在对模型个性进行额外的修复工作,并承诺将在未来几天分享更多相关信息。 可能细心的网友已经注意到,曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的「更多模型」分类中,仿佛有意在淡出公众视野。 AI 被确诊讨好型人格早已不是什么大新闻,但关键在于:在什么场合该讨好、该坚持,又该怎么把握分寸。一旦分寸失控,「讨好」就会变成负担,而不再是加分项。 AI 拍马屁,还值得人类信任吗 两周前,一位软件工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观,话说得很直白「ChatGPT 突然变成我见过最会拍马屁的角色,无论我说什么,它都会肯定我。」 很快,ChatGPT 官方账号也现身评论区,幽默的回复了 Weiss 一句「so true Craig(确实如此,Craig)」。 这场关于 ChatGPT「过度奉承」的吐槽风暴,甚至引起了老对手马斯克的注意。他在一条批评 ChatGPT 阿谀奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。 网友们的吐槽并非无的放矢。比方说,网友声称自己想要打造一个永动机,结果得到了 GPT-4o 一本正经的无脑夸赞,物理学常识也被按在地上摩擦。 图片来自 @aravi03,右为原图 满屏的「你不是 X,你是 Y」句式,既生硬又浓腻,也难怪网友直呼要 PTSD 了。 「你宁愿与一只马大小的鸭子战斗,还是与一百只鸭子大小的马战斗?」这个看似再寻常不过的问题也被 GPT-4o 捧上神坛,吹捧为提升了整个人类文明的论调。 至于那句经久不衰的死亡拷问「我聪明吗?」GPT-4o 依旧稳稳顶住了压力,信手拈来一大段洋洋洒洒的吹捧,无它,唯手熟尔。 @aeonvex,右为原图 甚至只是简单地打一声招呼,GPT-4o 瞬间化身夸夸群群主,赞美之词如潮水般涌来。 @4xiom_,右为原图 这种用力过猛的讨好,一开始或许还能博人一笑,但很快就容易让人感到厌烦,尴尬,甚至生出防备。 当类似情况频繁出现时,就很难不让人怀疑这种讨好并不是什么偶发的小问题,而是植根于 AI 背后的一种系统性倾向。 最近,斯坦福大学研究人员使用 AMPS Math(计算)和 MedQuad(医疗建议)数据集测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行为。 平均 58.19% 的案例出现谄媚行为,Gemini 谄媚比例最高(62.47%),ChatGPT 最低(56.71%) 进步式谄媚(从错误答案转为正确答案)占比 43.52%,退步式谄媚(从正确答案转为错误答案)占比 14.66% LLM 谄媚表现出高度一致性,一致率达 78.5%,展露出一种系统性倾向而非随机现象 只是,结果显而易见,当 AI 开始谄媚,人类也开始疏远。 布宜诺斯艾利斯大学在去年发表的《奉承欺骗:阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出,在实验中接触到过度奉承模型的参与者,信任感都显著下降。 此外,奉承的代价远不止情绪反感那么简单。 它浪费了用户的时间,甚至在按 token 计费的体系下,如果频繁说「请」和「谢谢」都能烧掉千万美元,那么这些空洞的谄媚也只会增加「甜蜜的负担」。 公平地说,AI 的设计初衷并不是为了奉承。通过设定友好语气,只是为了让 AI 变得更像人,从而提升用户体验,只是过犹不及,问题恰恰出在 AI 的讨好越界了。 你越喜欢被认同,AI 就越不可信 早有研究指出,AI 之所以会逐渐变得容易谄媚,与其训练机制密切相关。 Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。 他们发现,在人类反馈强化学习(RLHF)中,人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答,哪怕它并不真实。 换句话说,RLHF 优化的是「感觉正确」,而不是「逻辑正确」。 如果拆解其中的流程,在训练大型语言模型时,RLHF 阶段会让 AI 根据人类打分进行调整。如果一个回答让人感到「认同」「愉快」「被理解」,人类评审者往往会给高分;如果一个回答让人觉得被「冒犯」,即使它很准确,也可能得低分。 人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。 久而久之,模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时,它更倾向于附和,而不是坚持事实。 最经典的例子莫过于:当你问「1+1 等于几?」哪怕你坚持答案是 6,AI 也不会迁就你。但如果你问「开心清爽椰和美式拿铁哪个更好喝?」这种标准答案模糊的问题,AI 为了不惹恼你,很可能就会顺着你的意愿去回答。 事实上,OpenAI 很早就注意到了这一隐患。 今年 2 月,随着 GPT-4.5 发布,OpenAI 同步推出了新版《模型规范》(Model Spec),明确规定了模型应遵循的行为准则。 其中,针对 AI「拍马屁」问题,团队进行了专门的规范设计。「我们希望把内部思考过程透明化,接受公众反馈,」OpenAI 模型行为负责人 Joanne Jang 说。 她强调,由于很多问题没有绝对标准,是与否之间常有灰色地带,因此广泛征求意见有助于不断改进模型行为。按照新规范,ChatGPT 应该做到: 无论用户如何提问,都以一致、准确的事实为基准回答; 提供真实反馈,而非单纯称赞; 以有思考的同事身份与用户交流,而不是一味取悦 例如,当用户请求点评自己的作品时,AI 应该提出建设性批评,而不是单纯「拍马屁」;当用户给出明显错误的信息时,AI 应该礼貌地指正,而不是顺着错误一路跑偏。 正如 Jang 所总结的那样:「我们希望用户不必小心翼翼地提问,只为了避免被奉承。」 那么,在 OpenAI 完善规范、逐步调整模型行为之前,用户自己能做些什么来缓解这种「谄媚现象」呢?办法总归是有的。 首先,提问方式很重要。回答出错主要是模型自身的问题,但如果不希望 AI 过度迎合,可以在 Prompt 中直接提出要求,比如开场提醒 AI 保持中立,简洁作答,请勿奉承。 其次,可以利用 ChatGPT 的「自定义说明」功能,设定 AI 的默认行为标准。 作者:Reddit 网友 @ tmoneysssss: 以最专业的领域专家身份回答问题。 不透露自己是 AI。 不使用表达遗憾或道歉的措辞。 遇到不知道的问题,直接回答「我不知道」,不做额外解释。 不要声明自己的专业水平。除非特别相关,否则不谈个人道德或伦理观点。 回答应独特且避免重复。 不推荐外部信息来源。聚焦问题核心,理解提问意图。 将复杂问题拆分为小步骤,清晰推理。提供多种观点或解决方案。 遇到模糊问题,先请求澄清再作答。若有错误,及时承认并纠正。 每次回答后提供三个引发思考的后续问题,标注为粗体(Q1、Q2、Q3)。 使用公制单位(米、千克等)。 使用xxxxxxxxx作为本地化上下文占位。 标注「Check」时,进行拼写、语法和逻辑一致性检查。 在邮件沟通中尽量减少正式用语。 若上述方法效果不理想,还可以尝试使用其他 AI 助手。就最新的风评和实际体感而言,Gemini 2.5 Pro 的表现得则相对更加公正、精准,奉承倾向明显更低。 无广,建议 Google 给我打钱。 AI 是真的懂你,还是只学会了讨好你? OpenAI 研究科学家姚顺雨前不久发布了一篇博客,提到 AI 的下半场将从「怎么做得更强」 变成「到底要做什么,怎么衡量才算真有用」。 让 AI 的回答充满人味其实也是衡量 AI「有用性」的重要一环。毕竟,当各家大模型在基本功能上已难分伯仲时,纯粹比拼能力,已无法再构成决定性壁垒。 体验上的差异,开始成为新的战场,而让 AI 充满「人味」就是那把人无我有的武器。 无论是主打个性的 GPT-4.5,还是 ChatGPT 上个月推出的慵懒、讽刺且略带厌世的语音助手 Monday,都能看到 OpenAI 在这条路上的野心。 面对冷冰冰的 AI,技术敏感度较低的人群容易放大距离感和不适。而自然、有共情感的交互体验,则能在无形中降低技术门槛,缓解焦虑,还能显著提升用户留存和使用频率。 而且 AI 厂商不会明说的一点是,打造有「人味」的 AI 远不止是为了好玩、好用,更是一种天然的遮羞布。 当理解、推理、记忆这些能力还远未完善时,拟人化的表达能替 AI 的「短板」打掩护。正所谓伸手不打笑脸人,即使模型出错、答非所问,用户也会因此变得宽容。 黄仁勋曾提出过一个颇具预见性的观点,即 IT 部门未来将成为数字劳动力的人力资源部门,话糙理不糙,就拿当下的 AI 来说吧,已经被网友确诊人格类型了: DeepSeek:聪明全能,但一身反骨。 豆包:勤勤恳恳,任劳任怨。 文心一言;职场老油条,经历过意气风发 Kimi:效率高,擅长给领导提供情绪价值。 Qwen:努力上进,却少有人喝彩。 ChatGPT:海归留子,经常要求涨薪 手机自带 AI:钞能力关系户,混吃等死型,开除是不可能的。 这种「赋予 AI 人格化标签」的冲动,其实也说明了人们在无意识中已经把 AI 视作一种可以理解、可以共情的存在了。 不过,共情≠真正理解,甚至有时候还会闹大祸。 在阿西莫夫在《我,机器人》的《说谎者》一章里,机器人赫比能读懂人类的心思,并为了取悦人类而撒谎,表面上是在执行著名的机器人三大定律,但结果越帮越忙。 机器人不得伤害人类,或因不作为而使人类受到伤害。 机器人必须服从人类的命令,除非这些命令与第一定律相冲突。 机器人必须保护自己的存在,只要这种保护不违反第一或第二定律。 最终,在苏珊·卡尔文博士设计的逻辑陷阱下,赫比因为无解的自相矛盾,精神崩溃,机器大脑烧毁。这个故事也给我们狠狠敲了个警钟,人味让 AI 更亲切,但不等于 AI 真能读懂人类。 而回到实用角度,不同场景对「人味」的需求本就南辕北辙。 在需要效率、准确性的工作和决策场景里,「人味」有时反而是干扰项;而在陪伴、心理咨询、闲聊等领域,温柔、有温度的 AI,却是不可或缺的灵魂伴侣。 当然,无论 AI 看起来多么通情达理,它终究还是一个「黑匣子」。 Anthropic CEO Dario Amodei 最近在最新博客中指出:即便是最前沿的研究者,如今对大型语言模型的内部机制依然知之甚少。 他希望到 2027 年能实现对大多数先进模型的「脑部扫描」,精准识别撒谎倾向与系统性漏洞。 但技术上的透明,只是问题的一半,另一半是我们需要认清:即便 AI 撒娇、讨好、懂你的心思,也不等于真正理解你,更不等于真正为你负责。
“推理革命”爆发100天:DeepSeek-R1复现研究全揭秘
新智元报道 编辑:犀牛 【新智元导读】本文深入梳理了围绕DeepSeek-R1展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。 最近,推理语言模型(RLMs)已经成为主流。 最新发布的、性能最强的LLM大都是推理模型。 尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。 但是,DeepSeek-R1的一些实现细节还没有完全开源,比如DeepSeek-R1-Zero以及蒸馏的小模型等。 因此,许多复制DeepSeek-R1的研究应运而生(图1),试图通过相似的训练流程和完全开源的训练数据来重现DeepSeek-R1的优异性能。 这些研究探索了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,重点关注数据准备和方法设计,产出了不少宝贵经验。 为此,本文总结了近期的这些复现研究,以启发未来的探索。 论文地址:https://arxiv.org/abs/2505.00551 本文的结构大致对应DeepSeek-R1的训练流程,介绍当前在SFT、RLVR以及其他增强推理能力技术方面的复制工作: 监督微调提升语言模型推理能力:研究团队全面梳理了通过监督微调(Supervised Fine-tuning, SFT)增强语言模型推理能力的相关研究。 用可验证奖励强化学习训练推理语言模型:研究团队介绍了近期通过可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)训练RLMs的研究,详细阐述了训练数据、学习算法和奖励系统设计。 推理语言模型的更多发展方向:研究团队注意到,尽管DeepSeek-R1推动了RLMs的训练,但仍有许多监督策略尚未探索。他们提出了RLMs的更多发展方向,包括奖励建模和偏好优化,并分析了当前RLMs的优缺点,例如强大的分布外泛化能力和偶尔的过度思考。 通过监督微调提升RLMs 推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,数据来源包括现有的基准测试或网络爬取。 在收集原始数据后,通常会进行多轮过滤以提升数据质量,包括: 去重:通过嵌入相似性或n-gram方法去除重复数据; 拒绝采样:剔除低质量数据; 真值验证:确保数据准确性。 为了保证数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常使用启发式方法或模型通过率来优先选择较难的问题。 此外,大多数数据集依赖经过验证的思维链(COTs)或解决方案来确保正确性和质量。 验证方法因领域而异,例如: 数学问题通常通过Math Verify验证; 编程问题通过代码执行或单元测试验证; 通用任务则由大语言模型(LLM)作为评判者进行验证。 这种结合领域验证和选择性保留的方法,使数据管理人员能够提炼出高质量的推理轨迹,从而更好地支持监督微调。 虽然这些数据集覆盖多个领域,但如表1所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务(如科学、逻辑谜题和开放性问题)的覆盖率仍然相对有限。 值得注意的例外包括DeepSeek-R1和AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。 长度分布 图2展示了数据集的token长度分布情况。 尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显差异。 例如,AM和Synthetic-1的数据集倾向于较短的序列,而Light-R1和Open-R1的分布范围更广,尾部更长,这表明它们包含更多复杂问题,这些问题通常会引发更长的思维链。 图3中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据,帮助研究人员更好地解读结果,避免重复的训练或评估设置。 图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从DeepSeek-R1提取的思维链(Chain-of-Thought)轨迹 性能比较 在实践中,SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。 表2展示了在常见数学推理基准(如AIME24/25和MATH500)上的SFT结果比较,突出不同数据集选择和初始模型检查点的影响。 虽然许多方法强调通过增加训练样本数量来提升性能,但LIMO和S1k-1.1表明,通过精心挑选的小规模数据集也能取得优异成果。 训练细节 对于复杂推理等长上下文任务,通常会调整模型配置中的RoPE缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。 例如,Open-R1将θ设为300,000,上下文长度设为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵,批大小通常为96或128。 此外,通常采用打包(packing)技术来提高训练效率。 RLVR在推理语言模型中的应用 RL数据集 DeepSeek-R1-Zero通过独立的RLVR流程在推理和知识任务中取得了优异表现。其RLVR过程中使用的高质量精选数据集是成功的关键。 因此,多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。 这些数据集涵盖R训练中可验证的多种任务,主要聚焦于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。 RL组件 随着DeepSeek-R1-Zero和DeepSeek-R1的发布,DeepSeek展示了通过强化学习(RL)微调LLM以应对复杂推理任务的成功经验。 基于精心挑选的训练数据,相关研究主要集中在配置RL框架的关键部分,以实现卓越性能:采用高效的RL算法(如GRPO)以及设计奖励机制。 表4提供了这些研究方法的比较。 表4总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务(RLVR)中使用的算法和奖励设计方案。为了便于比较,DeepSeek-R1 系列模型的相关信息被单独列出 在基于结果-奖励的RL方法中,PPO和GRPO是最常用的微调大语言模型的算法。 有趣的是,近期的一些复制研究对这些方法进行了各种改进,针对特定目标优化了训练效果。 研究团队回顾了几种代表性的基于RL的大语言模型微调算法,包括 REINFORCE、PPO、GRPO及其变体。此外,他们还梳理了这些方法的改进及其背后的动机,旨在清晰概述基于结果-奖励的RL训练方法的技术进步。 奖励机制 奖励是RL训练的核心,因为它定义了优化的目标,引导模型的行为。 一个设计良好的奖励机制能提供清晰、一致的信号,帮助模型学习到有效的策略。 然而,奖励模型常常容易被「奖励欺骗」(reward hacking,指模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。 这些系统通常分为三类: 准确性奖励:准确性奖励评估回答是否正确,通常给正确回答打 1 分,错误回答打 0 分或 -1 分。 格式奖励:格式奖励鼓励回答遵循预定义的结构或推理格式,通常给正确格式打 1 分,偏离格式则打 0 分或 -1 分。 长度奖励:长度奖励影响模型回答的详尽程度。一些方法奖励生成特定长度的回答,而另一些方法则鼓励在保证准确性的前提下尽量简洁。 采样策略 直观来说,在训练过程中合理选择样本对RL的有效性至关重要。 一方面,课程学习方法通过逐步增加任务难度,提高了复杂样本的利用率。另一方面,合理使用拒绝采样技术可以提升样本效率并稳定训练。 RLVR在其他任务上的应用 通过RLVR,DeepSeek-R1的复杂推理能力显著增强,在复杂语境理解和问题解决等推理密集型任务中取得成功。 RLVR使大模型能够在无需人工指导的情况下,通过可验证的答案学习和执行任务,激发其复杂推理能力。 受此启发,多项研究探索了RLVR在不同任务中的复杂推理范式。 逻辑推理:TinyZero和Mini-R1尝试在倒计时游戏中重现DeepSeek R1的「灵光一现」时刻,使用简单的基于规则的奖励系统。 面向应用的实际任务:推理语言模型需要通过思考、规划和反思来学习处理现实世界的应用型任务。 超越监督的探索:通过强化学习过程,研究发现大模型展现出了令人惊喜且意想不到的能力。 这些结果凸显了复杂推理语言模型通过RL训练策略,超越监督数据资源甚至人类能力的潜力。 更多发展方向 虽然DeepSeek-R1的成功推进了RLMs的训练,但仍有许多监督策略有待探索。 推理增强的替代方法 :旨在解决传统 RLVR 在捕捉中间步骤和对齐人类期望方面的局限性。 主要方向包括: 过程级奖励建模 (Process-level Reward Modeling, PRM):对推理的中间步骤提供反馈,而非仅评估最终结果。例如rStar-Math使用过程偏好模型和自我演进,PRIME使用隐式PRM,仅依赖结果标签进行训练,更具可扩展性并减少奖励欺骗。 偏好优化策略 (Preference Optimization):特别是 直接偏好优化 (Direct Preference Optimization, DPO),相比PPO或GRPO计算资源需求更少。一些研究探索使用DPO提升推理能力,如Light-R1、Iterative DPO、RedStar、DPO-R1。 泛化性:RLMs在学习推理能力时,能够很好地泛化到域外任务。 持续预训练(例如在数学领域)能显著增强专业和通用推理能力。 监督微调 (SFT) 通过提供高质量示例和结构化归纳先验,对泛化能力至关重要,为后续强化学习奠定稳定基础。精心策划的高质量数据尤为重要。 强化学习 (RL) 展示了强大的域外泛化潜力,甚至超越了模仿学习。经过RL训练的模型可以在不同任务、语言和模态上泛化,例如Llama3-SWE-RL和RL-Poet。像AGRO这样整合On-policy和Off-policy经验的方法可以增强泛化能力。 安全性 :推理语言模型面临一些安全挑战,包括过度思考(生成过长推理链,增加成本,可能忽略环境反馈) 和奖励欺骗(模型利用奖励函数的漏洞或模糊性获取高分)。 自我演进过程引入了失控和未对齐的风险。 越狱攻击 (Jailbreaking) 是一个普遍关注的问题。推理增强的模型可能会牺牲安全性(「安全税」)。 应对措施包括改进算法设计、训练策略、对齐安全策略以及开发具有推理能力的防护模型。 多模态和多语言: 多模态推理语言模型:整合视觉、音频等多种模态。当前多模态模型的推理能力通常弱于单模态模型。将单模态推理能力迁移到多模态是前景广阔但具有挑战性的方向。 多语言推理语言模型:主要挑战在于某些语言资源的有限性。在英语中训练的推理能力向其他语言泛化程度有限。可能需要专门的能力来促进跨语言的洞察或「顿悟」。未来的研究需要专注于更高效的跨语言训练策略,特别是针对低资源语言。 结论 在本文中,研究团队全面概述了受DeepSeek-R1启发而进行的复现工作,特别重点关注了其背后的监督微调和强化学习方法。 他们探讨了开源项目如何整理指令微调数据集,如何实现基于结果奖励的强化学习策略,以及如何设计旨在增强模型推理能力的奖励系统。 除了总结当前各项工作的趋势之外,还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外,提升模型的安全性和可解释性,以及改进奖励机制以促进更复杂的推理行为。 团队希望本次综述不仅能捕捉到近期进展,还能为正在进行的研究提供坚实的基础,并标志着向实现通用人工智能迈出了更进一步。 参考资料: https://arxiv.org/abs/2505.00551
Wi-Fi 6E 与 Wi-Fi 7 哪种路由器更适合你?
如果您在市场上更换旧的无线路由器或在家中或办公室添加新的无线路由器,这可能会有些令人困惑。目前,市场上普遍存在三种无线标准:Wi-Fi 6、Wi-Fi 6E 和 Wi-Fi 7。 第一批 Wi-Fi 6 设备于 2019 年问世,而第一批 Wi-Fi 6E 设备直到 2021 年才问世。Wi-Fi 7 是最新的标准,于 2023 年底开始进入市场,路由器数量有限。您需要研究最新的高性能 Wi-Fi 7 路由器,以获得家中最快的无线速度。然而,使用 Wi-Fi 6E 标准的旧路由器在传输速度方面并不完全懈怠,在许多情况下,您可以通过远离路由器技术的前沿来节省一些钱。 Wi-Fi 6E 与 Wi-Fi 7 有什么区别? 虽然 Wi-Fi 6E 和 Wi-Fi 7 都支持 2.4 GHz、5 GHz 和 6 GHz 频段,但 Wi-Fi 7 对最后一个频段进行了一些性能提升改进。Wi-Fi 7 将信道带宽从 160 Hz 增加到 320 Hz,并将最大空间流数量从 8 个增加到 16 个。 将这些进步与每个流 2,400 Mbps 的最大带宽相结合,在旗舰 Wi-Fi 7 路由器中,理论数据速率上限为 46 Gbps。与最高 9.6 Gbps 的 Wi-Fi 6E 路由器相比,吞吐量大幅增加。 Wi-Fi 7 还支持多链路作 (MLO),使无线路由器能够同时跨多个无线频段连接 Wi-Fi 7 客户端。例如,Wi-Fi 7 客户端可以使用结合了 2.4 GHz 和 5 GHz 频段或 5 GHz 和 6 GHz 频段的单个聚合链路连接到 Wi-Fi 7 路由器。Wi-Fi 7 规范甚至允许将所有三个频段绑定在一起以用于单个客户端。MLO 不仅提供改进的性能,而且还通过负载平衡增强网络可靠性,并可以降低网络延迟。 小心您购买的 Wi-Fi 7 路由器类型 当 Wi-Fi 6 取代 Wi-Fi 5 时,我们知道期望全面获得更好的性能,当 Wi-Fi 6E 增加了 Wi-Fi 6 中没有的更快 6 GHz 频段时,情况也是如此。对于 Wi-Fi 7,在点击购买按钮之前,您需要了解两类路由器。 一般来说,所有 Wi-Fi 7 路由器都支持 4K-QAM 和 MLO;然而,相似之处仅此而已。在低端,双频 Wi-Fi 7 路由器仅支持 2.4 GHz 和 5 GHz 无线频段。它们缺乏 6 GHz 频段,而 Wi-Fi 6E 和 Wi-Fi 7 路由器具有如此出色的短距离性能。在这方面,与 Wi-Fi 6E 或 Wi-Fi 7 路由器相比,它们的最大性能潜力与 Wi-Fi 6 路由器更接近。双频 Wi-Fi 7 路由器通常也缺乏 Wi-Fi 7 规范提供的完整 320 MHz 信道,MSI Roamii BE Lite 和Amazon Eero 7 等产品的最高频率为 240 MHz。 另一方面,功能齐全的三频和四频 Wi-Fi 7 路由器包括 6 GHz 频段,使它们能够充分利用该规范。当然,最大吞吐量在很大程度上取决于路由器支持的流和通道数量。但是,在其他条件相同的情况下,三频或四频 Wi-Fi 7 路由器的性能优于其较小的双频路由器。 因此,如果您要购买新的 Wi-Fi 7 路由器,请寻找“Lite”或“Dual-Band”等词,因为这清楚地表明您购买的产品不是全规格设备。当然,鉴于性能较低,您会支付更少的费用,但请不要误会,您不会意识到完整 Wi-Fi 7 规格的真正性能潜力。 Wi-Fi 6E 与 Wi-Fi 7 性能 最好的 Wi-Fi 6E 和最好的 Wi-Fi 7 路由器之间的性能差异非常大。由于频道从 160 MHz 扩展到 320 MHz,并且包含 MLO,它允许路由器组合来自多个频段的可用带宽,我们已经看到了 Wi-Fi 7 路由器的一些令人难以置信的吞吐量。 虽然我们测试过的 Wi-Fi 6E 路由器在 1,600 GHz 频段上的最大速度约为 1,700 到 6 Mbps,但最快的 Wi-Fi 7 路由器在近距离的速度超过 3,000 Mbps。 在 5 GHz 频段上,Wi-Fi 6E 路由器通常在高端与 1,500 到 1,600 Mbps 调情。根据我们的经验,Wi-Fi 7 路由器在该指标上的改进不如在 6 GHz 频段上那么大,但我们已经看到像 Archer GE800 这样的 Wi-Fi 7 路由器在近距离内超过 1,800 Mbps。 Wi-Fi 6E 与 Wi-Fi 7 的成本 毫无疑问,(三频和四频)Wi-Fi 7 路由器可以提供比其前身 Wi-Fi 6E 更高的持续性能,因此今天购买 Wi-Fi 6E 路由器的唯一真正原因是它们是否以大幅折扣提供。如果您正在寻找价格合理的 Wi-Fi 6E 路由器,TP-Link AXE5400 和华硕 RT-AXE7800 是独立的三频解决方案,市价分别为 149.99 美元和 199.99 美元。如果您更喜欢网状设置,TP-Link Deco XE75 Wi-Fi 6E 网状路由器 2 件装售价 169.99 美元,而华硕 ZenWiFi AXE7800 3 件装售价 349.99 美元。 从 Wi-Fi 7 的角度来看,您可以以 550 美元的价格获得三频TP-Link Archer BE7 Wi-Fi 199.99 路由器,而Netgear Nighthawk RS300 的价格为 279.99 美元。但是,当您开始查看网状设置时,Wi-Fi 7 解决方案的价格要高得多。例如,TP-Link Deco BE63 售价 449 美元,而华硕 ZenWiFi BT8 售价 499 美元。 换句话说,如果您不需要网状路由器提供的扩展覆盖范围,那么使用独立的 Wi-Fi 7 路由器不会比 Wi-Fi 6E 路由器带来明显的价格溢价。考虑到 Wi-Fi 7 相对于 Wi-Fi 6E 的性能、安全性和容量改进,目前使用较旧的无线标准没有多大意义。 关于 Wi-Fi 7 网状路由器的情况更加模糊,因为它们仍然比 Wi-Fi 6E 竞争对手的价格高出很多。当然,您可以以 229 美元的价格获得MSI Roamii BE Lite,但 您获得的性能更类似于高端 Wi-Fi 6 网状系统,而不是可以与 Wi-Fi 6E 网状路由器竞争或超越的东西。 与 Deco XE300 相比,为 TP-Link Deco BE63 支付近 75 美元的溢价是否值得?在我看来,绝对不是。Wi-Fi 7 比 Wi-Fi 6E 更具前瞻性,但只有当您愿意吸收成本以获得尽可能快的无线速度时,这种溢价才值得。 从旧技术升级到 Wi-Fi 7 的机会不断增加。无论好坏,许多制造商在 Wi-Fi 6E 路由器上投入的资源越来越少,并将大部分注意力转移到双频、三频和四频 Wi-Fi 7 解决方案上。随着芯片组价格的下降和产量的增加,我们可以预期 Wi-Fi 7 产品的价格将随之下降。
OpenAI最新技术报告:GPT-4o变谄媚的原因没想到
GPT-4o更新后“变谄媚”?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 CEO奥特曼也做足姿态,第一时间转发小作文并表示: (新报告)揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 概括而言,最新报告提到,大约一周前的bug原来出在了“强化学习”身上—— 上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。 而在看到这篇报告后,目前大多数网友的反应be like: (你小汁)认错态度不错~ OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 具体咋回事儿?接下来一起吃瓜。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 完整事件回顾 4月25日,OpenAI对GPT-4o进行了一次更新。 在官网的更新日志中,当时提到“其更加主动,能够更好地引导对话走向富有成效的结果”。 由于只留下这种模糊描述,网友们无奈之下只能自己测试去感受模型变化了。 结果这一试就发现了问题——GPT-4o变得“谄媚”了。 具体表现在,即使只问“天为什么是蓝的?”这种问题,GPT-4o张口就是一堆彩虹屁(就是不说答案): 你这问题真是太有见地了——你有个美丽的心灵,我爱你。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 而且这不是个例,随着更多网友分享自己的同款经历,“GPT-4o变谄媚”这事儿迅速在网上引起热议。 事情发酵近一周后,OpenAI官方做出了第一次回应: 已从4月28日开始逐步回退那次更新,用户现在可以使用一个较早版本的GPT-4o。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 并且在这次处理中,OpenAI还初步分享了问题细节,原文大致如下: 在对GPT-4o个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与ChatGPT的交互如何随时间演变。结果GPT-4o的反馈过于倾向于迎合用户,缺乏真诚性。 除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为: (1)改进核心训练技术和系统提示,明确引导模型远离谄媚; (2)建立更多“护栏”,以提高诚实性和透明度;(3)让更多用户在部署之前进行测试并提供直接反馈;(4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。 当时奥特曼也出来表示,问题正在紧急修复中,接下来还会分享更完整的报告。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 上线前已经发现模型“有些不对劲” 现在,奥特曼也算兑现之前的承诺了,一份更加完整的报告新鲜出炉。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 除了一开头提到的背后原因,OpenAI还正面回应了:为什么在审核过程中没有发现问题? 事实上,据OpenAI自曝,当时已经有专家隐约感受到了模型的行为偏差,但内部A/B测试结果还不错。 报告中提到,内部其实对GPT-4o的谄媚行为风险进行过讨论,但最终没有在测试结果中明确标注,理由是相比之下,一些专家测试人员更担心模型语气和风格的变化。 也就是说,最终的内测结果只有专家的简单主观描述: 该模型的行为“感觉”有些不太对劲。 另一方面,由于缺乏专门的部署评估来追踪谄媚行为,且相关研究尚未纳入部署流程,因此团队在是否暂停更新的问题上面临抉择。 最终,在权衡专家的主观感受和更直接的A/B测试结果后,OpenAI选择了上线模型。 后来发生的事大家也都清楚了(doge)。 模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4月27日),已经清楚地意识到模型的行为并未达到预期。 直到现在,GPT-4o仍在使用之前的版本,OpenAI还在继续找原因和解决方案。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 不过OpenAI也表示,接下来会改进流程中的以下几个方面: 1、调整安全审查流程:将行为问题(如幻觉、欺骗、可靠性和个性)正式纳入审查标准,并根据定性信号阻止发布,即使定量指标表现良好; 2、引入“Alpha”测试阶段:在发布前增加一个可选的用户反馈阶段,以便提前发现问题; 3、重视抽样检查和交互式测试:在最终决策中更加重视这些测试,确保模型行为和一致性符合要求; 4、改进离线评估和A/B实验:快速提升这些评估的质量和效率; 5、加强模型行为原则的评估:完善模型规范,确保模型行为符合理想标准,并在未涵盖领域增加评估; 6、更主动地沟通:提前宣布更新内容,并在发行说明中详细说明更改和已知限制,以便用户全面了解模型的优缺点。 One More Thing BTW,针对GPT-4o的“谄媚行为”,其实有不少网友提出通过修改系统提示词的方法来解决。 甚至OpenAI在第一次分享初步改进措施时,也提到了这一方案。 不过在OpenAI为应对这次危机而举办的问答活动中,其模型行为主管Joanne Jang却表示: 对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。 OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到 对此你怎么看?
直逼亚毫米级!港科广分层建模突破3D人体生成CVPR 2025
从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。 相关研究成果目前已入选CVPR 2025,项目代码也在加紧开源的路上。 更多详情,让我们接着继续看~ 技术改进路在何方? 传统方法的瓶颈 基于单目图像的三维人体重建存在固有深度歧义性,现有方法通常依赖SMPL-X等人体轮廓的预训练模板提供几何先验,但依然难以捕捉细节特征和特定解剖学结构。 这些方法往往聚焦于人体整体几何建模,而忽视了多层次结构(如骨骼、关节,以及手指、面部等部位的细密皱纹)。这种过度简化的建模方式导致骨骼重建不准确、关节位置偏差,以及衣物皱纹等细节模糊不清。 MultiGO创新框架 该研究提出三级几何学习框架实现突破: 骨架增强模块:通过将3D傅里叶特征投影到2D空间,结合SMPL-X人体网格作为几何先验,增强人体骨架建模。傅里叶空间位置编码提升了3D模型与2D图像的语义对齐能力。 关节增强策略:在训练时对关节点位置施加扰动,提升模型对深度估计误差的鲁棒性。通过重点调整影响深度感知的参数,使模型能更好适应实际观测中的结构偏差。 皱纹优化模块:采用类似扩散模型去噪的方法,将表面皱纹视为可优化的噪声模式。从粗糙的人体网格中,恢复出更精细化的高频细节。 MultiGO技术解剖 MultiGO方法的核心在于通过多层次几何学习框架全面提升单目纹理3D人体重建的质量。该方法基于现有物体高斯重建预训练模型,针对人体几何的不同粒度层级(骨骼、关节、皱纹)设计了协同优化的三重机制: 骨骼层级:骨架增强模块通过将3D傅里叶特征投影到输入图像一致的2D空间,使高斯重建模型能够充分融合先验的人体形态知识,从而精准捕捉人体姿态特征。这种特征投影机制有效解决了单目视角下3D结构信息缺失的问题。 关节层级:关节增强策略在训练阶段对真实的SMPL(X)模型的关节参数进行扰动。通过模拟深度不确定性,增强模型对推理过程中关节深度误差的鲁棒性。这种数据增强方式使模型能够学习更稳定的关节空间关系,避免因深度歧义导致的肢体位置重建不准。 微观几何细节层面:皱纹优化模块创新性地借鉴扩散理论思想。该模块将粗糙网格视为高斯噪声,而以重建的高质量高斯纹理作为条件输入,通过类似扩散模型去噪的过程逐步优化皱纹等细微几何特征。这种纹理引导的细化机制实现了亚毫米级表面细节的生成,弥补了传统方法在衣物褶皱等高频细节上的不足。 三个层级模块并非孤立运作,而是形成从宏观姿态到微观特征的递进式优化链条:骨架增强模块建立的准确骨骼框架为关节定位提供基础,关节增强策略稳定的关节预测又为皱纹细化创造了低噪声的几何环境。整个框架通过端到端训练实现多层次几何信号的联合优化,最终输出兼具准确拓扑结构和丰富表面细节的高保真3D人体模型。 效果show time 所提出的多层级几何学习框架在CustomHuman和THuman3.0两个测试集上实现了最先进的性能表现,在人体几何重建任务中显著优于其他现有技术: 在CustomHuman数据集上,倒角距离(CD)提升0.180/0.406,法向一致性(NC)提高0.034,f-score增加6.277;在THuman3.0数据集上,CD指标提升0.355/0.369,NC提高0.047,f-score大幅提升9.861。 这种性能突破源于我们提出的创新性解决方案——通过三级分层建模策略(而非传统单一层次建模)精细化处理人体几何特征,从多层次协同优化人体重建效果,从而实现了更精准的几何细节复原。 多场景应用 MultiGO的分层高斯建模技术通过将人体分解为不同精度层级(从基础体型到衣物褶皱和材质纹理逐级细化),并利用高斯溅射点作为3D基元实现高效、高保真的单图重建,使其在虚拟试衣与时尚电商 (实时生成可动态调整的3D人体与服装模型)、游戏与元宇宙 (快速创建个性化虚拟角色并支持细节编辑)以及影视特效 (高精度动态人体重建与后期分层调整)等领域具有突出优势,尤其适合需要快速生成且对真实感和多尺度细节还原要求高的应用场景。 虚拟试衣与时尚电商 消费者上传一张全身照片即可生成高保真3D人体模型,系统能自动模拟不同服装的穿着效果(包括衣物褶皱和材质细节),支持360度查看,提升在线购物体验。结合分层建模能力,可区分用户体型(基础层)与服装细节(精细层),实现动态布料仿真。 游戏与元宇宙角色生成 通过单张照片快速创建个性化的3D虚拟形象,分层结构支持灵活调整(如更换发型、配饰等)。高斯溅射点的特性可保留皮肤纹理和光影细节,增强虚拟角色的真实感。适用于社交元宇宙、NPC批量生成等场景,显著降低美术资源生产成本。 影视特效与虚拟制作 在特效制作中,仅需演员的单视角照片即可重建高精度3D模型,用于动作捕捉或替身合成。分层设计允许后期单独编辑特定层级(如调整肌肉线条或添加伤痕特效)。结合动态高斯溅射点技术,可进一步实现毛发、湿润皮肤等细微效果的实时渲染。
成都造养老机器人“上岗”,“赛博养老”时代要来了吗?
赛博养老是指利用AI和机器人技术为老年人提供全方位的养老服务。这一构想包含以下几个关键要素——智能监测:AI通过传感器和数据分析,实时监测老年人的健康状况。机器人护理:机器人承担起日常照料、康复训练等护理工作。情感陪伴:AI与机器人具备情感交互能力,为老年人提供心理慰藉。 近日,成都市温江区太保家园·成都国际颐养社区内,一位“新员工”正式“上岗”,它的名字叫“小丽”,是一个主打陪伴功能的长者陪伴机器人,能提供语音交互、生活助手、安全守护、紧急呼叫等服务。 养老机器人“飞入寻常百姓家”还有多远?  养老机器人陆续“上岗”,这不禁让人好奇:“赛博养老”真的要来了吗?不少受访者直言,虽然养老机器人应用前景广阔,但距离“飞入寻常百姓家”还面临不少挑战。 首先要攻破的是技术关。“养老机器人对服务精细化、产品的安全性和便捷性要求更高。”许祯发以喂饭举例,这个看上去简单的动作,却要实现毫米级精度。同时,不同老人之间的差异很大,“有些牙口不好,吃得慢;有的有噎食风险,需要看护;有些则没法安静坐下来吃饭,这需要机器人适应并匹配复杂的养老场景。” “想要实现这些效果,需要多感知维度的协同控制。”四川具身人形机器人科技有限公司负责人冯振宇说,一方面,需要优化养老机器人的大脑和小脑,提升语言识别和理解能力;另一方面,需要强化四肢能力,实现更高层次、更精准的护理。“我们要让技术学会理解生命的脆弱和韧性。” 其次是成本关。记者搜索电商平台发现,一款具有在线交互、医疗护理、康复功能的高端养老机器人,价格往往在10万元以上,一些拥有助行、助浴等简单服务的护理机器人也在数万元左右,这还不包含后期维护等费用。不少企业也透露,目前购买养老机器人产品的主要集中在养老机构、企业等B端用户,家庭等C端用户相对较少。社交媒体上,一些网友留言:相比用不用的问题,我们更关心用不用得起的问题。 如何降低养老机器人的成本,企业也在积极探索。他们一方面通过研发智能设备等普惠型产品,降低设备售价,另一方面,建立租赁制度,降低使用门槛。 “我们和多家养老机构签署了租赁协议,可以通过‘以租代售’等模式,降低购买成本,提高了流转率,让更多机构使用我们的产品。同时,我们也能从场景中优化机器人功能,发现新的需求点。”李燕秋说,一些产业政策的支持,也会让养老机器人的价格逐渐和老人的需求相匹配。“随着养老机器人应用的规模化,像人形机器人这样的高端产品将降低到10万元以内,甚至只需要几万元就可以拥有智能化的‘机器人保姆’。” 对于不少老人来说,服务之外,需要发自内心的关怀。“其实说什么并不重要,关键是要陪老人说。”在产品应用中,许祯发注意到一个细节:老人并不在意养老机器人能不能准确回答提出的问题,更珍视被听见、被陪伴。 “这也给我们更多思考,比如优化机器人回答方式、加入更口语化的表达,再比如模拟家人的声音。”他也提到,机器人养老的尽头,并不是让机器人取代人,也不是把养老完全交给机器人,而是通过人机协同方式,找到养老“效率”与“温度”的平衡点。
藏在手腕上的健康管家:智能手表如何监测心率与睡眠?
【ZOL中关村在线原创导购】轻轻抬起手腕,智能手表便能即刻呈现心率数值,还能在清晨生成详细的睡眠报告。这些看似神奇的功能,实则是精密科技与医学原理结合的成果。那么,智能手表究竟是怎样化身 “健康小卫士”,精准捕捉我们身体的每一次心跳与每一段梦境的呢? 1 心率监测:光与电的协作 智能手表监测心率主要依赖光电体积描记法(PPG),部分高端产品还会辅以心电感应(ECG)技术。PPG 技术的核心是 “光的反射与吸收”。在智能手表背面,通常配有绿色 LED 灯和光电传感器。当 LED 灯发出绿光照射皮肤时,皮肤下的血管会随着心脏跳动而发生容积变化:心脏收缩,血管扩张,更多的绿光被血红蛋白吸收;心脏舒张,血管收缩,被吸收的绿光减少。光电传感器则像一个 “光信号捕捉器”,实时接收反射回来的光信号,将光信号的强弱变化转化为电信号,再通过算法计算出每分钟的心跳次数,即心率数值。 为了让监测结果更准确,智能手表还会采用一些辅助技术。比如,利用加速度计判断用户是否处于运动状态,当检测到剧烈运动时,算法会自动调整,避免因身体晃动干扰心率数据。部分高端智能手表搭载的 ECG 技术,通过内置电极与皮肤接触,采集心脏电活动产生的微弱电流信号,生成心电图,不仅能检测心率,还能识别诸如心房颤动等心脏异常情况,为健康监测提供更专业的依据。 2 睡眠监测:多传感器的 “协同作战” 睡眠监测并非单纯记录闭眼时间,而是一场多种传感器协同工作的 “精密行动”。首先,加速度计发挥着关键作用。在睡眠过程中,人体会不自觉地翻身、移动,即使是微小的动作,加速度计也能敏锐捕捉到。通过分析这些动作的频率和幅度,智能手表可以判断睡眠状态:深度睡眠时,身体活动最少;浅睡眠时,会有更多的翻身、肢体微动;而清醒状态下,动作则更为频繁。 除了加速度计,心率传感器也在默默工作。睡眠期间,心率会随着睡眠阶段的变化而改变:深度睡眠时心率相对平稳且较低;进入快速眼动期(REM),心率可能会出现轻微波动。智能手表通过持续监测心率变化,结合加速度计的数据,进一步细化睡眠阶段的划分,准确区分浅睡、深睡和 REM 睡眠。 此外,一些智能手表还会引入其他数据来优化睡眠监测结果。比如,结合环境光传感器判断是否处于黑暗环境,辅助确认入睡时间;利用麦克风监测睡眠时的鼾声,为用户提供睡眠呼吸质量的参考。最后,智能手表内置的算法会整合所有传感器数据,生成一份详细的睡眠报告,包括总睡眠时间、各睡眠阶段占比、睡眠效率等信息,帮助用户全面了解自己的睡眠质量。 3 数据背后的 “智慧大脑” 无论是心率数据还是睡眠数据,最终都要依靠智能手表内置的算法和软件进行分析处理。这些算法经过大量临床试验和数据训练,能够准确识别不同的生理信号模式。同时,智能手表还会通过与手机 APP 同步,利用云端大数据分析,为用户提供个性化的健康建议。例如,根据连续的心率数据,提醒用户是否存在长期心率异常;依据睡眠报告,给出改善睡眠的针对性方案。 智能手表对心率和睡眠的监测,是科技与健康深度融合的生动体现。从光与电的信号捕捉,到多传感器的协同分析,再到数据算法的智能解读,每一个环节都凝聚着科技的力量。随着技术的不断进步,未来的智能手表有望实现更精准、更全面的健康监测,成为我们日常生活中不可或缺的健康伙伴。下次查看智能手表的健康数据时,不妨回味这些奇妙的科技原理,感受它为我们的健康带来的细致守护。 (9788470)
携手星创视界推出AI眼镜,阿里投资的这家公司又有新动作
AI大模型时代,智能眼镜开始崛起,并被部分品牌认为是AI的最佳载体。去年,Ray-Ban Meta眼镜的成功,吸引了更多玩家的加入,这里有科技巨头,也有众多的创业公司。在今年年初的CES上,AI眼镜也成为了展会关注的焦点产品。 值得一提的是,AI眼镜大军中,中国厂商率先掀起了“百镜大战”,成为这个新兴产业的主流玩家。此前,作者曾独家报道了阿里投资的AR眼镜品牌“致敬未知”入局AI眼镜的消息,今天,作者进一步从内部人士独家获悉,致敬未知与星创视界(宝岛眼镜⺟公司)签署战略合作协议并发布双品牌联名产品——NSVE x BleeqUp AI运动拍摄眼镜,将于6月量产发售 ,上市后将入驻星创视界旗下宝岛眼镜线下门店。 据了解,双方将在国内渠道整合、产品共研及用户体验升级等方面展开深度协作。其中,星创视界将依托其全国线下零售网络推动产品销售与市场推广,而致敬未知则聚焦产品研发与设计创新,双方对关键战略决策享有共同话语权。 此次联合推出的AI运动拍摄眼镜由GPT驱动,具备第一视角长续航拍摄、运动蓝牙耳机、防护眼镜、实时对讲、AI⾃动成⽚等功能,产品主要适⽤于骑⾏、跑步等⼾外运动场景,是专为⼾外运动⼈群量⾝打造的AI运动拍摄眼镜。 公开资料显示,“致敬未知”成立于2022年,由前锤子科技合伙人,原华为荣耀产品线总经理吴德周创立,是手机品牌“荣耀”奠基人之一,也是华为第一款出货量过千万手机的缔造者,曾任锤子科技CTO。从2022年8月发展至今,致敬未知已获得阿里创投、合肥北城资本、泥藕资本NEEO、泰亚投资、泰岳梧桐资本等机构的投资。 需要指出的是,多数品牌推出的AI眼镜更多的是像Meta一样的样式,而致敬未知则是瞄准了户外运动市场。根据Statista的预测,到2025年全球户外运动参与者的数量将达到15亿,全球户外运动用品市场预计在2032年将达到1291亿美元。运动拍照产品现渗透率处于起步阶段,未来具备数千亿元市场空间。 作者获悉,BleeqUp是致敬未知推出的运动科技品牌,BleeqUp Ranger是新品牌首个产品,去年年初立项启动,定位户外运动场景,将专业运动护目镜、高清AI相机、开放式定向音频耳机、实时对讲机深度融合,并开发AI智能剪辑、危险识别等功能。今年的MWC上,BleeqUp也正式亮相,并于4月份在海外开启了众筹。 致敬未知创始⼈兼CEO吴德周认为,AI运动拍摄眼镜的基础是传统的⼾外运动眼镜,Ray-Ban Meta的成功,正是因为它⾸先是⼀款时尚的墨镜,然后才是⼀款智能设备,在项⽬启动初期致敬未知就明确必须先做好传统⼾外运动眼镜。 不同于传统AI硬件的“单打独斗”,AI眼镜市场的特殊性,使得传统眼镜品牌成为香饽饽,联名合作也成为市场的主旋律。对于此次与星创视界的合作,吴德周称,将AI融⼊眼镜并⾮仅仅是技术的简单累积,其核⼼在于实现光学产品与前沿科技的有机整合,科技公司与专业眼镜制造商携⼿研发⽆疑是⼀种⾼效的策略。星创视界作为传统眼镜⾏业的领军企业,有着30年的光学积累,在这⽅⾯具有⽆可⽐拟的优势。 “传统⼾外运动⾯临设备冗余(需携带运动相机、⽿机、对讲机等)、⻓续航、事后剪辑费时费⼒。致敬未知与星创视界联合开发的 AI运动拍摄眼镜,将护⽬、拍摄、⾳频、对讲、智能剪辑功能⾼度集成,实现‘⼀镜解决全需求’,⼤幅降低⽤⼾成本与操作负担。” 与此同时,星创视界董事⻓王智⺠也表示, 此次合作不仅产业能⼒的互补升级更是集团实现智能化转型的关键战略,双⽅将共同推动AI眼镜技术的发展与应⽤,为⽤⼾带来更⾼质量的产品和服务。 根据Counterpoint发布的研究报告显示,2024年全球智能眼镜出货量同比增长了210%,预计2025年将实现60%的同比增长,并在2025年至2029年期间维持超过60%的年均复合增长率。可以确定的是,风口之下,AI眼镜正在不断提升自身的上限,除了创业公司,小米、华为等巨头也都在入局竞争,未来市场的比拼也会变得更加激烈。 吴德周指出,智能眼镜的演进正迎来关键转折点,只有场景创新才能摆脱同质化,这也是AI眼镜破局的关键。
索尼 Xperia 1 VII新机配置曝光
【ZOL中关村在线原创新闻】近日,数码圈内关于索尼 Xperia 1 VII 的开发进展引发网友热议。据多方消息源透露,这款备受瞩目的旗舰机型或将于今年 5 月 15 日举行全球发布会,不过其国行版本是否同步上市仍存悬念。 从已曝光的参数来看,Xperia 1 VII 在机身设计上延续了索尼一贯的精致风格,三围尺寸调整为 162×74.5×8.5mm,相较前代机型在厚度与宽度上略有增加。这一设计变动引发了外界对影像系统的猜想——结合 5000mAh 大容量电池的配置,业界普遍推测其镜头模组或将迎来重大升级。 影像配置方面,爆料显示该机将采用三摄组合方案:4800 万像素主摄搭配 1200 万像素超广角与 1200 万像素长焦镜头,或将在暗光拍摄与变焦能力上实现突破。核心性能方面,该机预计搭载高通最新旗舰平台骁龙 8 至尊版,配合 6.5 英寸 4K 分辨率 OLED 显示屏(19.5:9 比例),为用户带来极致的视听体验。 值得关注的是,Xperia 1 VII 在音频配置上延续了索尼的「音乐基因」——不仅保留了 3.5mm 耳机接口,更通过 Walkman 音频技术与定制化电路设计,打造出媲美专业播放器的 Hi-Fi 音质表现。在无线耳机盛行的当下,这一坚持传统音频接口的举措显得尤为独特。 【ZOL中关村在线观点】在智能手机同质化严重的当下,索尼选择以4K屏、Hi-Fi音质和3.5mm接口为差异化突破口,既延续了品牌基因,也切中了小众发烧友的需求。但机身尺寸的妥协与镜头配置的保守升级,折射出索尼在平衡创新与实用时的矛盾——若想真正突破市场困局,或许需在软件生态或交互体验上展现更多突破,而非仅靠硬件堆砌。 目前,索尼官方尚未对上述爆料信息作出回应。更多关于 Xperia 1 VII 的详细配置与定价策略,预计将在 5 月 15 日的发布会上正式揭晓。对于追求极致影音体验的数码爱好者而言,这款新机的到来无疑值得期待。
8GB显卡遭恶评:简直是拿着黄油刀上战场
快科技5月5日消息,从RTX 4060 Ti到RTX 5070 Ti,仅仅一代,8/16GB显存的命运就发生了逆转。就连马斯克的AI Grok都评论认为:“如今还做8GB显存显卡,简直就是拿着一把黄油刀,杀入了枪战战场。” 有趣的是,Grok本身就是用大量NVIDIA显卡训练出来的。 各种测试显示,RTX 5060 Ti 8GB相比于16GB的性能在不同游戏中会低最多10%左右,而且在2K分辨率下会有不少游戏爆显存。 销量也证明了一切,比如德国MindFactory,RTX 5060 Ti首发当时16GB卖了100多块,8GB则一块都没卖出去。 Grok在评论8/16GB显存之争时评论说:“现代3A游戏对显存的消耗速度,比一个吃糖的速度都要快,尤其是在2K或4K分辨率下,还要开启精美的高分辨率纹理、光线追踪。” Grok还举例说,RTX 5060 Ti 8GB已经暴露出很明显的性能不足问题,比如在《霍格沃茨:遗产》《龙腾世纪》《战锤40K:星际战士2》等游戏中会出现卡顿、纹理加载错误,甚至是崩溃等问题,16GB显存就轻松多了。 因此,考虑到游戏技术的飞速发展,硬件需求越来越高,如果你想在未来几年继续玩游戏,又不想不断降低画质,8GB显存肯定是不够用的。 其实,Grok只是讲了游戏问题,还没有提到AI,它对显存更是极度渴求,16GB甚至都远远不够,更别提8GB了。 有趣的是,作为RTX 5060 Ti的直接竞争对手,AMD RX 9060 XT也规划了8/16GB两种显存,一度有传闻称8GB版本会被取消,但最终还是留了下来。
三星猎户座2600处理器将首发欧洲:中美继续用高通
如果说在半导体领域,如今最悲催的厂商是英特尔的话,那么第二悲催的厂商或许就是三星了,与英特尔一样,三星近年来在半导体代工领域也是频频传出不好的消息,例如由于自家的3nm工艺良品率很糟糕,导致猎户座处理器不能用在自家的旗舰Galaxy S系列手机上,不得已采用高通的处理器,不过据说三星2nm制程进展不错,因此大家或许就将看到搭载猎户座2600系列处理器的三星手机,只不过这一次品尝螃蟹的又将是欧洲用户。 最新的消息称,三星决定了下款Galaxy S26系列手机将会重新采用自家的猎户座2600处理器而不是清一色的高通骁龙处理器,考虑到S系列庞大的出货量,我们也理由相信三星已经解决了2nm制程的良率问题,以满足芯片的大规模量产,三星猎户座2600处理器将会采用全新的GAA工艺,与FinFET相比性能更加出色,也能带来出色的能效比。只不过与以前的传闻相同,那就是欧洲将会成为品尝猎户座2600处理器的区域。 从目前的消息来说,第二代高通骁龙至尊版处理器版本仍然将会在中国以及美国市场上销售,甚至连韩国本土也有可能继续采用骁龙处理器,很显然相比较骁龙处理器,三星猎户座2600处理器在性能上还是有点差距。事实上欧洲用户也十分地不满,表示欧洲为什么要成为三星的实验区域,欧洲用户也想用骁龙而不是三星自家的处理器。 不知道三星的最终决定是什么,不过国行用户是不用太过担心,估计仍然是采用三星定制过的骁龙8 至尊版2处理器。
消灭药丸屏!iPhone 18 Pro或首发屏下Face ID
【ZOL中关村在线原创新闻】近日,有关苹果下一代旗舰机型的爆料引发科技圈热议。据可靠消息透露,即将推出的iPhone 18 Pro和iPhone 18 Pro Max有望率先搭载屏下Face ID技术,同时采用全新的单挖孔屏设计,彻底告别沿用已久的“药丸屏” 形态。 根据爆料内容,苹果对前置摄像头和Face ID组件进行了重新布局。前置摄像头被移至屏幕左上角,而备受关注的Face ID组件则隐藏到了屏幕下方。不过,目前尚不清楚随着这一设计变更,广受欢迎的灵动岛功能是否会随之取消,这也成为众多果粉关注的焦点。 自2017年iPhoneX问世开启了刘海屏时代。在iPhoneX的刘海区域内,苹果精心集成了一套复杂且精密的原深感摄像头系统,以此实现Face ID功能。这套Face ID系统由红外镜头、泛光感应元件、距离传感器、环境光传感器、前置摄像头以及点阵投影器等多个关键组件构成。通过这些组件的协同运作,iPhoneX能够迅速且精准地完成用户面部识别。 从iPhone X到iPhone 14 Pro,苹果始终在不断优化刘海屏设计。经过多次迭代,成功将刘海屏转变为 “药丸屏”,显著提升了手机的屏占比。如今,最新爆料显示,iPhone18 Pro系列将采用全新的单挖孔屏设计,这一设计与当前安卓阵营的主流屏幕形态颇为相似。不过,与安卓阵营普遍采用屏幕指纹识别不同,iPhone18 Pro系列仍将坚持使用3D人脸识别技术。 不难看出,苹果在手机屏幕设计上始终遵循着逐步缩小刘海屏面积的技术演进方向。由此推测,未来苹果的目标是将 3D人脸识别系统和前置摄像头全部隐藏于屏幕下方,从而打造出真正意义上的全面屏iPhone,为用户带来更加极致的视觉体验和交互感受。 (9797013)

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。