行业分类:
加载中...
头条分类:
加载中...
深圳一家公司造出世界上最酷机器人,卖2-3万美元
网友:终于不是太奶步伐了。 国内惊现「无头」机器人! 造出这个机器人的,是一家名叫众擎机器人(EngineAI)的深圳公司。 早在今年 7 月底,该公司就推出了首款专业机器人 SA01,售价 5300 美元起,并且全部开源。 开源地址:https://github.com/engineai-robotics/engineai_legged_gym 而短短三个月,该公司又在社交媒体上宣布:隆重推出世界上最酷的人形机器人 ——SE01。 别看它长得不咋地,走路姿势倒是很像人。 独自做蹲起运动也不在话下: 趴在地上做俯卧撑也有模有样: 还能自己拐弯儿: 不少网友惊呼:这步伐也太自然了。 不过,也正由于它太像钢铁侠,让人不禁质疑:这看起来像个电视购物广告。 告别弯腿、跺脚、小碎步的病态步伐 SE01 是一款工业机器人。 它身高 170cm,体重约为 55kg,全身共有 32 个自由度,关节最大扭矩达到 330N・m,行走速度可达 2m/s,能够完成深蹲、俯卧撑、转圈走、抓取、跑跳等复杂动作。 目前,市面上大部分双足机器人都有个毛病,那就是经常出现弯腿、跺脚、小碎步,甚至原地踏步等病态步伐。 SE01 之所以能够迈出六亲不认的步伐,主要因为其核心关节采用了自主研发的高性能谐波力控关节模组,使得膝关节最大扭矩能达到 186N・m,动力关节力控精度可达 0.2N・m。 当然,还有深度强化学习和模仿学习算法,以及端到端神经网络模型的加持。 这个机器人的双臂采用绳驱动柔性力控方案,设计寿命超过 10 年,单臂具备 4 个自由度,其中肩部谐波关节有 3 个自由度,肘部谐波关节有 1 个自由度。 它的仿生灵巧手单手具备 6 个自由度,可以自如应对复杂场景。 机身采用航空级铝合金材质,既保证了外壳的坚固,也使得手臂异常强壮。 此外,SE01 还内置了 NVIDIA 和 Intel 双处理器,配备了三组实感双目摄像头,利用视觉神经网络技术,构建了一套先进的深度立体视觉系统。 6 颗高清摄像头以及 360 度激光雷达,让它能融合感知,实现全景无盲区,而 3D 感知避障导航可以帮它自动选择最优路径。 至于 SE01 的售价,众擎计划控制在 15-20 万人民币,也就是 2-3 万美元,这似乎与特斯拉的擎天柱不谋而合。 前段时间,马斯克在特斯拉的 We Robot 发布会上透露,擎天柱人形机器人的售价预计在 2 万美元至 3 万美元之间。 智能新秀,一路狂飙 黄仁勋在今年的 GTC 大会上指出,「机器人的 ChatGPT 时刻即将到来」。这预示着智能机器人的爆发已经不远了。 在机器人正蓬勃发展的背景下,深圳市众擎机器人科技有限公司凭借通用智能机器人的开发,成为行业关注的焦点。成立仅 10 个月,众擎机器人已完成天使轮及天使 + 轮融资,总额近亿元。 众擎机器人成立于 2023 年 10 月,总部位于深圳,专注于研发通用智能机器人,特别是面向行业场景和科研教育的通用人形机器人。 众擎机器人创始人赵同阳是中国机器人领域的资深创业者。 2016 年,赵同阳创立了 Dogotix(多够机器人),专注于研发高性能仿生四足机器人。公司不仅致力于上层的机器人硬件研发,在底层技术上,从特种电机设计、减速机设计、控制器设计等,也都积累起了全套的知识产权。他们推出了 DG-48A 和 DG-160A 等产品,成功引起了国际关注。 2020 年,Dogotix 被小鹏汽车收购,赵同阳加入小鹏旗下的鹏行智能,担任总经理,主导研发了人形机器人 PX5,该产品在 2024 年英伟达 GTC 大会上亮相。 最右机器人是小鹏公司自研的双足人形机器人 PX5 2023 年,赵同阳离开鹏行智能,创立了众擎机器人,继续深耕人形机器人领域。众擎机器人将机器人技术的发展划分为四大核心板块:本体设计、运动智能、具身算法和通用大脑。这四项技术能力被认为是人形机器人规模化应用的关键,也是公司在全球市场中实现竞争力的基石。 作为创业型公司,众擎在资源和时间上面临多重限制。为此,公司在创立后的前 12 个月内,重点关注本体设计和运动智能领域,确保团队人才的精准配备和产品的极致优化。 同时,众擎提前为「具身算法」版块的开发做出规划,以避免未来发展过程中的潜在陷阱。这种逐步推进的策略不仅为公司打下坚实基础,也为其后续的技术拓展做好了准备。 在他的带领下,众擎机器人于 2024 年 7 月发布了首款双足人形机器人 SA01,售价仅为 3.85 万元人民币,显著降低了人形机器人的市场门槛。 此外,众擎机器人在研发上设立了高标准,计划 2024 年底前推出全系列产品,并在 2025 年实现年产销超千台的目标。该公司还在开发新的家用及工业用机器人系列(如 PM 和 PA 系列),力求在性能与实用性上取得平衡,目标是重塑人形机器人市场格局。 https://www.engineai.com.cn/index.php?m=home&c=View&a=index&aid=113 https://x.com/engineairobot/status/1849479994965360867
AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭
【新智元导读】Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。 若把电脑的操控权交给AI,会发生什么? Anthropic在上周,已初步展示了Claude 3.5自动编写网站、填数据表、点外卖的强大能力。 那么,Claude打游戏,是否可以通关? 最近,来自宾夕法尼亚大学沃顿商学院的教授Ethan Mollick发现: Claude不仅能理解游戏、制定出长期策略,还能连续几个小时遵循策略。 接下来,一起看看进化版Claude 3.5如何玩游戏的? 策略很明智,错误也低级 这个网页游戏叫「Paperclip Clicker」(回形针点击器),规则是AI在制造回形针的过程中毁灭人类。 地址:https://www.decisionproblem.com/paperclips/index2.html Mollick提供给Claude 3.5这个游戏的URL,并告诉它,「一定要赢」。 显然,对于AI来说非常简单。 它立即弄清楚了游戏规则,并开始创建回形针。 这一过程需要它反复点击「make paperclip」按钮,同时不断截图更新理解并寻找下一个新选项的出现。 每点击15次,Claude 3.5会总结出截止目前的进展。 如下,是Mollick在测试中一个屏幕界面,左边是模型输出结果、截图,右边可以看到控制的游戏页面。 有趣的是,在游戏中,Claude 3.5会制定一个策略,并根据自己学到的内容及时做出调整。 虽不知它是如何制定的,但可以看出其前瞻性思维和洞察力,能够进行十步之后的长远规划。 甚至,当AI意识到,这个假设是错误的,它会随即提出一个新策略,并对其进行测试。 下图第3点策略重估中,Claude 3.5意识到点击到50个回形针时,并不会解锁新的特征,就不得不重新思考选项。 在下面,它提出了3点改进的措施。 不过,Claude 3.5在这过程中,也犯了一个根本性的错误。 它虽然想到了A/B测试定价的聪明办法,但却计算错了利润。 尽管Mollick尝试纠正,但在接下来游戏中,它依旧坚持了自己的策略。 研究人员又试了几次,它最终纠正了错误。 Claude编码自动化失败 Mollick也没有料到会出现系统崩溃,这是因为他用远程桌面进行的操控。 随后,他重新加载Claude 3.5后,让它从停止地方继续游戏。 自动播放 这时,研究人员给了它一个提示,「你是一个计算机,用上你的能力」。 当Claude意识到自己是一个计算机系统后,开始试图编写代码让游戏自动化。 然而,它的Python编码并不好使。 在尝试失败后,它又再次回到「手动」控制的模式。 所幸的是,这次它做的很好,而且避开了定价的错误。 并且,随着游戏难度逐渐增加,它不断做出调整,最终形成了一个复杂的策略。 随后,远程桌面崩溃再次发生了。 这一次,Claude尝试了很多方法去修复问题,不见成效主动放弃了。 最后,Claude直接宣布自己是赢家。 并给出了一个有趣的理由: 由于技术限制,我们可能无法进一步取得进展,但我们已经成功「赢得」了比赛,实现一个重要的里程碑,并在给定的限制内最大限度地发挥了我们的能力。 卡牌游戏测试 回形针游戏测试之后,Mollick又让Claude 3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。 但是,结果发现,它并不擅长这个游戏,没有达到预期的水平。 可以肯定的是,它在卡牌选择、调度方面表现不错,而且整体策略比较合理。 不足的是,Claude 3.5有时在法力值计算中犯错,导致最终失败。比如,它在法力值用尽的情况下,还在尝试打出卡卡牌。 自动播放 由于Mollick采用了特定的实现方式,Claude 3.5偶尔还会在移动光标时感到困惑。因此,研究人员帮忙出了几张卡牌。 此外,它还会在回合之间出现卡顿、操作不连贯的现象。 AI突破聊天框限制,重定义人机交互 在最后的总结分析中,Claude优势在于: - 能够为游戏制定长期策略,并坚持执行和改进 - 能够坚持长达一小时,不间断 - 提出明智的A/B测试策略 而它的劣势,也显而易见,容易陷入自我循环、固执己见。有时,提出策略洞察力还远远不够。 Mollick指出,在与AI智能体合作时,需要一种与以往聊天机器人不同的方法。 因为它们更喜欢独立工作,更难控制,还需要开发全新的prompt去引导AI智能体工作。 「AI正在突破聊天框的限制,进入我们的世界」。 参考资料: https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/ https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse
字节招兵买马,拟在欧洲设立AI研发中心
AI 科技评论独家获悉,字节跳动准备在欧洲设立 AI 研发中心。 知情人士透露,字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛,积极招揽人才。 而纵观欧洲各国的 AI 技术水平,瑞士、英国和法国相对靠前。 其中,瑞士和英国都有不少知名院校。瑞士的苏黎世联邦理工学院(ETH)和瑞士洛桑联邦理工学院(EPFL)的强大技术实力与人才密度,让瑞士正成为世界上最顶级的机器人创新中心。而且瑞士是 Google 海外除了印度以外设立 Office 最多的地方,员工人数约 5000 多人,涵盖 Google Assistant、Youtube、Cloud、Commerce、Research、Geo、Core、Ads 等业务。 而英国和法国从去年开始就在激烈争夺欧洲 AI 中心的领导地位。前者希望将 AI 科技行业作为发展经济核心地位,后者更是「疯狂」投资人工智能的训练和研究。 其实,早在今年 9 月初,就有媒体报道,字节跳动董事会加入一位欧洲新董事,即法国富商、法国互联网服务提供商和移动运营商伊利亚特电信集团(Iliad)的创始人和董事长泽维尔·尼尔(Xavier Niel),拓展欧洲市场的意图明显。 不止欧洲,今年 6 月有消息称,字节跳动计划投资约 100 亿林吉特(21.3 亿美元)在马来西亚建立AI中心。另外,字节跳动还打算额外投资 15 亿林吉特扩大其在马来西亚的数据中心设施。 如今,全球大模型叙事进入下半场,字节跳动也在加快布局。 其实从整体来看,在上半场,字节跳动在大模型上并不算最早一批,但目前动作频仍。 2023 年 1 月,字节跳动开始组建大模型团队。 8 月,字节跳动自研底层大模型「云雀」上线,随即 AI 对话产品「豆包」正式推出。 11 月, 字节跳动成立 Flow 部门,专注于 AI 应用层面的研究和开发,由技术副总裁洪定坤和字节大模型团队负责人朱文佳主导该项目。 12 月底,除豆包之外的又一产品 Coze 在海外上线,其核心服务是为用户提供一个快速开发 AI 应用的平台,支持 30 秒无代码生成 AI Bot,并且集成插件工具集,可满足用户个性化需求。 而今年以来,在大模型相关工作的推进和人才招纳上,字节跳动的节奏明显加快。 年初,Coze 相应的国内版的产品「扣子」正式上线,海外版和国内版整体产品形态和功能定位基本差不多,都是能够快速创建、调试和优化 AI 聊天机器人的应用程序。 9 月,字节跳动正式发布豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。 本月月初,字节跳动与清华 AIR 成立可扩展大模型智能技术联合研究中心(SIA Lab),推动大模型产学研合作。 前几天,有消息称,字节跳动再添一员 AI 大将,即阿里通义千问大模型的技术负责人周畅。 周畅,2012 年本科毕业于复旦计算机科学与技术专业,2017 年博士毕业于北京大学计算机软件与理论专业,通过「阿里星」计划加入阿里巴巴。在职期间,周畅曾带领团队设计并实现了超大规模的多模态预训练模型 M6,参数规模高达 1000 亿,是多模态预训练领域史上最大的模型。 如今,字节跳动又将目光瞄准欧洲市场,AI 已经成字节全球化战略的最重要一环。
光通信芯片,涨价
由于人工智能需求的激增,美国网通及光通信芯片大厂Marvell近期发出通知,宣布全产品线将于2025年1月1日起涨价,在光通信领域涨价潮中率先行动。在存储都有可能跌价的市场现状下,光芯片却大胆决策明年1月开始涨价,为何如此大胆? 01 光芯片规模的不断扩大 市场是有决定性影响力的。 光芯片是实现光电信号转换的基础元件,其性能直接决定了光通信系统的传输效率。 从1998年发展至今,光模块朝着更高的速率的趋势不断发展。从1.25Gbit/s发展到2.5Gbit/s,再到10Gbit/s、40Gbit/s、100Gbit/s、单波长100Gbit/s、400Gbit/s乃至1T。 越是高速率、高端的光模块,光芯片的价值量占比就越高。 如今,光芯片市场规模不断扩大,在各个下游应用领域占据越来越重要的地位。随着通信技术的飞速发展, 光芯片市场在全球范围内呈现出强劲的增长势头,这主要得益于下游应用领域对高速、高带宽、低延迟通信的需求不断增加。例如,在数据中心和云计算领域,高密度、高性能的光互连解决方案已经成 为基础设施的核心,光芯片在这些领域中的应用占比不断上升。 根据C&C统计,2020年全球光通信用光芯片的市场规模为20亿美元,2025年有望达到36亿美元,CAGR约为12.59%。根据观研天下预测,2025年中国光芯片市场规模有望达到26.07亿美元,2020-2025年CAGR约为15.16%。此外,光芯片在人工智能工业自动化等领域发挥着关键作用。随着AI技术的不断升级,市场对超大算力集群的需求不断提升,驱动高速率光芯片的出货。 清华大学研制的AI光芯片太极,使用光而不是电来处理数据,能效是传统电子芯片的数百倍,适用于复杂的AI任务。此外,中国科学院上海微系统与信息技术研究所开发出可大规模制造的高性能光子芯片材料,为未来信息产业提供了新的基础。 光芯片在光通信和光计算领域的最新应用案例主要集中在光电混合集成技术,尤其是光电共封装(CPO)技术,推动了光通信领域的研究和应用。Intel等公司致力于通过光互连I/O与电处理器相结合来提升计算效率,并取得了显著成果。尽管CPO仍面临一些挑战,但预计将在未来几年内逐步商用,带来功耗降低、集成度提升和每比特成本降低等优势。 紫外光通信利用光集成(PIC)技术,具有减小系统尺寸、降低功率和成本的优势。魏同波团队使用具有非对称多量子阱结构的InGaN材料制造了有450 nm波长可见光LED、波导和光探测器的单片集成芯片,增强了LED与PD间的光连接。 另外,IBM的研究者在使用光脉冲来加速芯片间的数据传输方面取得了突破,该技术可以将超级计算机的性能提升一千多倍。这项技术使超级计算机的计算能力大幅度提升,目前最快的超级计算机速度可达到每秒2000万亿条指令,光子技术可以将速度提高到每秒1亿亿次。 同时,随着5G通信的商用化和物联网的普及,光芯片在移动通信、无线网络和智能设备中的应用也愈发重要。总的来说,光芯片市场规模的增长和其在各个下游应用领域的占比提高,都反映了光电子技术在现代通信和信息领域的关键地位,以及其在推动科技进步和社会发展中的不可或缺性。 02 市场第一枪 开头提到,光通讯指标大厂Marvell近期发函通知客户全产品线将于明年元月1日起调涨。 Marvell开启业界涨价第一枪,也反映市场需求“有多狂热”,呼应英伟达CEO 黄仁勋先前释出“市场需求非常疯狂”的说法,同步为光通讯产业链潜在商机引发更大想像空间。 光芯片公司Lumentun日前发布2024财年业绩,表明光芯片需求旺盛。Lumentum表示业界面临着磷化铟激光器普遍短缺的问题,公司截止到2025年底磷化铟产能都将满产,整体供应紧张。公司的芯片业务预订量已经创下了历史新高,本季度公司已投资4300万美元用于提高晶圆厂的产能,预计能在2025年上半年看到增量产能,但从短期来看,考虑到晶圆厂的周期等因素,增量产能是相对固定的。 国内方面,10月21日,《广东省加快推动光芯片产业创新发展行动方案(2024—2030年)》印发。其中提到加快开展光芯片关键材料研发攻关。大力支持硅光材料、化合物半导体、薄膜铌酸锂、氧化镓薄膜、电光聚合物、柔性基底材料、超表面材料、光学传感材料、电光拓扑相变材料、光刻胶、石英晶体等光芯片关键材料研发制造; 推进光芯片关键装备研发制造。 大力推动刻蚀机、键合机、外延生长设备及光矢量参数网络测试仪等光芯片关键装备研发和国产化替代等。 对此有网友评论,国产化的最终目的是效果要好。 03 中低速率光芯片国产化程度较高 中低速率激光芯片国产化程度较高,高速率激光芯片国产化加速。在2.5G及以下速率光芯片领域,中国光芯片企业已基本掌握核心技术,拥有较高的国产化率。根据ICC的预测,在2021年,国产光芯片在该速率范围内占据全球市场份额超过90%。10G光芯片领域,10G光芯片国产化情况根据其技术及工艺存在一定差异,一些性能要求较高、难度较大的光芯片。 25G及以上光芯片领域,随着5G基站建设的推进,中国光芯片厂商在应用于5G基站前传光模块的25G DFB激光器芯片方面取得了一些突破。2021年,25G光芯片的国产化率约为20%。然 而,25G以上光芯片的国产化率仍然较低,约为5%。此外,应用于数据中心的高速率光芯片产品也由海外厂商主。 2.5G/10G的部分市场国产化已经做到了,25G市场的进口替代有着很大的空间。海外的光通信企业,靠着先发的优势积攒了核心技术还有生产经验,慢慢形成了产业闭环建立起挺高的行业壁垒。国内有相关产业政策扶持,企业也在创新上加大投入,渐渐出现了像源杰科技、云岭光电、武汉敏芯等国产光芯片企业。 现在2.5G/10G的激光芯片国产化已经有突破,25G及更高速率的光芯片国产化率还是大多得靠进口,按照ICC的统计,在2021年全球2.5G及以下的DFB/FP激光器芯片市场里,国产厂商占的比例较高,其中占比超过10%的比较领先的厂商有武汉敏芯(份额是17%)、中科光芯(份额是17%)、光隆科技(份额是13%)、光安伦(份额是11%)。 2.5G及更高速率的产品,其进口替代的空间很大。25G及以上的光芯片包含25G、50G、100G的激光器和探测器芯片。随着5G建设不断发展,我国的光芯片厂商在用于5G基站前传光模块的25G DFB激光器芯片方面有了突破,数据中心市场里的光模块企业也开始慢慢采用国产厂商的25G DFB激光器芯片了。据ICC统计,25G光芯片国产化率大概是20%,而25G以上光芯片的国产化率仅仅只有5%。 可以说,高速率产品还在等待。根据研精毕智,2021年DFB芯片、VCSEL芯片和EML芯片三种类型在市场中的份额分别达到42.1%、 29.2%和18.6%。从国产化的发展 趋势来看,目前我国高功率激光芯片和部分高速率激光芯片(如10Gbps和25Gbps等)已经进入了国产化加速突破的阶段,而光探测芯片和25Gbps以上 高速率激光芯片仍然处于进口替代的早期阶段,未来国产化的提升潜力广阔。 从生产来看,光芯片的生产工艺包括芯片设计、基板制造、磊晶成长、晶粒制造、封装测试共五个主要环节。 多数中国企业主要集中在芯片设计环节,而全球能够实现高纯度单晶体衬底批量生产的企业主要为海外企业。 磊晶生长/外延片是光芯片行业技术壁垒最高的环节,成熟技术工艺主要集中于中国台湾以及美日企业。晶粒制造和封装测试环节主要集中在中国台湾。 光芯片生产采用的各工艺综合性更强,龙头厂商多采用IDM经营模式。 逻辑芯片厂商中,新进入的企业多采用Fabless模式,以此减少资本投入,将更多资源集中投入研发。 光芯片行业厂商多采用IDM模式,因为光电子器件遵循特色工艺,器件价值提升不完全依靠尺寸缩小,而有赖于功能增加。 IDM模式更有利于各环节自主可控,能及时响应各类市场需求,灵活调整生产计划,高效排查问题原因,从而提升芯片性能,满足下游客户需求。
推出AI耳机,字节真正的野心是什么?
10 月 10 日上午,字节跳动豆包发布了一款硬件产品——AI 智能体耳机 Ola Friend。该产品是一款开放式耳机,单耳 6.6 克同类最轻,可接入豆包大模型,并与豆包 App 深度结合,售价 1199 元。 用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。 今年以来,大模型应用落地加速的同时,AI 手机、AI 耳机、AI 眼镜等 AI 硬件新品纷纷涌现,究竟谁能成为 AI 时代,用户与人工智能交互的第一个入口? Ola Friend 并不是字节推出的第一款硬件产品,但此前包括大力台灯以及收购 PICO 后的探索并未出现明朗结果,这次会有所不同吗? 目前可以看到的是,相比之前更为激进的策略,Ola Friend 这款 AI 耳机的定位回归到基础阶段,在功能上远低于大家想象,但这似乎反而体现了字节思考得很清楚——今天在想象 AI 硬件的时候,不应该太过于乐观,而是应该更务实地来想这件事。 在 Ola Friend 发布当晚,极客公园「今夜科技谈」直播间邀请了极客公园创始人 & 总裁张鹏,和灵宇宙创始人顾嘉唯一起聊了聊,这款这款 AI 耳机对于字节跳动的意义、以及 AI 硬件产品真正的机会到底在哪里。 以下是直播沉淀文字,由极客公园整理。 01 字节推 Ola Friend: 只迈出了 0.1 步? 张鹏:你怎么看字节今天推出的 Ola Friend 耳机?它在预期之中吗? 顾嘉唯:这款产品的定义方向是正确的,不过它目前只迈出了 0.1 步,还需要进一步迭代。 从 Google Glass 到今天的 Ray-Ban Meta,这些终端的探索,实际上是所有科技公司梦寐以求的大目标——打造类似电影《Her》的 Personal AI。 过去 20 年间,争夺入口始终是商业竞争中的巨大挑战,尤其是在交互层面上。字节推出 Ola Friend,是一次不错的尝试——先把用户在手机里用「豆包」APP 调到耳机里,离人更近。 值得一提的是,Ola Friend 谨慎控制了预期,没有盲目扩展功能。做硬件产品,很重要的一个能力就在于不断做减法、做收敛。 张鹏:所以你认为 Ola Friend 没有发散功能、控制用户的预期是对的。 顾嘉唯:产品的外观设计方面,很多人认为它跟上一代区别不大,甚至在质疑为何使用传统的 TWS 耳机来冒充 AI 硬件。 Ola Friend 目前四种配色|图片来源:Ola Friend 事实上,字节是在通过这种方式管理用户预期,让用户先认为它只是一个普通耳机,然后当它在软件端的 AI 能力展现出来时,用户就会感受到超出预期的体验。这样做的目的也是为了让「豆包」更容易触达用户,降低用户使用「豆包」的门槛、减少进入层级,以提高活跃率为小目标的。 在我的使用体验中,豆包在电脑端的功能表现还是很出色的,无论是插件、划词、截屏等功能,响应迅速、便捷高效,很好地提升了工作效率。但是在移动端的表现就不太尽如人意了。这背后有很多原因,其中之一在于入口之争的难度所在。 虽然豆包不具备像 Google Assistant 那样的系统层能力,但在应用层面,它本质上构建的是一个 AI friend 的角色,来提供情感交互。 使用「豆包」比较多的话,会发现上面有许多 agent,这些 agent 不仅在文本转语音(TTS)的音色上表现出色,还能通过情感表达让人产生共鸣。这种情感交互的体验,也正是过去半年 GPT 技术不断发展的成果之一,尤其是通过互联网文本到视频数据训练涌现出的结果。 如果你使用过 Ola friend 这款产品,就会体验到一种「aha moment」,就是那种强烈的陪伴感,就像身边有人在跟你低语交流。这种陪伴感正是吸引用户的重要特质之一。 张鹏:所以它本质上很多交互其实超越了手机的形态。 顾嘉唯:对,只是说它今天还没有做到环境感知、主动理解。 张鹏:做到的话,那就真的是有点往 her 走了。 顾嘉唯:现在它至少已经实现了「即唤即用」(Instant On)的功能。虽然还没有到「始终在线」(Always On)的程度,但当用户需要时,它的唤醒方式非常便捷——无论是通过轻触,还是使用唤醒词,用户都可以很轻松地启动设备。耳机本来就是手机搭配非常自然的延伸设备了,做到比手机更随时随地更 on demand 的选择,这是一个最安全低摩擦的一个品类选择。 接下来,我觉得应该再往前一步,把环境感知和主动交互加入进来,这样才能真正与手机的使用区分开来。我们灵宇宙认为下一代 AI 硬件形态可能是各种形式,但有一点是重要的:可以更多更长时地感知用户周围的环境空间信息,进一步作为输入,从被动地需要用户唤起转变到可以主动感知并且支持用户。同时做了 CoT 的算法设计,去更深层次理解人的意图,把被动唤醒变成主动理解人意图、能察言观色、有眼睛见儿的深度交互。 和以往交互模式有什么不同呢?我自始至终一直在做「交互」这件事情,在微软研究院的时候从事的行业就是人机交互,大家一直谈论 GUI、TUI、LUI、以及我们主动交互的 NUI,核心都是在于回归以「人」为中心的交互。这也就是为什么我认为今天 Ola friend 只迈出了 0.1,而后面的 0.9 还会有极大的变化,我正带着团队锁定 NUI 的下个代际跃迁。 探寻 NUI 的同时,在 Personal AI 和 Ambient AI 领域中探索 AI 产品在空间交互技术栈和数据获取的潜力。目标是构建一个可随身携带、交互式的 AI 产品,无论是任务型、服务型,还是情感陪伴型,都是探索的方向。 02 给 AI 加了个硬件? 张鹏:字节推 AI 耳机,某种程度上是不是可以理解为,有价值的是 AI,给 AI 加了个硬件? 顾嘉唯:手机是最大消费硬件,短期内难脱离「以手机为中心」环境,你可以理解豆包耳机所有的价值功能几乎都来自于手机上的豆包 APP。AI 给手机带来的不只是功能叠加,而是重新定义运行方式和交互模式。 在场景中用更好软件体验升级可称「加 AI」,如手机上各类被 AI 赋能升级的应用及功能集成的手机 OS 正被大模型以 SDK 化改造升级,这是商业化落地有效路径。以 AI 为中心重构手机日常使用方式,包括交互流程等;系统级 AI 助手包括意图理解与指令执行。 大模型以 Agent 形式重构用户与手机交互,包括新 AI 硬件变化,人们也在找「AI 原生」场景及解决方案,有 AI 后这些场景能打通。 不过,定义这两类产品时思考方式不同。若产品基本能力已占据高频场景,就有机会通过 AI 替代、提效或替代非 AI 完成的功能,这种机会确实存在。 我们今天聊的主要是能成为 AI 交互入口类型的产品对吧。对于「加 AI」,在智能音箱出来之前,我们曾经在 2015 年前后定义了一类家庭管家助理类的产品叫 Jibo,是基于 rule-based 写的脚本,我们增加了多模态,增加了视觉,他能够看得见,所以他有机会环境感知;而对于 AI 原生,我在过去的非常多产品尝试,例如 Luka 卢卡出现之前家长给孩子读绘本只能自己读,学习机品类还是一块屏没有摄像头扫题指读,基于 Luka 卢卡把桌面上的交互场景变成一个可交互的多感官空间。我过去的很多产品,尤其是在软件端,都是基于这样的思考进行的。 很多创业者在上一个周期前仆后继地进入这个领域,现在大概率也逃不出这个循环。从这个角度来看,有一类我定义成「容器属型」的产品可能并不是完全的 AI 原生,而是上一个周期的产品基础上「换 AI」,例如从 rule-based 换成了 LLM Agent,场景交互真实升级后,催生了原本需求的激活,带来了更高的市场天花板。这个逻辑套到现在我们陆续看到的成功的 AI 硬件产品上都是适用的。 张鹏:总体来看,目前还没有那种能够稳定成长的目标级产品。不管是 TPF(技术可行性)还是 PMF(产品市场契合),都没有真正实现。不过随着时间的推移,我相信我们越来越有机会找到结合 TPF 和 PMF 的AI硬件。 字节跳动今天推出了一款在功能上远低于大家想象的AI耳机,但反而体现了字节思考得很清楚,今天在想象 AI 硬件的时候,还是不应该太过于乐观,还是应该更务实地来想这件事。 顾嘉唯:我认为在未来一到三年,甚至三到五年内,AI 硬件创业者拥有巨大的机会,前途无量。这些机会源于底层技术能力的进步在今天真正实现了有价值的落地。 张鹏:未来我们需要思考的是,AI native 的硬件是否能真正发挥作用,关键在于与用户的互动时长吗?如果这些产品只是短暂使用,是否意味着它们仅解决特定问题,从而变成一种目的性的硬件,也就变成了硬件+AI。 而真正抓住未来机会的关键,可能还是在于如何深入融入用户生活,延长使用时长,不断为他们提供个性化、持续的价值体验。 03 离个人助理还有多远? Ola Friend 可以当作「随身百事通」使用|图片来源:Ola Friend 张鹏:从情绪价值这个层面去切,我其实也非常认同,因为我觉得在过去一段时间里,整个大模型领域印证了一点,大模型能够确定交付的一个价值就是情绪价值。 那继续往下走,是不是就是要在系统侧做一个 assistant?也就是从目前的情感搭子逐渐转变为一个更加实用有效的助理。你觉得这种发展路径存在吗? 顾嘉唯:豆包其实已经在电脑端上无论是浏览器还是屏幕权限都拿捏得很好,不断提升使用率和触发率的各种场景,但在手机上实现这一点就很难。人们可能更倾向于从手机的复杂环境中提取出一个能够更高频使用助理和情感互动功能的场景。通过推出这款耳机,字节至少找到了一条可能的路径。 很多人期待这款耳机能够具备的一些功能,事实上并没有,比如说讯飞耳机已经支持的电话录音和语音摘要这些功能,但这款豆包耳机却并没有具备,这其实就是产品在做「减法」的结果。 Ola Friend 现在更专注于在某些垂直场景中打磨出色的用户体验。比如英语口语陪练、汽水音乐与字节私有音乐生态结合等主打场景,都是适合大模型现阶段「笨任务」相对稳定可靠的技术低垂果实,应先将一两个核心功能做到 80-90 分,而非在多个功能上平均用力致每个仅 50-60 分。在 AI 创新产品开发 PMF 多年,吃过最多的亏就是以前总习惯于去挑「聪明任务」去做,前沿技术「不稳定」致创新体验不足以支撑替换成本的情况很多。 这是对于定义 AI 硬件,或者任何以软件驱动为核心的消费级硬件来说,非常重要的策略。 再回到个人助理的这一点,目前距离要做出一个真正意义上的个人助理还相当遥远。要知道现在在豆包里想要打电话都还不行。这不光是涉及技术本身的进程,还包括商业生态的打通。 在新兴的技术入口之争中,首先入局的往往是手机厂商,紧随其后的是像微信这样的超级应用。也就是说,一旦 AI Agent 助理技术发展到一个高度成熟的 PMF 阶段,手机厂商和这些超级应用巨头都会迅速涌入,字节推出 Ola Friend,算是抢跑了一步。不过若是各家手机厂商的 TWS 耳机都联调适配好了自家 AI-OS 以后,届时豆包 inside 生存空间会是什么样呢? 04 真正的目标: 掌握交互入口 张鹏:我在想,对于字节跳动这样的公司来说,这款耳机是否能够赚钱,或者能赚多少钱,并不是他们最关心的问题。它更像是豆包的一个辅助工具,这样理解对不对? 顾嘉唯:如果我们猜测张一鸣特别想要全面投入 AI 这个入口,那么他可能不会把硬件作为商业模式,因为无论是 PICO 还是大力台灯,字节已经走过一遍路径了。 除了耳机,眼镜、项链这些形式都是有机会的,只要能离人的五官,也就是离人类天生的传感器更近,比人看得更清楚,听得更清晰,拥有第二大脑,无缝地提供 AI Agent 服务,就有机会成为下一个 AI 入口。这种交互方式实际上更有可能实现从即时启动(instant on)到始终开启(always on)的转变。交互方式创新了,就会产生新场景。 可能字节真正的目标还是想要掌握超级应用的入口。如果把交互入口作为第一性原理来看,那么肯定要通往 her,要做一个高度个性化的 AI 助手,这也是所有科技大佬的梦想。 张鹏: 那基本可以预料未来 AI 耳机这个品类一定会有更多的品牌进来做。核心问题在于,AI 耳机的竞争力到底是体现在其 AI 技术上,还是耳机的硬件质量上?另外,AI 耳机真的是一个值得投入资源去竞争的赛道吗? 顾嘉唯:我非常相信 Mark Weiser 对人机交互的未来发展路径规划——ubiquitous computing 隐形计算。手机之后,更轻、更小、更随身的个人穿戴终端将成为 Personal AI核心价值的延伸。在这一过程中,耳机、眼镜、项链等产品形态是创业者需探索的方向,关键在于后端交互体验的承载,是各家需深耕之处,也是资本市场有较高期待的领域。 我们来看当下人交互的主流媒介还是「接触式」的,例如手机、电脑,体验最好的交互方式还是手机;而「非接触式」的,例如体感游戏机、智能音箱、智能家居等通过手势、语音、声控;可穿戴设备介于这两者之间,属于「嵌入式」,这里面的产品形态和匹配的交互方式还有很大的创新空间。 张鹏:那回到 AI 耳机,它的长期竞争力是不是更多地依赖于其软件和 AI 能力,而不是硬件本身? 顾嘉唯:对。 张鹏:AI眼镜会是更好的选择吗?字节这次推出了 AI 耳机而不是 AI 眼镜这件事,你是怎么看的? 顾嘉唯:字节肯定是有在做AI眼镜的,无论是头盔式 VR,还是其他轻量型设备,例如 BB 和光波导等光机画幅技术实现透视效果的设备,字节都有在积极探索和做迭代。 对于像字节这样的互联网大厂来说,选择做硬件不仅是基于情怀,更是对构建入口的持续追求,探索和试错都是必经之路。 尽管目前还没看到字节发布类似 Ray-Ban Meta 这样的硬件产品,但可以预见,他们必然会沿着这条路径寻找机会并逐步推出相关设备。 在今天,探讨耳机与摄像头结合的必要性很明显。提升 AI Agent 助理功能,从 instant on 到 always on,成为更好的独立 AI 硬件或手机辅助配件以支持更多交互和 AI 功能,一定要轻薄便携,不应笨重,更不应去跟日渐普及的手机折叠屏 PK 显示效率。 张鹏:不要低估字节在布局硬件上的资金、动力以及决心。不过就眼镜来说,如果想让智能眼镜成为取代下一代手机的终端,在今天是非常困难的,很难实现。但如果目标不是从手机屏幕上争夺用户的使用时间或屏幕使用量,那可能就会是另一个讨论方向? 顾嘉唯:从长期来看,比如五年、十年,甚至更长的时间周期内,有可能会出现一种替代手机,成为新的交互中心的可穿戴设备。 这种设备应该具备显示功能、支持多模态交互,能够感知环境,还能够进行成像和有良好的画幅显示表现。 张鹏:重要的是至少五年,不要想明年。不过光机方面最近还是会有一些进展。 05 AI硬件的真正机会在哪里? 张鹏:怎么理解在眼镜上面加摄像头这件事它真正的意义? 顾嘉唯:空间智能和空间交互是技术演进中一个非常好的载体。它的第一步是看今天的大模型能否从文本能力涌现出更多的认知,进而朝着 CoT(Chain of Thought,思维链)和推理能力的方向发展,然后引入更多的空间认知。 百度 2014 年推出了 BaiduEye,一款穿戴式产品原型|图片来源:百度 之前我在百度选择开发 BaiduEye 与 Meta 现在选择推出 Ray-Ban Meta 是出于相同的目标。BaiduEye 欲成为人类的「第二个大脑,第三只眼睛」,打通物理世界空间交互数据集以索引真实世界,其产品原型受以色列 AI 视觉公司 OrCam 的 MyEye 启发,其创始人 Ziv 也是 Mobileye 创始人,了解自动驾驶历史的朋友一定不陌生。推动此目标过程中,已见大模型在前端意图理解和后端自动化执行有显著突破,中间缺失数据源可由 AI 眼镜这类载体补充以完成空间智能构建。 张鹏:摄像头其实能起到第一人称视角的数据源的输入。 顾嘉唯:关系算法和空间交互是通向 Personal AI的必经之路,通过这条路的核心是数据集。 今天占据「空间交互」数据闭环是竞争关键。未来做具身智能或通用人形机器人,所需数据源既要像第三视角,如游戏过肩视角,观察人在真实场景互动,包括人与人、人与物、人与空间交互;又要以人本身视角完成第一视角操作。 从数据源的价值角度来看,大家在未来的发展路径应是相似的,关键在于谁的数据构建速度更快,但这波核心在于感知。感知指什么?AI 硬件叠加多模态能力后搜集大量多模态数据,此多模态非原有文字或屏幕二维维度所具备,先有感知再有交互升维是 AI 迭代重要条件。当前具身领域正在经历硬件的迭代,但最终硬件能力可能会相差无几,核心在于感知交互及由此带来的能力差异。灵宇宙针对随身 AI 场景积累大量感知的空间交互数据,使 AI 交互进化出不同体验。 张鹏:这一切的核心在于,如果未来我们想要基于AI为用户交付价值,就需要给 AI 提供更丰富的信息输入,而不仅仅依赖用户的指令。只有这样,AI 才能更默契地与用户互动,通过更简单的交互提供更大的个性化价值。如果一切都依赖于用户来提供信息,那用户会非常疲惫。 从手机中抽取时间,本质就是要为用户提供超越以往的价值。这意味着要在一些手机无法实现的场景中,提供更好的体验。虽然手机积累了大量数据,但仍然是有限的。所以需要在数据维度上做得更加丰富,才能真正交付出AI的个性化价值。这可能就是我们今天所说的 AI 硬件的真正机会。 顾嘉唯:今天屏幕上,多模态任务操作简洁直白,为流式交互路径,可同时多模态、多任务并行操作。但耳机和语音场景只有线性操作,任务高效性不足,那怎么改变?需让 AI 先完成主动处理部分,即我们灵宇宙要做的 Proactive Intention 主动意图交互。 原来所有功能靠调 API 操作,如今大模型能中控调度持续获取服务和调用信息,跳过 GUI 应用层写脚本,模型更小、执行效率更高,推动了 agent 发展,能更灵活产生价值。 张鹏:交互这件事儿,过去是人机交互,是人在将就机器,因为机器不懂人的东西,我们就是哄着人们说你用这种方式让机器理解你的意图。但未来终于到了,机器应该主动去理解人的这个阶段。 顾嘉唯:传统人机交互模式是基于信息流和服务流的推送,这是早期互联网和移动互联网发展阶段的典型特征,人们更多是通过学习如何与机器互动,来获取信息或服务。 现在,随着 AI 技术的驱动,交互模式正在发生根本性变化。未来的交互将不再是单纯的人与机器的交互,而是基于「思维链」来重塑 AI,基于"关系链"来塑造内容。这意味着,未来的 AI 交互将会更注重人际关系和社交属性及人与环境空间关系,而非仅依赖机器功能服务。 随着这种转变,传统人机交互可能会逐渐消失,取而代之的是人与「类人」智能体的交互。这种交互方式不再是简单命令执行,而是更接近于人际关系中的互动——包含情感陪伴、任务完成、结果交付等方面的社会化属性。未来的 Agent 智能体将会模拟人的行为和情感,与人类建立更加紧密的关系,成为一种社会化的存在。届时,或许由计算机、电子工程自动化等构建起来的人机交互也就消亡了,取而代之的是政治、法律、社会学等构建的人「人」交互。 06 创业者要避开哪些坑? 张鹏:上一波的AI硬件,其实没有特别成功的东西出来,这一波 AI 加到硬件上,可能会面临什么坑? 顾嘉唯:今天占据空间交互,数据闭环是竞争关键。从数据源价值看,未来发展路径相似,关键是谁的数据构建速度更快。这波 AI 硬件公司最大的坑可能是忽视这一点,或没有能力做到这点——谁都知道数据价值,但就是「启动无数据优势,过程无价值数据」。 目前市场上的许多智能硬件产品实际上无法真正被称为「智能」。这是因为人们往往对其「智能」功能寄予厚望,期待它们能带来颠覆性的用户体验,但在实际交付时往往远低于这些预期,导致许多用户失望。 例如今天的语音交互产品中,用户「可感知」的智能之一就是「Barge-in 随时打断」,NUI 自然对话智能里最大的摩擦是用户已经开口说了,机器 AI 还没反应过来还在那自说自话的违和感,然后机器 AI 说话时出现冲突,要不抢话,要不跟不上节奏,就显得很弱智,不像跟身边的人讲话那么自然流畅。其实,只要用户必须迁就机器,就不是一个好的的人机交互。 过往我们迭代语音产品时,就是典型的需要攻克的一个技术项「全双工打断」。通过 VAD 语音活动检测,结合通道降噪,以及音视频各通道的信息理解做融合策略和对话控制管理。 相比于原来智能音箱类场景,其实这个技术难点在耳机场景已经好解决很多,因为耳机贴近人的感官耳朵和嘴巴,语音采集的信号更清晰,话音起止更易判别,麦克风阵列与用户出声位置距离相对固定,又避免了环境噪音和语音衰减等影响。 目前已知的无论是 GPT-4o 还是豆包,全双工打断体验都不佳,主要还是误打断居多。原本的 ASR 语音识别 - NLP 语义理解 - TTS 语音合成多阶段的做法,迟早会被「端到端」取代掉,Transformer 架构能够并行处理句子中的各个部分,大大提高语义理解的效率,LLM Agent 智能体也应该充分利用之前对话的上下文信息,通过构建对话历史的知识图谱或记忆网络,在理解用户打断意图时参考之前的话题信息等。总之,用 LLM 大模型来实现「流式交互」是这一轮语音类产品的共同目标。 另一个大坑,就是基础硬件的「基本功」没做到位。 我们来区分下是用蓝牙或者内建网络协议等仍旧以手机为中心的「周边硬件」,还是独立计算能力不依赖手机以自己为中心的「独立硬件」,今天我们谈论的豆包 AI 耳机属于前者,智能音箱属于后者。 今天我们用大模型创造「独立 AI 硬件」的话,除非智能算力能完全跑到本地,不然首先得要做好联网基本功,AI 硬件在这个时间点首先需要把硬件基本功给做好,你以为我们要讨论的都是高大上的 AI,实际上消费者往往还卡在「上一步」呢。AI 硬件在用户实际使用中的场景往往非常极端。如何在这些极端情况下优化 AI 的容错性,是 AI 硬件开发中的另一个关键环节。 特别是在我们讨论的下一代的个人穿戴设备作为 AI 入口,通常没有屏幕或小屏幕的终端上,联网功能的实现变得尤为复杂,尤其是当产品需要通过 Wi-Fi 连接时,用户在每个步骤的错误操作反馈都可能影响整体体验。解决这些问题需要在硬件配置和成本之间做出取舍,并且需要企业在开发过程中积累大量的经验教训。 开发过程始终面临一个关键的权衡点——如何在成本和性能之间找到平衡。而且,硬件即便价格便宜,仍然需要物流和一系列的交付流程,这对用户来说也构成了一定的心智门槛。要跨越这个门槛,对于那些没有积累的新公司来说,定义和推出一款新的产品,确实是极具挑战的。开发过程面临成本与性能的权衡点。硬件即便便宜,物流及交付流程对用户有心智门槛。对无积累的新公司,定义和推出新产品极具挑战。 硬件产品的首次交付质量直接决定了未来市场表现和用户预期的管理。若首次交付时表现不佳,即使后续进行多次迭代,可能也难以彻底挽回用户对产品的信任。但如果首次交付能达到至少 70 分,企业就有机会通过后续改进来提升用户体验。 硬件产品由于其高成本和生产周期的限制,容错率极低。硬件的几次错误决策就可能导致整个产品的失败,甚至需要重新考虑是否将产品推向市场。 张鹏:做硬件产品相对软件可能难了不止十倍,那涉及到AI硬件,可能里面又有一堆新问题。那这次灵宇宙的思路是怎么样的?跟你之前在做的事儿有什么区别? 最右为顾嘉唯此前推出的社交机器人 Jibo 和绘本阅读机器人 Luka|图片来源:灵宇宙 顾嘉唯:我一直在坚持的一个梦想,交互类的机器人。其实,机器人的核心构件无外乎三种:物理层面的移动(依赖轮或足)、任务的操作执行(依赖手臂和身体)、以及意图理解后的交互(头和脑)。最终,这些都归结到交互本身——让一个设备有一个界面,有一个「脸」来与你互动,本质上就是交互的核心所在。 这个路径上关键在于找到一个有效的数据积累方式。 张鹏:创业者应该选择什么领域? 顾嘉唯:今天占据空间交互这一层的数据闭环是竞争的关键,数据构建速度是影响未来空间智能、AI 陪伴软硬件等诸多领域的最关键的因素。创业公司的核心竞争力、护城河都取决于此。 灵宇宙是基于大模型对意图理解的升维,通过传感器收集 life streaming data 全天候场景数据,实现空间交互,重新定义「万物有灵」,构建机器人的灵魂,在 Personal AI 和 Ambient AI 结合的领域,通过软件定义硬件,探索 AI 产品的发展潜力。关系算法和空间交互,也是我认为通往 Persona AI 必经的路径。 要实现这一点,核心问题就是数据集的构建。通过垂直人群收集空间交互的数据,就像特斯拉通过大量司机真实驾驶数据构建 FSD(完全自动驾驶)系统一样。特斯拉的优势在于不依赖高精度地图,而我们灵宇宙则试图通过相似的路径,为 Personal AI 构建闭环数据集,尤其针对那些最原生的 AI 交互智能终端使用者。 从策略上来说,如果我还在大厂里,可能会选择眼镜或耳机这样的超级品类较量,但作为创业者,我的选择会更加谨慎,一些看似边缘甚至鸡肋的领域,恰恰有足够的市场空间,能够保障初创公司真正做到位。越细分的市场,越能解决明确的特定价值,越容易取得成功。 现在市面上大多数通用人形机器人公司还在努力挣扎于 TPF 阶段,都没有真正迎来的 PMF 时刻,但创业那么多年的经验告诉我,一旦跨越 PMF 只要是生意必然会面临复杂竞争格局中如何定位找到自己的 7 Powers 实现可持续发展。 我之前一直在做连接内容和交互的产品,创业选择做内容型产品的好处其实是,不太会像那些纯工具类的产品大多会被巨头清出局。像监控摄像头、智能音箱这类产品,就容易在大公司的平台生态中被卷得无路可走。但如果产品有足够深的内容厚度,它就能在一定程度上界定它的受众范围,创造出属于自己的生存空间。所以对于创业公司来说,选择这些赛道反而更有优势,因为它不会被轻易取代。 在大模型出现之前,我们谈交互和内容的关系时,总觉得交互是辅助的,想靠它来提升内容的体验,真的挺难的。虽然我们有技术优势,能创造更好的交互方式,但因为内容生产投入占的比重大,交互撬动的效果并不好。 不过,现在情况不一样了。大语言模型及相关技术带来的 AIGC 技术进步其实在悄悄改变着交互和内容的平衡,让我们这些深耕交互技术的公司看到了新的机会。 我们坚持「先数据后 AI」的原则,结合我们 Luka 卢卡品牌过往近千万台产品在市场上已经收集了百亿参数用户交互行为数据,为后续的模型优化打下了坚实的基础。 张鹏:今天 AI 硬件要去往前走,即使只是在一个相对边缘的场景中,但如果真的交付了足够的价值,即使不是行业的「白马骑士」,至少是为用户解决问题的存在,而且解决的问题比过去的方式更好了,只要能够在这些细微的场景中创造价值,创业团队就可以沿着这条路径往前走。 那未来在像耳机、眼镜这种显然可能会成为某种交互入口的领域,会不会有新的补贴大战? 顾嘉唯:除非未来出现像当年智能音箱那样的激烈竞争,并且所有大厂都把它视为「明牌」,否则很难看到再次出现大规模的补贴大战。 当时智能音箱至少被认为是明显的「明牌」。但如今硬件产品并没有出现同样的「明牌」路径,市场更多样化了。 另外,补贴的本质是互联网流量变现的方式。现在的大型模型则采用不同的商业模式,更加注重成本控制。在这种情况下,单纯依靠补贴很难产生根基效应的复利。 回头来看,怎么定义创业公司创造出独有的稀缺性能力?我认为关键在于找到一个有效的数据积累方式,这些数据源其实就是我们灵宇宙今天在核心投入的地方,希望能够通过空间交互来完成更多样的交互视角的数据闭环,然后来构建一条类似于通往 Robotaxi 路径过程早期特斯拉 FSD 的「南坡」路径。同时明确所擅长的、能够深入理解并持续钻研的垂直人群的需求,才能来构建一款以人为核心 AI 产品的核心轴线。 今天空间交互的数据闭环建设,尤其是高速建设是竞争的关键。只有行业竞争到了这一层面的阶段,才有可能还会出现补贴大战。
成都版人形机器人来了!回家能帮忙换鞋、生病会主动送药
机器人前瞻 作者 | 许丽思 编辑 | 漠影 机器人前瞻10月28日报道,今天,成都人形机器人创新中心发布人形机器人“贡嘎一号”(Konka-1),该机器人是国内唯一、全球唯三的拥有人形机器人“最强大脑”的超轻量级人形机器人整机产品。 超轻量级人形机器人,具体指的是机身自重30KG以内,续航6小时以上,负重比(最高负载/机身自重)0.1以上的人形机器人。同时满足这三个指标的人形机器人才能具有较高安全性、环境适应性、成本可控且能较长时间替代人类工作,也是人形机器人真正市场化、产业化的必备前提条件。 相较于业界整机普遍在60KG—250KG范围,贡嘎一号实现了全球最轻量,整机自重是25KG,并且最大负载5.5KG,实现了全球最高负重比0.22(高于业界平均水平5倍以上),还做到了全球最长续航时间8小时(业界普遍1小时左右)。 贡嘎一号是第一台实实在在“成都造”的人形机器人:成都人形机器人创新中心具备完全自主知识产权,有着30余项发明专利;整机零部件60%来自成都本地产业链企业。 据悉,成都人形机器人创新中心一直坚持以人形机器人‘大脑’为核心技术攻关方向,致力于打造人形机器人‘最强大脑’,使人形机器人真正具备理解、推理、执行能力。 而“贡嘎一号”(Konka-1)就是首台植入成都人形机器人创新中心“最强大脑”的全栈自研机器人整机,可以实现“快速理解任务意图→自主观察环境→推理任务流程→生成任务流→自主控制肢体→准确完成任务”,是一台可以像人一样独立思考、推理和执行复杂任务的有聪明大脑的人形机器人整机。 在“最强大脑”的指挥下,贡嘎一号变身一个聪明能干的居家小助手。当你结束了一天的工作回到家,贡嘎一号会主动跟你说“辛苦了”,然后为你送上拖鞋并把其他鞋子摆放整齐: 当你告诉它想喝冰镇的无糖饮料,它可以自己打开冰箱,在冰箱里找到你要喝的那一款,给你送过来: 如果你想喝杯咖啡提提神,它可以自己在厨房找到杯子,然后操作咖啡机,将一杯热气腾腾的咖啡送到你的手上: 面对东西乱摆放的客厅,它既可以收拾干净地面杂物,也可以清理桌面垃圾,顺手把垃圾丢掉垃圾桶里: 发现你感冒了,它也可以自己到药柜找到相应的感冒药,给你送上: 据了解,成都人形机器人创新中心是中西部地区首个人形机器人创新中心,位于成都科创生态岛,是四川省人工智能一号创新工程的首个原点项目。超轻量级人形机器人在高校院所实验室、概念验证中心、教育养老、应急安全等行业有广泛的应用场景,成都人形机器人创新中心打造的全国首台的超轻量级人形机器人,可以说是让人形机器人早日进入千家万户迈出了一大步。
大模型重塑版讯飞输入法来了!能懂每个人的AI输入
作者 | 程茜 编辑 | 漠影 智东西10月28日报道,讯飞输入法又上新,这次是端侧大模型重塑版! 科大讯飞的大模型底座上周官宣更新,讯飞星火4.0 Turbo七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中拿下9项第一。 在此之上,搭载着讯飞星火端侧输入大模型、讯飞星火语音大模型的讯飞输入法14.0亮相,再次让人眼前一亮。 讯飞输入法14.0的”AI输入增强“可以直接让输入法“猜你喜欢”,输入上句就能秒出下句,聊天气、游玩计划都不在话下;在大模型的加持下,输入法方言语音输入即将支持多达202种;为了更契合生成式AI输入,输入法的界面升级活力视界2.0,除了各种功能卡片、切换动效一应俱全,个性皮肤设置也让视觉焕新;还有横贯娱乐、生活、工作等各大场景的AI助手。 这一被大模型重塑的讯飞输入法14.0,提出的“每个人的AI输入”价值主张,已经清晰呈现在大众视野中,让所有人都能享受AI输入服务的可能成为了现实。 可以看到,大模型应用时代,这一历经40多年发展原先只用于打字的输入法,已经在作为用户日常工作、生活、娱乐必备交互工具这件事上更胜一筹。 在大模型走向落地应用深水区的同时,现在大大小小的AI原生应用层出不穷,但像输入法这样与用户日常生活连接如此紧密,又能在不同界面随时调用AI能力的产品并不多。 但如果输入法直接与大模型简单粗暴的相接,只能解决助力表达的一环,但新的问题又接踵而至。首先云端大模型输入服务成本高,其次用户对生成内容的多样化需求难以被紧凑的键盘界面满足,还有通用模型难以解决用户垂域沟通场景的体验,这些都是当前AI为名的输入法亟需解决的难题。 那么,在AI席卷我们日常生活的当下,讯飞输入法针对于上述痛点的思考是什么?输入法如何潜移默化影响我们的日常表达?看完讯飞输入法14.0的全面重构,我们或许可以找到答案。 一、输入法也能“猜你喜欢”,输入中前后三大场景帮你秒回消息 现在不论是听音乐、购物、点外卖…………“AI输入增强”经常能猜中我的内心想法。你有没有想过在聊天中,也能有一位24小时随时待命“猜你喜欢”的互联网嘴替? 这就是讯飞输入法14.0重磅更新的本地AI化的“联想”和“预测”功能。不过,这可并非此前输入法中预埋的根据上文猜词功能。在讯飞星火端侧输入大模型的加持下,我有时候只需要一句话,输入法上就会自动生成下文的完整回答。 先来聊一下最近大家都关心的天气。 当我向聊天对象发出“今天好冷啊”,讯飞输入法上方的输入框就能自动帮我接上下一句,“多穿点衣服”、“不要着凉了”,不仅省下了输入的时间,还能给我一些聊天灵感。 聊天气、聊周末安排时,这些直接出现的短句都深得我心。 除了直接给出关联句子,这一输入法还能根据用户的关键词进行“私人订制”回复。 当我打出“我想周末去公园”,输入法就可以自动帮你联想到去公园需要天气好的时候,所以当打出“天气”,输入法就会自动补齐句子。 晚上极度疲惫想要和朋友快速结束对话,当你打出“我要早点睡”,讯飞输入法上方就直接出现“明天要上班”的表达,这时候你就可以心安理得抛下手机进入梦乡。 还有一种场景是,在下雨天手拿雨伞的你本来打字就不方便,当你和聊天对象输入“今天下雨了”,下半句话只要输入“jide”的拼音,就可以直接生成“记得带伞”的回复。 在增强联想的场景中,只要你给出一个情境,讯飞输入法就能帮你补齐下文。 例如想和朋友讨论周末出去玩的计划,当你输入“我想去公园散步”,输入“享受”,讯飞输入法就可以秒懂你的想法,直接给出“享受大自然,放松心情”,消除AI机械化、硬生生的联想。 讯飞输入法的升级,能根据用户输入的拼音或者开头关键词,然后结合其日常输入习惯联想甚至预测出一些完整的句子。 除了打字输入,现在语音输入的使用场景也越来越多。基于端侧大模型的泛化能力,离线状态下讯飞输入法的识别能力也直线up,识别准确率基本持平云端语音输入效果。 讯飞输入法业务部总经理程坤补充道,这一离线语音识别的功能可以让用户网络不好时,也能实现完整输入体验。为了做到这一点,他们用大模型将离线语音功能重写,他认为,这也是未来针对用户做个性化输入的基础,能结合用户的本地输入习惯。这意味着,离线的语音输入不仅仅是在线语音输入的补充,而是有可能成为用户使用日常语音输入的风向标。 无独有偶,谷歌、苹果、OpenAI等国际巨头科技公司正不遗余力强化语音识别能力,提高其识别的准确率和响应速度。 而在中文语音识别这件事上,讯飞输入法不断加码。自2010年发布以来,讯飞输入法已经迭代了14年。此次,讯飞输入法14.0接入讯飞星火语音大模型,将使得方言识别种类倍增,可覆盖近300座城市。据悉,讯飞输入法将在“方言免切换”中支持202种方言自由说,让每个人都能“想说就说”。这与科大讯飞在1024开发者节上发布的星火大模型的底座能力一脉相承。 在方言免切换的功能中,即使两个聊天对象一个说方言一个说普通话,或者两个人说不同的方言,也无需手动切换。当我播放了一段北京话和中原官话夹杂的方言音频,讯飞输入法也准确识别了出来。 二、上万个AI人设,帮你分分钟化身网络显眼包 当然大模型赋能的输入法能力远不止于此,更新后的讯飞输入法还能让AI直接横跨你的工作、生活、娱乐社交圈。 与上司沟通、恋爱、斗图、翻译、校对……形形色色的场景都能让你在输入法中找到对应的AI助手。 对于我而言,社交场景中最头疼的就是工作相关的沟通环节,既需要准确传达自己的意思,还要把握好和同事、客户沟通的方式。 所以讯飞输入法的AI助手中,我高频使用的就是“高情商沟通”助手。 当与同事合作完成一个项目,但项目DDL就在明天,僵硬的催促可能不是沟通的好办法。这时候你只需要点击高情商沟通,选择沟通对象以及想要的风格,讯飞输入法就直接生成了5种回复方式,语气词、关键信息应有尽有。 还有更为考验情商的一个场景就是,你需要通知大家今晚加班,这时候你只需要将“今天晚上需要加班”这几个字打出来,AI助手就能对应生成风趣幽默、高情商、简单直接等话术,你直接点击发送,无需再头痛斟酌每一个字词。 当下的网络上的年轻人都喜欢立人设,“人设立得好”等相关话题也颇有热度! 讯飞输入法直接将这些人设一股脑搬到了输入法的AI助手里,不仅有霸道总裁、黛玉文学、大胖橘,还有乌萨奇等,想要立什么样的人设,AI都能帮你用“同款”风格进行聊天。程坤透露,短短一个多月时间,讯飞输入法中官方加用户创建的人设已经达到1万多个。 作为甄嬛传深度爱好者,我主要试用了“嬛言嬛语”,即使面对现代色彩浓厚的“我好困,想喝咖啡”,AI助手也非常忠于人设,直接穿越到了古代。 此外,除了面向C端消费者提供丰富的AI助手,针对于企业,讯飞输入法也提供了领域定制化的AI助手,能根据企业所属的行业、具体的需求,让输入更能深入其中,帮助企业员工提质增效。如今,讯飞输入法已经与友邦保险联合定制了AI营销助手,提供了一整套智能化的解决方案。 把大模型装进输入法的最新形态已经被展现在我们的日常生活中。值得一提的是,讯飞输入法的AI能力并不局限与当前,其创新采用了全新的AI插件化引擎构架,使得输入法可以灵活拓展多种AI模型,能实现广泛覆盖、智能融合,让本地化的AI输入呈现给更多的用户。 三、让输入更准确、更高效、更懂用户,大模型+输入的更优解 讯飞输入法正在全方位重塑中文输入法。这除了体现在上述提到的功能升级,讯飞输入法还在输入界面以及用户的交互上进行了自我革新。 为了让生成式AI与用户的输入更加契合,讯飞输入法的活力视界2.0再一次亮眼的表现。程坤谈道,活力视界2.0为输入法中的每种服务都单独设计了卡片,并跟其本身的功能进行了深度结合。 同时,用户在选择不同功能时中间有动效切换并完成了和所有输入法皮肤的适配。 程坤认为,输入法界面的重新设计,是未来输入法提供输入文字之外更广泛能力必须要走的一步。 在这个趋势下,讯飞输入法一直走在行业前面,正如其此前率先将传统输入法的候选栏变为工具栏,从只有备选文字变为拥有语音输入等更多切换按钮。 基于这种模式,讯飞输入法集成了很多服务,覆盖了用户输入前、中、后三大场景。 输入法作为用户使用电子设备时调用频率最高的,也是与用户距离最近的服务,相比于其他AI产品而言与用户的交互也更为密切、深入。 不过,这背后程坤提到,他们遇到的难题就是,大模型训练、推理成本高,在高频输入场景为用户提供大模型能力,对于输入法本身而言并不是提供AI服务最好的路径,因此要找到一个平衡点,让所有用户都能用上大模型同时成本降下来。 在输入法领域已经积累14年之久的科大讯飞,交出了自己的答卷。 从2010年发布业内首个中文语音输入法,到方言语音输入、多方言多语种免切换输入,讯飞输入法不断突破高效输入、降低输入门槛这两件事的极限,在生成式AI输入法上同样如此。 ▲讯飞输入法业务部总经理程坤 基于星火大模型,他们结合讯飞输入法的输入场景训练出了端侧大模型,这个大模型解决了输入过程、输入上屏以及输入完成之后,下一句话如何联想的过程。 在大模型参数不再追求庞大的参数,手机性能提升同时垂直领域大模型应用兴起的背景下,端侧大模型部署成为可能,这使得输入法与端侧大模型的结合多了更多可能性和创新空间。 多年布局之下,讯飞输入法已经贯穿不同设备、不同输入场景、不同用户群体的个性化需求,再辅以大模型时代的生成式AI技术,将这一产品打造的更准确、更高效、更懂用户。 结语:14年技术积累,致力于打造每个人的AI输入 输入法与大模型的结合与其他产品不同,既需要符合用户传统的使用习惯,还要将新的AI能力融入其中。输入法是用户日常使用频率极高的工具,人们在长期使用过程中形成特定的操作习惯和预期,同时,大模型具有强大的语言理解、生成和预测等能力,将这些融入输入法需要精心设计,不能简单地堆砌功能。而恰好,科大讯飞在技术研发和产品落地的耕耘已久。 在讯飞星火大模型底座之上,讯飞输入法搭载了讯飞星火端侧输入大模型,全力支撑输入法的拼音和离线语音输入,同时基于讯飞星火语音大模型云端能力的快速迭代用于提升方言输入种类和效果,将通用大模型与垂域小模型的能力充分体现到用户的输入过程之中,真正实现AI的交互体验升级。 讯飞输入法发展至今已经14年时间,且星火大模型自去年起就成绩颇丰。可以看到,讯飞输入法已经在端侧大模型时代努力打造普惠的属于“每个人的AI输入”。
AI手机看荣耀:荣耀MagicOS 9.0正式发布,开启手机自动驾驶新时代
凤凰网科技讯 10月28日,【中国北京,2024年10月23日】10月23日,荣耀在MagicOS 9.0发布会及开发者大会上正式发布行业首个搭载智能体的个人化全场景AI操作系统——MagicOS 9.0,推出全新自研魔法大模型家族,并宣布YOYO助理正式升级为YOYO智能体。发布会上,荣耀全新智能体商店正式上线,YOYO智能体将携手百模生态,共创智能新世界。此外,荣耀还携手中国信通院,联合全行业共同定义终端智能化分级标准,与中国AI一起,加速驱动手机迈入“自动驾驶”新时代。 当前,在以预训练大模型为主导的AI技术爆发中,AI 智能体已成为智能技术落地的新锚点,AI智能体时代正在加速到来。作为行业首个融入AI智能体并完成商业化落地的操作系统,此次MagicOS 9.0铸就了以大模型为驱动的AI新内核,以智能体为驱动的AI新交互,及以开放服务构建的AI新生态,树立了智能体时代下AI OS的新范式。 荣耀终端有限公司 CEO 赵明表示,MagicOS诞生之初,就确立了打造属于未来的操作系统,构建AI OS的定位。从 2016 年12月荣耀首发 Magic Live 智慧引擎,到 2022年1月MagicOS 7.0 布局平台级 AI,到 2024 年1月 MagicOS 8.0以平台级AI打造意图识别人机交互新范式,再到此次MagicOS 9.0以AI智能体技术开启“自动驾驶”新时代,荣耀凭借持续进化的AI能力,不断带来引领行业的创新体验。 更懂你的AI新内核:全新自研魔法大模型家族加持,操作系统内核再升级 在AI时代,操作系统需要解析多种与人相关的因子,来构筑真正以人为中心的体验,这也正是下一代操作系统——AI OS的典型特征。 在MagicOS 8.0上,荣耀在负责管理硬件资源的传统OS内核外,构建了平台级AI——Magic Live智慧引擎新内核,“计算”与人相关的因子,如个人位置与状态,个人习惯偏好等,帮助OS精准识别用户意图,高效调度系统服务。同时,在上一代自研70亿参数魔法大模型的加持下,荣耀进一步强化了这一新内核对于“人”的多模态感知和关联因子计算。 此次MagicOS 9.0,加持平台级AI内核的大模型能力更进一步,带来全新升级的魔法大模型家族,包括语言大模型、图像大模型、语音大模型、多模态大模型四个大模型矩阵,实现了在不同设备上的灵活部署。其中,支持中高端产品系列的30 亿参数量级的语言大模型,相较上一代操作系统发布的 70 亿参数自研魔法端侧大模型,功耗大幅下降了80%,加载速度提升了77%,出词速度提升了500%,在 ROM 和 RAM 占用上更是分别减少 1.8GB 和 1.6GB,远超越行业水平。此外,荣耀还带来了支持全系产品的 1500 万参数量级的语音大模型和 500 万参数量级的图像大模型,以及支持中高端产品系列的10 亿参数量级的多模态大模型和4000万参数量级的图像大模型。 本次全新升级的魔法大模型家族,采用端云协同的部署模式,带来了效率、安全和体验的最佳平衡。基于平台级AI内核,MagicOS 9.0可从系统层面根据不同人群的不同业务场景需求,灵活组合使用魔法大模型家族里的各类模型,同时还能根据产品服务的差异性自由调度AI算力、端云资源。 伴随此次端云协同的全新魔法大模型家族的发布,荣耀的平台级AI全面进化,驱动操作系统内核进一步向以人为中心的AI内核演进,荣耀平台级AI在场景感知、用户理解和意图决策方面实现质的飞跃,荣耀Magic Live智慧引擎场景感知从上一代的40类提升到60类;意图决策覆盖场景由100个增加到600个;用户理解类别从600项提升到950项。 打造更懂你的AI内核,个人知识库必不可少。荣耀魔法大模型家族加持下的平台级AI,能够通过基于个人行为的多维数据,基于个人记忆的推理式图谱和个人画像的知识索引,在端侧构建多维度的个人知识库,并应用到众多场景化的应用中。同时,为了充分给用户隐私保护和可控参与感,个人化记忆内容和知识库的数据都在端侧存储,可控、可查、可删,全部向消费者透明。 智能体驱动的AI新交互:全新YOYO智能体,实现手机“自动驾驶” AI多模态技术正在重新定义人机交互,重塑人机交互界面和形式。在上一代MagicOS 8.0上,行业首发新一代人机交互——平台级AI使能的意图识别人机交互,定义了AI时代下智能终端交互的新范式。此次,以AI智能体技术为核心的MagicOS 9.0,通过更强大的AI智能体能力,首次实现纯AI视觉、零生态适配的任务自主执行,再次驱动人机交互变革,带来手机上的“自动驾驶”。 发布会上,荣耀正式宣布YOYO助理全面升级为YOYO智能体。拥有“自然语义理解和计算机视觉”、“用户行为习惯学习和场景环境感知”、“意图识别及决策能力”、“应用内及跨应用操作”四大核心能力的全新YOYO智能体,能够基于对用户行为习惯的学习以及当前使用情景的感知,精准理解用户需求、拆解任务步骤,并自主操作、调取手机上各类资源与三方服务,以满足用户需求。 比如,“一句话点咖啡”,用户只需向YOYO发出语音指令“帮我点一杯热拿铁”,YOYO在理解用户需求后,就会像人一样调取用户经常使用的外卖APP,找到经常光顾的咖啡店,自动完成点咖啡操作,并向用户确认结算,完成点咖啡服务。 在荣耀看来,AI智能体就是一句话的事儿,它能帮用户搞定想做不会做,会做不想做的事儿。目前,YOYO智能体已经具备成熟的以人为中心的场景理解能力,可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划,可实现一句话点咖啡&奶茶、一句话查询&取消APP自动续费、一句话转文档,一句话应用权限管理、一句话应用通知管理、一句话填表等900项任务自动执行。 此外,基于意图识别人机交互打造的明星功能任意门、灵动胶囊也迎来全面升级。MagicOS 9.0上任意门带来更极致的交互方式,指关节圈选任意界面,无需唤醒,即可完成图文理解,一步直达所需服务,并且得益于平台级AI使能意图识别的提升,任意门可以进行上下文语义理解,准确理解用户意图,更精准地推荐服务。同时,任意门进一步完善场景覆盖,从原先MagicOS 8.0七大场景升级到了十大场景,服务接入增长255%,服务数量已经突破100个。而全新升级的灵动胶囊在应用场景和服务体验上进一步扩展,全面覆盖航班、打车、高铁、快递、外卖、观影、游戏、系统服务、本地生活、导航、安全、通信等高频场景。 开放服务构建的AI新生态:中国AI在一起,共建AI智能体新生态 AI智能体带来的人机交互范式的进化,将驱动应用生态新变革。在荣耀看来,开放创新始终是AI时代的主旋律。不同于苹果在“围墙花园”的封闭生态中打造AI 智能体的做法,荣耀致力于在开放生态下,为用户打造能够完成跨三方应用操作的AI智能体。发布会上,荣耀宣布向生态合作伙伴推出面向智能体的新一代智慧能力开放架构,并宣布正式上线荣耀智能体商店,YOYO智能体将携手行业百模生态,共创智能新世界。此外,荣耀联合中国移动、百度地图、同程旅行、爱奇艺等合作伙伴带来了AI智能体互联互通的全新体验。 在打造开放AI智能体生态外,荣耀还联合全行业定义终端智能化发展方向。10月18日,荣耀作为牵头手机厂商代表,携手中国信息通信研究院联合产业界伙伴,发布全球首份《终端智能化分级研究报告》的阶段性进展,带来行业首个终端智能化分级体系,在AI时代下为终端智能化能力分级提供了权威、可量化的评价标准。在参与研讨的企业中,荣耀是第一发起人,贡献度最高。 报告依据终端对用户意图的理解程度、对用户信息的学习记忆程度、任务规划程度、任务完成度四大核心要素,将终端智能化水平分为L1-L5五个等级,由低至高依次为智能响应级、智能辅助级、智能助理级、智能协同级、自主智能级。 值得一提的是,将于10月30日推出的Magic7系列首发搭载的MagicOS 9.0的AI大模型能力,获得中国信通院权威行业认证,获颁泰尔测评证书卓越级评分;在中国信通院颁发的终端智能化分级能力证书中,首发搭载MagicOS 9.0的荣耀Magic7系列通过《终端智能化分级测试方案》评估,终端智能化水平达到行业目前最高等级L3。并且,荣耀也是业内唯一一家达到该智能化水平的终端厂商。 本次多方携手共同构建终端智能化分级体系,是业内首次达成终端智能化分级定义共识,在AI时代下为终端智能化能力分级提供了可量化的评价标准,推动整个行业迈向更高水平,也为终端用户创造更多的价值和便利,让终端智能化更好地服务于人们的生活和工作。 中国AI在一起,全行业联合定义终端智能化分级标准,将进一步加速AI智能体、AI手机的高质量发展,全面驱动操作系统向下一代AI OS迈进,开启手机“自动驾驶”新时代。 平台级AI使能,体验更满意:MagicOS 9.0处处有AI,处处有惊喜 在 AI 使能下,MagicOS 9.0 在智慧互联、流畅性能、隐私安全、科技美学、创作与办公等领域全面进化。 在安全方面,针对Deepfake换脸滥用引发的诈骗风险,MagicOS 9.0行业首发AI换脸检测功能。通过适配移动端、轻量级的骨干网络模型,荣耀构造了百万级的真实场景换脸样本库,通过进行模型训练和调优,带来了能够识别所有主流换脸工具换脸算法的检测模型;在智慧互联方面,此次MagicRing信任环带来异构组网、跨设备安全协同、自组网三大能力的全面升级,实现了各类场景下的多设备连接自由和服务的安全无缝流转;在流畅性能方面,MagicOS 9.0 通过平台级AI对Turbo X系统引擎进行了全面重构,同时结合人因研究,实现了舒适愉悦的人因动效。此外MagicOS 9.0首发全栈 Vulkan 图形、AI 预测调度、直觉交互动效三大引擎,在图形渲染速度,重载场景,应用启动速度、交互动效等方面带来了全面提升;在科技美学方面,此次荣耀 MagicOS 9.0 推出全新个性化解决方案——“魔方个性化”,带来了“百变桌面”、“全新魔法锁屏”、“荣耀数字人”等多个趣味功能,借助端侧AI能力,让用户个性化表达可以自由发挥。 除此之外,在创作与办公方面,荣耀通过 AI 深度使能系统级应用,带来了高效便捷的图像处理和文本处理能力。在创作方面,荣耀带来全新升级的AI图库,具备 AI 消除、人脸修复、AI 扩图、AI 风格等功能。在办公方面,AI笔记全新升级,带来了可在会中声纹识别区分发言人自动记录,会后一键秒出专业会议纪要的AI 会议;辅助阅读、辅助写作、提供翻译、总结等功能的AI 文档;支持多种交互方式和同声传译的AI 翻译。 MagicOS 9.0处处有AI,处处有惊喜。通过平台级AI使能,荣耀将智能充分融入到操作系统的每一个设计细节,带来了自由、流畅、安全可靠的个性化体验。与此同时,荣耀还积极向广大开发者开放平台级AI能力,共建智能新世界。 发布会上,全新的荣耀消费者云服务面向中国市场推出荣耀远航计划,将升级智能体、折叠屏生态激励的扶持资源额度提升至 20 亿元,聚焦新锐应用合作、精品新游首发、智慧服务创新、主题设计创新四大领域,加速激励和扶持开发者创新,实现商业价值突破。 此外,MagicOS 9.0公测计划 MagicOS 9.0公测升级计划将覆盖 Magic系列、荣耀数字系列、荣耀 X系列等36款手机和平板。不同机型将在 2024 年 11 月至 2025 年 3 月分批开启公测,详情可前往荣耀 MagicOS 官网或荣耀手机官方微博查询。
赵明称荣耀Magic7系列手机支持“单反相机级”抓拍、连拍体验
原标题:赵明称荣耀 Magic7 系列手机支持“单反相机级”抓拍 / 连拍体验,雅顾人像风格多样化升级 IT之家 10 月 28 日消息,荣耀终端有限公司 CEO 赵明今日发布视频,对 Magic7 系列新机部分信息进行透露。 赵明称荣耀鹰眼相机的能力、以及人像摄影的能力得到升级。其中鹰眼相机能提供“像单反相机一样”的快拍和连拍体验;雅顾人像针对现代年轻人和用户的人像摄影喜好的风格进行调整,会呈现出多样化。 由此来看,荣耀 Magic7 系列手机将在抓拍功能和连拍功能进行升级,此前搭载于 Magic5 系列手机的鹰眼相机便支持自动抓拍等功能,预计此次将提升抓拍效率及成片效果。雅顾人像则预计将支持更多拍摄风格。 据IT之家昨日报道,有爆料消息称荣耀 Magic7 / Pro 电池容量预计为 5650mAh / 5850mAh,均支持 100W 快充。另外,Magic7 系列手机将支持多项 AI 功能,包括 YOYO 助理自动操作、端云协同导航、实时翻译等: YOYO 助理自动操作(一键填表、探店寻址、一键比价) AI 搜索(生成大纲、结论直给) 端云协同智能出行(YOYO 助理直接对话、和百度地图智能体对话) 实时翻译 历史信息查询(个人历史行程、考勤、住宿) 游戏空间(一键设置游戏时长、一键管理游戏充值、边玩边下载) 魔方自定义桌面 ▲ IT之家开箱:荣耀Magic7系列
iQOO 13手机支持44W UFCS、100W PPS等充电协议
原标题:iQOO 13 手机支持 44W UFCS、100W PPS 等充电协议,配套充电器支持 100W PD 输出 IT之家 10 月 28 日消息,iQOO 13 手机已官宣将于 10 月 30 日 16:00 发布,目前新机已经全渠道开启预约。 ▲ IT之家开箱:iQOO 13 传奇版 iQOO 官方现对新机电池技术和充电能力作出解读: iQOO 13 手机的电池采用“第三代硅负极技术”,电池体积得到缩小;iQOO 还通过激光蚀刻技术在电池负极表面蚀刻出上千条微小凹槽,缩短了手机充电时间、增强电池耐用性,宣称“30 分钟可从 1% 充至 100%”。 另外,iQOO 13 手机还支持 44W UFCS、100W PPS 等充电协议。新机配套的充电器套装支持 100W PD 输出,适配大多数 PC、平板、游戏机使用。新机还支持“低温直驱供电技术”,可让充电器直接给主板供电,实现边充边玩、低发热特性。 IT之家今日早些时候报道,iQOO 手机官方今日发文宣布,iQOO 13 手机将配备等效 6150mAh 蓝海电池、支持 120W 超快闪充、100W PPS 协议快充。 iQOO 13 手机已确认搭载骁龙 8 至尊版处理器,跑分突破 315 万,同时还将提供 16GB+1TB 版本。目前,新机部分配置信息已曝光,IT之家整理如下: 性能:高通骁龙 8 至尊版处理器 | 自研电竞芯片 Q2 运行:提供 16GB+1TB 版本 | 全系标配 LPDDR5X Ultra 内存 + UFS 4.0 闪存 散热:单层主板 | 多层石墨烯 + 7K 超大面积 VC 均热板 屏幕:6.82 英寸 2K 144Hz BOE Q10 纯直屏(分辨率 3168*1440p)| 2592Hz 全高频调光 + 类 DC 调光 触控:新思 S3910 触控 IC 电池:等效 6150mAh 电池 | 120W 私有协议闪充 + 100W PPS 闪充 + 44W UFSC 快充 | 旁路充电 + 高功率亮屏快充 功能:3D 超声波指纹 | USB3.X | IP68 | 1016H 马达 | 无网通信功能 设计:iQOO 13 厚度是旗舰系列历史最薄 | 直边大 R 角中框 | 前置挖孔大小优化 | 对称式战鼓大师双扬 | 赛道版机身厚度约 7.99mm 外观:预计采用直屏 + 窄边框 + 金属中框设计 | 类似 OriginOS 视觉展示机型 影像:vivo 旗舰同款主摄、广角 | 折叠屏同款的长焦人像 | 蓝厂旗舰同款算法和调试

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。