行业分类:
加载中...
头条分类:
加载中...
2¹³⁶²⁷⁹⁸⁴¹−1,GPU发现人类已知最大的素数,比第二大多1600万位数字
新的人类已知最大素数,被GPU发现! 这个数就是2¹³⁶²⁷⁹⁸⁴¹ −1,如果展开会有41024320位十进制数字。 一位英伟达前员工通过开源项目GIMPS(梅森素数大搜索,Great Internet Mersenne Prime Search)报告了这一结果。 且是通过英伟达A100初步发现,然后经由H100验证。 2¹³⁶²⁷⁹⁸⁴¹ −1比之前创纪录的素数大1600多万位,是有史以来发现的第52个已知的梅森素数,也是GIMPS项目发现的第18个梅森素数。 连马斯克刷到新闻都跑来围观。 “GPU的用途不仅是AI” 2¹³⁶²⁷⁹⁸⁴¹−1目前也被称为M136279841,计算方法是136,279,841个2乘起来,然后再减1。 要细数这个最新素数被发现的故事,就不得不多说两句发现他的卢克老哥。 卢克老哥现在的身份是一家创业公司的CEO,也是目前GIMPS最多产的贡献者。 不过在之前,从2010年开始,老哥在英伟达工作了11年之久,期间参与过GPU的设计。 他之所以加入寻找梅森素数的行列,是想要通过这件事证明: GPU不仅仅可以用在AI领域,也非常适合用来搞基础数学和科学研究。 当然,用GPU找素数不是卢克老哥自己的创新性想法。 早在2017年,Mihai Preda就留意到了GPU在PC中的功能性和重要程度与日俱增,然后他就编写了一套叫做GpuOwl的程序,来测试寻找梅森数中的素数。 2023年10月,卢克老哥开始了他的寻找梅森素数之旅。 在他看来,云计算中GPU可用性的爆炸性增长为GpuOwl提供了独特的机会。因此,老哥开发了一套跨多个GPU服务器运行和维护的GIMPS基础设施。 截至目前,卢克老哥的“云超级计算机”由数千个服务器GPU组成,横跨17个国家(地区)的24个数据中心区域。 测试一年之后,也就是这个月,卢克终于有了新发现—— 10月11日,爱尔兰都柏林的英伟达A100报告称,M136279841可能是素数。 次日,美国德州圣安东尼奥的英伟达H100通过Lucas-Lehmer测试证实了这一点。 按照规定,卢克老哥因为找到了新的素数,可以获得3000美元的研究发现奖金。不过消息称,老哥决定把这笔钱捐给阿拉巴马州数学与科学学院的数学系。 有文章感慨道:“这个最新的人类已知最大素数的出现,结束了普通个人电脑寻找素数在过去28年中的统治地位。” 世界上寿命最长的分布式项目之一 说到这里,我们来简单介绍几句,啥是素数,啥又是梅森素数。 素数,是指在大于1的自然数中,除了1和它本身以外不再有其他因数的自然数。 而梅森素数则是2P-1形式的素数。得名于法国数学家和修道士马林·梅森(Marin Mersenne)。 人们为了纪念梅森在2P-1型素数研究中所做的开创性工作,从此以后,就把这种类型的素数称为“梅森素数”。 由于符合 2P-1形式的数,有高效的算法(如卢卡斯-莱默测试)可以用于素性检验,即使在P非常大的情况下也是如此。 后来人们发现的已知最大素数几乎都是梅森素数,因此寻找新的梅森素数的历程也就几乎等同于寻找新的最大素数的历程。 目前为止,一共发现了52个梅森素数,并且其中18个由GIMPS项目发现。 由于寻找梅森素数,不仅需要丰富的理论知识,还需要海量的计算,一个分布式项目诞生了。 它就是GIMPS,梅森素数大搜索。 GIMPS诞生于1996年,是世界上寿命最长的分布式项目之一,旨在发现新的世界纪录的最大/小的梅森素数。 由于它背后是一个科学研究慈善机构,因此GIMPS是一个志愿者团队协作的项目,任何拥有相当强大的PC或GPU的人都可以加入,成为“梅森素数猎人”。 人们可以通过下载开源的prime95和MPrime软件来搜索梅森素数,其中,Prime95的作用是拿它查询以前的梅森素数。 GIMPS用户运行的程序会执行Fermat probable prime检验: 测试一旦成功,就几乎可以确定一个新的梅森素数被找到了。 不过在GIMPS服务器收到“可能出现新梅森素数”的通知时,还是会马不停蹄地在不同硬件上使用不同程序,运行几个确定的Lucas-Lehmer素数测试,来确保万无一失。 GIMPS基于一种特殊算法来寻找最新的梅森素数。 上个世纪90年代初期,已故的苹果公司杰出科学家Richard Crandall发现了将卷积(本质上是大乘法运算)速度提高一倍的方法。 该方法不仅适用于素数搜索,也适用于计算的其他方面。 GIMPS的软件负责人George Woltman用汇编语言实现了Richard的算法,从而产生了一个效率空前的素数搜索程序,这才导致了GIMPS项目的成功。 不过一开始开始,它设计的软件仅仅能在英特尔PC上运行;后来,又能在各种非英特尔处理器上跑;十年前,GIMPS系列中又增加了GPU专用软件。 到现在,GIMPS已经为各种CPU和GPU提供完整的程序。 One More Thing 不过,围绕着梅森素数一直有些小小的争议。 因为梅森素数的实际用途其实不多,所以有人老是很疑惑,到底为啥要费劲吧啦地搜索寻找出这些最大梅森素数呢? 在梅森素数网站上,就这个问题被列出来的一个答案是: 为了荣耀! 话倒是说回来,其实几十年前,类似的疑惑就已经存在了,直到人们基于素数开发了重要的密码学算法,疑惑才被打消。 参考链接: [1]https://www.mersenne.org [2]https://x.com/elonmusk/status/1848361371974393958 [3]https://www.mersenne.org/why_join/ — 完 —
iPhone 17 系列最新爆料:史上最轻薄的苹果手机来了
发布仅一个月,iPhone 16 系列就宣布官方降价,这是这款新机发布以来首次官方渠道降价。 与此同时,iPhone 17 系列的话题度已经隐约起势,它可能会带来自 2017 年发布 iPhone X 以来最大的设计更新。爆料称苹果将会在 2025 年发布 iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max 三款常规机型。 除常规机型以外,最受关注的机型非 iPhone 17 系列中「可能的」全新产品线 iPhone 17 Air/Slim 系列莫属。作为 iPhone 17 系列当之无愧的「先锋代表」,iPhone 17 全系机型的更新升级,从中可见一斑。 ▲iPhone 17 Air/Slim 系列手机概念图(图源:中关村在线) 苹果公司在其推出的 iPad 和 MacBook 系列产品中,都有「Air」这条主打轻薄便携的产品线。「轻薄」大概是当代人类的猫薄荷,人们总是对这类精致趁手的数码设备毫无抵抗能力。 在智能手机界,追求轻薄也并不是什么新鲜事:2014 年,vivo 就曾发布过一款名为「X5 Max」的智能手机,宣传标语是「薄动心弦」。其厚度仅有 4.75mm,创下了业界「最轻薄智能手机」的纪录。 ▲vivo X5 Max,号称「全球最薄智能手机」(图源:Perplexity) 为了迎合消费者对于「轻薄」的喜爱,奥利奥甚至推出过一款名为「奥利奥薄脆」的新品饼干。这款饼干比经典的奥利奥饼干薄 40% 左右,口感更好。 说回到 iPhone 17 Air/Slim 系列机型。根据外媒爆料,这款手机将搭载采用台积电 3nm 工艺制造的 A19 芯片,配备一块 6.6 英寸可变刷新率 ProMotion 显示屏,最高支持 120Hz 刷新率。 据传闻,A19 芯片将成为 iPhone 17 全系机型的标配。其中,iPhone 17 Pro 和 iPhone 17 Pro Max 可能搭载性能更强的 A19 Pro。并且全系机型预计都将更新 ProMotion 显示技术,以实现更流畅的滚动和视频内容显示。屏幕尺寸方面,标准版和 Pro 版为 6.3 英寸,iPhone 17 Pro Max 则为 6.9 英寸。 值得注意的是,iPhone 17 Air/Slim 所配备的这块 OLED 屏幕内置了 TDDI(触摸和显示驱动程序集成)技术,即触摸输入和输出由同一芯片同时处理——这意味着屏幕会更薄、更高效。 ▲iPhone 17 Air/Slim 使用的「尖端的」显示技术(图源:SimplyMac) 摄像方面,iPhone 17 Air/Slim 拥有一颗经过升级的 4800 万像素的后摄和一颗 2400 万像素的前摄,并集成了 Face ID。预计 iPhone 17 所有机型都将搭载这颗 2400 万像素前摄,而 iPhone 17 Pro Max 或将成为第一款配备三颗 4800 万像素镜头的 iPhone——一颗广角、一颗超广角和一颗四棱镜长焦镜头。 爆料称明年至少有一款 iPhone 17 机型将配备机械可变光圈,让用户可以调整镜头光圈的大小,进而改变进光量。这意味着 iPhone 在影像创作方面的能力,又将向「更专业」迈步。 此外,得益于 Face ID 更小的金属镜头,iPhone 17 系列还将拥有更小的「灵动岛」。如果消息为真,这将是自 iPhone 14 Pro 机型以来,苹果手机灵动岛的首次变化。 ▲iPhone 14 Pro 机型上的「灵动岛」(图源:Perplexity) 外观方面,消息透露 iPhone 17 Air/Slim 系列机型将会采用与以前 iPhone 明显不同的「全新设计」,并且采用铝合金而非钛合金中框,也许是为了轻量化的考虑。 ▲网传的 iPhone 17 Air/Slim 系列机型外观(图源:MacRumors) 值得一提的是,iPhone 17 Air/Slim 系列将配备 8GB 的内存(RAM),分析师 Jeff Pu 指出,这表明这款手机将支持 Apple Intelligence。不出意外,Apple Intelligence 将登上 iPhone 17 全系机型。 ▲Apple Intelligence(图源:Perplexity) 另外,iPhone 17 Pro 机型可能会搭载 Wi-Fi 7 和 12GB RAM,其他机型将搭载 Wi-Fi 6E 和 8GB RAM。 Jeff Pu 还预测,iPhone 17 Air/Slim 的定位将在标准版与 Pro 版本之间,将是一款取代 Plus 型号的中端 iPhone。苹果供应链分析师郭明錤则称 iPhone 17 Air/slim 系列有望成为首批配备 Apple 设计的 5G 调制解调器的 iPhone 之一,iPhone 17 系列的其他机型将继续使用高通的调制解调器。 关于 iPhone 17 Air/Slim,大家最为关心和好奇的,就是号称「Air」或者「Slim」的它到底有多薄。外媒给出的猜测是 5mm,略厚于目前的「全球最薄智能手机」vivo X5 Max。 ▲iPhone 17 Air/Slim 与 iPhone 15 Pro Max 机身厚度对比(图源:MacRumors) 如今,在各厂商智能手机集体追求堆料,打造各方面性能兼顾平衡的「水桶机」的时代,苹果可谓反其道而行之,推出 iPhone 17 Air/Slim 系列机型,靠优秀和前沿的工业设计设计来取悦和打动用户,倒也不失为一种好的思路。 iPhone 17 系列能否打破前辈「阶段性过渡产品」的魔咒,一举破茧成蝶?我们 2025 年见分晓。
“AI微信”,来了?!!
微信,那个被认为“最佛系更新”的国民超级软件,最近越来越忙了。 10 月 8 日,微信鸿蒙原生版正式开始邀请内测。尽管这个鸿蒙原生版只提供了最基本的聊天、朋友圈、收付款功能,但仍然为鸿蒙补全了软件生态最重要的一环。但有趣的是,在宣布鸿蒙原生版本后不久,微信又一次出乎意料的功能更新引起了大家的关注。 图片来源:雷科技 简单来说,“搜索直达”允许用户直接从搜索结果跳转到对应的功能界面。根据微信的说法,“搜索直达”已经覆盖了大多数的高频功能。说实话,就小雷个人的意见来看,我实在难以想象我们要等足足 13 年才迎来一个好用的“搜索直达”,这也说明微信是一款“慢产品”的事实。 “搜索”是“微信 AI”的起点? 回看微信近期的功能更新,不难发现微信已经将搜索功能当作自己的下一个主战场。2024 年中,微信在搜索中灰度加入了 AI 问答功能:除了常规的搜索结果外,微信会在结果页面的顶部显示用 AI 生成的答案。 图片来源:雷科技 联系到腾讯内部的产品布局,我们不难看出微信这一 AI 功能借助的是腾讯混元大模型的能力——在接受采访时,混元大模型负责人刘煜宏曾表示: 目前腾讯内部有接近700个业务接入混元, 基本上腾讯所有(业务)都用。 这在我看来也是微信进一步拓展搜索功能的一个信号。通过引入 AI 技术,微信不再仅仅满足于提供常规的搜索结果,而是用 AI 打造一个直接的搜索体验。这既提高了搜索的准确性和效率,也开启了微信在 AI 搜索领域的布局。 而这背后的目的,实际上预示着其在构建一个小程序之外的“第二门户”。小程序自推出以来,一直是微信连接用户与服务的核心,但它仍然需要用户主动进入特定程序操作。而 AI 搜索通过智能推荐和自动生成答案,可以直接为用户提供解决方案,无需多次跳转。这种无缝的服务体验,让 AI 搜索成为了继小程序之后,微信布局服务生态的另一大“入口”。 然而,随着腾讯混元大模型技术的进化,微信搜索的潜力远远不止于此。微信完全可以用 AI 分析微信生态内的大量用户行为和搜索内容,进一步个性化推荐,甚至在用户搜索之前就提前预判需求。这种从被动搜索到主动推荐的转变,标志着微信正在构建一个更智能化的搜索体系。而这一体系,正是微信从超级应用向超级智能助理迈进的重要一环。 微信 AI 版图正在悄然展开 事实上,海外不少社交媒体平台已经开始用用户数据训练 AI,从而改善 AI 服务的体验。以海外社交平台中最接近微信“超级应用”身份的 Meta 为例,Meta 一直在 AI 领域投入大量资源,并积极推动其技术在社交和内容生成中的应用——Meta 的 AIGC 工具发布于 2023 年,但早在 2013 年,Meta 的前身 Facebook 就已经在 AI 领域大规模投入研究资源。 图片来源:Meta 而 Meta 的投入也换来了相当出色的成果:在 Facebook 和 Instagram 上,用户可以遵循 Meta AI 工具给出的潮流指引创作相关内容,在 Meta 的 AI 推荐算法下触及更多的用户。这种“AI 辅助”不仅提高了用户的创作效率,还增加了平台上的用户粘性。在 Instagram 上,不少用户甚至只上传利用 AI 技术创作的内容。 同样的事情也出现在抖音平台上。在社交媒体行业,抖音一直以来都以智能推荐算法闻名。通过 AI 技术,抖音能够精准分析用户的观看行为,推送最符合用户喜好的视频内容。这种基于大数据和 AI 算法的推荐系统,让用户可以在最短的时间内接触到他们感兴趣的内容,并将用户“锁在”AI 推荐算法的包围圈中,极大提高了用户的停留时间和使用频率。 图片来源:剪映 在内容生成方面,抖音同样走在行业前列。借助 AI,抖音为内容创作者提供了大量智能化工具。而说到抖音的 AI 创作工具,那就不得不提剪映了。剪映凭借其强大的 AI 技术,极大地简化了视频创作的流程。通过智能剪辑、自动匹配音乐、自动生成字幕等功能,即使是没有专业经验的用户也能轻松制作出高质量的视频,降低了视频制作的门槛。 相比之下,微信对 AI 的态度显然更加保守。尽管微信也在逐步推出 AI 功能,比如 AI 搜索和腾讯混元助手小程序,但这些功能主要聚焦于提升用户的生活便利性,而非彻底改变内容生产或社交互动的模式。当然了,现在也有不少微信公众号已经全面启用 AI 写作的模式了。 图片来源:雷科技 但对微信来说,与其在 AIGC 时代一味猛进,不如用 AI 提升功能的稳定性和用户体验的平衡,避免因 AIGC 泛滥而引起用户的反感。在保持用户体验一致性方面,微信这种做法显然更好。 “AI 微信”是腾讯的下一个大事儿? 展望未来,微信必将继续在 AI 领域深耕。微信拥有庞大的用户基础和丰富的生态系统,这是其在 AI 时代的独特优势。凭借腾讯混元大模型的支持,微信完全有能力将 AI 技术融入更多场景,为用户提供更便捷的服务。这里小雷给大家举几个例子: 加入了 AI 的微信能够根据上下文和用户习惯提供更贴心的自动回复选项;公众号能快速高效地解决用户的问题;甚至在朋友圈编辑中,AI 可以帮你自动修饰照片、生成文案,提升发布效率。 这些功能的加入,将彻底改变微信的使用逻辑。 此外,微信的社交属性也为 AI 技术的应用提供了广阔的空间。通过分析用户的兴趣和社交行为,微信可以提供更精准的内容推送和服务推荐,这不仅提升了用户体验,也为小程序开发者和商家创造了新的机会。 图片来源:雷科技 当然,微信在 AI 发展的道路上也面临着挑战。如何在保护用户隐私的同时充分利用数据?如何避免过度依赖 AI 导致用户体验复杂化?对正积极推广海外支付场景的微信来说,这些都是需要慎重考虑的问题。 虽然与其他平台相比,微信的 AI 步伐显得较为缓慢,但这或许正是其优势所在。在激烈的市场竞争中,稳健前行的微信同样可以在未来取得更大的突破,为我们的数字生活带来新的可能性。 退一万步讲,只要 AI 微信知道某个文件之后还要使用,不会主动清理“过期文件”,那对微信 13.7 亿用户来说,就已经足够好了。
华为正式发布纯血鸿蒙!首个国产移动操作系统来了,融入系统级 AI
鸿蒙版微信,你用上了吗? 这两周,不少朋友和我们一样,早早就体验上了鸿蒙 NEXT 上的微信。极简化的功能让大部分用上的人连声叫好,还没能更新的伙伴都扎堆去了官方评论区求一个内测链接。 10 月 8 号纯血鸿蒙正式公测,越来越多的常用软件入驻新生态,四天内,新系统公测的报名人数直接超过百万,其中数十万的用户率先用上了「别人家的系统」——HarmonyOS NEXT。 从今天起,满怀期待和焦急等待的朋友终于有了新盼头:纯血鸿蒙正式版正式推出,七个华为系列产品将会率先收到更新推送,当然越来越多的华为手机、平板和穿戴设备,也会逐步加入新系统的更新队列。 今晚的「原生鸿蒙之夜」,除了原生系统,华为还发布了几款新产品: 华为 nova 13 & nova 13 Pro 华为 WATCH Ultimate 绿野传奇 华为几乎在近一年的每场发布会里都有提及纯血鸿蒙,那刚刚推出的正式版鸿蒙和原先的 Beta 版有哪些区别?这次又加入了什么新功能和新应用?它到底好用在哪里?我们一起来看看。 把真实世界,搬进原生系统 HarmonyOS NEXT 的正式命名为 HarmonyOS 5,这也是鸿蒙系统史上最大的升级。 HarmonyOS 5 和上一代系统相比,在设计和 IU 上有了很大的变化。特别是在系统的流畅度和各层级界面、各种不同 App 之间的切换动画和动效,都有了更加细节和真实的考量。一句话总结就是: HarmonyOS 5 通过算法,用「光·形·色·力·时空」模拟出了真实世界的物理规律和光影效果。 现在点击控制中心中的按钮,不仅按钮本身会提高亮度强化选中感,而且还能通过新系统的实时算法渲染出接近真实的光照效果,旁边的按钮边缘也会被一同照亮。 光影特效不仅在菜单栏和控制中心里,华为还把它带到了每一个有可能产生光影的交互里,像是给手机插入充电线,把手写笔吸附在平板上,都会有完全不同但非常合理的光效出现。 前段时间我们已经上手体验了鸿蒙 NEXT 的首发,发现这些小改变就是会在整体上对一个系统产生很大的影响,而这些点滴也是「鸿蒙变丝滑」的重要原因之一。 HarmonyOS 5 的光影特效除了在这些难以发现的细节角落里,还有非常显眼且鲜艳的主题色彩——炫彩透光。 系统算法的优化,把来自大自然的颜色和系统主题色彩完美融合,保持真实也不显突兀。 一镜到底的动效,也是系统流畅的原因之一,「息屏-锁屏-桌面」整个过程都有一整套全新的动画设计,中间没有断层。 另外,原生鸿蒙的锁屏界面也有了很多玩儿法,实况窗就是其中之一。 现在实况窗有多种形态可选,收起折叠在底部,全部展开在屏幕正中间,不遮挡重要信息,也不错过应用消息。从音乐播放到导航指示,现在都有相应的三方软件做了实况窗的适配。 锁屏界面的另一大更新是智能锁屏,系统算法根据照片本身的构图和主题,自动地匹配时钟的位置、样式以及字体的风格。 此外天气应用和主题,也因为原生鸿蒙「活了起来」。阳光照射到天气卡片的边缘,会有慢慢流动的特效;雪花碰到数字会囤积、雨滴碰到字体会反弹…… 这些都是通过新系统的物理渲染引擎而实现的,感觉很真实,看起来也如此。 好的互联体验,叫无缝流转 HarmonyOS 5 还在设备互联上,有了全新体验。 首先是跨设备互通,在华为平板上做笔记时,若是需要扫描一张图稿,那随手拿起手机拍张照片,便立即嵌入到了平板的相应位置。 升级后的互通功能可以让不同的设备各自发挥所长,也能带来更加无缝的操作,比如在手机上用 AI 抠图复制后,可以直接在平板上粘贴。 以前的设备各自为王,现在华为的各个终端在原生鸿蒙的能力下,结合到了一起,你可以理解成它们的内核与系统完全打通,设备只是不同的显示器。 像是跨设备的应用接续,在手机上没看完的文章、没刷完的视频,可以直接用平板、电视接着看。并且手机还能作为遥控器,随时控制投播设备的音量、内容以及设备切换。 其次,华为分享也有了很多新玩儿法。 现在通过华为分享,不用加好友也不用建群,就能把选中的文件、图片和视频等同时发送给多个设备,相当于没有任何附加条件的隔空群发。 在此基础上,华为分享还支持「碰一碰」的全新交互方式。 两个设备碰碰头,就能秒速分享图片、淘宝看中的好物商品、B 站刷到好笑视频,甚至连小红书博主的主页和个人在 Keep 上的运动计划,都能「碰」给他人。 看得见的丝滑应用,和看不见的底层重构 手机变得丝滑是多种因素共同作用的结果,那藏在最底层、最深处的那个功臣就叫「方舟引擎」。 方舟引擎让原生鸿蒙实现了软硬云和应用生态的深度整合,突破算力的边界,实现了从系统到应用的全面流畅。 通过方舟引擎的优化,有更多的内存空间可以留给消费者使用,发布会上介绍系统可用的运行内存比上一代就节省了 1.5GB,全新引擎对系统的高效管理,也让系统有了更多的冗余空间,流畅度也因此能大幅提升。 手机设备升级到原生鸿蒙之后,整机的流畅度可以提升 30%,平均续航甚至能增加近 1 个小时。 方舟多媒体引擎还能在网络不好的时候,让视频会议的画面依然流畅。华为称对比 iOS18,流畅度提升了 97%。 很多朋友在使用社交软件时都会遇到一个头疼的问题:App 本身的相机拍照不清楚,用系统相机拍照太麻烦。而这个烦恼在原生鸿蒙上将不复存在,现在小红书等三方应用能直接打开系统相机,拍出的照片细节更真实、也更细腻。 另外,通过方舟引擎,在三方软件导入导出视频也会更流畅,特别是到导出速度相比 iOS18 提升了 39%。在分屏多窗等重载的用机场景,方舟调度引擎,让系统资源的分配也更加聪明,即使同屏刷淘宝,小红书也非常流畅。 原生鸿蒙不仅能满足大众需求,小众爱好也一点不落下,鸿蒙原生游戏,在新系统上也有了更流畅的游戏性能和游戏体验。特别是游戏显示的分辨率有了大幅提升,游戏中的人物、景物细节,也有了更精细的表现。 方舟引擎重构了系统底座,让众多的应用在原生鸿蒙上有了更流畅的体验。 一是华为自带的精品应用翻新,华为视频引入了 AIMAX 影院频道以 4K 的高清画质;华为音乐收录了顶尖的音乐厂牌、国家级的机构和艺术家的作品;华为阅读融入了许多微动效,字体还原出了纸书的质感。 二是三方的应用生态有了许多创新,最主要的变化是和系统本身的功能连接地更加紧密,如钉钉、WPS、支付宝、京东、飞书等,在原生鸿蒙上不仅保留了本身的好用功能,还能调动小艺、应用接连等手机原生功能,来实现软件内和系统间的相互协作。 真正的智能,是把生活变得简单 手机在覆盖我们生活全场景的同时,AI 大模型似乎正让所有事情变得更加简单。 而搭载了大模型的小艺,把高深的技术原理变成了「动动嘴就能用」系统级的简单交互,给了我们一次和 AI 技术零距离接触的机会。 可以说,当下最了解你需要哪些信息的,可能就是你手机里的小艺了。 发布会现场也给我们演示了不少案例。 小艺可以结合屏幕内容「看懂」你的意图,用何刚的话来说,小艺如同你身边的 AI 助理,和它互动就像跟身边朋友聊天一样。 比如通过截屏照片中的鸟类,你可以直接向小艺询问鸟的品种?真·秒变鸟类专家。 什么是卡皮巴拉? 如果你也不懂,将问题甩给小艺,它会给出详尽的专业介绍,并且还会像 AI 搜索引擎一样,附上权威的参考来源,尽可能减少 AI 幻觉带来的影响。 假期出行旅游缺「导游」,小艺也能派上用场。 小艺熟悉全国 4A、5A 级别等各大景点,去哪个景点问小艺、规划行程路线问小艺、真人导游能干的时小艺几乎都能干,甚至小艺还能帮忙购买门票,一次对话就可以解决所有游玩需求。 在职场/学习的过程中,小艺也能成为强大的文档助手。 在设计交互上,小艺也有一个亮点,把内容拖到导航条,小艺就能自动唤醒,随时响应。 看到专业的学术论文,小艺能帮你分析生成摘要,还能概括内容,生成思维导图,帮助用户更好地学习。笔记消除功能则可以将做过的试卷拖给小艺,它将自动地转化为全新的试卷。 华为指关节双击截屏功能带到了小艺身上。 以往手机先唤醒再圈选,小艺圈选功能不需要唤醒小艺,任何时候都可以直接圈选,看到好看的穿搭,用指关节截图,小艺会给你关于这件衣服的穿搭建议,以及跳转到京东、淘宝这些购物商城上推荐同款商品。 这个圈选功能目前已经开放给更多的应用,比如当我们需要转账的时候,圈一圈转账的信息,小艺会自动拉起银行 APP 帮你填写账号,省去麻烦的复制粘贴,相当实用。 此外,小艺帮写功能则可以帮你实现润色、多种风格供你选择。并且,小艺还能识别证件信息,等到下次订票时,自动调取记忆的信息,帮你填好相关的证件号码。 另外,此前推出的小艺声音 AI 语音修复的准确率提升 80% 以上,能够帮助言语障碍人群进行交流沟通。 当然,在 AI 手机时代,如何理清系统级 AI 的安全边界至关重要。 鸿蒙原生智能,懂消费者也只属于消费者,数据保留在端侧,敏感数据不上云,用户也可以随时删掉这些敏感数据,彻底将数据隐私的控制权还给用户。 天下苦不合理的应用权限久矣。 主打隐私安全,由用户掌控的 HarmonyOS 5 ,将重新定义应用获取隐私数据的规则,禁止开放 9 类不合理权限,从源头上降低隐私泄露风险。 简单来说,普通的权限访问需要用户允许访问「所有」的数据,但安全访问则只需要给定「选定」的数据。 比如说,你只想换社交个头像,却要给出所有照片的权限,拍个照,却要给出整个相机权限,给家人充值话费,图谋不轨的人却盯上了你的通讯录,而 HarmonyOS 5 将统统拒绝这些无理的要求,让应用行为更加透明。 一句话概括,你需要什么,系统便只给什么。 分享加密文件,只有授权的用户才能看到;不满足应用商店安全要求的应用将无法上架、安装和运行,助力用户实现数据透明,安心下载。 这些全新升级的安全功能都源自于星盾安全架构。 早在今年的华为开发者大会(HDC)上,华为便带来了全新自研的 HarmonyOS NEXT 星盾安全架构,重新构建了操作系统的安全体系与秩序,并能从源头确保应用的纯净可靠。 在软件系统当主角的情况下,硬件配角的光彩也没有被掩盖,还有一大波硬件新品发布。 全新发布的华为 nova 13 系列采用「空间格纹变奏」ID 设计,发送北斗卫星图文消息,搭载拥塞信号增强技术,能够有效降低时延。 AI 与手机的双向奔赴,也让 nova 13 系列诞生了更多的故事。 例如,nova 13 系列上的 AI 修图、AI 扩图、AI 消除和 AI 智慧抠图等功能,能够帮助用户玩转修图这件事。 当然,更智慧的小艺不仅可以快速理解文档并归纳整理摘要,根据文档多轮问答,还能智能帮写,生成创作文案,行程规划和美肤建议更是一把好手。 nova 13 售价 2699 元起,nova 13 Pro 则售价 3699 元起。 除了手机以时尚为元素的新品手机,华为还正式发布了 WATCH Ultimate 手表——绿野传奇,其中自带的高尔夫模式,内置 15000 个球场地图,桌面直达,果岭信息一目了然。 最后公布价格,华为 WATCH Ultimate 售价 7999 元。 全新鸿蒙生态,开始燎原 东方之野,日出之处。 在那个被神话传说笼罩的远古时代,盘古尚未在昆仑山劈开混沌,世界仍被一团未开的元气所笼罩,这股原始之气,便是鸿蒙, 华为,以开创者的姿态,将这一精神融入了鸿蒙系统的诞生。 体验上,鸿蒙系统「润」物细无声,丝滑流畅,是一场审美与体验天花板的双向奔赴。 今天,余承东表示,鸿蒙原生应用已经有超过 15000 款的应用和元服务上架。 当然,做操作系统的挑战不在于技术,而在于生态。而鸿蒙操作系统从来就不是华为的独角戏,而是一场多方参与的盛大合唱。 从老牌巨头到新兴的互联网企业,国内互联网大厂都用实际行动表示了支持,也让鸿蒙生态的朋友圈也迎来了一个急速扩张期。 在过往的历史中,我们鲜少见到这些企业的代表会为了一个操作系统而坐在一起,共同探讨和推动其发展。 此外,鸿蒙用十年时间走完欧美操作系统行业三十年的历程,中国开发者生态带来的巨大势能不容忽视。 华为每年投资高达 60 亿人民币用于激励开发者进行创新。目前华为开发者联盟的注册开发者数量更是迅速增长至 675 万。包括在今年,仓颉编程语言以及 OpenHarmony 统一互联标准也陆续发布。 OpenHarmony 成了发展最快的开源操作系统,Gitee 指数为 NO.1,社区贡献者达到 7800+,代码数超过 1.1 亿行。 并且,硬件销量的强劲复苏,也给开发者和用户接纳鸿蒙操作系统吃了一颗定心丸。 一方面,华为通过扩大市场份额来巩固其地位,根据 TechInsights 的数据显示,今年第二季度华为全球智能手机出货量同比增长了 49%,达到了 1160 万台。 另一方面,华为则通过硬件新物种来提高软件系统的吸引力,比如 9 月份亮相的华为三折叠屏手机既自成一派,同时也是自成生态的底气。 至此,「鸿蒙速度」的星火已有燎原之势—— 市场研究机构 Counterpoint Research 数据显示,在 2024 年第一季度,鸿蒙的操作系统首次以 17% 的份额超越 iOS 的 16%,成为市场第二大操作系统,显示出强劲的增长势头。 余承东在发布会上宣布,搭载鸿蒙生态的设备已经超过 10 亿+。从根本上,鸿蒙操作系统全面突破操作系统核心技术,已成为最具生命力的数字底座。如余承东曾说—— 万物互联时代,没有人会是一座孤岛,每个人、每个设备都是万物互联大陆的一部分。 鸿蒙生态朋友圈只会越开越大,一枝独秀不是春,百花齐放春满园。 作者:肖凡博、莫崇宇
先发制人,微软+o1一次发布10个自主AI Agent
微软这次要一口吃成大胖子? 北京时间今天凌晨,微软重磅宣布在Dynamics 365中集成了10个自主AI Agent!近日将会公测。 这些智能体能够自动执行客服、销售、财务、仓储等业务流程,为企业带来全新的智能自动化工作模式。 这10个AI Agent基于OpenAI的最新模型o1,具备自主学习能力,能够自动执行跨平台的超复杂业务,节省大量时间和运营成本。 微软CEO、董事长Satya Nadella亲自宣布了这一AI新进展,并表示目前已有60%的财富500强企业正使用Microsoft 365 Copilot来加速业务成果并增强团队能力。 给出了多个企业应用案例,Lumen Technologies(美国一家500强电信公司)预计每年将节省5000万美元,提升的生产力等同于增加了187名全职员工,好莱坞则将创意生产时间从七个月缩短到七周,进一步展示了AI实现“货币化”的潜力。 微软的AI Agent通过从Microsoft 365 Graph、Dataverse以及其他业务系统的数据中分析工作数据,识别工作模式、趋势,以及潜在的改进领域,从而更好地自动执行业务流程。 在学习过程中,大模型发挥了重要作用,AI Agent利用算法和大量数据不断优化自己的性能。通过持续的模型训练,能够预测业务流程中的变化,并通过与销售人员、客户服务代表等用户互动以及使用反馈,进一步训练和优化自己的行为。 AI Agent还具备持续自我改进的能力,能够自主学习解决新问题。例如,客户AI Agent能够从客户对话中不断发现新的意图,并将解决方案映射到其知识库中,从而提供更准确的服务。 微软宣布,下个月Copilot Studio创建自主Agent的功能将开启公测 这项功能可连接多个数据源,覆盖IT支持、员工入职到销售服务等多种场景。 在安全和数据治理方面,微软表示提供了全方位保障。Dynamics 365的Agent严格遵循核心安全、隐私和负责任AI准则。在Copilot Studio构建的Agent包含由开发者设定的使用规则、知识库和操作限制。所有连接到Agent的数据源都受到Copilot Studio严格的安全措施和控制。 从市场视角来看,微软将这种技术的货币化潜力推向了前台,尤其是通过降低运营成本和提升生产力的实际效果展示了其强大的商业价值。 AI Agent与Microsoft 365 Copilot相结合,吸引实力强大的大型企业的广泛使用,也进一步强化了微软在企业服务市场中的领导地位。 微软并不是唯一一个试图从人工智能的增长趋势中获益的商业软件供应商 从市场竞争的角度来看,微软并不是唯一一个试图从人工智能的增长趋势中获益的商业软件供应商。 谷歌和Salesforce也在积极地争夺市场份额。谷歌一直在为其Google Workspace平台的Gemini功能增添新特性,而Salesforce则推出了自己的人工智能产品线和Einstein Copilot服务,以加强其市场竞争力。 据透露,Salesforce正计划10月25日全面发布Agentforce,而微软这一波先发制人,打的对手措手不及。 在微软此前发布的财报中,微软首席财务官Amy Hood宣布,公司在资本支出(包括融资租赁)上投入了190亿美元,其中大部分资金被用于满足人工智能和云计算的需求。2024财年,微软的资本支出预算为557亿美元,相较于2023年的319亿美元和2022年的292亿美元,呈现出显著的增长趋势。 不难看出,在企业服务软件领域,也人人都在为AI热,家家都在赶AI的快车,以此展示有能力持续吸引更多用户。
可拼可拆,家旅双栖,低压认证,艺术潮贴,制糖工厂推出硬糖小电拼全球旅行版
数字潮牌爱范儿旗下品牌制糖工厂 CANDYSIGN 今天推出「硬糖小电拼」全球旅行版,在延续可拼可拆、家旅双栖的基础上,机身重量相比起上一代降低 14 克,针对国际旅行新增 120V 低压认证,升级快充平台芯片,加入智能温控,并增加 6 套艺术潮贴。 借助创造性的 AC + DC 模块化设计,「硬糖小电拼」全球旅行版让桌面充电站和便携充电器集于一身,真正意义上实现「一充走天下」。 在国际旅行中,用户通常需要携带多个充电器和多个插座转换器,且需要考虑电压的问题。而「硬糖小电拼」全球旅行版支持 120V 低压,可在包括日本、美国等低电压地区使用,用户仅需一个插座转化器便能解决所有充电需求。而相比普通排插仅限于室内环境,「硬糖小电拼」全球旅行版又具有极强的灵活性。 在酒店或家居环境,「硬糖小电拼」全球旅行版能拓展出 2 个五孔插口、1 个双孔插口、4 个 C 口、1 个 A 口。五孔插口可以给热水壶、电吹风、卷发棒、相机充电器等直插电源的设备供电,而 USB 口则可以同时为电脑、平板电脑、手机等 5 个设备供电,无需担忧酒店插座不够用。 而在路途中,用户可将产品分拆,仅携带充电头模块,隐藏式的插脚便于收纳,且墙插不掉。在高铁、机场、休息室等公共场所,还能实现多人的电源共享。 4C1A 共五个输出接口配置,支持支持 PD/PPS/QC2.0/QC3.0/Apple2.4/BC1.2 全协议快充,兼容市面上所有主流设备。 其中 USB-C1 支持 100W 输出,带有 3.3-20V5A PPS 电压子集;USB-C2/C3/C4 支持 60W 输出,带有 3.3-20V3A PPS 电压子集;USB-A 支持 18W 快充输出。真正实现电脑、平板、手机等 5 台设备同时快充,它支持市面上所有快充协议,兼容苹果、华为、小米、OPPO、vivo 等主流设备。 「硬糖小电拼」全球旅行版采用新一代全链路不断充方案,多接口充电时不会断充重新握手商议 PDO,该功能支持大部分设备使用。功率分配策略支持 100W+18W、65W+35W+18W、60W+20W+20W+18W、45W+20W+18W+18W+18W 等策略。 「硬糖小电拼」全球旅行版采用博朗经典设计,将工具赋予装饰属性,不仅无缝融入书桌、沙发和床头等家居场景,还为旅途增添陪伴价值。 为了适应不同的家居艺术风格,「硬糖小电拼」全球旅行版搭配了 6 套潮贴,让每个 Creator 能自由定义小电拼面板、塑造独一无二的新家庭。 此外,「硬糖小电拼」全球旅行版还专门设计了别具巧思的配件:其中背壳(Shelly)能将产品藏于桌下,让线缆隐于无形,井然有序;蛙架(Frogie)通过磁吸可将小电拼悬浮置于桌面,形态优美,倾斜面对人眼,使用更加顺手。 此外,硬糖小电拼全球旅行版接下来还将为海外家庭发布美标规格的双位三孔排插(小电拼后半部分桌电坞),为海外用户使用电脑、显示器、热水壶、以及其它家用小电器等提供更多便利。 「硬糖小电拼」全球旅行版自今日起接受顾客订购,售价 599 元起,新品首发价 429 元起,用户可在制糖工厂天猫店、京东 candysign 旗舰店、制糖工厂小红书薯店、制糖工厂微信小程序和制糖工厂微博小店选购。 关于制糖工厂 CANDYSIGN 制糖工厂 CANDYSIGN 是数字潮牌爱范儿旗下硬件品牌。 一个为追求多元化生活方式的年轻一代提供灵感和愉悦工具的创造力品牌。 我们注重极致美感,致力打造灵活、多用的电能产品。 我们相信「好产品就是一颗糖」,创造灵感来自科技、艺术与时尚,希望提供多样的产品让你的体验更舒适。无论是居家,还是远行,我们在乎你的细微感受和愉悦体验。 制糖工厂的诸多产品是诸如摄影师、设计师、科技博主这群创作者的最爱。每个时代都有这样的一群人:他们不满足于现状、强调自由、尊重多元文化,对技术充满热爱,他们拥有行动力且不断修正更新,是推动时代更新的创造者。 我们希望制糖工厂时刻陪伴着他们的美妙创作过程。
英特尔被卖身传言再起!传高通、Arm盯上产品部门
编译 | 汪越 编辑 | 漠影 智东西10月22日消息,据外媒DIGITIMES报道,知情人士透露,高通和英国芯片设计公司Arm有兴趣收购英特尔的产品部门。如果成功收购英特尔的产品部门,直接获得x86处理器技术,两家公司的业务将得到显著扩展,特别是在个人电脑(PC)和服务器市场。 自去年首次公开募股以来,截至今日,Arm目前的市值达到1596.6亿美元。相比之下,英特尔的市值已缩水至974.6亿美元。目前,英特尔的市值仅为芯片制造巨头英伟达的2.8%左右,也不到AMD的一半,仅38.1%。 英特尔目前正经历其56年历史上最具挑战性的时期,正在探索各种策略来解决当前的困境。这些策略包括大规模裁员、缩减开支、出售子公司股份、吸引外部投资以及争取美国政府的资助。 一、英特尔面临严峻挑战,高通与Arm有意收购其PC业务 近日,据彭博社报道,据知情人士透露,高通和Arm都在考虑收购英特尔至少一部分业务,尽管具体细节尚未明确,但他们的主要兴趣似乎集中在英特尔的产品部门,特别是其PC处理器设计团队上。 今年6月,在台湾举行的Computex 2024大会上,英特尔首席执行官帕特·基辛格(Pat Gelsinger)、高通首席执行官克里斯蒂亚诺·阿蒙(Cristiano Amon)以及Arm首席执行官雷内·哈斯(Rene Haas)均有出席。他们在活动中的发言揭示了PC市场参与者之间复杂的关系网。哈斯在接受路透社采访时提到,Arm有望在未来五年内将其在Windows市场的份额提高到超过50%。 ▲高通首席执行官克里斯蒂亚诺·阿蒙(Cristiano Amon)(图源:PRNewswire) 阿蒙不仅支持哈斯设定的50%市场份额目标,还透露了一些电脑制造商的计划:在未来三年内,搭载Arm Snapdragon处理器的笔记本电脑将占其Windows PC销量的60%。 面对Arm和高通的积极攻势,基辛格在主题演讲后的问答环节中表示,Windows on Arm并不是一个新概念,但x86架构仍然保持着“强劲”的市场地位。他甚至提出愿意接受为Arm芯片提供制造服务的订单。 ▲英特尔首席执行官帕特·基辛格(Pat Gelsinger)(图源:DIGITIMES) 最初专注于智能手机市场的高通和Arm,现在都在寻求业务多元化,而PC市场已成为它们的重点关注领域之一。利用英特尔在晶圆代工方面遇到问题而出现的弱势状态,直接收购其产品部门以获得x86处理器技术,这两家公司能够绕过激烈的市场竞争,迅速扩大在PC市场的份额。 二、Arm市值1560亿美元超英特尔,收购成功将推动其自有产品销售 无论高通还是Arm的真实意图如何,行业人士对此次收购能否成功持怀疑态度。尤其认为Arm面临的挑战可能比高通更大。 首先,Arm作为半导体知识产权(IP)供应商的商业模式与英特尔的运营模式存在显著差异。 其次,在PC和服务器领域,Arm架构长期以来一直是英特尔x86架构的主要竞争对手。如果Arm收购英特尔,可能会遭到其现有授权客户的反对。毕竟,如果Arm将x86纳入其许可组合中,客户可能会担心Arm不再像以前那样优先发展Arm生态系统。 最后,总部位于英国剑桥的Arm,其收入仅相当于英特尔的一小部分。在这三家公司中,Arm是规模最小的一家。除非大股东软银集团介入提供支持,否则Arm在收购英特尔方面可能面临比高通更大的财务压力。 但自去年首次公开募股以来,Arm的市值飙升,目前已超过1596.6亿美元。投资者认为该公司将是人工智能支出热潮的受益者,尤其是在Arm进一步进军数据中心芯片领域时。此外,日本软银持有Arm 88%的股份,为Arm提供了额外的财务支持。 目前,Arm的大部分收入来自销售智能手机芯片设计。然而,Arm首席执行官哈斯一直在努力将业务范围扩展到智能手机以外的领域,包括PC和服务器市场。在这些领域,Arm的芯片设计正逐渐与英特尔相媲美。 ▲Arm首席执行官雷内·哈斯(Rene Haas)(图源:彭博社) 与英特尔合并将有助于Arm扩大影响力,并推动其销售更多自有产品。目前,Arm主要通过向客户授权技术和设计来获得收入,然后由客户将这些技术转化为完整的组件。Arm的客户名单中包括许多知名科技公司,如亚马逊、高通和三星电子。 三、英特尔市值缩水一半,寻求股份出售、美政府或拨款85亿美元 作为与硅谷共同成长起来的半导体行业巨头,英伟达凭借其在PC和服务器领域广泛使用的芯片,在全球半导体历史和行业中占据着极其重要的地位。尽管英特尔的技术优势可能不再像过去那样明显,但它在市场上仍然占据主导地位。大多数企业客户和消费者更关心成本而不是具体性能水平,这使得英特尔能够保持其市场地位。 为了应对当前严峻的挑战,英特尔采取了多项主要行动。 首先,英特尔今年计划裁员一万五千人以节省资金,并缩减工厂扩张计划,暂停股息发放。 其次,据CNBC报道,英特尔计划将子公司半导体制造商Altera的部分股份出售给私募股权投资者,这部分股份价值数十亿美元。该子公司于2015年被收购,并于去年从英特尔的业务中分离出来,目标是使其上市。 此外,据彭博社报道,阿波罗全球管理公司提出对英特尔进行投资,愿意投入高达50亿美元。作为扭亏为盈努力的一部分,英特尔正在将芯片产品部门从其制造业务中分离出来,此举旨在吸引外部客户和投资者,并为公司分拆奠定基础。 最后,尽管英特尔业绩低迷,美国政府仍计划在今年年底前与其敲定价值85亿美元的直接资助协议。据英国《金融时报》报道,这笔资金将用于加强国内半导体设计和制造能力,英特尔预计将根据美国《芯片与科学法案》获得最多的补贴。 这些措施显示了英特尔在面对市值缩水和竞争压力时的决心。目前,英特尔的市值为1023亿美元,相较于今年年初的2020亿美元缩水了一半以上,并且低于Arm的1596.6亿美元市值。英特尔仍在积极寻求各种途径来扭转局面。 ▲Arm的市值已超越英特尔(图源:彭博社) 此外,英特尔与高通或Arm的潜在合并引发了监管机构的关注。对于美国监管机构来说,这样的合并可能会导致单一实体掌握过多市场力量并损害竞争。如果高通收购英特尔,至少资产仍属于美国公司;如果是英国公司Arm进行收购,情况会更为复杂。 结语:错失GPU、AI发展浪潮,寻求芯片代工厂新出路 自基辛格三年前上任以来,英特尔提出了雄心勃勃的IDM 2.0模式,旨在成为芯片代工厂。然而,尽管投入了数百亿美元升级设备和建设工厂,代工业务仍未见显著成效,大规模扩建计划也导致了巨大的财务压力。 在PC和数据中心市场,英特尔的表现不尽如人意。特别是在数据中心领域,英伟达的GPU已成为科技公司的首选,而英特尔的市场反应和产品部署显得过于缓慢。这些因素进一步加剧了英特尔的困境。 不过,英特尔最近也有一些积极的消息。本月,英特尔与亚马逊达成了一项价值数十亿美元的长期协议。英特尔将采用其最新的Intel 18A制造工艺为亚马逊定制AI芯片。
华为鸿蒙5.0来了!性能流畅度暴涨,AI智能体小艺超聪明,生态设备破10亿台
作者 | 云鹏 编辑 | 心缘 智东西深圳10月22日报道,刚刚华为正式发布了鸿蒙5.0(HarmonyOS 5.0),这是纯血鸿蒙面向所有消费者的正式亮相,鸿蒙5.0性能流畅度大幅提升、AI大模型加持的小艺也成为超级AI智能体,鸿蒙跨设备协同的优势进一步扩大。 ▲华为终端BG董事长、智能汽车解决方案BU董事长余承东 发布会上,我们熟悉的老朋友,华为终端BG董事长、智能汽车解决方案BU董事长余承东照例率先登台进行演讲,他公布道,鸿蒙生态设备数量已经超过了10亿台,鸿蒙系统目前的注册开发者已经达到了675万人。 余承东特别提到,鸿蒙系统是面向万物智联时代的全场景智能操作系统,从手机、平板、可穿戴、汽车、TV到各类IoT产品,可以实现一个系统跨所有设备,实现统一生态。 与此同时,鸿蒙是全栈技术实现自研的操作系统,从OS内核、文件系统、数据库、编程语言、编译器、编程框架到AI、多媒体、图形、集成开发环境等。 余承东说,鸿蒙从根上突破了操作系统的核心技术,用10年走过了欧美30年走过的路,实现了终端操作系统的自主可控。 余承东特别强调说,有底座,有生态才是真正的操作系统,只靠华为是做不好鸿蒙的。 在鸿蒙原生应用的开发方面,诸多头部应用都快速完成了开发适配,值得一提的是,鸿蒙原生应用在体验上还有不少升级,比如美团可以实现智能感应扫码,骑车五步变为一步。 除了应用,鸿蒙元服务的生态也进一步扩展,覆盖了医疗、金融、生活、出行、缴费、餐饮、文娱等主要场景。 今天鸿蒙原生应用和元服务数量已经超过了15000个。余承东说,鸿蒙系统用短短一年时间,走过了国外操作系统生态十几年的发展道路。至今华为收到的反馈建议已经超过了100万条。 今天HarmonyOS 5.0正式发布,也就是真正的正式版“纯血鸿蒙”,是此前发布的HarmonyOS NEXT的升级版。 在性能方面,基于新的系统架构、整合软硬芯云生态,鸿蒙5.0的流畅度提升了30%,续航提升了56分钟。分布式软总线技术可以实现3倍的设备连接速度、4倍的设备连接数量,连接功耗还下降了20%。 在AI方面,新的小艺是基于盘古大模型打造的系统级AI,推理规划的任务成功率达到了90%,可以实现23类TOP场景的记忆感知,tokens知识量为万亿级。 鸿蒙5.0还有哪些吸睛亮点升级,我们带你一文看尽。 一、鸿蒙5.0五个重要升级,小艺化身超级端侧AI智能体 今天鸿蒙5.0在精致、互联、智能、安全、流畅等方面进行了重要升级,并且华为强调这些体验都是“原生”的。 在AI方面,华为提出了“原生智能”的概念,小艺智能体进行了升级。 小艺变得更专业了,可以识别屏幕,直接给你回答你看到的图片中的内容; 小艺还接入了权威百科问答,只是搜索更专业和准确; 小艺可以给你规划景区导览并预定门票; 在设计交互方面,你可以直接将文档拖拽给小艺,让小艺帮你生成思维导图; 做过的试卷交给小艺,小艺可以帮你把答案消除掉; 我们可以直接用指关节圈选商品,让小艺在购物平台比价; 我们可以直接圈选转账信息,小艺可以直接调起银行类APP进行转账操作,我们只需要最后确认支付; 小艺还可以帮你给微博文案润色、排版、做摘要; 小艺还能帮你记住各类证件号码,填写时可以直接在输入法中调取这些信息,直接一键填表; 在无障碍功能方面,小艺支持了AI声音修复,可以帮助言语障碍人群交流; 当然,华为最后在隐私安全方面强调了模型的本地化,敏感数据不上云。 整体来看,小艺的AI能力这次有了大幅升级,包括支持了更多多模态交互能力、提升了复杂任务的执行能力、意图识别理解能力以及AI图像文本处理能力。 二、信息、应用服务跨设备流转打通,碰一碰直接分享一切 除了AI方面的升级,跨设备互联一直都是华为的强项,这次鸿蒙5.0继续扩大了这个优势。 在互联方面,手机相机扫描一张图片,马上就可以同步到平板的文档中; 手机上抠图,马上就可以将抠图对象粘贴到平板的设计软件中; 手机上看书,可以无缝接力到其他设备上继续阅读; 华为分享可以不用加好友就一次给多人分享内容; 另外,我们还可以碰一碰传照片、碰一碰分享商品、组队跑步、分享小红书博主。 在性能方面,方舟引擎进行了升级,稳定性、能效表现更好,最终可以实现更流畅的体验。 方舟引擎包括图形、多媒体、内存、调度、存储、低功耗、Web七个子引擎。 进行游戏、拍照、运行日常App、体验AI服务都可以更流畅、更高效率,同时更省电。 结语:鸿蒙生态加速生长,纯血鸿蒙体验成华为智能终端杀手锏 可以看到,系统底层的自研技术突破,给华为的鸿蒙系统带来了很多“人无我有”的独特优势,可能很多功能并不是在手机圈第一次出现,但华为可以做的更流畅高效、交互更自然,这都离不开芯片、系统、云端协同打通的加持。 未来,AI手机成为行业竞争焦点,华为是国内第一个将大模型能力融入智能助手的厂商,今天小艺在AI方面,也走的更快。但随着其他厂商陆续跟进,华为接下来要如何在AI的方向上带来新的技术和体验,值得期待。
「装备大模型化」落地破圈!AI技术的一次自证与他证
作者 | 三北 编辑 | 漠影 狂飙500多天后,国内的“百模大战”正进入落地验证期。当下,行业和产业对大模型的期待,正从“你家大模型有多强?”变为“你的大模型能帮我干什么?”。 10月22日-10月25日,2024中国国际社会公共安全产品博览会(简称:2024安博会)在北京举办。作为多年来AI产业发展的一大风向标,这场盛会被产业人士寄托的使命之一正是回答上述问题。而这,也是AIoT头部企业宇视科技在做的事。 今年安博会上,宇视科技的展台成为人气最高展台之一。通过五大展区近百个展出单元,宇视亮出了AI大模型落地的实战成果和作战图谱。 g ▲宇视展台现场人头攒动 像百度搜索一样检索视频内容的“万物搜”、夜视能力倍增的AI-ISP猎光系列夜视摄像机、能跟用户互动的AI体育锻炼屏、助智慧城市治理降本增效的大模型方案……今年宇视已不限于大模型相关部件产品展示,而是实现从软件、装备到行业方案全覆盖。 2023年5月,宇视推出AIoT行业大模型“梧桐”,今年4月升级为“梧桐2.0”版本,多模态及推理能力进一步升级,目前已经衍生和优化了上千种相关AI算法,落地城市、交通、文娱、教育等超十个行业。 ▲宇视展台现场展出的梧桐2.0架构图 当下,AI亟需完成一次新的价值自证和他证。To C消费类AI大模型产品的流量高峰已被瓜分一波,第二波机会来到了与实体经济息息相关的To B数字化转型市场。 透过宇视科技本次安博会的展出,回溯其在数字化转型中的“探模”之路,我们可以看到,大模型的底座价值正如何一步步潜入千行百业,转化为新质生产力。 一、智能升级:基于梧桐2.0的“万物搜”来了 今年安博会,要说最引人关注的AI大模型新应用是什么? 可能不是各家都在做的智能聊天机器人,也不是爆火的AI视频生成工具,而是这款名为“万物搜”的视频搜索“神器”。 在宇视中心区域展区,一块大屏幕前,围满了视频数据服务系统“万物搜”的体验者。他们只需要输入文字描述,就能从现场实时视频内容中,快速检索出贴近意图的结果。比如搜索“拉行李箱的人”,“万物搜”就会立刻识别并输出对应的结果。 ▲“万物搜”被许多观众围观体验 即便是一些十分小众的情况,“万物搜”也可以通过深度解析和语义理解,搜索到用户所需内容。比如搜索“带狗头头套的人”这样语义更具体的描述,“万物搜”也能准确地识别并找到。 ▲“万物搜”现场体验 当输入“一个举着手机拍照的年轻男士”这种多个任意元素组合的提示词,“万物搜”也能立刻识别出来贴合表述的视频内容。 ▲“万物搜”现场体验 这一应用具有很强的应用价值,比如可用于失物招领。在一个智慧园区场景,某业主购买了一份麦当劳外卖丢失了,他只需要借助“万物搜”去搜索“拿麦当劳外卖的人”,就可以查询到相关的视频记录,从而寻回失物。 宇视相关负责人郑勇告诉智东西,“万物搜”基于多模态大模型算法开发。相比于传统小模型时代的CV识别车牌、衣着等部分有限特征,“万物搜”的搜索对象的边界得到了极大扩展,从而使行业价值也得到大幅提升。 究其背后主要的技术难点,还是多模态融合。 据悉,“万物搜”基于宇视自研行业大模型“梧桐2.0”,融合自然语言处理、视频特征提取和语音识别多种能力,深度理解分析输入文本、语音或图片,及其上下文语境关系,从而让用户可以准确搜索到所需的大部分视频内容。 “梧桐2.0”是一个覆盖了图像编解码、计算机视觉、自然语言处理、多模态等多个领域的AIoT行业大模型。根据宇视官方数据,其已经基于“梧桐2.0”大模型面向十个行业推出了近千种长尾算法。与此同时,其在这十大行业“梧桐2.0”均已有产品出货和项目实际落地。 “从业者会有一个很直观的感受,越来越多的长尾算法的需求都能得到响应,行业对于视频能力的期待也因大模型提高了。”郑勇说。 可以看到,AI大模型已经催生了一大批智能功能和行业算法,呈现出落地可用的效果。 而这,只是AI价值自证的一个开始。这些智能功能还需要在城市管理、交通治理、园区运营等各行各业的场景中广泛应用,才能真正发挥出行业价值。 二、装备进化:把大模型“塞进”摄像机 在大模型进入行业之前,有一个重要中间环节不容忽略,那就是“装备大模型化”。 当下,我们看到微软正在将大模型“塞进”电脑,华为、苹果等手机厂商正将大模型“塞进”手机。而以宇视为代表的AIoT头部企业,也正将大模型“塞进”摄像机。 大模型正催生新的装备进化——本次,在宇视展台上备受关注的AI-ISP猎光系列智能摄像机就是一大代表。基于大模型打造的“猎光2.0-AI-ISP”图像引擎,可以使得前端摄像机应对多种极黑、无光、微光场景挑战。 在现场设置的暗室中,一台仅仅数百元的经济型摄像机,即使是在低至令人难以置信的≤0.0001 Lux的照度环境下,依然能够让图像呈现出如同在白昼中一般的鲜艳色彩。 ▲AI-ISP猎光系列智能摄像机效果展示 大模型+智能摄像机设备,让过去AIoT行业难以解决的痛点迎刃而解。 众所周知,夜间是安全隐患的高发时段。由于光线不足,人类视觉难以清晰地观察到周围的环境,往往使得安全隐患难以察觉,星光等夜视摄像机的出现大大缓解了这一问题。但具有高品质成像效果的传统夜视摄像机成本较高,在方案部署的时候容易被战略性舍弃。 缺少高性价比的夜视摄像机,这是行业的一大痛点。 宇视AI-ISP猎光系列智能摄像机直击这一痛点。郑勇告诉智东西,基于“梧桐2.0”,摄像机算法在训练的过程中,可以采用由AI生成的大量不同场景的视频素材,例如微光的鱼塘、无光的乡村小路等,从而大大压缩了训练成本。 同时,基于数千种场景的实验训练及测试,AI-ISP猎光系列智能摄像机算法快速迭代,强化拖影收敛、动态降噪、场景提亮、色彩还原、对比度增强效果,使图像质量突破传统ISP极限。 可以看到,大模型已经展现出对装备“点石成金”的效果。 而这只是“装备大模型化”众多例子中的一个。 今年4月,宇视提出“把所有装备用大模型重做一遍”的理念,随即推出了一大批“装备大模型化”产品,覆盖了AI端侧装备、AI边缘端装备、AI边缘域装备全业务场景。 在这三大场景中,除了AI-ISP猎光系列智能摄像机,大模型改造的设备还涉及AI体测一体机、室内AI体锻屏、视频智能推训一体机、视频数据服务一体机等多种硬件,都实现了不同程度的数倍效果提升。 ▲猎光2.0家族 做“装备大模型化”的难点是什么? 郑勇告诉智东西,不同于手机、PC等设备大模型化,AIoT设备在属于相对弱交互但高专业度的领域,这就需要在大模型、AIoT及行业中都有深耕的业务团队来进行支持开发,这也成为宇视做这件事的一大优势。 宇视正通过软件硬件化、硬件装备化、装备序列化等一系列创新研发,为全行业带来“装备大模型化”产品底座开放能力的质变。 当下,无论是面向消费者市场还是企业级市场,装备大模型化已经成为行业发展的必然趋势。 而从企业级数字化转型市场来看,我国ICT装备门类众多、产品强大而丰富。这些装备更是大模型落地的重要载体,是大模型落地实体物理世界、释放千行百业新质生产力的重要抓手。 三、行业破圈:AI技术的一次自证与他证 大模型带来了智能功能和装备的进化,最终的效果还要在行业中验证。 作为一家AIoT产品方案及能力提供商,宇视在视图领域有着多年的沉淀积累,致力于在智慧城市、交通、电力、企业园区等多个场景领域进行视图价值赋能。如今这些行业经验,也正帮助其大模型加速在行业落地。 在本次安博会上,我们可以看到基于“梧桐2.0”的智能功能、装备已经落地到了文体娱乐、智慧城市、智慧交通、生态保护等各个领域。 以宇视在现场展示的AI体育方案为例,基于梧桐大模型的AI体育锻炼屏可以让很多人站在同一个屏幕前一起做运动,记录他们的动作细节和成绩,为其自动打分并提供锻炼建议。这不仅可以帮助校园开展运动、教学,也为社区锻炼等更多场景提供了可能性。 ▲AI体育解决方案展示 郑勇透露,自梧桐大模型推出以来,宇视科技发力文教体领域,推出了AI体锻屏、AI跑步屏、AI足球、旅拍兔VLOG、VR导游产品等多个创新解决方案,已快速落地全国百余个城市。 在刚刚结束的“2024吴钩足球全国总决赛”中,直播正是由宇视的AI全景相机进行智能导播。在支持多视频拼接画面自动矫正消除画面畸变的同时,其基于AI画面矫正及运镜算法,让摄像机进行自动检测控球权、自动运镜跟踪,从而让AI像人一样去进行精彩赛事直播。 基于宇视“梧桐2.0”打造的解决方案,也同时落地到了智慧城市治理、智慧人行、智慧车行、动物保护等各个领域。 在某地的智慧城市治理中,相关部门应用了基于“梧桐2.0”的城市解决方案,聚焦群众关注的民生问题比如广场舞噪音管理、社区及城市的卫生管理等问题,使其得到高效解决,12345投诉量下降60%。 在这类场景中,各种细碎的问题都可以找到个性化长尾算法,比如:噪音传感器加视频联动,解决工地超时施工扰民难题;物联网油箱盖加车载摄像机,解决危险驾驶隐患和油耗异常等。这些行业解决方案,都不同程度地助力提升管理效率,减少安全隐患。 大模型为各个行业的数字化转型带来了真实价值,也为各个行业的从业者带来更多机会和商机。 这不仅是宇视AI技术的一次自证,也是其与集成商、渠道商伙伴开启的一次他证。 在去年6月的北京安博会现场,宇视启动了梧桐大模型种子合作伙伴计划,与来自交通、教育、零售、体育公共服务等领域的多位伙伴合作开启共创。 宇视提供软件技术赋能平台,推出了集数据管理、模型管理、服务管理、快捷工具于一体的行业大模型生态服务平台;行业伙伴基于宇视平台和协助,进行解决方案的开发和推广。 时隔一年多,郑勇告诉智东西,一些合作比较深入的伙伴已经能够收益。他们通过宇视推训一体机去训练行业自有模型,将产品和方案销售给同行或终端用户,还能进行二次收益。 可以看到,当集成商、渠道商从“搬箱子”的人变为智能化方案咨询服务商,与上游设备商的关系由买卖变为培育和共创关系,AI技术的自证与他证也正在接近完成时。 生态赋能是一个长期过程。当下,仍然有一些生态伙伴抱有惯性思维,希望买回一台机器就拥有了大模型能力,因此在初始阶段存在开发上手难的问题。对此,宇视会直接跟进和协助伙伴项目,保障项目看到效果;同时打磨设备,以开发出让伙伴更易上手的平台工具。 可以预测,AI大模型带来的将是整个行业数字化生态的变革。AIoT硬件市场或许会进一步向头部集中,但算法、软件、解决方案的能力将更多向集成商、渠道商靠近,从而形成新的行业秩序。 结语:宇视之路,AIoT行业之变 当全球大模型技术产业竞赛加剧,中国企业与大模型技术,正以更快的速度和千行百业搭起桥梁,落地见效。宇视科技围绕“装备大模型化”的探索之路,也正印证了中国AIoT行业之变。 独行快,众行远。装备大模型化及产业落地前景远大,但道阻且长,这是一条必须有伙伴同行的路。我们看到,产业链上的不少玩家已经在转换角色和思路,融入全新的生态共融秩序。AI技术的自证与他证仍在进行中,宇视和他的伙伴们将一起合力推动新业态的形成。
库克谈中国行:与中国农大、浙大同学见面,了解如何用iPhone、iPad助农
原标题:苹果 CEO 库克谈中国之行:与中国农业大学、浙江大学同学见面,了解如何用 iPhone / iPad 助农 IT之家 10 月 22 日消息,今天午间,苹果公司 CEO 库克在微博上简单介绍了自己此次中国之行的安排:与中国农业大学、浙江大学的同学们见面,了解他们如何利用 iPhone、iPad 等设备推广农业实践。 我们致力于赋能社区、创造机会。非常高兴能够与来自中国农业大学和浙江大学的同学们见面,了解他们如何利用 iPhone 和 iPad 帮助农民推广更高效、可持续的农业实践。也感谢 @中国乡村发展基金会 以及科技小院的每一位参与者 —— 我们很自豪能够支持大家的工作! We’re deeply committed to empowering communities and creating opportunities, so it was great meeting with students from China Agricultural University and Zhejiang University to learn more about how they’re using iPhone and iPad to help farmers adopt more efficient and sustainable practices. Thank you to CFRD and everyone at Science and Technology Backyards—we’re proud to support your work! 综合IT之家此前的报道,库克昨晚曾在微博上宣布“很高兴再次回到北京”,并晒出与摄影师陈漫一同在北京胡同溜达拍照的视频。而库克今天被曝出现在北京顺义的一家有机农场,参观农作物并与农业研究人员交谈。 库克说自己小时候在阿拉巴马州的农场长大,看到这些农作物很亲切。有机农场的工作人员给他观看科学种植的蔬菜水果,苹果公司 COO 杰夫・威廉姆斯看了后开玩笑说“看饿了”。 苹果上周发布了全新 iPad mini 7,并宣布向中国绿色碳汇基金会捐赠支持在中国的五个国家公园创立环境培训和教育机会。
微软迎战Salesforce,将推10个新AI代理,下月预览Copilot Studio
编译 | 汪越 编辑 | 漠影 智东西10月22日消息,据CNBC报道,在周一于伦敦举行的微软“AI Tour”活动上,微软宣布将为其Dynamics 365系列业务应用程序推出10个新的AI代理(AI agents),并计划下个月发布利用Copilot Studio创建自主代理工具功能的公开预览版。 这些新AI代理的发布标志着微软与美国云软件公司Salesforce之间的竞争再度升温。此次新品发布的时机正好在Salesforce全面推出其面向销售和服务领域的自主AI技术Agentforce之前。Salesforce已在9月推出了可配置的AI代理工具,并计划于10月25日正式上市。长期以来,微软和Salesforce在业界被传关系紧张,双方几乎在所有领域都展开了激烈的竞争。 一、Copilot Studio公开预览,Dynamics 365新增10个AI代理 在周一于伦敦举行的“AI Tour”活动上,微软宣布了一项计划,允许企业在Copilot Studio平台上创建自己的自主代理。Copilot Studio是微软Copilot的扩展平台,用户可以利用它来定制和构建Copilot AI代理。 微软在5月首次宣布了AI代理计划,之后这些AI代理一直以私人预览的形式提供给部分用户。从下个月开始,这些代理将进入公共预览阶段,这意味着更多企业可以开始构建和使用自己的AI代理。 ▲微软副总裁查尔斯·拉曼纳 (Charles Lamanna) 表示AI代理将消除工作中的“平凡、单调”任务。(图源:Sipa US) 除了在Copilot Studio中增加创建自主代理的功能外,微软还将在Dynamics 365系列业务应用程序中推出10个新的AI代理。微软Dynamics 365是一款集成的企业资源规划(ERP)和客户关系管理(CRM)应用套件,旨在帮助企业优化业务流程、提升客户服务并推动销售增长。 这些AI代理可以在销售、服务、财务和供应链运营等多个领域自主完成任务,大致分为以下几类:销售,包括销售资格代理和销售订单代理,帮助确定潜在客户的优先级并自动处理订单;运营,例如供应商沟通代理和财务对账代理,用以优化供应链管理和财务流程;服务,如客户意图代理和客户知识管理代理,通过自动化案例管理和更新知识库来提升客户服务体验。 此外,还有其他几种代理:财务调节代理用于准备和清理财务报告的数据集;账户对账代理实现交易的自动匹配和清算;时间与费用代理则负责时间录入、费用跟踪及审批工作流等任务。 AI代理能够在无需监督的情况下执行一系列任务,充当虚拟员工。这项技术被视为基于大语言模型的AI从简单的聊天界面进化到更无缝地融入工作环境的一种进步。 微软AI项目首席营销官贾里德·斯帕塔罗(Jared Spataro)在其博客文章中写道:“可以把代理看作是AI世界中的新型应用程序。每个组织都将拥有自己的代理群体,从简单的提示响应到完全自主运行。这些代理将代表个人、团队或职能部门执行和协调业务流程。” 二、Copilot获60%财富500强青睐,Dynamics收入达65亿美元 微软希望通过AI来推动其业务、产品和服务的增长,这些服务包括GitHub、Windows和Microsoft 365等。 在周一的“AI Tour”活动上,微软宣布与英国政府签订了一项为期五年的合作协议,向英国公共部门提供其AI工具的使用权。根据与英国皇家商业服务局达成的协议,英国公共部门组织将能够使用Microsoft 365生产力套件、Azure云平台以及Microsoft 365 Copilot服务。Microsoft 365 Copilot是一个集成在Microsoft 365应用程序中的AI助手。 ▲微软首席执行官萨提亚• 纳德拉(Satya Nadella)(图源:GeekWire) 在活动中,微软现代工作和商业应用副总裁贾里德·斯帕塔罗(Jared Spataro)展示了一个由麦肯锡咨询公司开发的AI代理示例。这个AI代理能够解析电子邮件内容,查阅历史记录,并将邮件内容与行业标准术语进行匹配,然后确定下一步行动的最佳人选,并自动生成回复摘要。 斯帕塔罗表示,公司只需使用自然语言而不需要编程语言就能开发这样的AI代理。他补充说,麦肯锡称这种技术的应用可使其交付时间缩短高达90%。 当天,微软还指出,目前已有60%的财富500强企业采用了其Copilot技术。例如,美国电信公司Lumen Technologies通过采用AI辅助销售流程,预计每年可节省5000万美元;以电子消费品生产、工程技术服务和航空航天系统为主的跨国性公司霍尼韦尔 (Honeywell) 通过Copilot提升工作效率,相当于增加了187名全职员工。 此外,在截至2024年6月30日的财年中,Dynamics产品和云服务为微软带来了约65亿美元的收入。这一数字仅占微软总收入(超过2450亿美元)的约2.6%。不过,Dynamics系列近年来实现了稳定增长:2023年的收入为54亿美元,2022年的收入为47亿美元。 三、Salesforce推出AI代理平台,高层质疑Copilot在企业级应用中的效能 微软与Salesforce之间的竞争历史悠久,而AI代理技术的推出再次点燃了两家公司之间的竞争。 在上个月旧金山举行的年度Dreamforce大会上,Salesforce推出了名为Agentforce的新平台,该平台允许企业构建和运行自己的定制AI代理。Salesforce首席执行官马克·贝尼奥夫(Marc Benioff)在一档播客中提到,Salesforce可能是世界上最大的AI企业供应商,每周能够处理数万亿笔AI交易。 在随后的采访中,贝尼奥夫公开批评了微软的Copilot AI技术,指责其让企业客户失望,并可能给客户的数据安全带来风险。此前,贝尼奥夫曾呼吁欧洲监管机构调查微软收购领英的交易,认为该收购违反了市场竞争规则。 ▲Salesforce首席执行官马克·贝尼奥夫(Marc Benioff)(图源:GeekWire) Salesforce英国和爱尔兰首席执行官扎赫拉·巴赫罗洛卢米(Zahra Bahrololoumi)也对微软的Copilot AI助理提出了批评。她在本月早些时候接受CNBC采访时指出,这些Copilot AI助理主要通过微软Edge浏览器或电子邮件触发,未能连接到客户数据,也无法基于客户数据提供上下文支持。她质疑道:“这样的系统如何能够准确且负责任地代表一家公司呢?实际上并不能。” 巴赫罗洛卢米还说道,在企业级的AI应用中,Copilot的作用有限。“我认为,在企业环境中,我们不会看到那么多的Copilot应用。我并不是说Copilot在其他用途上没有价值,但在需要自主计划、执行和采取行动的企业场景中,Copilot就显得不够了。” 当CNBC就此联系微软时,微软并未对巴赫罗洛卢米的言论作出回应。 结语:谁将赢得AI代理竞赛? 微软正在加大对其AI代理技术的投资。借助Copilot平台的支持,未来销售、服务、财务和供应链运营等领域的生产力有望大幅提升,AI技术也在重塑创造性工作的未来。 这场AI代理竞赛愈演愈烈,Salesforce和微软都在努力推动技术创新,以满足企业不断增长的需求。两家公司都在开发用于构建自定义AI代理的工具,但无论是Salesforce的Agentforce还是微软的Copilot代理,目前仍处于早期阶段。 微软透露,通过Copilot Studio制作的AI代理运行的是“最新模型”。这些代理目前由OpenAI的“草莓”模型(即OpenAI o1)提供支持,尽管目前仍处于有限的私人预览阶段。随着微软的产品即将进入公共预览阶段,我们将能够更好地了解它与Agentforce的对比情况。 最终,谁能在这场竞赛中胜出,取决于哪家公司能够更有效地整合和优化其AI工具,提供更高效、更安全的解决方案,并真正满足企业的需求。
搞定图像+文本+视频大一统!智源发布多模态世界模型Emu3:下一个token预测直通AGI
作者 | 智源研究院 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。 虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确,多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。 2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。 自动播放 Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。 图注:在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中,对于12 项基准测试的平均得分,Emu3优于LlaVA-1.6。在视频生成任务中,对于VBench基准测试得分,Emu3优于OpenSora 1.2。 Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。 此外,受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。 Emu3研究结果证明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。 目前Emu3已开源了关键技术和模型。(开源模型和代码地址在文末) Emu3一经上线便在社交媒体和技术社区引起了热议。 有网友指出,“这是几个月以来最重要的研究,我们现在非常接近拥有一个处理所有数据模态的单一架构。” “Emu3是一种非常新颖的方法(至少在我看来是这样),它有机会将多模态合并为一,只需将它们都视为token即可。虽然还处于初期,但演示效果很不错。想象一下,我们可以无限扩展视频和生成多种模态。” 甚至有网友评价:“也许我们会得到一个真正开放的OpenAI v2?” 对于Emu3的意义和影响,有评论指出:“Emu3将彻底改变多模态AI领域,提供无与伦的性能和灵活性。” “Emu3在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。” “对于研究人员来说,Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。” “Emu3的统一方法将带来更高效、更多功能的AI系统,简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。” “Emu3改写了多模态人工智能的规则…Emu3重新定义了多模态AI,展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。” 一、效果展示 1. 视觉理解 Emu3展现了强大的图像及视频的感知能力,能够理解物理世界并提供连贯的文本回复。值得注意的是,这种能力是在不依赖于基础LLM模型和CLIP的情况下实现的。 1.1 图像输入 1.2 视频输入 自动播放 用户问题: What is the man doing in the video? 模型回答: The man in the video appears to be performing a fire dance, a form of entertainment where a person uses fire to create dynamic and visually appealing movements. The sparklers he holds produce a mesmerizing display of light and shadows, capturing the intensity of his performance. 2. 图像生成 Emu3通过预测下一个视觉token来生成高质量的图像。该模型自然支持灵活的分辨率和不同风格。 3. 视频生成 与使用视频扩散模型以从噪声生成视频的Sora不同,Emu3只是通过预测序列中的下一个token来因果性的生成视频。 自动播放 4. 视频预测 在视频的上下文中,Emu3可以自然地扩展视频并预测接下来会发生什么。模型可以模拟物理世界中环境、人和动物。 自动播放 自动播放 二、Emu3技术细节 1 数据 Emu3是在语言、图像和视频混合数据模态上从头开始训练的。 语言数据:使用与Aquila模型相同的语言数据,一个由中英文数据组成的高质量语料库。 图像数据:构建了一个大型图像文本数据集,其中包括开源网络数据、AI生成的数据和高质量的内部数据。整个数据集经过了分辨率、图片质量、类型等方面的过滤过程。训练了一个基于Emu2的图像描述模型来对过滤后的数据进行标注以构建密集的图像描述,并利用vLLM库来加速标注过程。 视频数据:收集的视频涵盖风景、动物、植物和游戏等多个类别。 整个视频处理流程包括了场景切分、文本过滤、光流过滤、质量评分等阶段。并使用基于图像描述模型微调得到的视频描述模型来对以上过滤后的视频片段打标文本描述。 2 统一视觉Tokenizer 在 SBER-MoVQGAN 的基础上训练视觉tokenizer ,它可以将4 × 512 × 512的视频片段或512 × 512的图像编码成4096个离散token。它的词表大小为32,768。Emu3的tokenizer 在时间维度上实现了4×压缩,在空间维度上实现了8×8压缩,适用于任何时间和空间分辨率。 此外,基于MoVQGAN架构,在编码器和解码器模块中加入了两个具有三维卷积核的时间残差层,以增强视频token化能力。 3 架构 Emu3保留了主流大语言模型(即 Llama-2)的网络架构。不同点在于,其扩展了Llama-2架构中的嵌入层,以容纳离散的视觉token。网络中使用RMSNorm进行归一化。其还使用了 GQA 注意力机制、SwiGLU 激活函数和一维旋转位置编码(RoPE)等技术,并去除了注意力模块中QKV层和线性投影层中的偏置。此外,还采用了0.1的dropout率来提高训练的稳定性,使用QwenTokenizer对多语言文本进行编码。详细架构配置表。 4 预训练 在预训练过程中,首先要定义多模态数据格式。与依赖外部文本编码器的扩散模型不同,Emu3原生集成了用于生成图像/视频的文本条件信息。在视觉和语言的固有token中新增了五个特殊token来合并文本和视觉数据,以为训练过程创建类似文档的输入。生成的训练数据结构如下: [BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS] 其中,[BOS] 和 [EOS] 是QwenTokenizer中的原始特殊token 。额外新增的特殊token包括:[SOV] 表示视觉输入(包含图像和视频的meta信息部分)的开始,[SOT] 表示视觉token的开始,[EOV] 表示视觉输入的结束。 此外,特殊token [EOL] 和 [EOF] 作为换行符和换帧符插入到了视觉token中。元文本包含图像的分辨率信息,视频则包括分辨率、帧率和持续时间,均以纯文本格式呈现。在构建理解数据时,Emu3将部分数据中的 “caption text”字段移至[EOV] token之后。 训练目标:由于Emu3中的视觉信号已完全转换为离散token,因此只需使用标准的交叉熵损失进行下一个token预测任务的训练。为了防止视觉token在学习过程中占据主导地位,对与视觉token相关的损失加权0.5。 训练细节:Emu3模型在预训练期间利用非常长的上下文长度来处理视频数据。 为便于训练,采用了张量并行(TP)、上下文并行(CP)和数据并行(DP)相结合的方法。同时将文本和图像数据打包成最大上下文长度,以充分利用计算资源,同时需要确保在打包过程中不会分割完整的图像。 预训练过程分为两个阶段,第一阶段不使用视频数据,训练从零开始,文本和图像数据的上下文长度为5,120;在第二阶段,引入视频数据,并使用131,072的上下文长度。 5 SFT阶段 5.1 视觉生成 质量微调:在预训练阶段之后,对视觉生成任务进行后训练,以提高生成输出的质量。使用高质量数据进行质量微调。 直接偏好优化:Emu3在自回归多模态生成任务中采用直接偏好优化(Direct Preference Optimization,DPO)技术,利用人类偏好数据来提高模型性能。 5.2 视觉语言理解 预训练模型经过两个阶段的视觉语言理解后训练过程:1) 图像到文本的训练以及 2) 指令调整。 第一阶段:将图像理解数据与纯语言数据整合在一起,而与视觉token相关的损失则在纯文本预测中被忽略。 第二阶段:利用LLaVA数据集中的约320万个问答对进行指令微调。低于512 × 512或高于1024 × 1024的图片将被调整到较低或较高的分辨率,同时保持相应的长宽比,而其他图片则保持原始分辨率。 三、开源地址 除了先前经SFT的Chat模型和生成模型外,智源研究院还在近日开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以便后续研究和社区构建与集成。 代码:https://github.com/baaivision/Emu3 项目页面:https://emu.baai.ac.cn/ 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f 结语:未来方向 Emu3为多模态AI指出了一条富有想象力的方向,有机会将AI基础设施收敛到单一技术路线上,为大规模的多模态训练和推理提供基础。 统一的多模态世界模型未来有广泛的潜在应用,包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个token有可能通往AGI。
iQOO 13手机全系标配9600Mbps内存,屏幕都是京东方Q10
IT之家 10 月 22 日消息,iQOO 官方今日宣布,iQOO 13 将于 10 月 30 日 16:00 在深圳春茧体育馆发布,搭载高通骁龙 8 至尊版处理器。 iQOO 产品经理 @戈蓝V 今日在微博透露,iQOO 13 手机全系标配 9600Mbps 内存。 他还提到,从媒体评测来看,今年最强的三颗 SoC 的 CPU 排序是:骁龙 8 Elite>A18 Pro > 天玑 9400。他表示 iQOO 13 屏幕(供应商)都是京东方,都是 Q10 发光材料。 目前 iQOO13 已经全渠道开启预约,该机后置摄像头模组采用了能量光环设计,默认关闭,可在设置中开启。 IT之家附 iQOO 13 手机已曝光信息如下(实际以上市情况为准): 性能:高通骁龙 8 至尊版处理器 | 自研电竞芯片 Q2 散热:单层主板 | 多层石墨烯 + 7K 超大面积 VC 均热板 屏幕:2K 144Hz BOE Q10 纯直屏(首发京东方最新发光材料)| 圆偏振光护眼技术 触控:新思 S3910 触控 IC 电池:6150mAh | 120W 私有协议闪充 + 100W PPS 公版闪充 | 旁路充电 + 高功率亮屏快充 功能:单点超声波指纹 | USB3.X | IP68 | 1016H 马达 | 无网通信功能 设计:iQOO 13 厚度是旗舰系列历史最薄 | 直边大 R 角中框 | 前置挖孔大小优化 | 对称式战鼓大师双扬 外观:预计采用直屏 + 窄边框 + 金属中框设计 | 类似 OriginOS 视觉展示机型 影像:vivo 旗舰同款主摄、广角 | 折叠屏同款的长焦人像 | 蓝厂旗舰同款算法和调试
苹果iPhone 16 Pro Max DXOMARK前摄测试排名第1,总分151
IT之家 10 月 22 日消息,DXOMARK 今日公布了苹果 iPhone 16 Pro Max 的前摄测试得分。经测试,苹果 iPhone 16 Pro Max 以 151 分的总分,与荣耀 Magic6 Pro 并列 DXOMARK 全球前摄排行榜第 1 名。其各项得分分别为: 项目 分数 排名 拍照 157 3 视频 159 10 在测试结果中,DXOMARK 列举了以下优缺点: 苹果 iPhone 16 Pro Max 的优点: 准确的曝光和宽动态范围,在 HDR 屏幕上具有高对比度 可靠的自动对焦和宽广的景深 在照片和视频模式中高水平的细节 在人像模式下,具有宽模拟光圈和自然散景效果 苹果 iPhone 16 Pro Max 的不足: 照片和视频中的噪点 拍照模式中的白平衡色偏 在录制视频时走路时,视频帧之间偶尔会出现清晰度差异 当前 DXOMARK 总榜前摄分数前十名为: 排名 机型 摄像头 自拍 音频 屏幕 1 荣耀 Magic6 Pro 158 151 155 157 1 苹果 iPhone 16 Pro Max 157 151 - - 3 苹果 iPhone 15 Pro Max 154 149 143 151 3 苹果 iPhone 15 Pro 154 149 142 151 5 Google Pixel 9 Pro XL 158 148 - - 6 苹果 iPhone 14 Pro 146 145 142 146 6 华为 Mate 50 Pro 149 145 144 133 6 苹果 iPhone 14 Pro Max 146 145 142 146 6 Google Pixel 8 Pro 153 145 142 154 10 华为 P50 Pro 143 144 119 134 10 苹果 iPhone 14 133 144 141 138 10 苹果 iPhone 14 Plus 133 144 141 138 IT之家附苹果 iPhone 16 Pro Max 前摄主要规格: 1200 万像素传感器 f/1.9 光圈镜头 自动对焦 4K 视频,24/25/30/60 帧每秒;1080p 视频,25/30/60/120 帧每秒(已测试 30 帧每秒的 4K 视频)
再见,曲面屏
再见,曲面屏。 就在上周,曲面屏死忠厂商vivo新发布的X200系列3款手机,全部抛弃了大曲率屏幕的设计。而这两代的小米,即将发布的华为、OPPO旗舰机型,也将全面回归直屏或超小曲度的屏幕。再加上早已做出违反祖宗决定的三星,和从没变弯的苹果。 这次,旗舰机真的要和曲面屏说再见了。 回想9年前,你从班里最有钱的同学手中,第一次看到那个有点科幻的曲面屏幕,看他演示侧面滑动的特殊交互,你甚至还摸了两下,试了试那个带弧度的屏幕的手感。 他说这台三星S6要6000多块,比iPhone 6还要贵,当然也比你家所有家用电器或数码产品都要贵。你想,什么时候自己上班挣钱了,也要买一台这样的曲面屏手机。 图片来源:三星galaxy S6 edge官方宣传图 当年的这台S6,其实更多是三星的炫技,为了用一项自己有而苹果没有的创新点,在高端市场跟苹果叫板,摆脱当年“抄袭iPhone“的指责, 然而大量用户真的开始使用曲面屏之后,却突然发现这东西真不算好用。首先就是贴膜太费劲,软膜会起泡,硬膜贴合不严。贴不上模,划痕、容易摔碎的问题也变得更棘手。而且,弯折部分的交互几乎用不到,还会造成误触,在一些机型中,又出现了边缘绿屏的问题。 图片来源:网络截图 但那几年,这些问题都被有意无意的忽略了。特别是在京东方打破三星垄断,量产柔性屏之后,国产品牌开始更激进的使用曲面屏。2019年,华为在Mate 30 Pro上使用了90度弯折、取消边框音量键的瀑布屏设计,小米则在概念机MIX Alpha上,使用了更为夸张的环绕屏。 然而就在一年后,一向跟安卓阵营相互问候的苹果,却干了一件头铁的“逆潮流”的事,在iPhone 12上搞了直角边框+直屏的设计,不要说曲面屏了,连略显暧昧的2.5D屏都不用了。 iPhone的直屏,多少说明了一个事,就是高端机与曲面屏并没有必然联系。不过话虽如此,安卓阵营却没有马上跟进使用这个设计,因为在这场斗地主里,安卓多少有点要不起。 当年的iPhone 12有个问题,直角边框让iPhone 12 Pro显得非常厚重,且硌手。但有点反直觉的是,在2020年,iPhone 12(厚度7.4mm)却是所有在售的旗舰机型中最薄的。 至少在当时,安卓旗舰机是很难把厚度压下去的。摄像模组、电池都需要空间,特别是猪队友高通还在2020年送上了火龙骁龙888,让安卓阵营只能坚持大电池路线,没精力压缩厚度。 所以前几年,安卓旗舰机要真是用直角边框+直屏,那厚度可能得奔着10mm去了。 图片来源:亿欧汇总制图 不过,虽然我们总吐槽行业创新乏力,但技术毕竟是在进步的。这两年天玑与骁龙竞争,安卓阵营的续航能力得到了极大提升,再加上电池技术的进步,轻薄机身也能塞进够用的大电池。 拿刚发布的vivo X200来举例,虽然标准版和Pro版电池容量分别来到了5800和6000毫安时,但由于是用了采用新负极材料的“半固态电池”,机身厚度依然被控制在了8毫米左右。 厚度下去了,直角边框+直屏的设计,也就有了更好的握持感和质感。再加上手感同样圆润的四微曲屏工艺越来越成熟,曲面屏在今年被大规模弃用,也就成了一种必然。 说到底,还是曲面屏从最开始,可能就属于炫技大于实用的鸡肋技术。而当技术水平更高的折叠屏普及后,曲面屏也就逐渐失去了存在的意义。 我们或许可以下个结论,在2024年,曲面屏已经完成了它在智能手机领域的历史使命。 如果我们真的还对曲面屏手机有所怀念的话,我们怀念的大概不是那块屏幕,而是见到那块屏幕的那个下午。 十年一场曲屏梦,也到了该说再见的时候了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。