行业分类:
加载中...
头条分类:
加载中...
中国石化与华为签署深化战略合作协议,覆盖人工智能、云计算等
IT之家 10 月 27 日消息,中国石油化工集团有限公司于 10 月 25 日与华为签署深化战略合作协议,双方将在人工智能、云计算、新能源、人才培养等领域持续深化合作。 中国石化董事长、党组书记马永生,华为轮值董事长胡厚崑见证签约,并就双方合作进行会谈。中国石化总经理助理、发展计划部总经理戴照明和华为副总裁、油气矿山军团 CEO 韩硕代表双方签署协议。 ▲ 图源华为 据官方介绍,中国石化与华为长期以来保持着良好合作关系,早在 2020 年 11 月就已签署战略协议。随着业务的不断发展,双方进一步签署深化战略合作框架协议,共同推动石油石化行业高端化、智能化、绿色化转型升级。 IT之家查询华为官网获悉,华为在油气与化工业务有以下场景化方案: 勘探开发:通过 5G、存储、高性能计算平台、人工智能等新兴技术对油气勘探开发智能化升级 油气田生产:利用大数据、人工智能、云计算、智能联接等新型数字化技术加速传统油气生产环节转型升级,实现油气业务上云、边缘生产智能,云边业务协同 管网储运:华为网络产品及解决方案,为油气管网 SCADA 系统的安全、可靠、稳定的网络连接提供坚实基础;基于一系列智能化技术手段,为客户提供的端到端智能连接解决方案,提升安全运营管理效率 化工:依托云计算、大数据、人工智能等新兴 ICT 技术,使化工行业实现数智化转型和持续创新,打造安全、绿色、高效的智慧化工工厂 成品油零售:华为通过为成品油零售行业提供联接和智慧服务、管理、营销体验,打造面向未来的下一代智慧加油站
北斗总设计师:北斗天上已达世界一流 但地面精度与国外还有差距
快科技10月27日消息,据报道,近日,在第三届北斗规模应用国际峰会上,北斗三号卫星系统总设计师、中国科学院微小卫星创新研究院副院长林宝军接受了采访。 林宝军表示,9月19日,北斗三号卫星系统最后两颗备份卫星成功发射,北斗三号系统圆满收官,但并不是北斗的终点。 林宝军介绍,自北斗组网开始,定位精度已从公里级提升到现在的厘米级甚至毫米级,随着精度不断提高,北斗赋能各行各业发展。北斗还有无限潜力,催生新的生产力,给人们生活带来无限可能。 不过,林宝军指出,北斗系统天上建好很难,地面用好更关键、也更难。 林宝军说,北斗在规模化应用方面还是有差距的,因为天上目前已经达到世界一流,几乎超越世界上另外几个系统,但是地面还没赶上国外,包括精度。 怎么把精度转换成地面用户能够体验到的技术,让老百姓实实在在感觉到北斗真的是好用? 林宝军强调,天上建好、地面用好,是我们的目标。产学研用联动创新形态还需要进一步形成,技术融合催生新业态。 此外,《北斗产业发展蓝皮书(2024年)》显示,北斗系统服务及相关产品已输出到130余个国家。 中国积极参与国际标准的制定工作,多项与北斗卫星导航系统相关的国际标准相继发布,为民航、搜救卫星、海事、移动通信等多个关键领域产业发展应用奠定坚实基础。
双11囤酒店,成了这届中产社交新货币
双11甫一开始,居住在石家庄的陈芳就预约了李佳琦超级爆品节的酒店大促,在直播间,平常售价2000出头的上海迪士尼玩具总动员酒店,1晚房券仅需999元。 “买到就是赚到”,更何况,999元一晚的房券,还附赠上海迪士尼提前1小时入园的权益,毕竟单独购买迪士尼早享卡的价格也得99元。 为了带着还在幼儿园的女儿打卡上海迪士尼,陈芳在下班前就进入直播间,蹲守在工位上紧盯过品进度。当天7点不到她眼疾手快拿下房券,与此同时直播间的房券也“秒没”,陈芳不仅成了抢到房券的幸运儿,还叠加了李佳琦直播间的红包,999元的房券实付987元。 今年双11,像陈芳一样有娃有房的中产,双11订单最多的就是酒店。 曾经,在旅游旺季,面对单晚三四千、四五千的酒店,也潇洒拎包入住的中产们,攥紧了钱袋子,低成本带娃成为潮流,性价比的风从始祖鸟冲锋衣吹到旅行,“用最少的钱去体验不同的生活”也成了精打细算中年人对出行酒店的新态度。 于是,双11囤酒店成为有娃中产们群聊信息99+的新社交货币,在双11囤满5万元花呗,也成了中产朋友圈晒出的双11新战绩。 图源:AI制作 “从2019年开始,甚至2021年、2022年,我基本会把自己5万元的花呗额度全部花在囤酒店上。”90后王峥告诉字母榜(ID:wujicaijing),base上海的他是个普通上班族,尽管月薪近2万元,但有了女儿后也习惯了精打细算过日子,由于淘宝系的飞猪支持花呗支付,不需要占用现金流,他总会在双11囤满高档酒店的亲子房床券,甚至是游轮旅行,马尔代夫等国外的旅游套餐。 “暑假旺季飙到四五千一晚的酒店,双11囤的房券,平均下来是1000元一晚,真的太划算了。”相比起出行前临时为动辄三四千元一晚的高档酒店支付溢价,真正精打细算的中产早已成为了双11囤酒店的大户。 舍了花一个月工资住酒店的面子,换来极致性价比、一分钱掰成两半花的里子,对于王峥们来说,“跟别人聊起假期带娃旅游,在吐槽酒店涨疯了的群里晒出提前囤好的酒店订单,就能瞬间成为话题中心。至于面子,退一万步说,在工作日一晚都要2000出头的高档酒店里,仅花一半的钱入住,这怎么不算排面呢?” “本来没打算做攻略,结果在直播间刷到半夜停不下来。” 10月22日,作为今年刚刚加入双11囤酒店大军的新人,89年的张真本是为了家里两个孩子购置秋装,偶尔刷到双11的某平台直播间后,就被优惠力度震撼到了。 售价999元起步的开元3晚全国通兑的房券套餐(含早餐)、售价588元起步的万豪集团酒店全国可通兑的2晚房券套餐,让张真在屏幕前反复退出确认了两次,平时需要咬咬牙才能下手的高档酒店,瞬间价格格外“平易近人”,锦江全国5000+门店可通兑的两晚套餐仅售538元,在介绍页面,张真注意到,甚至在部分门店,两晚可以拆分兑换,还包含双日早餐,“这个价格,还要什么自行车?” 而千岛湖、阳朔、三亚等热门旅行地的酒店套餐,不仅分分钟让张真拼起手速,慢一秒优惠套餐就售罄,“洲际999元的套餐没抢到,还有一个1299元的套餐付款时犹豫了2秒,结果就没了”。蹲守在直播间,张真全无困意,手慢无的惊险刺激让她开启了疯狂买买买的剁手模式,甚至因为想抢的套餐太多,好几次都付错了款或者多付了款。 等激烈的抢货结束,张真已经囤了20多个酒店套餐,花呗刷出去近2万元。在想带娃出游的千岛湖、三亚等地,由于不知道哪个酒店的套餐更划算,又怕错过优惠,张真一个地方至少囤了3份不同酒店的优惠套餐,“到时候退掉不划算的,只留一家。” 图注:弯腰在抖音直播的高档酒店 图源:字母榜截图 作为双11囤酒店的老鸟,陈芳、王峥则淡定得多。 连续3、4年在直播间囤酒店的经验,让王峥心里早有了一份酒店促销价格日历。 几家OTA平台内,飞猪大部分酒店在年底促销期过后,最早的一波促销大概在3月31日开始,部分套餐的有效期甚至长达一年,而背靠淘宝,也让双11成了飞猪的优惠放出季,“错过11月,基本短时间内不会有这么大的优惠力度了。” 而尽管携程今年是第一次参加双11,但明显更像是凑热闹,9月19日携程自己的促销节优惠力度明显更大。至于新加入的美团和抖音,虽然平时美团酒店优惠力度不足,但大促节点的美团直播间,总会有低价房露出,价格可能更有优势,抖音也总是能保持同套餐低数十元的价格优势。 抖音、美团等平台的加入,让直播间的中产囤货大军在双11迎来高速膨胀。 陈芳很快减少了自己的囤货量,去年尽管套餐不好抢,但只要抢到,即便在热门的五一、十一假期也能约到房间,但今年囤货后,陈芳第一时间登录抢房,却发现打工人仅有的几个大的出行日,全都满了房,“今年囤得多,但是大部分都退了。” 截止发稿前,字母榜查看飞猪平台的双11直播间,在社交平台引发疯抢的开元3晚999元套餐已售出超10万份。在抖音平台,华住会酒店推荐已经积累起150万粉丝,创下了百万+的销量,仅双11期间,从10月24日起,账号保持每晚直播,原价1499元全季汉庭两晚的房券4.6折后售价为678元。低至3、4折起的高档酒店,弯腰试图在双11分一杯羹。 “相比起花4000元去一个地方,当然是是4000元去两个地方更好。”陈芳道,相比起花一个月工资在房费上“说走就走”的随意,早早囤货、精打细算成了中产带娃游的新潮流, 当氪不动金的中产走入直播间囤酒店,这场和OTA的双向奔赴,其实早已开始。 早在8月,陈芳就在抖音刷到过华住会抖音官方账号的直播,当时粉丝量不过50万的账号,直播当天就破了300万GMV。 王峥则发现,从不参与双11的携程也破例下场,不仅开启了"双11携程好价节",还上线了飞猪同款"先囤后付"功能,方便抢购囤货后预约不成功取消订单。 根据公开数据,截至2023年9月,已经有10万家酒店在抖音开设官方账号,单月种草酒店人数超150万,酒店POI门店数增长60%。 不少连锁酒店如华住、锦江、希尔顿纷纷在抖音平台上通过「直播团购+日历房」的形式销售酒店客房产品,“希尔顿、金陵饭店、悦榕庄都来了,这个双11有什么理由不囤呢?”张真兴奋表示,曾经高高在上、订房动辄四位数起的高档酒店和民宿,都在双11闪现3位数的超低折扣,这让花钱越来越谨慎的中产们,也有了“乱花渐欲迷人眼”的惊喜感。 在囤了就是赚了的直播间热潮下,再加上贴心的“先用后付”功能的加持,王峥们往往一晚上就能囤1-2万元的酒店券。 图注:在社交平台晒双11战绩的中产们 图源:字母榜截图 更不用提,一心只想提高入住率的高档酒店们,给从OTA平台而来的用户,准备了“更多”的花活。 除了陈芳抢到手的上海迪士尼酒店,999元单晚,还附赠提前1小时入园的权利;凯悦酒店推出的某套餐中还包含了长白山滑雪权益。同时,王峥发现,通过某平台入驻酒店,还能享受一部分直接订房没有的权益,比如升级房型、赠送免费下午茶等等,提前囤货不仅能享受极致性价比,还比直接订房入住的用户享受了更多的权益。 不过,奔着便宜去的中产,也得小心被OTA和高端酒店联手收割。 正如双11从吐血大降价到成为商家“先涨价、再降价”的文字游戏,双11囤酒店的中产们也越来越感觉,“双11的酒店大促,有诚意但并不多。” 以凯悦酒店集团为例,2晚可拆分含双早的通兑房券中,有效期不变,景德镇凯悦嘉轩从2022年的899元涨到了2024年的999元,涨幅11%。而某平台的绍兴兰亭安麓酒店,2天1晚套餐9月还有1138元的优惠套餐,双11的同款套餐不仅售价1888元,周末兑换还需加价200元,甚至有效期都缩短了3个月。 而即便囤到手的套餐,李玲发现,想要带娃出游的几个假期,早就被约满,特别是三亚等热门景点的酒店,“看了不可用日期和加价日期,直接放弃了。” 事实上,当只割中产的高端酒店开始割肉清房,背后赚翻的却是OTA。 “可以来我们直播间比比价格哦。”在社交平台#今年双11只囤酒店#的热帖下,某四星级酒店的人员颇“卑微”得打下上述评论。 此前“报复性旅游”热潮下,去年节假日2000一晚都抢不到的该酒店,已经默默在携程、美团、飞猪、抖音等平台将价格下调了2档,如今为了降低空置率,该酒店人员不得不在社交平台“揽客”,“今年星级酒店的日子,都不好过。” 以华住集团为例,上半年,华住集团收入114亿元,归属于华住集团有限公司的净利润为17亿元,同比下降15%,其中华住中国上半年归母净利润下滑9.5%。而在二季度,华住中国的日均房价同比下滑2.95%,受此影响,RevPAR(混合平均可出租房收入)下降了2.4%。 而中产最爱的亚朵,均价最高(441元),但根据公开数据,二季度日均房价降幅7.16%,RevPAR降幅6.5%。 不再风光的高端酒店不得不割肉求生,加大在OTA平台上的曝光量。 根据公开数据,截至2023年9月,已经有10万家酒店在抖音开设官方账号,连锁酒店如华住、锦江、希尔顿都纷纷弯腰加入直播,国庆期间,根据抖音生活服务数据显示,平台酒店住宿团购订单量同比增长205%。 在双11,“买一送一”、全季599、开元999系列足够让口袋紧了的中产眼花缭乱,在寸土寸金的上海陆家嘴,丽呈酒店两天1晚仅需359的套餐让人直呼“抢到就是赚到”,而在热门景点如茅山东方盐湖城,5992天1晚的家庭大床房,更是让张玲冲动下单,毕竟“599的价格,比旅游团工作日的价格还要低。” 为了在双11拼出最低价,OTA平台们也通过追价系统线上收割用户。据市象报道,美团后台就有追价系统,系统一旦发现平台价格高于携程等OTA平台,会自动将价格改为全网最低价。而根据字母榜报道,携程旗下的智行APP里的酒店类目,会直接在页面比价,“同程xxx元,某哪儿xxx元,艺龙xxx元。上述酒店人员亦告诉字母榜,“在抖音为了换取流量补贴,同样的套餐,会比在其他平台便宜几十元到百元。” 这届双11,在直播间卷起来的高端酒店,也让OTA平台们赚的盆满钵满。 根据财报数据,二季度携程净收入128亿元人民币,同比增长14%,归母净利润约38.33亿元,同比增长507.45%;美团到店酒旅业务订单量同比增长60%以上;同程旅行第二季度实现收入42.5亿元,同比增长48.1%,创下单季度收入规模历史新高。 不过,王峥告诉字母榜,虽然他在某APP以比其他OTA平台低了近百元的价格购入了同样的套餐,但实际入住时,他却发现,他的套餐既享受不到升房权益,也被分配到了更偏的房间位置,而同行的朋友,使用了其他平台的同款套餐,不仅升级了房型,还分到了更好的房间位置,OTA平台间明争暗斗的秘密,似乎藏在了每一份订单的核销里。 而今年双11,王峥明显兴趣缺缺,相比起往年囤光5万元花呗的热情,王峥只囤了不到2万元的酒店券,手里的订单他也并不急着核销,“等到年底还有一波折扣,到时候几个平台对比看看,哪个便宜留哪个。” 想要笼络越来越会过日子的中产,OTA们恐怕还得在服务上多下下功夫。 (文中张真、陈芳、王峥为化名)
物联网芯片,迎来增长
Counterpoint Research数据表示,2023年全球半导体行业营收5213亿美元,同比下滑8.8%;但2023 年全球蜂窝物联网连接数依旧实现了 24% 的同比增长,达到 33 亿。预计到 2030 年,连接数将超过 62 亿,年复合增长率为 10%。全球蜂窝物联网收入也在同步增长,2023 年达到 137 亿美元,同比增长17%;预计到 2030 年将超过 260 亿美元。 我国是物联网技术应用的巨大市场,根据工信部数据截至2024年7月末,全国移动通信基站总数达1193万个;截至2024年7月末,基础电信企业发展移动物联网终端用户数达25.47亿户,占移动终端连接数比重达到59%。 2024年8月工业和信息化部办公厅印发《 关于推进移动物联网“万物智联”发展的通知 》,通知表示到2027年,基于4G(含LTE-Cat1,即速率类别1的4G网络)和5G(含NB-IoT,窄带物联网;RedCap,轻量化)高低搭配、泛在智联、安全可靠的移动物联网综合生态体系进一步完善。5G NB-IoT网络实现重点场景深度覆盖。5G RedCap实现全国县级以上城市规模覆盖,并向重点乡镇、农村延伸覆盖。移动物联网终端连接数力争突破36亿,其中4G/5G物联网终端连接数占比达到95%。支持全国建设5个以上移动物联网产业集群,打造10个以上移动物联网产业示范基地。培育一批亿级连接的应用领域,打造一批千万级连接的应用领域。 市场与政策的加持,让物联网市场稳健增长,物联网市场的增长让物联网芯片迎来无限商机。 01 芯片公司加码物联网 物联网技术广泛应用于生产制造、农业、交通车联、医疗、大众生活等多个行业领域。其中,在智能家居、智慧城市、工业自动化等领域的普及,成为物联网芯片市场规模持续增长的主要驱动力之一。以智能家居为例,通过物联网技术,家居设备实现了互联互通,用户可以通过手机 APP 远程控制家中的空调、电视、照明等设备,实现智能化操作。同时,智能家居系统还可以连接烟雾报警器、摄像头等设备,提高家庭安全性。此外,智能家居系统还能实时监测家庭环境状况,并根据需要调节空调、加湿器等设备,创造舒适的居住环境。随着物联网技术在智能家居领域的不断深入应用,对物联网芯片的需求也在持续增长。 半导体产业纵横统计了几家物联网芯片企业2024年的营收情况,发现大部分企业在2024年都迎来了营收的增长。 翱捷科技、芯海科技 更是在单季度实现了营收翻倍的增长。 从环比增长来看,大部分企业在Q2都是实现了业绩增长,芯海科技更是在第一季度业绩大幅增长后依旧保持了Q2的营收增长。 对于公司业绩的增长,多家公司在财报中提到了物联网芯片产品的推动作用。2024年上半年,翱捷科技实现营收约16.55亿元,同比增长约56.62%。2024年上半年翱捷科技物联网市场产品系列持续迭代和丰富销售规模与同期相比大幅提升,其中蜂窝基带主芯片销售数量同比增长超过80%;非蜂窝物联网芯片销量同比增长超过70%。 卓胜微 的主要产品为射频前端分立器件和射频模组产品,主要应用于智能手机等移动智能终端产品、智能穿戴、通信基站、汽车电子、蓝牙耳机、VR/AR设备及网通组网设备等需要无线连接的领域。公司低功耗蓝牙微控制器芯片主要应用于智能家居、可穿戴设备等电子产品。卓胜微预计,随着5G渗透率的提升及国产替代的趋势,其射频前端芯片市场将继续增长。公司在射频模组和分立器件方面的竞争力将进一步提升。 泰凌微电子 发布业绩预告,公告称经财务部门初步测算,预计公司2024年前三季度实现营业收入58,628.60万元左右,与上年同期相比,将增加11,016.28万元,同比增加约23.14%。泰凌微的主要业务是低功耗无线物联网芯片的研发、设计与销售,主要聚焦于低功耗蓝牙芯片、多协议(含Zigbee、Matter等)物联网芯片、私有协议2.4G芯片和无线音频芯片等产品。对于业绩增长,泰凌微表示公司产品在各个物联网细分市场持续取得进展,例如智能家居、商用智能照明市场,通过加强与谷歌、亚马逊等大型互联网生态企业的合作,公司芯片被其生态链重要合作伙伴所采用,实现了大批量的出货。 从这些公司的财报来看,物联网市场的覆盖范围十分广泛,不同的细分市场对于产品的要求各有特点。这样的市场也意味着物联网市场对不同赛道的芯片公司都很友好。 “人人平等”的物联网芯片市场,后半程的增长动力在哪里? 02 越用越有需求 从需求侧来说,5G、人工智能等技术普及会让物联网芯片的出货量进一步增加。 随着物联网被广泛应用于公共服务、车联网、智慧零售、智慧家居等领域,这些市场中移动物联网的重要性也会逐渐攀升,进而促进产业生态不断壮大。在物联网市场的发展中,产业会形成涵盖芯片、模组、终端、设备、服务等环节的完整移动物联网产业链。 对于物联网相关芯片来说,链接是很重要的因素。其中会涉及相当多的通信协议。每款协议标准的升级迭代速度较快,无线物联网芯片设计企业必须针对标准演进不断迭代产品。局域无线通信目前主要包括WiFi、蓝牙、ZigBee等无线物联网协议标准,新一代低功耗无线物联网协议Thread、Matter等标准的应用也越来越普及,同时作为无线物联网协议重要构成的蓝牙协议,也由蓝牙1.0版本迭代至5.4版本。 对于物联网芯片公司来说,这些新需求、新协议将成为刺激产品更新的重要因素。换言之,谁能“签上”新协议,谁就有机会把握市场的主动权。举例来说,传统陆地移动通信服务仅覆盖不足 6% 的地表面积,而卫星互联网可以实现全球覆盖,为偏远区域、海洋等提供网络补充,在应急通信、公共安全、海洋科考等特定场景可以有效解决无基站区域的通信需求。这样的应用场景,对于芯片行业及运营商都提出了新的要求。IoT Analytics分析数据显示,2027年全球卫星物联网用户将达到2200万。中国电信卫星应用技术研究院网络技术专家高向东介绍“按中国卫星通信规模占全球8.5%估算,预计2027年国内卫星物联网终端数可达187万,将广泛应用于交通运输、油气巡检、电网电力、渔业海事、环境监测等领域。” 03 越做越有动能 从供给侧来看 ,物联网产业链上下游的公司们也在不断探索新的技术,推动产品朝着更高性能、更低功耗、更安全可靠方向发展。 以智能家居为代表的物联网应用,虽然底层技术已经日趋成熟,形成了包括蓝牙、Zigbee、Wi-Fi、Thread在内的几个主要行业标准规范。已经解决了基本的连接问题,并在此基础上实现了对各类设备的远程灵活控制及数据监测。 随着AI大模型的出现,边缘AI的需求使智能家居等物联网终端产品开始向更智能的形态演进,数据传输的速度和安全性都将是物联网芯片公司们着重突破的议题。高通在今年10月推出工规级IQ系列产品和物联网解决方案框架,以将边缘侧AI引入各行各业的联网终端。 从产业生态来看 ,随着智能产品的种类增加,各种互联协议之间也需要解决互联互通的问题。基于这样的背景,为了进一步解决产品在应用层无缝互操作的问题,支持各种底层连接标准,国内外对智能产品互联互通的重要标准都陆续发布,例如亚马逊、苹果、谷歌、三星SmartThings和Zigbee联盟发起的Matter标准,由华为牵头成立的星闪联盟等。这样的标准联盟有助于解决目前困扰行业上下游的产品孤岛化的困局,加速智能物联的落地与商用。 为了进一步提升对特定应用场景的支持,现有无线通信标准也在不断推陈出新,通过增强功能将帮助这些技术支持下一代无线用例,对用例的吞吐量、范围、延迟、可靠性、功耗和可扩展性等关键指标进行提升;同时通过技术创新满足高精度定位的能力、对安全测距、联合通信和传感的支持,以及对新兴环境物联网市场的日益增长的支持。 04 下一程,何以再增长? 中国市场作为全球最大的芯片消费市场,背后是对物联网技术的海量需求。物联网产业涉及的芯片不仅是通信领域芯片,也会对MCU、存储芯片、安全芯片、定位芯片等产品起到带动作用。 目前来看,物联网芯片仍被国外的公司占据主导。随着物联网在制造业、政府和公共事业领域、工业互联网、车联网、智慧城市、智能家居等典型场景的重要性提升,物联网市场正在等待国产芯片公司的发力与突破。
抢占中东,通往2.7万亿美金市场的数字枢纽
中东地区,这片曾经以石油资源闻名于世的土地,如今正逐渐成为数字经济的新兴热土。 上周,全球最大科技展之一GITEX GLOBAL2024在阿联酋迪拜落下帷幕。本届GITEX GLOBAL规模创历史新高,吸引了超过6500家参展商、1800家初创企业、1200名投资者以及来自180多个国家的政府参与。参展观众达到了20万人次,国际参与度提升近40%。 与另外两大世界科技展CES和IFA更侧重消费电子与新科技融合的定位不同,GITEX GLOBAL偏向于技术与全场景的融合,参展企业中一半以上来自于TOB领域的数字科技公司,引人注目的展位也多数是不为公众熟知的底层数字技术提供商们。 “它体现了许多中东国家不可阻挡的数字雄心。”DWTC执行副总裁、GITEX Global和Expand North Star展会的组织者Trixie LohMirmand在媒体访问中表示。 数字经济的兴起依托于数字科技在千行百业的落地,同时离不开数字生态系统的支撑。GITEX Global 2024,这场阿联酋迪拜主办的科技盛宴,折射出中东走向多元产业结构发展数字经济背景下对全球数字科技企业的巨大吸引力。 数字中东的诱惑 Cisco、AWS、Google、Intel、Oracle、SAP……这些全球科技巨头都是GITEX Global 的最活跃参展商。 本届,鲜少在第三方场合露面的亚马逊CTO、云计算顶级专家 Werner Vogels出席峰会,早在Emirates World Interview (一档阿联酋航空航班专属的英语播客节目)4月的节目中他就表达了对中东辐射全球AI的市场潜力的认可。展会期间,AWS还与阿联酋电信e&签署一项价值10亿美元的协议,助力当地的数字化转型和云驱动创新。 中东俨然成为全球科技巨头眼中一座巨大的增量“宝藏”。 瑞银集团的报告预测,中东地区数字经济规模将从 2022 年的 1800 亿美元增长到 2030 年的 7800 亿美元,平均年复合增长率达 20%。该地区数字经济占 GDP 的比重也将从2022年的4.1%上升到2030年的13.4%。 这为作为数字经济底座的中东云服务市场带来更明确的市场预期。麦肯锡今年的一份研究表明,到2030年,云服务将为中东带来高达1800亿美金的经济价值。 基于此价值潜能,AWS在2019年便投资了中东第一个云数据中心,同年微软也进入阿联酋云服务市场。 除了中东本地强劲的数字经济潜力外,中东还是全球数字经济的重要枢纽。 中东连通欧、亚、非三大洲,前工业革命就是贸易枢纽要道;随着石油经济发展,中东承担起全球能源供给核心的角色,中东资本也开始配置世界各地的资产。 数字经济时代,以阿联酋为代表的中东国家自然希望承担全球数字经济枢纽的角色。GITEX Global更是强调将会推动全球AI市场达成2.7万亿美元的愿景。 这个巨大的市场吸引了全球科技企业的纷纷入局。 在GITEX Global 2024的同期配套活动,举办于迪拜港的Expand North Star 科技展上,有众多来自中国、印度、韩国,首次参与中东市场的SAAS创新企业。 (钛媒体出海参考拍摄于Expand North Star现场展区) 韩国的云服务托管商Grumatic,以及AI视频应用公司Dobstudio都是第一次走出国门,把海外考察的首站选在了中东。 在Dobstudio的商业战略总监Ella看来,在AI的共识下,全球的科技公司市场竞争都非常激烈,相比较而言,中东市场是难得的蓝海增量市场。 Grumatic CEO Eric向钛媒体出海参考表示,这次借助GITEX的展会走进中东,也是希望实地考察下,市场潜力究竟如何。 印度科技公司 AEROAEGIS和CardByteAI则是在美国市场取得一定的市场经验和反馈后,转战中东扩大海外业务版图。 在AEROAEGIS CEO Reddy看来,美国SaaS市场非常成熟,能快速验证技术和产品,把经过验证过的技术和产品投放在中东市场上,可能分到这个巨大市场的份额。 上海元芒数字创始人张家波也是第一次带着产品走进中东,这家专注于零售行业SAAS和AI解决方案的公司,在国内终端零售门店已拥有一定的业务量,看中了中东的智慧零售潜力和需求。 转型中的中东地区不断释放着新的市场需求,吸引着全球的数字科技企业纷至沓来。今年整个Expand North Star吸引了1200多名全球投资者,管理着超过1万亿美元的资产。 还有众多中国公司加入中东市场,迪拜商会总裁兼首席执行官H.E. Mohammad Lootah对钛媒体出海参考表示,2022年至2023年间注册为迪拜商会活跃会员的中国公司增长了41%。截至8月底,总数为5480人,仅在今年前8个月就有1000多人注册。 越来越多的企业涌入迪拜,涌入阿联酋:一是中东本身数字化基础设施投入不断增加,为中国企业提供了广阔市场和合作机会;二是中东连接亚欧非三大洲,是“一带一路”重要节点,具备健全的法律制度、完善的金融服务以及独特的地缘政治优势的阿联酋是中国企业进入国际市场的“完美”门户。 GITEX与它的全球数字生态圈 “这是一个高效与潜在客户,合作伙伴会面的场景,专业观众很多,我们很多业务机会是在这样的交流中转化的”。 腾讯云国际中东及非洲区域副总裁胡丹说。今年是胡丹自2011年起连续第14年参加GITEX。在他看来,GITEX起始于迪拜,逐步辐射影响中东、非洲、中亚、土耳其、中东欧、东南亚,覆盖领域也从通信IT专业性展会逐渐与时俱进到目前的AI、云计算大数据、IT、网络安全、科技创业企业等多个模块,具有高辐射度能力,同时具备全球数字经济需求方和供给方的调动力,是GITEX展会最大的吸引力之一。 中东历来是通商贸易中心,以商业合作为目标,Gitex也承袭了这样的基因,希望通过展会拉动全球数字生态圈的合作。 “我们在做的不是一个简单的展会,而是要打造一个数字经济生态圈,通过各种运营方式帮助客户找到准确的客群,是GITEX团队重要的职责。”DWTC执行副总裁、GITEX Global和Expand North Star展会的组织者Trixie LohMirmand向钛媒体出海参考介绍。 如果说CES是技术面向公众展示与传播的机会,GITEX就是技术与行业合作伙伴和客户洽谈的好机会。 钛媒体出海参考注意到,“Ecosystem”是GITEX期间被提及最多的词汇。 GITEX期间不只有领先的技术服务提供商,还有企业购买决策者、金融投资者、以及各国政府官员,形成了从政策制定、教育支撑、资本支持、技术供给、到技术购买的数字经济发展全链路参与者,打造了独特的全球数字经济生态闭环。 以本届GITEX展商人气最旺的阿联酋电信e&为例,作为皇室控制的阿联酋央企,e&本次设立了“智能出行解决方案和智慧城市创新应用”主题区,作为电信运营商e&此展区特意邀请了小鹏汇天、蔚来ET8、比亚迪仰望U8等中国不同出行科技领域的头部代表,也因此成为展会区间人气最旺的展位之一,引来多位酋长驻足。 (e&展区在GITEX上展区,齐聚中国科技终端场景) 早在2003年,e&(当时公司名为Etisalat)在技术生态上已经开展了与中国公司华为的合作,由华为来承建当地的3G通讯网络。 伴随全球技术演变和国家发展诉求,e&也从电信公司转型科技公司。e&更加强调打造数字生态的需求,公司董事会主席H.E. Jassem Alzaabi(同时兼任阿联酋中央银行副主席、阿布扎比财政部部长、阿布扎比人工智能与前沿技术委员会秘书长等职位)曾公开表示,“为了转变为科技公司,我们需要吸纳进战略性的合作伙伴才能驱使公司实现增长和转变。” 本届GITEX,e&还分别与爱立信、HTC VIVE、AWS签署合作协议,继续构建其从5G通讯到云计算再到元宇宙的生态产业链。 同样在GITEX高调布展的G42,作为阿联酋乃至中东地区领先的AI公司和数字化转型服务商,也展示了阿联酋在全球数字生态上的连接能力。G42旗下业务涵盖工智能、医疗健康、地理空间智能、数据中心服务等。2023年8月G42旗下人工智能团队研究出首个阿拉伯语人工智能语言模型Jais。 G42的人工智能合作伙伴阵容可谓豪华,包含了英伟达、微软、OpenAI、高通、梅赛德斯等等欧美巨头。今年5月份,G42还联合微软共同出资10亿美金在肯尼亚投资了一个地热发电的数据中心,成为肯尼亚最大一笔的数字经济领域投资。 GITEX期间,G42旗下人工智能公司Core42与知名半导体公司AMD签署战略合作协议,G42的生态伙伴天团再添一员。 类似e&和G42这样类似的生态主代表还有很多,迪拜水电局、卫生局、运输局等多个政府部的数科部门决策者,都参与到GITEX的展会日程中来。 GITEX Global的峰会合作伙伴超级桥峰会的主办方,超极桥理事会联合创始人徐莹对钛媒体出海参考表示,“阿联酋不仅是全球高净值人群流入最多的国家,还是美元资本的聚集地,对全球人才友好开放,是东西方之间沟通的桥梁。这些基础要素使得GITEX能够聚集全球大型企业CEO和政策决策者。” 庞大的需求市场和高浓度的需求决策者,构成了中东数字经济的丰富生态,也是吸引全球科技企业闻风而动的核心。 GITEX Global官方显示,在2024年参会人员中,总监及CXO级别的企业决策者超过6.5万人。这些采购方与现场的技术提供商在迪拜世贸中心构成了全球数字经济的生态圈。 据钛媒体出海参考不完全统计,GITEX Global2024展会期间,至少有超过40项谅解备忘录(MOU)和战略合约的签订,涉及这个数字经济生态圈的众多数字场景和典型代表企业。 数字经验和服务,中企PK欧美巨头的两本秘籍 中东市场是数字化蓝海,但并不意味着是坦途,大部分中企在中东当地的运营布局还处在探索初期。 “蓝海市场带来的只是起跑先机,而不是必然成功的原因。”胡丹对钛媒体出海参考表示。 对比CES、IFA、GITEX三大科技展,GITEX展上中企数量最少。 2024年CES的中国展商占比26%,IFA的中国展商占比高达67%。而GITEX官方应用平台GITEXPLUS的展位统计,中国展商只有260多家,尽管数据可以看车参展中国企业数量逐年递增,但是在6500的展商总量中,占比仍不到10%。 不难看出,相较于已经抱团出海30多年,且深度渗透到全球产业生态中的消费电子及其上下游产业,中国数字技术服务产业的公司在海外市场仍处于拓展初期。 在GITEX展会上,主角仍旧是微软、IBM、AWS、Oracle、Intel等欧美头部数字技术公司,其次是发挥主场优势的阿联酋本地企业,数量占比超过25%。 会场外,我们了解到,阿联酋的技术开发者以印度码农为主,“抱团取暖”的印度工程师们留给其他国家的程序员工作岗位机会非常有限。 这一定程度反映了在TO B的中国数字科技企业拓展以中东为代表的全球市场的现状,中东这片层级森严的增量市场,有着最激烈的全球市场竞争。 以网络安全领域为例,中东大部分安全架构沿袭自欧美,安全服务多由思科等公司提供。而中东本土发展起来的数字服务企业大多背靠本土的家族基金。 在内外的双重竞争压力之下,中国科技企业需要拥有更差异性的能力才能在蓝海市场中分到一杯羹。 中国拥有最为丰富的数字化创新场景,和千行百业数字化转型的实操经验,这是中国科技企业在中东打出差异性服务的源头活水。本次e&邀约若干中国科技企业参展,也正是看中了这些科技企业在各自应用场景中的龙头示范效应。 充分了解本地需求,建立核心差异化优势,是能立足蓝海的关键因素。 华为云便充分发挥了集团早期深度参与阿联酋和中东的通信基建行业的优势。本次华为云联合华为一起参展,发布了数字政府、媒资娱乐、Web3、电商零售、运营商五大行业的解决方案,与华为发布的十大行业解决方案,联合推动,互相赋能。 腾讯云在GITEX展会上展出了音视频媒体解决方案、SuperAPP、AI数智人等多项产品技术,这些能充分因袭腾讯集团优势的技术解决方案是腾讯云在中东非洲区域取得突破的差异切入点。 如与阿布扎比酋长国政府支持部合作的TAMM,因为基于腾讯云小程序平台底座,能在最小的干预下最大程度聚合各部委的数字服务能力,目前已经汇聚数十个部委,800多种便民服务,成为中东最大的超级公共服务应用。 借力更有本地用户视角和经验的生态合作伙伴,是快速放大差异化能力的方式之一。 腾讯云与本地知名集成商Zaintech合作,基于腾讯云的数字孪生平台,帮助区域制造业,园区等构建可视数字化方案;与本地知名电子钱包Balance合作,基于腾讯云的小程序平台和AI技术,帮助其转型成为一站式生活平台…… 在胡丹看来,To B业务的全球化从零到一的突破需要有对当地市场有真正洞察的团队,提炼现有产品与生态在当地市场的差异化竞争优势,融入当地生态。“展会可以帮助获取业务机会,但归根结底还是要独立思考,勇于试错,小步快跑,持续投入”。 “大家都要走出自己的全球化之路”。 对于中国企业而言,如何抢占中东这块通往全球2.7万亿美元全球人工智能市场的数字经济枢纽,走出自己 的全球化之路,仍然是一个充满诱惑和挑战的命题。(作者 | 杨秀娟,编辑|王璐、罗文琴,制图|Chloe、孙源婧)‌
OpenAI公布AI文生图“sCM”,号称效率是传统扩散模型50倍
IT之家 10 月 27 日消息,OpenAI 本周公布了一款名为 sCM(Continuous-Time Consistency Model)的新型 AI 文生图方案。 与传统的扩散模型相比,sCM 仅需两个步骤即可生成高质量样本,号称能够将文生图效率提升约 50 倍,且生成的样本质量能与“业界较强的扩散模型”相比较,为 AI 文生图提供了新的方案。 目前业界通常使用扩散模型生成图片及音视频,但传统扩散模型的取样过程通常缓慢,通常需要数十到数百个逐步降噪的过程才能生成高质量样本(例如小伙伴们使用 SD“炼丹”绘图就需要等待特别长的降噪时间),这使得相应模型效率低下,不适合商业化应用。 虽然目前业界已出现一些技术以加快扩散模型的速度,但无非只是利用复杂训练过程“提纯”模型,或通过降低输出样本质量下降以提升效率。 而 OpenAI 研究团队则提出了一种名为 sCM 的文生图方案,这一生成模型方法绕开了传统扩散模型范畴,号称仅需两个取样步骤即可生成与扩散模型质量相当的高分辨率样本,极大缩短了生成时间。 IT之家获悉,sCM 训练方法主要利用预训练扩散模型蒸馏出来的知识直接打造模型,号称能够在缩短取样时间的同时保持高质量样本生成。 ▲ 通过 sCM 方案训练的模型生成的图片 研究人员使用 ImageNet 512x512 数据集,利用 sCM 方法训练模型,号称能够生成细节丰富且高质量的图像,展示其在高分辨率生成方面的能力。尽管 sCM 只有两个取样步骤,生成样本的质量仍接近业界“最佳的扩散模型”,号称“差异不到 10%”。
诺贝尔奖是AI发展的里程碑时刻!DeepMind联创Hassabis获奖后最新专访
【新智元导读】今年的诺奖将物理和化学两个领域的奖项都颁给了AI成果,这究竟代表着怎样的含义,又会产生怎样的影响?Demis Hassabis在本次专访中提出了自己的见解。 10月,DeepMind联合创始人兼CEO Demis Hassabis凭借AlphaFold成为了诺贝尔化学奖的三位共同获奖者之一。 作为一种人工智能软件,AlphaFold解决了一个生物学界50年前提出的问题:预测每种已知蛋白质的结构。 事实上,AlphaFold这个极具开创性的模型,也仅仅是DeepMind成果的一部分。成立15年来,DeepMind已经跻身为全球最重要的AI实验室之一。 尽管被谷歌收购、与Google Brain合并后加入了一些商业考量,但他们目前仍然专注于科学和工程中最复杂和基本的问题,最终设计出能够模仿,甚至取代人类认知能力的强大AI。 获得诺奖后不到24小时,Demis Hassabis就接受了《金融时报》记者Madhumita Murgia的采访,讨论了DeepMind下一步将要解决的重大难题、AI对科学进步的作用,以及他本人对AGI之路的前景预测。 Demis Hassabis在谷歌DeepMind伦敦总部 AI4Science的下一个挑战 AlphaFold 3的相关进展,就一定程度上彰显了DeepMind在生物学领域下一步的前进方向——理解生物体内的相互作用,最终对整个通路进行建模,甚至可以构建出一个虚拟细胞。 此外,通过DeepMind子公司Isomorphic的努力,他们也在进军药物发现领域——设计全新的化合物、找到结合位置,并预测出这些物质的特性、吸收性、毒性等等。 目前,Isomorphic还与礼来、诺华等公司合作开展了6个药物研发计划,有望未来几年内在临床上有所进展,希望能大幅缩减药物发现所需时间,从而帮助治愈一些疾病。 除了生物学领域,Hassabis也表示对材料设计领域的工作感到十分兴奋。 去年,他们在Nature上发表的一篇论文提出了名为GNoME的AI工具,实现了AlphaFold 1级别的材料设计,共发现了220万个新晶体;下一步,就需要努力达到AlphaFold 2级别。 论文地址: https://www.nature.com/articles/s41586-023-06735-9 数学方面,AlphaProof和AlphaGeometry已经在今年达到了IMO银牌的水准,接下来的几年,DeepMind将尝试借助AI的力量真正解决一个重要的数学猜想。 对于能源和气候领域,去年在Science上发表的Graphcast模型能在1分钟内以前所未有的精度预测未来10天的天气。 论文地址:https://www.science.org/stoken/author-tokens/ST-1550/full 这其中的技术,或许可以帮助进行气候建模,这对于应对气候变化、优化电网等领域都非常重要。 可以看出,DeepMind的未来蓝图中,重点更多地放在应用和工程实践层面,旨在将技术进一步转化为能够影响现实世界的工作,而非纯粹的基础研究。 对此,Hassabis表示,「蛋白质折叠」是一个「可遇不可求」的「挑战」,不能要求每个问题都有如此含金量。 「蛋白质折叠」这个问题如此核心且重要,相当于生物学领域的费马大定理,但可惜的是,没有多少问题足够重要、探索时间足够长,能够被称之为「挑战」。 诺奖将成为AI的分水岭 今年的诺贝尔物理和化学奖项接连颁给AI学者,这很有趣,但谁也说不清评奖委员会为什么会做出这样的决定。 对此,Hassabis如何理解? 他表示,这很像是委员会特意发表的一种「声明」,也将成为AI的分水岭时刻,标志着它的技术成熟度得到了足够的认可,能够协助科学发现。 AlphaFold就是最好的例子,而Hinton和Hopfield的奖项则是针对更基础、更底层的算法工作。 Hassabis表示,希望10年后回顾当下时,AlphaFold将预示着所有这些不同领域的科学发现的新黄金时代。 这也带来了一个有趣的问题:有了AlphaFold这样的工具,科学家们不再需要花费过多的时间和精力来进行预测,这是否意味着我们应当去开拓新的领域?甚至改变学习科学概念的方式? 需要注意的是,AI系统是一类独特的新工具,它们具有一些内在的功能,因而不适用于传统意义上对工具的分类。 虽然AlphaFold等工具目前只能做到预测,但从某种意义上说,预测也是「理解」的一部分。如果你能预测,那就可以带来理解。 甚至,如果预测的输出足够重要,比如蛋白质的结构,那么它本身就是有价值的。 从更宏大的视角来看,科学中包含了很多层次的「抽象」。 比如,整个化学领域就是建立在物理学的基础上。你不需要理解量子力学等全部的物理原理,也可以谈论原子化合物,在化学自身的抽象层去理解它。 对生物学领域而言,我们可以研究生命,但仍然不知道生命是如何进化或出现的,甚至无法正确定义「生命」这个概念。 类似的,人工智能也像一个抽象层,构建程序和网络的人们在一定的物理层面上理解这一点,但随后产生的预测结果就像一种突然涌现的属性,我们可以在科学的层面上自行分析这些预测。 AGI迫近,理解很重要 无论是自然科学,还是人工智能系统,「理解」都很重要。 人工智能是一门工程学科,这意味着你必须先建造出一个系统,之后才能研究、理解这个对象;而自然科学中的现象不需要制造,是天然存在的。 虽然AI系统是工程化的人造物,但这并不意味着比自然现象更容易研究,甚至可以预期到的是,它会像生物神经网络一样难以理解、分拆和解构。 现在这种情况正在发生,但我们已经取得了一些进展,比如有一个专门的领域叫做「机械解释」(mechanistic interpretation),就是使用神经科学的观念和工具来分析AI系统这个「虚拟大脑 」。 对于AI的可解释性,Hassabis非常乐观,认为未来几年就会在理解AI系统这方面取得很大进展。 当然,AI也可以学着解释自己。想象一下将AlphaFold与语言能力系统结合起来,它就可以一边预测,一边解释自己在做什么。 目前,很多领先的实验室正在缩小他们的探索范围,专注于对Transformers进行扩展。不可否认,这是一个很好的方向,也将成为最终AGI系统的关键组成部分,但DeepMind会继续坚持探索和创新研究。 事实上,对于发明下一代Transformer而言,DeepMind拥有迄今为止最广泛、最深入的研究平台,这是他们科学遗产的一部分。 这些探索都是必要的,一部分原因是为了看看我们能走多远,这样就知道需要探索什么。 探索新想法,以及将令人兴奋的想法发挥到极致,这两条路都很重要。如果你不了解当前想法的绝对局限,也不会知道需要哪些突破。 LLM的长上下文窗口就是一个很好的例子。谷歌Gemini 1.5 Pro做出的2M token上下文就是一个很酷的创新,目前没有其他人能够复制。 谷歌DeepMind伦敦办公室 理解AI,才会有安全的AGI Hassabis和很多科技领袖都曾预测,实现AGI还需要5~20年的时间。 如果要用科学方法实现这一目标,就意味着更多的时间、精力和思考,集中在AI的理解和分析工具、基准测试和评估上,需要目前投入的10倍。 这些投入不仅来自科技公司,还应包括AI安全机构,也来自学术界和民间社会。我们需要了解AI系统正在做什么、它们的局限性,以及如何控制和保护这些系统。 「理解」是科学方法的重要组成部分,却是纯工程中所缺少的。工程只是旁观——这个方法有效吗?如果不起作用就再试一次,充满了试验和误差。 科学则是在一切发生之前就能理解的东西。理想情况下,这种理解意味着更少的错误。这对于AI和AGI来说很重要,因为在运用一项如此强大的技术时,你希望尽可能少地犯错误。 也许几年后,当我们接近AGI时,就会出现一个社会问题——我们希望这些系统具有什么价值?我们要为它们设定什么样的目标? 这与技术问题不同。技术层面关注的是如何让系统走上正轨,朝着设定的目标前进,但并不能帮助我们决定目标应该是什么。 为了安全的AGI系统,技术问题和社会问题,这两件事都需要正确,但Hassabis认为,后者可能更难实现。 目标和价值观等一系列问题,会更多地涉及UN和地缘政治,甚至社会科学和哲学,需要与政府、学术界和民间社会各阶层进行广泛的讨论。 即使AGI还需要10年才能实现,我们解决这些问题的时间也并不是很多,因此这方面的讨论应该从现在开始,让各种来源、各种观点的声音呈现在桌面上。
让AI像人类一样操作手机,华为也做出来了
用不了多久就要实装了? 这个星期,AI 大模型突然迈上了一个新台阶,竟开始具备操作计算机的能力! 从 AI 创业公司,科技巨头到手机厂商,都纷纷亮出了自己的新产品。 先是微软发布了商业智能体,随后 Anthropic 推出了升级版大模型 Claude 3.5 Sonnet。它能够根据用户指令移动光标,输入信息,像人一样使用计算机。 甚至已经有人基于 Claude 3.5 Sonnet 的这个功能开发出了验证码破解工具 ——CAPTCHA 这个原本用来分辨人类与 bot 的验证机制已然挡不住 AI 了。在 X 用户 @elder_plinius 分享的这个示例中,Claude 突破了 Cloudflare 为 OpenAI 提供的验证码服务,让其相信自己是一个人类,然后成功打开了 ChatGPT 的聊天窗口。 据介绍,其实现起来也非常简单,就是在系统指令中设定:当看见 CAPTCHA 时,就点击有灰色边框的白色方块中心。 就在同一天,荣耀正式推出了 MagicOS 9,通过 AI 智能体开启了「自动驾驶」手机的新模式。只需要跟语音助手说我要点杯美式,AI 就会自动点开美团,选择瑞幸的门店下单,你只需要最后点击付款就可以了。 这时候就有人问了: 鸿蒙什么时候跟进? 其实最近,华为的一些研究也正在探索这一领域。 我们知道,要让 AI 操控手机,基于手机屏幕的 UI 元素等视觉信息来实现是一种非常通用的解决思路。用 GPT-4o 和 Claude 等大型模型固然能做到这一点,但问题在于使用成本比较高,而且响应速度也不佳,不太适合日常应用。 针对这些问题,华为诺亚方舟实验室和伦敦大学学院(UCL)汪军团队提出了一个手机控制架构:Lightweight Multi-modal App Control,即轻量级多模态应用控制,简称 LiMAC。 论文标题:Lightweight Neural App Control 论文地址:https://arxiv.org/pdf/2410.17883 该架构结合了 Transformer 网络和一个小型的微调版 VLM。首先,由一个紧凑型模型(约 500M 参数量)处理任务描述和智能手机状态,该模型可以有效地处理大部分动作。对于需要自然语言理解的动作(比如撰写短信或查询搜索引擎),就会调用一个 VLM 来生成必需的文本。这种混合方法可减少计算需求并提高响应能力,从而可显著缩短执行时间(速度可提高 30 倍,平均每个任务只需 3 秒)并提高准确度。 LiMAC 框架简介 首先给出定义,对于用户的目标 g 和手机在时间 t 的状态,LiMAC 会使用 Action Transformer(AcT)来进行处理,以确定一个动作类型 a^type_t。如果预测得到的类型是 input-text 或 open-app 中的一个,则将 g、o_t 和 a^type_t 传递给一个经过微调的 VLM,其负责确定具体的动作 a^spec_t。 对于需要「点击」的动作,AcT 会直接处理所有预测,但采用了一个不同的训练目标,即对比 UI 元素嵌入以确定最可能交互的目标。 模型输入 AcT 是负责预测动作类型的模型(之后还会点击目标),其是基于一种经典 Transformer 架构构建的。但不同于标准 Transformer(其 token 是文本或字符),AcT 的 token 是映射到 Transformer 的隐藏维度的预训练的嵌入。如图 1 所示。 这些 token 表示了三个关键元素:用户的目标 g、手机屏幕上的 UI 元素 o_{t,i} 和可能的动作。 通过使用这些预训练的嵌入作为输入,该框架允许模型有效地捕获用户意图、界面的当前状态和可用动作集之间的关系。在该设计中,每种关键元素(UI 元素、动作和目标)都会被该 Transformer 处理成嵌入。每种元素的详细编码过程请访问原论文。此外,为了表示时间信息,该团队还为各个时间步骤的所有嵌入添加了一个可学习的位置编码 p_t。 构建输入序列 生成目标、UI 元素和动作嵌入后,需要将它们组织成一个代表整个交互事件(episode)的序列。数据集中的每个交互事件都被编码为嵌入序列 x,然后输入到 Transformer 中。 该序列始于目标嵌入 e_g,然后是时间步骤 0 处的 UI 元素嵌入 e^ui_{0,i},编码所有 UI 元素之后,将添加一个特殊的结束标记 e^end。之后,再加上时间步骤 0 处的动作类型 e^type_0 和规范 e^spec_0 嵌入。每个后续时间步骤都会重复这一过程:编码 UI 元素、附加 e^end 并添加动作嵌入。对于具有 H 个时间步骤的交互事件,最终序列为: 在训练过程中,会将完整序列输入到该 Transformer。对于时间步骤 t 处的推理,则是处理直到第 t 次观察的序列,并使用隐藏状态 h_t(直到 e^end)来预测动作。 动作类型预测 在该工作流程中,对下一个动作的预测始于确定其动作类型。 预测动作类型 a^type_t 的任务可被描述为一个分类问题 —— 具体来说,这里包含 10 个不同的动作类型。这些动作类型代表各种可能的交互,例如单击、打开应用、向下滚动、输入文本或其他基本命令。 该团队使用专门的 head 来实现动作类型预测。动作类型 head(记为 f_type)可将 Transformer 的最终隐藏状态 h_t(在 e^end token 之后)转换为可能动作类型的概率分布: 此任务的学习目标是最小化预测动作类型和实际动作类型之间的交叉熵损失。给定数据集 D,动作类型预测的交叉熵损失定义为: 使用经过微调的 VLM 生成动作执行中的文本 如上所述,该智能体首先会预测动作类型。在十种动作类型中,有两种需要文本:input-text 和 open-app 动作。顾名思义,input-text 动作就是将文本输入到一个文本框中,而 open-app 动作需要指定要打开的应用的名称。 对于这些动作,该团队使用了一个应用控制数据集来微调 VLM。该数据集以类似字典的格式提供动作数据,例如:{"action-type":"open-app","app-name":"Chrome"},其中一个键对应于动作类型,另一个对应于具体动作。 这个 VLM 的训练目标是生成一个 token 序列并使该序列正确对应于每个动作的成功完成,从而根据每个时间步骤的观察结果优化生成正确 token 的可能性。 在推理过程中,AcT 预测动作类型后,它会引导 VLM,做法是强制模型以预测的动作类型开始响应。 举个例子,如果 AcT 预测的动作类型是 input-text,则会强制让 VLM 按以下 token 模型开始给出响应:{"action-type":"input-text","text": 然后,该 VLM 会继续补全这个具体动作,得到 a^spec_t,这是动作所需的文本内容。完整的动作选择流程如图 2 所示。 使用对比目标和 AcT 实现高效的点击定位 在介绍了如何为文本操作生成操作规范之后,我们再转向点击操作的情况,其中规范是与之交互的 UI 元素。 为了预测点击操作的正确 UI 元素,该方法采用了一种在整个情节中运行的对比学习方法,使用余弦相似度和可学习的温度参数。由于 UI 元素的数量随时间步长和情节而变化,因此对比方法比分类更合适,因为分类在处理测试情节中比训练期间看到的更多的 UI 元素时可能会受到类别不平衡和限制的影响。 让 h^type_t 成为 Transformer 的最后一个隐藏状态,直到嵌入 e^type_t ,f_target 是将隐藏状态投影到嵌入空间的仿射变换。同时,与 UI 元素嵌入相对应的 Transformer 的隐藏状态(表示为 h^ui)也被投影到相同的嵌入空间中: 假设嵌入空间位于 ℝ^d 中,查询嵌入 q^type_t 的维度为 1 × D,而表示所有 UI 元素的矩阵 p^ui 的维度为 K × D,其中 K 是交互事件中的 UI 元素总数。目标是训练模型,使 q^type_t 与时间步骤 t 处的正确 UI 元素嵌入紧密对齐,使用余弦相似度作为对齐度量。为了实现这一点,该团队采用了对比训练技术,并使用 InfoNCE 损失。我们首先计算查询嵌入 q^type_t 与所有 UI 元素嵌入之间的相似度矩阵,并通过可学习参数 τ 缩放相似度。缩放余弦相似度矩阵定义为: 其中, 是 p 的每一行的 L2 范数。 为了简单,这里去掉了上标。 于是,交互事件中 UI 元素选择的 InfoNCE 损失的计算方式如下: 其中,S+ 是 Transformer 的输出与点击操作的正确 UI 元素之间的缩放相似度,S_i 表示输出与所有其他 UI 元素之间的相似度。 在推理过程中,对于每个需要目标元素的操作,都会选择相似度最高的 UI 元素。 这种对比方法使 AcT 能够通过将情节中的所有其他 UI 元素视为反面示例,有效地了解在点击操作期间要与哪些 UI 元素进行交互。 余弦相似度的使用侧重于嵌入的方向对齐,而可学习温度 τ 则在训练期间调整相似度分布的锐度,从而允许更灵活、更精确地选择 UI 元素。 实验 在实际工作的验证中,作者主要考察了两个开放的手机控制数据集 AndroidControl 和 Android-in-the-Wild(AitW)。 这两个数据集都包含大量人类演示的手机导航,涵盖各种任务。 表 1: 在 AitW 和 AndroidControl 数据集上,模型的平均推理时间和总体准确度的比较。 该表显示了每个模型的大小、平均推理时间(以秒为单位,数字越小越好)以及两个数据集的总体准确度(数字越大越好)。 T3A 和 M3A 是基于 GPT-4 操纵的基线。 下图展示了一些成功和失败的案例。 图 4:黄色表示目标元素(时间步骤 3),红色表示失败的操作(最后时间步骤)。在最后时间步骤中,代理输入文本「底特律」而不是「拉斯维加斯」,这明显混淆了目标中所述的旅行的出发地和目的地,导致预测错误。 图 5:黄色表示输入文本(时间步骤 4),整体成功。 综上所述,LiMAC 作为一个解决应用程序控制任务的轻量级框架,可以从手机屏幕中提取 UI 元素,并使用专门的视觉和文本模块对其进行编码,然后预测下一个操作的类型和规格。 对于需要文本生成的操作,LiMAC 也可以使用经过微调的 VLM 来确保成功完成。将 LiMAC 与由最先进的基础模型支持的六个基线进行比较,并在两个开源数据集上对它们进行评估。结果表明,LiMAC 可以超越基线,同时在训练和推理方面所需的计算时间明显减少。这表明 LiMAC 能够在计算能力有限的设备上处理任务。 作者表示,目前 AI 操纵手机方法的主要限制在于训练数据有限,这就阻碍了模型在更复杂任务上的能力。下一步研究的目标是通过结合在线学习技术(例如强化学习)来提高模型的性能。
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
【新智元导读】科幻中的贾维斯,已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。 AI接管人类电脑,就是下一个未来! 几天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。 刚刚,Information独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。 谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。 起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。 无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。 论文地址:https://arxiv.org/pdf/2408.00203 OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。 不仅如此,OpenAI内部已有了AI智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。 包括苹果在内,预计在明年发布跨多个APP屏幕识别能力。最新迭代的Ferret-UI 2,就是通用UI模型。 可见,「Computer use」已经成为科技大厂们,重点发力的下一个战场。 谷歌「贾维斯」年底出世,最强Gemini 2加持 代号为Jarvis Project项目,本质上是一个大动作模型(LAM),也是谷歌一直以来在做的大模型方向。 它专门针对谷歌Chrome浏览器,进行了优化。 具体操作原理,与Claude 3.5类似,通过截屏、解析屏幕内容,然后自动点击按钮,或输入文本,最终帮助人们完成基于网页的日常任务。 不论是收集研究信息、购物,或是预定航班等任务,谷歌「贾维斯」均可实现。 不过,它在执行不同操作时,中间会有几秒钟的思考时间。 因此,在终端设备中运行还不太现实,仍然需要云上操作。 5月的谷歌I/O大会上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何协同工作的样貌。 如前所述,谷歌「贾维斯」将由Gemini 2.0加持,也就意味着年底我们可以看到进步版Gemini模型。 尽管Sam Altman否认了Orion模型的发布,但外媒猜测,预计年底OpenAI也将放出新核弹 微软OmniParser也下场了 紧接着Claude「计算机使用」发布之后,微软就开源了AI框架OmniParser。 假设你想要去布赖斯峡谷国家公园,不知是否需要订票入园,这时OmniParser可以带你查询。 它会解析屏幕后,自动点击「permits」按钮,然后再截屏找到「布赖斯峡谷国家公园」,最后就可以完成用户任务。 可见,想要把类似GPT-4V的多模态大模型应用于操作系统上,模型还需要具备强大的屏幕解析能力,主要包括两方面: 1、准确地识别用户界面中的可交互图标; 2、理解屏幕截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。 基于上述思路,微软最新提出的OmniParser模型,可以将用户界面截图解析为结构化元素,显著增强了GPT-4V在对应界面区域预测行动的能力。 方法 一个复杂的操作任务通常可以分解成多个子行动步骤,在执行过程中,模型需要具备以下能力: 1、理解当前步骤的用户界面,即分析屏幕内容中大体上在展示什么、检测到的图标功能是什么等; 2、预测当前屏幕上的下一个动作,来帮助完成整个任务。 研究人员发现,将这两个目标分解开,比如在屏幕解析阶段只提取语义信息等,可以减轻GPT-4V的负担;模型也能够从解析后的屏幕中利用更多信息,动作预测准确率更高。 因此,OmniParser结合了微调后的可交互图标检测模型、微调后的图标描述模型以及光学字符识别(OCR)模块的输出,可以生成用户界面的结构化表示,类似于文档对象模型(DOM),以及一个叠加潜在可交互元素边界框的屏幕截图。 可交互区域检测(Interactable Region Detection) 从用户界面屏幕中识别出「可交互区域」非常关键,也是预测下一步行动来完成用户任务的基础。 研究人员并没有直接提示GPT-4V来预测屏幕中操作范围的xy坐标值,而是遵循先前的工作,使用标记集合方法在用户界面截图上叠加可交互图标的边界框,并要求GPT-4V生成要执行动作的边界框ID。 为了提高准确性,研究人员构造了一个用于可交互图标检测的微调数据集,包含6.7万个不重复的屏幕截图,其中所有图像都使用从DOM树派生的可交互图标的边界框进行标记。 为了构造数据集,研究人员首先从网络上公开可用的网址中提取了10万个均匀样本,并从每个URL的DOM树中收集网页的可交互区域的边界框。 除了可交互区域检测,还引有一个OCR模块来提取文本的边界框。 然后合并OCR检测模块和图标检测模块的边界框,同时移除重叠度很高的框(阈值为重叠超过90%)。 对于每个边界框,使用一个简单的算法在边框旁边标记一个ID,以最小化数字标签和其他边界框之间的重叠。 整合功能的局部语义(Incorporating Local Semantics of Functionality) 研究人员发现,在很多情况下,如果仅输入叠加了边界框和相关ID的用户界面截图可能会对GPT-4V造成误导,这种局限性可能源于GPT-4V无法「同时」执行「识别图标的语义信息」和「预测特定图标框上的下一个动作」的复合任务。 为了解决这个问题,研究人员将功能局部语义整合到提示中,即对于可交互区域检测模型检测到的图标,使用一个微调过的模型为图标生成功能描述;对于文本框,使用检测到的文本及其标签。 然而,目前还没有专门为用户界面图标描述而训练的公共模型,但这类模型非常适合目标场景,即能够为用户界面截图提供快速准确的局部语义。 研究人员使用GPT-4o构造了一个包含7000对「图标-描述」的数据集,并在数据集上微调了一个BLIP-v2模型,结果也证明了该模型在描述常见应用图标时更加可靠。 实验评估 SeeAssign任务 为了测试GPT-4V模型正确预测边界框描述所对应的标签ID的能力,研究人员手工制作了一个名为SeeAssign的数据集,其中包含了来自3个不同平台(移动设备、桌面电脑和网络浏览器)的112个任务样本,每个样本都包括一段简洁的任务描述和一个屏幕截图。 根据难度,任务被分为三类:简单(少于10个边界框)、中等(10-40个边界框)和困难(超过40个边界框)。 GPT-4V不带局部语义的提示: Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [xx]‘‘‘ 带局部语义的提示: Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘Box with label ID: [xx]‘‘‘ 从结果来看,GPT-4V经常错误地将数字ID分配给表格,特别是当屏幕上有很多边界框时;通过添加包括框内文本和检测到的图标的简短描述在内的局部语义,GPT-4V正确分配图标的能力从0.705提高到0.938 ScreenSpot评估 ScreenSpot数据集是一个基准测试数据集,包含了来自移动设备(iOS、Android)、桌面电脑(macOS、Windows)和网络平台的600多个界面截图,其中任务指令是人工创建的,以确保每个指令都对应用户界面屏幕上的一个可操作元素。 结果显示,在三个不同的平台上,OmniParser显著提高了GPT-4V的基线性能,甚至超过了专门在图形用户界面(GUI)数据集上微调过的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。 还可以注意到,加入局部语义(表中的OmniParser w. LS)可以进一步提高整体性能,即在文本格式中加入用户界面截图的局部语义(OCR文本和图标边界框的描述),可以帮助GPT-4V准确识别要操作的正确元素。 Mind2Web评估 测试集中有3种不同类型的任务:跨领域、跨网站和跨任务,可以测试OmniParser在网页导航场景中的辅助能力。 结果显示,即使没有使用网页的HTML信息,OmniParser也能大幅提高智能体的性能,甚至超过了一些使用HTML信息的模型,表明通过解析屏幕截图提供的语义信息非常有用,特别是在处理跨网站和跨领域任务时,模型的表现尤为出色。 AITW评估 研究人员还在移动设备导航基准测试AITW上对OmniParser进行了评估,测试包含3万条指令和71.5万条轨迹。 结果显示,用自己微调的模型替换了原有的IconNet模型,并加入了图标功能的局部语义信息后,OmniParser在大多数子类别中的表现都有了显著提升,整体得分也比之前最好的GPT-4V智能体提高了4.7%。 这表明了,模型能够很好地理解和处理移动设备上的用户界面,即使在没有额外训练数据的情况下也能表现出色。 参考资料: https://microsoft.github.io/OmniParser/ https://x.com/Prashant_1722/status/1850265364158124192
OpenAI语音转录工具被曝严重幻觉:转录100小时,一半儿在瞎扯
OpenAI的AI语音转写工具,那个号称近乎“人类水平”的Whisper,被曝幻觉严重—— 100多小时转录,被工程师发现约一半都在瞎扯。 更严重的是,美联社还爆料有医疗机构利用Whisper来转录医生与患者的会诊,瞬间引发大量网友关注。 据悉,明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。 而且他们已经转录了大概700万次医疗就诊。 网友纷纷表示这就有点吓人了。 值得一提的是,OpenAI之前早就警告过,该工具不应在“高风险领域”中使用。 针对最新爆料,有OpenAI发言人回应,OpenAI会在模型更新中加入相应的反馈机制。 OpenAI被督促赶紧解决此问题 Whisper是OpenAI老早前推出的开源自动语音识别(ASR)系统,于2022年9月发布。 它采用简单的端到端方式,基于编码器-解码器Transformer架构。输入音频将被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。 经过68万小时的多语言和多任务监督网络数据的训练,Whisper可以进行多语言转录。 Whisper推出后得到广泛应用,如今GitHub已揽获70.2k标星: 据悉,它还被集成在ChatGPT的一些版本中,同时也是Oracle和微软云计算平台的一项内置服务,而这些平台为全球数千家公司提供服务。 此外,仅在上个月,HuggingFace上的一个最新版本Whisper就被下载了超420万次。HuggingFace社区的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型。 而现在,据美联社报道,很多研究人员和工程师反映,在工作中他们经常遇到Whisper产生的幻觉。 例如,密歇根大学的一位研究员在尝试改进模型之前,发现其检查的每10份音频转录中有8份出现了幻觉。 一位机器学习工程师指出,在他分析的超过100小时Whisper转录中,大约一半出现了幻觉。 还有一位开发者表示,在他使用Whisper创建的26,000份转录中,几乎每一份都发现了幻觉。 …… 这种问题甚至存在于录制良好的短音频样本中。 在最近的一项研究中,计算机科学家们在审查的超过13000个清晰音频片段中发现了187个幻觉。 工程师和研究人员表示,他们从未见过其它任何AI驱动的转录工具像Whisper这样频繁地产生幻觉。 Whisper幻觉严重的原因目前尚未可知,但有软件开发者表示,这些虚构内容往往发生在停顿、有背景声音或音乐播放时。 之前,OpenAI就有提醒: 不要在决策情境中使用Whisper,准确性上的缺陷可能导致结果出现明显偏差。 然鹅,美联社表示,这一警告并未阻止一些医院或医疗中心使用Whisper等语音转文字模型—— 包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内,已经有超30000名临床医生和40个医疗系统已经开始使用由Nabla公司基于Whisper开发的工具。 Nabla CTO Martin Raison称,该工具针对医疗语言对模型进行了微调,用于转录和总结患者的交流。 目前,该工具已被用于转录约700万次医疗就诊。 在得知Whisper可能会产生幻觉后,Nabla表示正在解决此问题,不过: 由于“数据安全原因”,Nabla的工具会删除原始音频,无法将Nabla生成的AI文本与原始录音进行比较。 此外,据了解,Whisper还被用来为聋人和听力障碍者创建字幕。 Whisper幻觉严重问题被发现后,有人敦促OpenAI赶紧解决此问题。 今年2月离开OpenAI的研究员William Saunders也开麦了: 如果公司愿意优先考虑,这似乎是可以解决的。如果你把它放出去,人们过于自信于它的功能,并将其集成到所有这些其他系统中,那就成了问题。 有OpenAI发言人回应称,公司持续研究如何减少幻觉现象,并感谢研究人员的发现,同时补充道OpenAI会在模型更新中融入相应反馈机制。 参考链接: [1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14 [2]https://x.com/AP/status/1850150400424345858 — 完 —
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
【新智元导读】AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。 AI智能体,能否像人类一样有效地评估其他AI智能体? 对于AI智能体来说,评估决策路径一直是棘手的问题。 已有的评估方法,要么只关注结果,要么要要过多的人工完成。 为了解决这一问题,田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。 简言之,让智能体来评估智能体系统,让AI审AI。 它不仅可以减少97%的成本和时间,还能提供丰富的中间反馈。 这是「LLM-as-a-Judge」框架的有机延伸,通过融入智能体特性,能够为整个任务解决过程提供中间反馈。 论文地址:https://arxiv.org/abs/2410.10934v1 研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。 通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」框架。 总之,这项研究真正的变革之处在于:它提供了可靠的奖励信号,为可扩展的、自我改进的智能体系统铺平了道路。 「法官」智能体,击败大模型 现有评估方法,无法为智能体系统的中间任务解决阶段,提供足够的反馈。 另一方面,通过人工进行更好的评估,代价太大。 而智能体系统的思考方式,更像人类,通常是逐步完成,并且在内部经常使用类人的符号通信来解决问题。 因此,智能体也能够提供丰富的反馈,并关注完整的思考和行动轨迹。 「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益,还具备智能体特性,使其在整个过程中提供中间反馈。 下图展示了,大模型、智能体、人类作为评判者的示意图。 DevAI:自动化AI开发数据集 另外,在代码生成领域,基准测试的发展也落后于智能体系统的快速进步。 比如,HumanEval仅关注算法问题,而MBPP则处理简单的编程任务,但这两者都没有反映出开发者面临的最实际的挑战。 作为一个改进,SWE-Bench基准确实引入了GitHub现实问题,提供一种全新评估的方法。 不过,它仍需要关注自动修复任务的开发过程。 为了解决当前代码生成基准测试中的上述问题,研究人员引入了DevAI:AI开发者数据集,其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。 DevAI结构是这样的:智能体系统首先接收用户查询以开始开发,然后根据AI系统满足需求的程度来评估它,其中偏好作为可选的、较为柔性的标准。 图3展示了DevAI任务的一个例子。 DevAI中的任务规模相对较小,但涵盖了常用的关键开发技术。 如图2所示,任务被标记并覆盖了AI的多个关键领域:监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。 每个任务都是,可能交给研究工程师的真实世界问题,并降低了在这个基准上评估方法的计算成本。 接下来,研究人员将领先的开源代码生成智能体框架,应用于DevAI中的任务:MetaGPT、GPT-Pilot、OpenHands。 他们让人类评判者、大模型评判者、以及智能体评判者框架,来评估其性能。 结果如表1所示,MetaGPT最具成本效益(1.19美元),而OpenHands是最昂贵的(6.38美元)。 从开发时间来看,OpenHands完成任务平均耗时362.41秒,而GPT-Pilot耗时最长,为1622.38秒。 平均而言,使用这三者之一对DevAI进行完整评估,大约需要210.65美元和14小时才能完成。 Human-as-a-Juge:DevAI手动评估 为了确定DevAI的实用有效性,并准确估计当前最先进的智能体系统实际代码生成能力,研究人员手动评估三个AI开发者基线在DevAI中的应用。 如表2所示,(I)和(D)代表独立性能与考虑任务依赖性的性能。 表示多个专家的进化,并且意味着评估使用白盒测试(允许访问生成的workspace、人类收集的轨迹和开源代码库)。 两种性能最好的方法(GPT-Pilot和OpenHands)可以满足大约29%的要求,但只有一项任务可以满足所有要求。 另外,在三位人类评估者之间,他们的个人评估存在大量分歧,说明了单一人类评估的不可靠性。 下图5总结了人类评估和共识评估的不匹配度。 𝗔𝗴𝗲𝗻𝘁-𝗮𝘀-𝗮-𝗝𝘂𝗱𝗴𝗲:智能体评估智能体 根据以往智能体设计的经验,并通过模仿人类评估过程,研究人员涉及了8个模块化交互组件,具体包括: 1 图像模块:构建一个图像,获取项目整个结构,包括文件、模块、依赖项,还可以将代码块分解为代码片段 2 定位模块:识别需求所引用的特定文件夹/文件 3 读取模块:超越了简单的文件解析,支持跨33种不同格式的多模态数据的读取和理解 4 搜索模块:提供了对代码的上下文理解,并且可以快速检索高度相关的代码片段,以及其背后细微差别 5 检索模块:从上下文中提取信息,识别轨迹中相关片段 6 查询模块:确定是否满足给定要求 7 记忆模块:存储历史判断信息,允许智能体基于过去记忆评估 8 规划模块:允许智能体根据当前状态和项目目标制定策略,并排序任务。 具体操作流程,如下图9所示。 下表3展示了,Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge,特别是在那些训在任务依赖关系的情况下。 评判开发者智能体,是一项类别不平衡的任务,满足要求的情况要比失败的情况少的多。 而判断转移和对齐率等指标可能会产生误导。比如,由于MetaGPT很少满足要求, LLM-as-a-Judge很容易将大多数情况识别为负面(在黑盒设置中达到84.15%)。 PR曲线通过平衡精确度和召回率,提供更清晰的性能衡量标准。 这表明,在某些情况 下,Agent-as-a-Judge几乎可以取代人类评估员。 最后,在消融研究中,研究人员分析了各种组件的添加,对Agent-as-a-Judge判断OpenHands性能的影响。 参考资料: https://x.com/tydsh/status/1846538154129375412
让千万网友着迷的 AI 巫师猫,凭什么成为小红书和 Instagram 的新顶流
秋天到了,《哈利波特》重映了,万圣节快来了,魔法的气息蠢蠢欲动了。 最近,一只 AI 生成的猫从海外火到国内,在 X、Instagram、小红书都拥有极高的人气。 爱意始于颜值,这是一只圆滚滚的橘猫,头戴尖顶的巫师帽,爪子握着魔杖,迷离的眼神大智若愚。可以形象地称它为,巫师猫。 巫师猫的一条短视频,在 Instagram 超过 1200 万次播放,还不断有人为它二创。 ▲图片来自:Instagram@tothemoonq888 不少网友感叹,这才是使用 AI 的正确方式。上网只为三件事,吸猫,吸猫,还是特么的吸猫。当然也有人满头问号,这也能火? 当一只 AI 猫成为网红 经过考古,巫师猫最早出现在 8 月 25 日,由分享猫咪图片投稿的 X 账号@gatinarios 发布,现在这条帖子超过 1250 万次浏览、22.3 万次点赞。 真正让巫师猫火起来的,是一系列脑洞大开的 AI 二创。 大口品尝拉丝芝士披萨,仍比人类老铁的吃播优雅几分。 ▲ 图片来自:Instagram@miyavlikedicikler 魔杖秒变左轮手枪,要是阁下不想看魔法,它也略懂一些拳脚。 ▲ 图片来自:X@Cheeseball_sol 熬了一锅魔法药水,它说紫色很有韵味。 ▲ 图片来自:X@venturetwins 骑上扫帚潇洒飞走,挥一挥斗篷,不带走一片云彩。 ▲ 图片来自:X@venturetwins 以古早 3D 游戏画风展现魔性舞蹈,轻轻松松在 Instagram 迷倒 34.2 万个人类。 ▲ 图片来自:Instagram@doro_daro 甚至连 3D 建模都有了,只差分享一个链接,已经准备好掏钱买来当书桌摆件。 ▲ 图片来自:X@masom_mamen 猫红了,诡计多端的人类便要蹭。 快手可灵官方生成了一个万圣节氛围感短视频,秀一秀自己的 AI 视频能力,然而东亚味图穷匕见,没想到连猫都要拿起电脑打工。 ▲ 图片来自:X@Kling_ai 硅谷知名投资机构 a16z 合伙人、专做 AI 公司投资的 Justine Moore 也给予了高度评价,说巫师猫是 Instagram 短视频的新顶流。 热衷方法论的小红书用户们,则教你怎么用 AI 制作巫师猫,授人以鱼不如授人以渔。 总之,时代变了大人,AI 让创作和二创表情包都更容易了。 迪士尼的粉色狐狸玲娜贝儿,本是没有故事的女同学,但迪士尼乐园工作人员的扮演和粉丝的二次创作赋予了它灵魂。 巫师猫的出道方式与之类似,现在已经有自己的社交帐号、网站甚至迷因币,堪比马斯克喜欢的狗头 Doge,这些动态就是它的故事,丰富着它的猫设。 甚至有网友觉得,它神似《哈利波特》的麦格教授。 只要形象够可爱,出厂设置再单薄,也会有人填补空白。这就叫,颜值即是正义,总会有妈妈爱你。 无聊的人类会吸电子猫吗 世界破破烂烂,萌物缝缝补补。从纸箱狗、猫 meme 的一度流行来看,猫,哪怕是 AI 生成的猫,受网友欢迎,是再正常不过的了。 其中或许有个原因,围绕宠物而不是人创作,更能让 AI 扬长避短,更不容易陷入恐怖谷。 它们不需要完全地拟人,也不需要和真实动物完全一致,哪怕稍显奇怪和夸张,善良的观众也会包容。 ▲ 图片来自:X@Cheeseball_sol AI 宠物并不是一条小众的赛道,巫师猫之前,这片沃土已被发掘。 当长辈向你催婚,追问等你老了谁照顾你,可以请他们看一段猫洗手作羹汤的 VCR。 ▲ 图片来自:Instagram@kimbingmei__ 连猫都有心事,草帽一戴成了酷盖,弹起吉他比《猫和老鼠》的汤姆多一分忧郁和深沉。 ▲ 图片来自:Instagram@nico.m.ai AI 提高了人们的生产力,让大家过得更快乐了吗?不好说,各有各的看法,但它确实改变了人们造梗和娱乐的方式。 这段时间,我的朋友圈流行一个 AI 特效:醒图 app 的「金箔岩彩」。它和猫猫狗狗的适配度很高,一键 get 新中式插画。甚至有铲屎官表示,不用花钱向画师约稿了。 AI 视频更是让人类的脑洞有了一万种落地的可能性,专业人士搞 AI 大片,挑战传统电影,但玩家们考虑怎么抽象和搞怪就可以了。 之前,海螺 AI 有个很出圈的视频,把经典电影桥段里的武器都变成冰淇淋,上一秒剑拔弩张,下一秒一笑泯恩仇,没有一个冰淇淋解决不了的问题,如果有,那就来两个。 ▲ 图片来自:X@Martin_Haerlin 我们自己复刻个七八成也很简单,上传图片,再输入文字提示词即可,特效从未如此简单。 这是一个人人都是创作者的时代,二创也能有很好的体验,AI 放飞想象力又能满足成就感,真「我上我也行」。 为爱发电可以,变现需要自知之明 为爱发电固然快乐,但成年人需要考虑现实,换句话说,AI 宠物有没有变现的可能? 这和任何内容垂类一样,高质量的金字塔尖,才能接点广告植入。但因为 AI 创作的高度自由,AI 宠物是个百搭体质,业务范围还挺广,包括但不限于服饰、电脑、汽车、奶茶…… ▲ 图片来自:小红书@橙子的橙啦 文案、图片为甲方讲故事固然好,也有更简单粗暴赚快钱的,先用讲 AI 猫咪小故事的短视频起号,时不时单发一条无关的广告。 当然,哪里也少不了卖课的。一些账号就像 AI 博主的周边,以月入几千甚至上万为噱头,分析变现思路和操作方法,然后拉群卖课,但它们自己的账号流量都低得可怜。 为了打破信息茧房,我加了一个吃这碗饭的小红书博主的群聊,由此知道,需要加微信,然后花近 700 元加入 AI 训练营,才能教你怎么 AI 视频号带货、AI 小红书壁纸变现…… 无意贬低,把 AI 当副业可能竹篮打水一场空,但李一舟们证明了信息差确实赚钱。看这些博主整理的教程,先从注册账号开始,就差把饭喂到嘴里了。 但这里存在一个问题,免费的教程一搜一大堆,希望别人手把手教、抱着焦虑心态、相信速成品也会被市场买单的用户,很难创作出好的东西,反而可能是白交了学费。 AI 宠物的本质,其实就是用 AI 设计可以打动用户的 IP,然后再持续运营,讲出故事。 在盲盒爆火的时候,IP 需不需要故事就已经被讨论过一波。 泡泡玛特 CEO 王宁曾说:「现在年轻人的时间碎片化。Molly 这类 IP 降低了时间的门槛,一分钟,你知道你喜不喜欢它……」 ▲将巫师猫变成可爱卡通风,图片来自:@BBIM_official 泡泡玛特的盲盒形象好歹也是艺术家精心设计的,AI 让创作 IP 形象更容易,但不代表可以轻易地打动用户。 之前我们采访过一位前游戏大厂员工、AI 游戏美术创作者。因为有专业背景,又热衷实践,所以上手 AI 对她来说不难。 ▲ 图片来自:knowyourmeme 她更关心的是:你喜欢的风格,是不是大部分人也会喜欢?你设计的游戏人物 IP,有没有强烈的风格,能不能让大家记住? AI 不是出不了好作品,但少不了时间和汗水。热点来了又走,焦虑长盛不衰,真正想要创造什么内容的人返璞归真——我们想要和需要用 AI 生成什么,我们怎么判断 AI 生成结果的好坏,以及,我们又愿意为之付出多少努力。
富士相机对决 OPPO Find X8 的胶片风格,手机不只是是富士平替
在手机影像配置卷到白热化的今天,你是否好奇过:手机摄影的下一个破局点,到底在哪里? 先请大家看一组照片: 如果我不说,也许有朋友会问,这不是近年来大火的富士胶片模拟吗?实际上,所有照片都是使用这台 OPPO Find X8 Pro 拍摄的,并且没有用任何专业软件做后期调色。 这种「类富士」的滤镜,其实是 Find X8 系列上三个全新的胶片风格,只需要动动手指,我们就能一键拍出富士风格的照片。 这是三组照片对比,你可以猜猜哪边是富士 XT5 拍的,哪边是 OPPO X8 系列拍的: 揭晓答案:这三组照片中,左边三张全都是富士,而右边三张全是 OPPO。 看完了扫街实景,我们再来看看两者人像的对比: 揭晓答案:这三组对比中,左边三张是 OPPO,右边三张是富士。 这三个胶片风格地位相当特殊特殊——以绝对强势的存在感,代替了曾经的哈苏自然色彩方案,成为这一代旗舰的影像「排头兵」。 想要探寻厂家对于手机影像的理解和构思,也许可以从这三个风格中找到蛛丝马迹——OPPO Find X8 系列除了复古,还有清新与通透两个风格,这些风格分别有什么区别?该怎么用?它们背后的设计逻辑,是怎么暗示影像下一步方向的? 三种风格,各有千秋 要说这三款胶片风格中最抓人眼球的,要数这个风靡一时、足以「以假乱真」的复古风格。 由复古风格拍摄的照片,相当有辨识度:画面整体呈现出较高的对比度,偏亮的高光渲染了一层橙黄,阴影则偏向碧绿 ,这与富士 NC 胶片模拟的色彩倾向非常相似,能够一秒将人带回浓烈又厚重的胶片时代,堪称富士「平替」。 在社交平台上,经常看到有帖子提问:为什么我拍的照片总是那么灰。 发灰的画面其实是因为由于手机影像传感器面积逐年变大、摄影算法逐渐变强,导致画面可以容纳的明暗范围更多,但受制于 sRGB 色彩空间标准,画面变得越来越灰。 这听起来有点复杂,你可以将其理解为照片是一个盘子,向照片塞入更多的明暗细节就像在这个盘子上堆积更多食物,但 sRGB 这个小盖子盖下来时,本来铺满盘子的明暗细节就被挤成这个盖子的大小了,最终呈现的画面自然而然地显得灰暗,失去对比度和层次感。 想要恢复舒适的影调,往往需要用专业的后期软件去调试,但现在,使用 OPPO Find X8 系列中的清新胶片风格拍摄照片,可以直接解决这个麻烦。 清新风格在影调上与复古胶片风格类似,画面以高对比度的影调呈现,同时通过降低周围环境中的颜色饱和度,为画面去灰解腻。 有浓烈炽热就有清淡温和,最后一个通透风格就是如此。 使用通透风格拍照时,照片像素集中在温和的中间调,呈现低对比度,保持画面饱和度的同时,还把白平衡拉低,使其发色整体偏冷。 通透风格藏在前两个锋芒毕露的效果之后,展现自己收放自如的功底。 胶片风格操作指南 风格化固然好用,但世上没有万能的配方,就像用扫把拖地一样,一旦用错了环境,翻车也并不少见,不同的胶片风格,必须要挑到合适的场景,才能让这些独特的颜色更出彩。 我们对三个胶片风格进行测试并总结了一份操作文档,帮助你更好地使用它们。 首先是最受欢迎的复古风格,由于明暗对比度高、颜色浓郁,复古风格不适合在颜色杂乱的地方使用——配合颗粒,很容易出现画面变脏的情况。 同时,如果有人物出镜,要注意将人脸和皮肤尽量放在受光面,否则人脸和皮肤也会呈现酱油色。 而它擅长的,是有大面积纯色的环境——尤其是绿色。 在后期调色时,我觉得画面中最棘手的、最难处理好看的就是绿色,与富士 NC 胶片模拟类似,复古风格会将绿色偏移向浓郁的墨绿,将原本麻烦的绿色处理得好看、耐看。 综合这些特点,复古风格非常适合在有质感、有阳光照射、尤其是画面中存在绿色的场景使用。 虽然复古风格很亮眼,但在生活中 存在大色块的环境终究是少数,更多情况下,我们镜头中的场景与颜色都比较杂乱。 此时,清新风格可以大展拳脚,利用其高对比、低饱和的特点,清新风格可以有效将画面中的杂乱色减弱,降低存在感,大大突出画面主体。 但同样的,由于清新风格也会加强画面的对比度,所以想要人像的清新通透,需要尽量将人物放在受光面,或是正确曝光,才能获得一个不错的效果。 最后,对于那些布置干净、颜色简单的环境,直接拍摄的照片会显得有些白开水,此时就可以用上三个风格中最平和的通透滤镜。 较低的明暗对比度和适中的饱和度,将宁静与平和的氛围融入画面,进一步营造画面的氛围感。 特别是在白色环境中,有暖色作点缀时,通透风格会将画面向冷偏移,白色更亮眼、暖色更突出,效果会更好。 三个胶片风格,三种明显不同的倾向,选择之多,总会有你喜欢的一个。 建立在审美上的照片,也许是未来方向 走进手机影像的下半场,照片正在从「拍得好」走向「我觉得好」,在客观标准逐渐过渡到主观感受的过程中,审美,成为了关键。 拍摄了《大提顿和蛇河》的摄影家安赛尔·亚当斯对此早有预言: You don’t take a photograph, you make it. 意思是,照片美不仅仅在于捕捉瞬间,更是你的创意和审美共同打造出来的。 ▲《大提顿与蛇河》安赛尔·亚当斯 为了「美」,专业摄影师可以将大把时间放在审美提升上,但普通用户可不行,工作和生活已经占据了我们绝大部分精力,根本没空再去深入学习美学知识与后期软件。 为了让大家更轻松地拍照,OPPO 将目光转移到了风格化方案上,而在摄影厂商中,早有两家厂商打造了极具审美代表性的风格:哈苏与富士。 这两家扮演对手戏的厂商,在风格上各有所长:哈苏以自然色彩科学出名,参考自然之美,巧妙地将肉眼所见的画面保留下来;而富士,则是钻研银盐颗粒,将胶片时代数十年的色彩积累带到数码照片上。 OPPO 先与哈苏合作,将自然色彩带到了手机上,再推出了三个胶片风格,集众家之长,打造出哈苏与富士的双重平替,为你提供更多选择。 这些举措听起来复杂,但它们的目标都十分明确——不需要你再花时间成本,去学习美学知识与复杂的后期软件,直接在每个人都会用到的手机上,提供一系列现成的美学基础。 你可以在这个基础上,任意选择符合你的「美」。
富士相机对决 OPPO Find X8 的胶片风格,手机不只是富士平替
在手机影像配置卷到白热化的今天,你是否好奇过:手机摄影的下一个破局点,到底在哪里? 先请大家看一组照片: 如果我不说,也许有朋友会问,这不是近年来大火的富士胶片模拟吗?实际上,所有照片都是使用这台 OPPO Find X8 Pro 拍摄的,并且没有用任何专业软件做后期调色。 这种「类富士」的滤镜,其实是 Find X8 系列上三个全新的胶片风格,只需要动动手指,我们就能一键拍出富士风格的照片。 这是三组照片对比,你可以猜猜哪边是富士 XT5 拍的,哪边是 OPPO X8 系列拍的: 揭晓答案:这三组照片中,左边三张全都是富士,而右边三张全是 OPPO。 看完了扫街实景,我们再来看看两者人像的对比: 揭晓答案:这三组对比中,左边三张是 OPPO,右边三张是富士。 这三个胶片风格地位相当特殊特殊——以绝对强势的存在感,代替了曾经的哈苏自然色彩方案,成为这一代旗舰的影像「排头兵」。 想要探寻厂家对于手机影像的理解和构思,也许可以从这三个风格中找到蛛丝马迹——OPPO Find X8 系列除了复古,还有清新与通透两个风格,这些风格分别有什么区别?该怎么用?它们背后的设计逻辑,是怎么暗示影像下一步方向的? 三种风格,各有千秋 要说这三款胶片风格中最抓人眼球的,要数这个风靡一时、足以「以假乱真」的复古风格。 由复古风格拍摄的照片,相当有辨识度:画面整体呈现出较高的对比度,偏亮的高光渲染了一层橙黄,阴影则偏向碧绿 ,这与富士 NC 胶片模拟的色彩倾向非常相似,能够一秒将人带回浓烈又厚重的胶片时代,堪称富士「平替」。 在社交平台上,经常看到有帖子提问:为什么我拍的照片总是那么灰。 发灰的画面其实是因为由于手机影像传感器面积逐年变大、摄影算法逐渐变强,导致画面可以容纳的明暗范围更多,但受制于 sRGB 色彩空间标准,画面变得越来越灰。 这听起来有点复杂,你可以将其理解为照片是一个盘子,向照片塞入更多的明暗细节就像在这个盘子上堆积更多食物,但 sRGB 这个小盖子盖下来时,本来铺满盘子的明暗细节就被挤成这个盖子的大小了,最终呈现的画面自然而然地显得灰暗,失去对比度和层次感。 想要恢复舒适的影调,往往需要用专业的后期软件去调试,但现在,使用 OPPO Find X8 系列中的清新胶片风格拍摄照片,可以直接解决这个麻烦。 清新风格在影调上与复古胶片风格类似,画面以高对比度的影调呈现,同时通过降低周围环境中的颜色饱和度,为画面去灰解腻。 有浓烈炽热就有清淡温和,最后一个通透风格就是如此。 使用通透风格拍照时,照片像素集中在温和的中间调,呈现低对比度,保持画面饱和度的同时,还把白平衡拉低,使其发色整体偏冷。 通透风格藏在前两个锋芒毕露的效果之后,展现自己收放自如的功底。 胶片风格操作指南 风格化固然好用,但世上没有万能的配方,就像用扫把拖地一样,一旦用错了环境,翻车也并不少见,不同的胶片风格,必须要挑到合适的场景,才能让这些独特的颜色更出彩。 我们对三个胶片风格进行测试并总结了一份操作文档,帮助你更好地使用它们。 首先是最受欢迎的复古风格,由于明暗对比度高、颜色浓郁,复古风格不适合在颜色杂乱的地方使用——配合颗粒,很容易出现画面变脏的情况。 同时,如果有人物出镜,要注意将人脸和皮肤尽量放在受光面,否则人脸和皮肤也会呈现酱油色。 而它擅长的,是有大面积纯色的环境——尤其是绿色。 在后期调色时,我觉得画面中最棘手的、最难处理好看的就是绿色,与富士 NC 胶片模拟类似,复古风格会将绿色偏移向浓郁的墨绿,将原本麻烦的绿色处理得好看、耐看。 综合这些特点,复古风格非常适合在有质感、有阳光照射、尤其是画面中存在绿色的场景使用。 虽然复古风格很亮眼,但在生活中 存在大色块的环境终究是少数,更多情况下,我们镜头中的场景与颜色都比较杂乱。 此时,清新风格可以大展拳脚,利用其高对比、低饱和的特点,清新风格可以有效将画面中的杂乱色减弱,降低存在感,大大突出画面主体。 但同样的,由于清新风格也会加强画面的对比度,所以想要人像的清新通透,需要尽量将人物放在受光面,或是正确曝光,才能获得一个不错的效果。 最后,对于那些布置干净、颜色简单的环境,直接拍摄的照片会显得有些白开水,此时就可以用上三个风格中最平和的通透滤镜。 较低的明暗对比度和适中的饱和度,将宁静与平和的氛围融入画面,进一步营造画面的氛围感。 特别是在白色环境中,有暖色作点缀时,通透风格会将画面向冷偏移,白色更亮眼、暖色更突出,效果会更好。 三个胶片风格,三种明显不同的倾向,选择之多,总会有你喜欢的一个。 建立在审美上的照片,也许是未来方向 走进手机影像的下半场,照片正在从「拍得好」走向「我觉得好」,在客观标准逐渐过渡到主观感受的过程中,审美,成为了关键。 拍摄了《大提顿和蛇河》的摄影家安赛尔·亚当斯对此早有预言: You don’t take a photograph, you make it. 意思是,照片美不仅仅在于捕捉瞬间,更是你的创意和审美共同打造出来的。 ▲《大提顿与蛇河》安赛尔·亚当斯 为了「美」,专业摄影师可以将大把时间放在审美提升上,但普通用户可不行,工作和生活已经占据了我们绝大部分精力,根本没空再去深入学习美学知识与后期软件。 为了让大家更轻松地拍照,OPPO 将目光转移到了风格化方案上,而在摄影厂商中,早有两家厂商打造了极具审美代表性的风格:哈苏与富士。 这两家扮演对手戏的厂商,在风格上各有所长:哈苏以自然色彩科学出名,参考自然之美,巧妙地将肉眼所见的画面保留下来;而富士,则是钻研银盐颗粒,将胶片时代数十年的色彩积累带到数码照片上。 OPPO 先与哈苏合作,将自然色彩带到了手机上,再推出了三个胶片风格,集众家之长,打造出哈苏与富士的双重平替,为你提供更多选择。 这些举措听起来复杂,但它们的目标都十分明确——不需要你再花时间成本,去学习美学知识与复杂的后期软件,直接在每个人都会用到的手机上,提供一系列现成的美学基础。 你可以在这个基础上,任意选择符合你的「美」。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。