行业分类:
加载中...
头条分类:
加载中...
剑指OpenAI:Meta计划发布独立的人工智能APP,扎克伯格成压力怪?
扎克伯格 凤凰网科技讯 2月28日,CNBC消息,Meta旗下的AI助手Meta AI即将成为该社交媒体公司的独立应用,与Facebook、Instagram和WhatsApp并列。据知情人士透露,Meta计划在第二季度正式推出Meta AI独立应用,这标志着CEO马克·扎克伯格推动公司在2024年底前成为人工智能领域领导者的关键一步,目标直指OpenAI和谷歌母公司Alphabet等竞争对手。为此,扎克伯格给研发团队施加了巨大的压力。 Meta AI聊天机器人于2023年9月首次亮相,被定位为生成式AI驱动的数字助手,可在现有应用中根据用户指令生成回复和图像。今年4月,Meta将其Facebook、Instagram、WhatsApp和Messenger的搜索功能替换为Meta AI,使其成为展示生成式AI技术的核心窗口。 扎克伯格在1月的财报电话会上表示:“今年,一个高度智能且个性化的AI助手将触达超10亿用户,而Meta AI有望成为这一领域的领导者。” 与ChatGPT、Perplexity等竞品不同,Meta AI目前仅能通过网站及旗下应用使用。知情人士称,尽管Meta庞大的用户基数可通过现有应用访问该服务,但独立应用将深化用户与AI助手的互动。 今年1月,扎克伯格在Threads上公开支持用户关于“开发Meta AI独立应用”的建议。该用户认为,独立应用可统一智能手机与Ray-Ban智能眼镜等硬件的体验,并支持对话历史管理与深度个性化。扎克伯格以“100”表情符号(象征完全赞同)回应了这一提议。 此外,Meta计划测试Meta AI付费订阅服务,模式类似OpenAI和微软对ChatGPT Plus及Copilot的收费策略。首席财务官李苏珊表示,尽管当前重心是“打造优质用户体验”,但未来存在“清晰的变现机会,包括付费推荐和高级功能”。 用户数据与竞争压力 李苏珊称,Meta AI月活用户已从12月的6亿增至7亿,但分析师指出,由于缺乏独立应用,其使用率难以直接对比ChatGPT等对手。数据公司Business of Apps编辑大卫·库里(David Curry)表示,Meta AI独立网站月访问量不足1000万,“远低于主流服务,甚至不及Anthropic等中端玩家”。 印度是Meta AI的最大市场,WhatsApp的使用最为频繁,Facebook因“深度集成AI问答功能”也表现强劲。 Meta的独立应用计划紧随谷歌和马斯克旗下xAI的步伐。谷歌于2024年2月推出Android版Gemini应用,11月上线iOS版本,近期更强制iOS用户通过独立应用访问Gemini。xAI则在1月发布Grok独立应用及网站,Android用户需排队等待。 据Sensor Tower报告,ChatGPT仍是下载量最高的AI应用,其次为谷歌Gemini、字节跳动豆包和微软Copilot。 内部高压推进 为在AI竞赛中保持领先,扎克伯格对Meta AI团队施加了巨大压力,要求其年底前成为全球使用最广的聊天应用。多名员工透露,团队面临“每周工作七天”的强度。扎克伯格在1月的裁员备忘录中写道:“Meta正在打造全球最重要的技术——AI、下一代计算平台智能眼镜及社交媒体的未来。这将是非同寻常的一年,我们需要最优秀的人才。” Meta官方对此未予置评。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
柏林银熊奖影片《生息之地》:透过少年双眼,望见乡村的记忆与希望
  柏林“擒熊”,华语电影时隔六年再次从欧洲三大电影节主竞赛单元捧回奖项。   电影《生息之地》,由上影集团作为第一出品方,透过十龄童徐闯的视角看乡土中国,试图勾勒上世纪90年代中国豫东平原上一个农村家族在社会变迁中的生活。电影在春夏秋冬四次开机,在四季轮回的实景风貌里拍春耕秋收、婚丧嫁娶,以此表现中国乡村的生活之美与人情人伦之暖,用现实主义的叙事风格,描绘李姓一家人的勤劳坚韧、乐观淳朴。   在剧本的初创阶段,《生息之地》就得到了2022年金鸡电影创投大会评委会优胜项目奖和最具潜力导演奖;此后,“2023年金鸡创投WIP单元”最具潜力导演、评委会优秀制作中项目、亚欧青年影展元年WIP单元佳作奖及MOREVFX视效奖、中国文学艺术基金会“谢晋青年电影扶持计划”优秀项目等奖项,一路见证着该片收获的业内青睐。如今,这部一路被国内影坛看好的影片,也在欧洲影展被认可,消息传回国内,许多人尚未得见电影全貌,但好奇心已被点燃。   根据海内外先睹为快者的评价,“少年视角”“四季诗行”“乡村变迁”等都是高频词。人们得以从第一批观众的真实反馈中,还原出《生息之地》的本来样貌、艺术风格——影片透过少年双眼,望见了乡村的记忆与希望。   诗意镜头下,一座村庄的“近历史”与未来可能性   《生息之地》的故事时空坐标落于1990年代河南的一座村庄。改革开放的风潮从东南沿海慢慢延伸到北方、深入腹地。豫东平原的一个村子里,少年徐闯的父母去了南方务工,他跟着小姨、姥姥、姥爷等留在村里生活。生老病死、四季流转,四世同堂的家族和脚下的故乡会在时间里经历哪些变化,10岁的孩子对这些问题并没什么过于深刻的答案。在一次次的平移长镜头里,三分之二画幅留给初绿的麦田,少年的记忆混合着土地与自然,娓娓道来。   作为柏林首映的观众之一,网友“数星星的心理人”对影片的细腻表达点赞:“最戳心的还是那些细碎的人情味。比如姥姥偷偷往徐闯书包里塞煮鸡蛋,邻居大爷用烟袋锅子敲他脑袋说‘小崽子别瞎跑’,还有全村人一起收麦子时汗水和笑声混成一团……仿佛能闻到上世纪90年代河南农村的麦香。”网友“陈久七”被影片的首支预告触动了心弦:“在我老家拍的,看着好亲切,美丽的田园风光、乡村长诗,让人感觉回到了童年。”   而对从小生活在城市的影迷来说,海报、剧照以及首支预告片里透露的电影美学,构成他们观影兴致的第一眼理由:从绿油油的春、农忙的夏直到白雪覆盖,庄稼和人都在平静地生存,电影里流淌着土地的美与亲近。   曾担任六届金鸡创投大会评审的蒋浩表示:“片中鲜活呈现的乡村生活图景、对大量非专业演员表演的把控,都让人看到了剧本的文学性,以及将文学想象转化为富有感染力的电影语言的魅力,这也是我们坚定支持这个项目的最大原因。”   上海大学上海电影学院副院长、上海温哥华电影学院执行院长程波看完全片后,由四个层面品味故事:它是一部具有生活质感的乡村生活史与农事诗;是一次将众多出场人物、一个家族生长变迁融入到中国农村1990年代真实面貌的细腻叙事;影片以短暂的回溯式的“近历史”讲述,复现了乡村城镇化浪潮里的一个切片,那段“来处的一个组成部分”对于此后的脱贫攻坚、乡村振兴等有着正向支撑;更重要的是,电影采用儿童视角,天然地具有向未来敞开的可能性,由此也形成从“近历史”向“当下”的叙事延伸。   程波特别提到故事里青壮年的一次次返乡:“他们从南方来,带回故乡的那些消息乃至小小的糖果里,都蕴藏着改革开放的风信。这些讯号伴随着少年人的生命体验,客观呈现了个体视角下有限的乡土变迁。”   百花齐放中,一个能容纳商业与艺术的市场   各方对《生息之地》投来目光的同时,一部农村题材影片缘何被列入上影新人新作计划、得到上海的支持,同样引发关注。复盘影片孵化过程,如果说上影集团为行业新锐提供的创作空间与资源保障是影片成功的密钥之一,那么上海这座电影之城的文脉基因以及熔铸在城市精神与品格中的海纳百川及创新精神,都是上海敢于同时做大商业类型片与艺术电影“蛋糕”的底牌。   单看《生息之地》的孕育过程,这部小众文艺片在上海得到了真金白银的支持,其本身也作为一次教学实践为上海的电影储备人才提供最生动的片场履历。上海大学上海电影学院2021级学生罗啸霆老家在河南,在剧组的经历,让他系统掌握了导演组工作的全流程。年轻人分外珍视这次实践:“这种知行合一的创作模式,正是影视教育最珍贵的传承方式。”   再从创作的全景来看,这些年,上海诞生了轻灵姿态讲述的当代上海故事《爱情神话》《好东西》,也在《白蛇:缘起》《白蛇2:青蛇劫起》《长安三万里》等动画影片里一次次走出中华优秀传统文化的创造性转化、创新性发展之路;上海孵化过市场的爆款《孤注一掷》,也极富开拓意识、人文情怀地推出了《人生大事》这部以生命课题疗愈人心的作品……   也不止于创作端的百花齐放,上海的电影市场同样能容纳商业性与艺术性各异的影片。据灯塔专业版数据显示,在“哪吒”带动下,今年2月,上海已有4家影院票房超过500万元,包括上海万达影城五角场店、SFC上影影城港汇永华店、上海MOViE MOViE影城和上海影城SHO。除了票房成绩一骑绝尘的《哪吒之魔童闹海》,上周末落幕的“丹麦电影大师展”、导演特别版《花样年华》等海内外艺术佳片都在上海找得到旧雨新知。展望3月市场,韩国导演奉俊昊新作《编号17》、英国舞台纪录电影《初步举证》、意大利新锐导演作品《还有明天》的点映预售表现同样出色。   一切正如中国电影评论学会会长饶曙光所言:“上海历来是文化繁荣的沃土。在这片充满活力与创意的土地上,电影艺术以其独特魅力书写过辉煌的篇章。而在今天中国电影色彩斑斓、丰富多元、动态平衡、共同发展的版图上,上海电影依然是最闪亮的一个板块。”(记者 王彦)
微短剧冲击下,长剧的突围路径
  电视剧《山花烂漫时》《大江大河之岁月如歌》《繁花》海报   “文艺是国民精神所发的火光,同时也是引导国民精神的前途的灯火。”价值引领是文艺作品不可或缺的职责与使命,这关乎作品的精神导向,也深刻影响着社会文化的塑造与发展   过去一年的剧集市场,见证了微短剧的迅速崛起。数据显示,2024年微短剧的用户规模已达5.76亿人,占整体网民比例超过一半,市场规模在500亿元左右,超过内地全年电影票房的425亿元,已接近长视频市场规模的70%。这一趋势对传统的电视长剧(单集时长至少在15分钟)构成了显著的影响,长剧的市场份额和用户关注度严重下滑。   当然,这不意味着长剧失去了其独特的魅力和价值。从近两年来涌现出的一批有口皆碑的长剧来看,它们坚守内容质量,深化主题思想,拓展故事广度,在美学上不断创新和探索,赢得观众的认可。这些作品的成功之道,或可为长剧在激烈的市场竞争中找到突围路径。   价值引领   微短剧凭借简短的篇幅、紧凑的情节和快速的节奏,迅速在市场站稳脚跟。不过,由于篇幅的限制,微短剧追求瞬间的冲击力和吸引力,一定程度上导致部分作品价值观上的偏颇。不少微短剧甚至不惜采用粗鄙、粗俗的内容来博取眼球,例如过度渲染家庭内部的纷争、职场上的钩心斗角或情感关系中的背叛与复仇。类似内容的泛滥,既损害了作品的艺术品质,也对观众的价值观带来负面影响。   “文艺是国民精神所发的火光,同时也是引导国民精神的前途的灯火。”价值引领是文艺作品不可或缺的职责与使命,这关乎作品的精神导向,也深刻影响着社会文化的塑造与发展。作为大众文化的重要组成部分,电视剧与观众的现实生活和生存体验紧密相连,将生活中的善恶美丑、是非曲直通过艺术的形式一一呈现,告诉观众何为正义、何为善良。   在豆瓣拿到9.6分的《山花烂漫时》,是近9年来豆瓣上评分最高的国产剧。该剧以“七一勋章”获得者、“时代楷模”张桂梅为原型,讲述她坚定创办丽江华坪女子高级中学,帮助大山中失去上学机会的贫困女学生重返校园、掌握自己的命运的故事。《山花烂漫时》彰显了教育对女性成长的至关重要性,剧中那些受过教育的女性自主选择人生道路,有效切断了贫困的代际传递链条。这一核心理念既是剧中人物奋斗历程的真实映射,也是现代社会中众多女性勇往直前、不懈追求的真实写照。在价值观日益多元化的今天,该剧真实生动地讲述了张桂梅的故事,剖析她的精神世界,为全社会树立一座精神灯塔,引导更多的人在平凡的生活中创造不凡。   作为一部反映晚清社会动荡与变革的电视剧,《天行健》故事围绕一张神秘藏宝图失窃事件展开,牵涉晚清政府、江湖门派、革命者以及外国列强等多方势力的角逐。剧集重现了那个时代波澜壮阔的社会变革,也探讨了个人命运与国家前途之间的紧密联系。“天行健,君子以自强不息;地势坤,君子以厚德载物”,是剧中主人公的行动准则,也是对当代观众的一种激励——面对时代的洪流,要勇于担当。   《追风者》聚焦20世纪30年代,爱国青年魏若来在云谲波诡的时代背景下对个人出路和国家前途的艰难追寻。该剧将政治斗争、金融博弈及角色成长交织在一起,生动刻画了魏若来如何从一个只求生存的年轻人逐渐成长为坚定的理想主义者。这让观众看到,信念是可以被事实教育和生活磨炼出来的,并且一旦形成,就会成为指引人生方向的强大动力。   还有,《我是刑警》传递了正义执法、不畏艰难、守护平安的崇高职业精神;《凡人歌》展现普通人在平凡生活中坚持自我、追求幸福的坚忍不拔之志;《大江大河之岁月如歌》凸显了逐梦人的坚定信念和勇往直前的决心……相较于部分微短剧追求刺激与爆点带来的价值观偏颇,长剧应致力于构建深邃且持久的主题,为观众提供精神滋养和情感共鸣,并带来更高层次的满足。   史诗品格   短,既是微短剧的优势,也是劣势。由于篇幅的限制,微短剧在内容的深度和广度上有所欠缺,难以深入探讨社会、人生等更深层次的主题。相形之下,长剧拥有更大的发挥空间。可以说,史诗化就是长剧内容深广度的集中体现,它跨越时间长河,展现历史的沧桑巨变,让观众在跌宕起伏的剧情中感知时代脉搏、领悟人性的复杂多变、体验生活的酸甜苦辣。   《大江大河之岁月如歌》再现改革开放初期中国社会结构、经济模式以及人们生活方式的坎坷转变,聚焦于主角们如何在时代的浪潮中寻找自己的位置,也深刻反映了中国现代化的宏大进程。剧中人物宋运辉在面对改革带来的机遇与挑战时所展现出的决心与智慧,让他在不断变化的时代中稳步前行,成为改革浪潮中的佼佼者;雷东宝代表那些勇于探索未知领域的企业家;杨巡的故事则是普通工人阶级子弟如何凭借不懈努力改变自己命运的真实写照……剧中不同人物的命运交相辉映,共同绘就一幅充满生机与活力的时代画卷。   《小巷人家》以贴近生活的平视视角,缓缓铺陈出苏州几户平凡人家在岁月长河中的关系变迁,以小见大地展现中国传统家庭文化中熠熠生辉的价值观,也浓墨重彩地刻画邻里间守望相助的动人精神。该剧不只是对过去美好回忆的深情记录,更是在艰难岁月的底色上,展示普通百姓面对生活磨难仍能保持乐观豁达的精神力量,成为一部镌刻着平民生活印记的温情史诗。   重案实录刑侦剧《我是刑警》,打破传统刑侦剧局限于单一案件或短期时段的叙事模式,将时间跨度拉长至30多年的时间,全面展现了刑警们从20世纪90年代至当下的坚守与成长。该剧塑造了一群有血有肉、立体丰满的刑警形象,也反映出一个时代的社会治安变革与法治建设进程。   又比如《唐朝诡事录2》以奇幻诡谲的案件为切入点,展现大唐盛世背后的社会百态与人性幽微,蕴含对古代社会的深度审视;《玫瑰的故事》中,从青春的懵懂纯真到历经岁月洗礼后的成熟笃定,主人公黄亦玫的每一步成长与蜕变都烙印着时代与自我抗争的痕迹……史诗品格让长剧具备了漫长时间跨度的宏大视野,镜像般折射出社会的沧桑巨变,深度挖掘人性光辉与阴暗、道德抉择与困境、社会变迁与冲突等多维度主题,激发观众对生活本质、现实真相的深度思考。   美学探索   较低的制作成本、简短的拍摄周期以及快速的市场投放速度,使不少微短剧在美学表达上较为粗糙,表现为简单直接的构图和剪辑,以快速推进情节为主,较少使用复杂的摄影技巧;依赖中景和近景捕捉人物表情和对话,减少广角镜头或长镜头的应用,视觉呈现单一……创作者无法精心设计每一个场景、镜头运动或是光影效果,视觉美感严重匮乏。   而长剧在美学探索领域展现出显著的优越性。其充裕的时间跨度与广阔的空间维度,为系统而精微的美学构思与实践提供了肥沃的土壤。无论是场景布置的精雕细琢、角色造型的精心塑造,还是色彩搭配的巧妙运用、镜头语言的丰富表达,长剧皆可能追求极致,力求完美。优质长剧往往堪称视觉盛宴,既丰富多元又层次分明,让观众沉浸于剧情发展的同时,领略艺术美的深邃魅力。   王家卫执导的《繁花》是长剧在美学探索上的卓越典范,淋漓尽致地彰显了长剧在美学上蕴含的无限潜能。黄河路的灯红酒绿,霓虹灯牌闪烁,熙熙攘攘的街道,再现20世纪90年代上海商业的繁华胜景;从服装材质、款式到发型设计,都对细节极致考究,还原了那个时代生气勃勃的时尚风貌;画面色调以暖黄与复古绿为主,营造出怀旧氛围,又增添了一份细腻与温情;配乐堪称一绝,大量经典的粤语歌曲将时代记忆与情感深度融合;灵活的镜头切换与多变的运动镜头营造出富有节奏感的叙事节奏,引领观众穿梭于不同的故事情境之间,感受时代的风云变幻与人物的内心波澜。   《我的阿勒泰》改编自作家李娟的同名散文集,以质朴而充满生命力的方式展现新疆阿勒泰地区的自然风光与人文风情。该剧捕捉了这片土地上独特的季节变换、广袤无垠的草原、巍峨的雪山以及多样的民族文化,注重对原生态生活的忠实呈现,强调色彩的真实性和环境音效的自然融入,以此传达出阿勒泰地区特有的宁静与活力;摒弃了强调冲突与反转的快节奏模式,采用散文化的叙述方式,让故事如同涓涓细流般温柔流淌。   导演曾庆杰的镜头语言,是令《九重紫》脱颖而出的关键。该剧的构图,融合传统中式美学元素,以对称式构图展现府邸的庄严肃穆,暗示封建礼教的规束,借不规则构图刻画人物在困境中的挣扎,传递命运的无常;熟稔地运用各种镜头技巧,强化画面的视觉冲击力和情感表达;灵活运用光影效果,利用明暗对比和色彩搭配,营造出不同的情感氛围,使画面更具层次感和深度……这种不俗的美学追求,打破了古偶剧常见的流水作业模式,为其创作注入了活力。   微短剧与长剧并非水火不容,而是各有特点,可以并存共荣。面对微短剧对于市场份额的争夺,长剧不必过于悲观,应将其视为转型与升级的契机,充分发挥自身所独有的优势。无论时代如何变迁,观众对于高质量、有深度的影视作品的需求不会改变,所以,我们看到了这一众叫好叫座的优秀长剧的成功突围。而它们所显示的突围路径,其实就是一句话:坚守内容为王原则。即提升主题立意、加强美学探索,以更加细腻和深入的笔触去描绘人性、社会和历史,为观众带来更多思想精深、艺术精湛、制作精良的好故事。好故事自能突围。(曾于里)
GPT-4.5重磅发布!OpenAI最大最贵模型,没把DeepSeek当对手
朋友,先别急着退订 ChatGPT 会员。 最近,DeepSeek 开源周搞得热火朝天,全球开发者忙着分享代码、碰撞灵感;而另一边,OpenAI 却选在开源周最后一天冷不丁地丢出了 GPT-4.5 这个「大杀器」。 Sam Altman 在 X 平台在 X 分享了他的个人体验: 这是我第一次觉得 AI 像在与一位深思熟虑的人对话。它真的能提供有价值的建议,甚至让我有几次靠在椅子上,惊讶于 AI 竟然能给出如此出色的回答。 不过,他也特别提醒,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。而他之所以没有亮相发布会,原因是在医院照顾小孩。 从今天开始,ChatGPT Pro 用户已经用上 GPT-4.5(研究预览版)了。下周,将会逐步开放给 Plus 和 Team 用户;再下一周,Enterprise 和 Edu 用户也能体验到这个新版本。 体验方式十分简单,只需在网页版、移动端和桌面端的模型选择器即可切换使用。 GPT-4.5 支持联网搜索,并能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。 GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。 简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。 亮点概括如下: 知识更广泛:它学习了更多的信息,所以懂的东西比以前多 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况) 更懂人心:「情商」更高,更能理解你的真实意图 对话更自然:聊天感觉更像和真人交流,不那么机械 创意更丰富:在写作和设计方面表现更好 GPT-4.5 正式发布,更懂你的心了 GPT-4.5 最直观的变化就是更懂你。 它更像一个善解人意的朋友,能够理解你的言外之意,捕捉你微妙的情感变化。 OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。 在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%)。 作为 OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,并被设计为比 OpenAI 以 STEM 领域推理为重点的强大模型更加通用。 GPT-4.5 的突破,很大程度上归功于「无监督学习」的进步。 简单来说,无监督学习就是让 AI 自己从海量数据中学习,而不是靠人工标注数据。 这就好比让一个孩子自己去看世界,而不是事事都由大人告诉他。这样,孩子就能学到更多更丰富的知识,形成自己的「世界观」。 OpenAI 认为,无监督学习和推理能力是 AI 发展的两大支柱。 得益于此,GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻觉现象。 SimpleQA 用于评估大语言模型(LLM)在简单但具有挑战性的知识问答中的事实性。而 GPT-4.5 在 SimpleQA 准确率(数值越高越好)达到 62.5%,遥遥领先于 OpenAI 其它模型。 另外,在 SimpleQA 幻觉率(数值越低越好)的评估中,GPT-4.5 的分数为 37.1%,也和 OpenAI 其它模型拉开差距。 在 PersonQA 数据集上,GPT-4.5 取得了 0.78 的准确率,优于 GPT-4o(0.28)和 o1(0.55)。 此外,OpenAI 对 GPT-4.5 进行了广泛的安全测试,包括有害内容拒绝、幻觉评估、偏见检测、越狱攻击防护等:GPT-4.5 在拒绝不安全内容方面表现良好,但在过度拒绝(overrefusal)方面比前代模型稍高。 多语言性能方面,GPT-4.5 支持 14 种语言,在 MMLU 评估中超越了 GPT-4o,尤其在低资源语言(如斯瓦希里语、约鲁巴语)上有明显提升。 至于编程和软件工程,GPT-4.5 代码生成和修复任务表现有所提升。 Agentic Tasks 评估的是 AI 在真实环境中独立完成复杂任务的能力,包括终端操作(Linux + Python 环境)、资源获取(如自动下载、运行程序)以及复杂任务执行(如加载和运行 AI 模型)等。 OpenAI 发布的系统卡显示,GPT-4.5 在自主任务方面仍然受到一定限制,远未达到真正的自主 AI Agent。 除了普通用户,GPT-4.5 也向开发者敞开了大门。 OpenAI 同步开放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。 GPT-4.5 支持函数调用(function calling)、结构化输出(Structured Outputs)、流式响应(streaming)和系统消息(system messages),并且具备视觉能力,可通过图像输入进行处理。 开发者可以通过 API 接口将 GPT-4.5 集成到自己的应用中,创造出更多有趣、有用的产品。 不过,GPT-4.5 计算量极大,成本高昂,因此并不会取代 GPT-4o。并且,OpenAI 仍在评估是否长期在 API 中提供 GPT-4.5,以便在支持当前功能的同时,继续推进未来模型的开发。 AI 进入「拼情商」时代? 本次直播环节由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。 当演示人员要求写一条愤怒短信给频繁取消约会的朋友时,GPT-4.5 能够识别出用户的沮丧情绪,并给出了更加微妙且建设性的回应,帮助用户以更理性的方式表达感受。 另一个演示则展示了 GPT-4.5 在解释复杂问题上的能力,「为什么海水是咸的?」 GPT-1 完全不知道答案,GPT-2 给出相关但错误的回答,GPT-3.5 Turbo 首次给出正确但解释不充分的答案,GPT-4 过于详尽列举事实,而 GPT-4.5 则提供了简洁、连贯且有趣的解释,开头使用了甚至使用了朗朗上口的句式。 据介绍,OpenAI 在开发 GPT-4.5 时实现了几项关键的训练机制创新。 训练如此大规模的模型需要显著提升后训练(post-training)基础设施,因为预训练阶段和后训练阶段的训练数据与参数大小比例完全不同。 团队开发了一种新的训练机制,能够使用更小的计算资源来微调如此大型的模型。 具体来说,他们通过多次迭代,结合了监督式微调(supervised fine-tuning)和基于人类反馈的强化学习(reinforcement learning with human feedback)来完成后训练过程,最终开发出了可以部署的模型。 在预训练方面,由 Alex 和 Jason 领导的团队采取了多项措施来最大化计算资源的利用: 使用低精度训练(low precision training)来充分利用 GPU 性能 跨多个数据中心同时预训练模型,因为他们需要的计算资源超过了单一高带宽网络架构所能提供的上限 此外,团队构建了新的推理系统,确保模型能在 ChatGPT 中快速响应用户,保持对话的流畅性。同时,他们表示将在发布后继续改进,使模型运行更快。 这些训练和部署机制的创新使团队能够将更多计算能力注入模型中,从而实现无监督学习的大规模扩展,这也是 GPT-4.5 能够在不依赖逐步推理的情况下,仍然展现出强大理解能力和较低幻觉率的关键原因。 值得一提的是,OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 发布之前接受了 Alex Kantrowitz 的采访。 当被问到 OpenAI 是否在模型运行效率方面有所改进时,他表示: 让模型的运行更高效这一过程,通常与模型核心能力的开发相对独立。我看到很多工作都集中在推理(Inference)架构上。DeepSeek 在这方面做得很好,而我们也在这方面投入了大量精力。我们非常关注如何以更低的成本向所有用户提供这些模型服务,并一直在努力降低成本。 无论是 GPT-4 这样的推理模型,还是其他模型,我们始终在推动更低成本的推理优化。从 GPT-4 最初发布以来,运行成本已经降低了多个数量级,我们在这方面取得了不错的进展。 随后,当被问及当前的 Scaling Law 是否已经遇到瓶颈,或者是否观察到扩展带来的收益递减时,Mark Chen 回答道: 「我对 Scaling 有不同的理解。当涉及无监督学习时,你需要更多的关键要素,比如计算资源、算法优化以及更多的数据。而 GPT-4.5 确实证明了我们可以继续推进扩展范式,而且这种范式并不与推理能力相对立。 推理能力需要建立在知识的基础之上。一个模型不能凭空推理,而是需要先获取知识,再在此基础上发展推理能力。因此,我们认为这两种范式是相辅相成的,并且它们之间存在相互促进的反馈循环。」 实际上,GPT-4.5 不仅展示了无监督学习的巨大潜力,也预示着 AI 的发展方向——更像人。 过去,AI 的发展主要集中在提高智力,比如下棋、做题、识别图像等。而现在,与两年前 GPT-4 横空出世时引发的轰动不同,人们对 AI 的期待已经从两年前的「能做什么」转向当下「能做得更好、更安全、更可控」。 越来越多的 AI 公司开始关注「情商」,试图让 AI 更懂人类的情感和需求。 GPT-4.5 就是这一趋势的代表。投入资源,研发更懂人心的 AI 依旧是行业值得关注的命题。不过,GPT-4.5 虽然展示了基于海量数据和算力的语言模型所能达到的高度,但它的表现依然显得有些捉襟见肘。 从这个角度看,它或许更像画上了阶段性的句点,扮演了一个承上启下的过渡角色。既是对过去几代模型的总结与修补,也是在为下一波技术浪潮铺路。 真正的突破,可能还得等 GPT-5 来实现。 担心留给 OpenAI 的迭代时间不够,别急,我有一招,虚假的版本迭代是 GPT-4.5→GPT-5,在接下来的「数月内」,真实的发布节奏应该是 GPT-4.5→GPT-4.6→GPT-4.7→… 好消息是,这一次估摸着不用再等上两年了。
ChatGPT4.5凌晨发布:不是推理模型,胜似推理模型
凤凰网科技讯 (作者/陈俊熹)2月28日,OpenAI发布了旗下最新一代大语言模型GhatGPT4.5。相较于GPT-4,GPT-4.5在多个方面进行了优化。该模型通过进一步扩展无监督学习技术,增强了模式识别和创造性洞察的能力。GPT-4.5在用户交互中的表现更加自然,知识覆盖面更广,能更好地理解并响应用户的意图。 回答问题更加严谨 GPT-4.5的核心进展在于其无监督学习的提升。通过增加计算能力和数据规模,GPT-4.5在处理复杂任务时显示出更高的准确性,尤其是在减少“幻觉”现象(即错误生成信息)方面表现突出。这使得模型在处理事实性问题时更加可靠,适用于更广泛的应用场景。 幻觉减少,准确率提高 在早期测试中,GPT-4.5展现出较高的情感智能(EQ),能够根据对话的情境调整回应,尤其在处理与用户情感相关的交流时,表现出更高的同理心。此外,GPT-4.5在创作领域的表现也有所提高,能够生成更加连贯、符合用户需求的内容。 更高的“情商”、更强的审美直觉和创造力 尽管其主要依赖无监督学习,GPT-4.5在推理方面也有很强表现,在多个基准测试中,GPT-4.5比GPT-4在知识准确性和信息生成的连贯性上都有明显提升。 与4o和o3-mini对比 此外,OpenAI也向开发者提供了GPT-4.5的API,支持多步骤任务和复杂工作流的自动化应用。该模型的多语言处理能力同样有所增强,使其能够在更多语言环境下有效工作。 OpenAI表示,GPT-4.5仍处于研究预览阶段,未来将继续优化,以便更好地服务于各行各业的需求。同时,OpenAI在开发过程中加强了安全性测试,确保模型在处理敏感内容时的可靠性和安全性。
戴尔发布第四财季及2025财年财报:全年营收956亿美元,同步增长8%
凤凰网科技 北京时间2月28日,戴尔科技集团今日 (纽约证券交易所代码:DELL) 公布了2025财年第四财季及全年业绩报告,以及2026财年第一财季及全年的业绩指引。第四财季营收为239亿美元,同比增长7%。第四财季运营利润为22亿美元,同比增长40%;非一般公认会计准则(以下简称“non-GAAP”)运营利润为27亿美元,增长22%。全年营收为956亿美元,同比增长8%。全年运营利润为62亿美元,同比增长15%;non-GAAP运营利润为85亿美元,增长8%。 戴尔科技集团首席财务官 Yvonne McGill 表示:“2025财年是变革之年——我们的营收达到了956亿美元,核心业务实现了两位数的增长,提升了效率,并推动每股收益创下历史新高。我们将把年度股利上调18%,这不仅表明了公司对股东回报的承诺,更显示出我们对2026财年业务增长前景的信心。” 戴尔科技集团副董事长兼首席运营官 Jeff Clarke 表示:“在第四财季,我们的基础设施解决方案集团营收增长了22%,我们有能力抓住各业务领域的增长机会。随着我们将人工智能(AI)技术从头部云服务提供商向企业级市场大规模渗透,并进一步通过个人电脑向边缘领域延伸,公司 AI 业务展现出广阔的市场前景。截至目前,我们与 xAI 等企业达成的交易使得公司 AI 服务器的积压订单总额达到约90亿美元。” 基础设施解决方案集团(ISG) 全年营收为436亿美元,同比增长29% 全年运营利润为56亿美元,同比增长30% 第四财季营收为114亿美元,同比增长22% 受 AI 与传统服务器需求的推动,第四财季服务器和网络业务营收达66亿美元,增长37% 第四财季存储业务营收达47亿美元,增长5% 第四财季运营利润创历史新高,达21亿美元,同比增长44% 客户端解决方案集团(CSG) 全年营收为484亿美元,同比下降1% 全年运营利润为30亿美元,同比下降20% 第四财季营收为119亿美元,同比增长1% 第四财季商用客户业务营收为100亿美元,增长5% 第四财季消费业务营收为19亿美元,下降12% 第四财季运营利润为6.31亿美元,同比下降19% 资本回报 戴尔科技集团将把年度现金股利上调18%,预计达到普通股每股2.10美元,并将于2025年5月2日以第一财季普通股每股0.525美元的股利派发给2025年4月22日前登记在册的股东。此外,公司董事会批准将股票回购授权增加100亿美元。 2026财年业绩指引摘要 2026财年全年营收预计为1,010亿美元至1,050亿美元,按中间值1,030亿美元计算,同比增长8% 2026财年全年 GAAP 每股摊薄收益预计为7.85美元,同比增长23%;non-GAAP 每股摊薄收益预计为9.30美元,增长14% 2026财年第一财季营收预计为225亿美元至235亿美元,按中间值230亿美元计算,同比增长3% 2026财年第一财季 GAAP 每股摊薄收益预计为1.29美元,同比下降6%;non-GAAP 每股摊薄收益为1.65美元,增长25% 2025财年第四财季及全年财务业绩 注:除非另有说明,该表对比为同比
碳中和是假的?苹果因Apple Watch被起诉
苹果Apple Watch Ultra 2 凤凰网科技讯 北京时间2月28日,据路透社报道,苹果公司周三被消费者起诉,原因是苹果声称三款Apple Watch实现了“碳中和”且环保的说法是虚假的并具有误导性。 这桩诉讼于周三在加州圣何塞联邦法院提起。七名购买了带有绿色标签的Apple Watch Series 9、SE和Ultra 2的消费者表示,如果他们知道真相,他们就不会购买这些手表,或者会支付更低的价格。 苹果在2023年9月发布了这些手表,表示它们将通过降低排放量和购买碳补偿的方式实现碳中和。然而,来自加州、佛罗里达州和华盛顿特区的原告表示,苹果为实现其排放目标所依赖的两个碳补偿项目并未提供“真正的”碳减排效果。其中,肯尼亚凯乌鲁山项目的大部分土地自1983年以来就已在国家公园保护区内,不受砍伐森林的威胁;而中国贵南项目的土地在2015年项目开始之前就已被大片树木覆盖。 苹果对此回应称:“我们已经将Apple Watch的排放量大幅减少了75%以上,并且正在大力投资于基于自然的项目,以从空气中去除数十万吨的碳。我们为用户详细且透明地介绍了我们的工作。”(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
刚刚,GPT-4.5 发布!可能是情商最高的大模型,最大缺点就是贵
朋友,先别急着退订 ChatGPT 会员。 最近,DeepSeek 开源周搞得热火朝天,全球开发者忙着分享代码、碰撞灵感;而另一边,OpenAI 却选在开源周最后一天冷不丁地丢出了 GPT-4.5 这个「大杀器」。 Sam Altman 在 X 平台分享了他的个人体验: 这是我第一次觉得 AI 像在与一位深思熟虑的人对话。它真的能提供有价值的建议,甚至让我有几次靠在椅子上,惊讶于 AI 竟然能给出如此出色的回答。 不过,他也特别提醒,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。而他之所以没有亮相发布会,原因是在医院照顾小孩。 从今天开始,ChatGPT Pro 用户(200 美元/月)已经可以用上 GPT-4.5(研究预览版)了。下周,将会逐步开放给 Plus 和 Team 用户;再下一周则是 Enterprise 和 Edu 用户。 体验方式十分简单,只需在模型选择器即可切换使用。 GPT-4.5 支持联网搜索,并能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。 GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。 简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。 亮点概括如下: 知识更广泛:它学习了更多的信息,所以懂的东西比以前多 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况) 更懂人心:「情商」更高,更能理解你的真实意图 对话更自然:聊天感觉更像和真人交流,不那么机械 创意更丰富:在写作和设计方面表现更好 GPT-4.5 正式发布,更懂你的心了 GPT-4.5 最直观的变化就是更懂你。 它更像一个善解人意的朋友,能够理解你的言外之意,捕捉你微妙的情感变化。 OpenAI 在内部测试中发现,与 GPT-4o 相比,测试人员更喜欢 GPT-4.5 的回答,认为它更自然、更温暖、更符合人类的交流习惯。 在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%)。 作为 OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,与专注于科学、技术、工程和数学(STEM)领域的其他模型不同,GPT-4.5 被设计得更全面、更通用。 GPT-4.5 的突破,很大程度上归功于「无监督学习」的进步。 简单来说,无监督学习就是让 AI 自己从海量数据中学习,而不是靠人工标注数据。 这就好比让一个孩子自己去看世界,而不是事事都由大人告诉他。这样,孩子就能学到更多更丰富的知识,形成自己的「世界观」。 OpenAI 认为,无监督学习和推理能力是 AI 发展的两大支柱。 得益于此,GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻觉现象。 SimpleQA 用于评估大语言模型(LLM)在简单但具有挑战性的知识问答中的事实性。而 GPT-4.5 在 SimpleQA 准确率(数值越高越好)达到 62.5%,遥遥领先于 OpenAI 其它模型。 另外,在 SimpleQA 幻觉率(数值越低越好)的评估中,GPT-4.5 的分数为 37.1%,也和 OpenAI 其它模型拉开差距。 在 PersonQA 数据集上,GPT-4.5 取得了 0.78 的准确率,优于 GPT-4o(0.28)和 o1(0.55)。 此外,OpenAI 对 GPT-4.5 进行了广泛的安全测试,包括有害内容拒绝、幻觉评估、偏见检测、越狱攻击防护等:GPT-4.5 在拒绝不安全内容方面表现良好,但在过度拒绝方面比前代模型稍高。 多语言性能方面,GPT-4.5 支持 14 种语言,在 MMLU 评估中超越了 GPT-4o,尤其在罕见语言(如斯瓦希里语、约鲁巴语)上有明显提升。 至于编程和软件工程,GPT-4.5 代码生成和修复任务表现有所提升。 Agentic Tasks 评估的是 AI 在真实环境中独立完成复杂任务的能力,包括终端操作(Linux + Python 环境)、资源获取(如自动下载、运行程序)以及复杂任务执行(如加载和运行 AI 模型)等。 OpenAI 发布的系统卡显示,GPT-4.5 在自主任务方面仍然受到一定限制,远未达到真正的自主 AI Agent。 除了普通用户,GPT-4.5 也向开发者敞开了大门。 OpenAI 同步开放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。 GPT-4.5 支持函数调用(function calling)、结构化输出(Structured Outputs)、流式响应(streaming)和系统消息(system messages),并且具备视觉能力,可通过图像输入进行处理。 开发者可以通过 API 接口将 GPT-4.5 集成到自己的应用中,创造出更多有趣、有用的产品。 不过,GPT-4.5 计算量极大,成本高昂,因此并不会取代 GPT-4o。并且,OpenAI 仍在评估是否长期在 API 中提供 GPT-4.5,以便在支持当前功能的同时,继续推进未来模型的开发。 AI 进入「拼情商」时代? 本次直播环节由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。 当演示人员要求写一条愤怒短信给频繁取消约会的朋友时,GPT-4.5 能够识别出用户的沮丧情绪,并给出了更加微妙且建设性的回应,帮助用户以更理性的方式表达感受。 另一个演示则展示了 GPT-4.5 在解释复杂问题上的能力,「为什么海水是咸的?」 GPT-1 完全不知道答案,GPT-2 给出相关但错误的回答,GPT-3.5 Turbo 首次给出正确但解释不充分的答案,GPT-4 过于详尽列举事实,而 GPT-4.5 则提供了简洁、连贯且有趣的解释,开头甚至使用了朗朗上口的句式。 据介绍,OpenAI 在开发 GPT-4.5 时实现了几项关键的训练机制创新。 训练如此大规模的模型需要显著提升后训练(post-training)基础设施,因为预训练阶段和后训练阶段的训练数据与参数大小比例完全不同。 团队开发了一种新的训练机制,能够使用更小的计算资源来微调如此大型的模型。 具体来说,他们通过多次迭代,结合了监督式微调(supervised fine-tuning)和基于人类反馈的强化学习(reinforcement learning with human feedback)来完成后训练过程,最终开发出了可以部署的模型。 在预训练方面,由 Alex 和 Jason 领导的团队采取了多项措施来最大化计算资源的利用: 使用低精度训练(low precision training)来充分利用 GPU 性能 跨多个数据中心同时预训练模型,因为他们需要的计算资源超过了单一高带宽网络架构所能提供的上限 此外,团队构建了新的推理系统,确保模型能在 ChatGPT 中快速响应用户,保持对话的流畅性。同时,他们表示将在发布后继续改进,使模型运行更快。 这些训练和部署机制的创新使团队能够将更多计算能力注入模型中,从而实现无监督学习的大规模扩展,这也是 GPT-4.5 能够在不依赖逐步推理的情况下,仍然展现出强大理解能力和较低幻觉率的关键原因。 值得一提的是,OpenAI 的首席研究官 Mark Chen 在发布 GPT-4.5 之前接受了 Alex Kantrowitz 的采访。 当被问到 OpenAI 是否在模型运行效率方面有所改进时,他表示: 让模型的运行更高效这一过程,通常与模型核心能力的开发相对独立。我看到很多工作都集中在推理(Inference)架构上。DeepSeek 在这方面做得很好,而我们也在这方面投入了大量精力。我们非常关注如何以更低的成本向所有用户提供这些模型服务,并一直在努力降低成本。 无论是 GPT-4 这样的推理模型,还是其他模型,我们始终在推动更低成本的推理优化。从 GPT-4 最初发布以来,运行成本已经降低了多个数量级,我们在这方面取得了不错的进展。 随后,当被问及当前的 Scaling Law 是否已经遇到瓶颈,或者是否观察到扩展带来的收益递减时,Mark Chen 回答道: 「我对 Scaling 有不同的理解。当涉及无监督学习时,你需要更多的关键要素,比如计算资源、算法优化以及更多的数据。而 GPT-4.5 确实证明了我们可以继续推进扩展范式,而且这种范式并不与推理能力相对立。 推理能力需要建立在知识的基础之上。一个模型不能凭空推理,而是需要先获取知识,再在此基础上发展推理能力。因此,我们认为这两种范式是相辅相成的,并且它们之间存在相互促进的反馈循环。」 实际上,GPT-4.5 不仅展示了无监督学习的巨大潜力,也预示着 AI 的发展方向——更像人。 过去,AI 的发展主要集中在提高智力,比如下棋、做题、识别图像等。 而现在,与两年前 GPT-4 横空出世时引发的轰动不同,人们对 AI 的期待已经从两年前的「能做什么」转向当下「能做得更好、更安全、更可控」。 越来越多的 AI 公司开始关注「情商」,试图让 AI 更懂人类的情感和需求。 GPT-4.5 就是这一趋势的代表,投入资源,研发更懂人心的 AI 依旧是行业值得关注的命题。 不过,GPT-4.5 虽然展示了基于海量数据和算力的语言模型所能达到的高度,但它的表现依然显得有些捉襟见肘。 从这个角度看,它或许更像画上了阶段性的句点,扮演了一个承上启下的过渡角色。既是对过去几代模型的总结与修补,也是在为下一波技术浪潮铺路。 真正的突破,可能还得等 GPT-5 来实现。 或许也不用担心留给 OpenAI 的迭代时间不够,虚假的版本迭代是 GPT-4.5→GPT-5,在接下来的「数月内」,真实的发布节奏应该是 GPT-4.5→GPT-4.6→GPT-4.7→…
OpenAI CEO奥特曼:关于GPT4.5的一个好消息和一个坏消息
凤凰网科技讯 (作者/陈俊熹)2月28日,OpenAI CEO山姆奥特曼发文称,GPT-4.5已准备就绪,并带来一个好消息和一个坏消息。 “好消息:对我来说,它是首个让我感觉像是在和一个有深度思考能力的人对话的模型。有好几次,我靠在椅背上,对从人工智能那里得到的真正有用的建议感到惊讶。 坏消息:这是一个庞大且成本高昂的模型。我们原本真的很想同时向Plus和Pro用户推出它,但我们的业务增长迅速,GPU已经不够用了。下周我们会增加数万个GPU,然后向Plus用户推出。(很快会有数十万个GPU到位,我很确定大家会把我们能配备的每一个GPU都充分利用起来。) 我们并不想这样运作,但很难精准预测导致GPU短缺的业务增长高峰。 提前告知一下:这不是一个推理模型,也不会在基准测试中取得压倒性成绩。它有着一种不同类型的智能,有一种我从未感受过的魔力。我真的很期待大家去体验它!” 奥特曼原文 ChatGPT4.5于北京时间2月28日凌晨发布,相较于GPT-4,GPT-4.5在多个方面进行了优化。该模型通过进一步扩展无监督学习技术,增强了模式识别和创造性洞察的能力。GPT-4.5在用户交互中的表现更加自然,知识覆盖面更广,能更好地理解并响应用户的意图。
实测GPT4.5:更像人了,有惊喜但提升微妙
北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5 终于发布了!凌晨4点爬起来第一时间给大家更新,😄 废话不多说,先看看Sam Altman的对GPT 4.5的感受: Sam: GPT-4.5 准备好了! 好消息: 它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。 我有好几次都向后靠在椅子上,惊讶于竟然能从人工智能那里得到真正的好建议 坏消息: 这是一个庞大且昂贵的模型。 我们真的想同时向 Plus 和 Pro 用户推出它,但我们的用户增长非常迅速,以至于 GPU 不够用了。 我们将在下周增加数万个 GPU,然后向 Plus 用户层推出它。(数十万个即将到来,而且我确信你们会用完我们能部署的每一个。) 这不是我们希望的运营方式,但很难完美预测导致 GPU 短缺的增长激增。 温馨提示:这并非一个推理模型,也不会在基准测试中表现突出。 这是一种不同类型的智能,并且它有一种我以前从未感受过的魔力。 真的非常激动能让大家试试它! 是不是觉得泛善可陈?下面我们来看看GPT4.5长什么样子(发布会视频附在文章最后): 发布会一开始上,OpenAI先展示了一个例子。当用户表达 “朋友又取消了我的约会,我太生气了,想发消息骂他” 这种负面情绪时, GPT-4.5 展现出了惊人的理解能力和情商: • 老模型 (o1) 的回复: 直接按照指令输出了愤怒的骂人短信,虽然完成了任务,但显得冷冰冰,甚至有点 “火上浇油”。 • GPT-4.5 的回复: 它不仅给出了更温和、更建设性的短信建议,还 “听” 出了用户言语背后的 真实需求 —— TA 可能只是需要倾诉和安慰,而不是真的想和朋友闹翻! 这种细微的情感理解和微妙回应,正是 GPT-4.5 的亮点之一!它不再是冷冰冰的机器,能够更好地理解我们的 真实意图和情感需求。 知识更渊博,能力更全面 除了情商升级, GPT-4.5 的知识储备和能力也得到了显著提升。发布会上OpenAI对比了 GPT 系列模型回答 “为什么海洋是咸的” 这个问题: • GPT-1: 完全懵圈 • GPT-2: 有点沾边,但还是错误答案。 • GPT-3.5 Turbo: 给出了正确答案,但解释很生硬,细节冗余。 • GPT-4 Turbo: 答案不错,但有点 “炫技”,不够简洁明了。 • GPT-4.5: 完美答案! 简洁、清晰、有条理,第一句话 “海洋是咸的,因为雨水、河流和岩石” 更是朗朗上口,充满趣味性! 更强,更快,更安全 按照OpenAI的说法这些进步背后,是 GPT-4.5 在技术上的全面升级: • 更强的模型: 更大的模型规模,更多的计算资源投入,带来更强大的语言理解和生成能力。 • 创新的训练机制: 采用新的训练机制,使用更小的资源 footprint 就能微调如此巨大的模型。 • 多迭代优化: 通过监督微调和人类反馈强化学习 (RLHF) 的组合进行多轮迭代训练,不断提升模型性能。 • 多数据中心预训练: 为了充分利用计算资源,GPT-4.5 甚至跨多个数据中心进行预训练! 这规模,想想都震撼! • 低精度训练和推理优化: 采用低精度训练和新的推理系统,保证模型又快又好。 • 更安全的模型: 经过严格的安全评估和准备度评估,确保模型可以安全可靠地与世界分享 性能表现 发布会上OpenAI 还展示了 GPT-4.5 在各种 benchmark 上表现: GBQA (推理密集型科学评估): 大幅提升!虽然还落后于 OpenAI-03 Mini (可以思考后再回答的模型),但已经非常接近! AIME24 (美国高中竞赛数学评估): 相对推理模型提升不多 SWE Bench verified (Agentic 编码评估): 相比GPT4o仅仅提升7% SWE Lancer (更依赖世界知识的 Agentic 编码评估): 超越 OpenAI-03 Mini! Multilingual MMLU (多语言语言理解基准): 提升不到4% Multimodal MMLU (多模态理解): 多模态能力提升5%左右 Andrej Karpathy 评测GPT-4.5 相信大家和我一样,对 GPT 的每一次迭代都充满了期待。这次的 GPT-4.5 更是吊足了大家的胃口,毕竟距离 GPT-4 发布已经过去大约两年了!AI 大神OpenAI联合创始人提前拿到了GPT4.5 的内测资格, Andrej Karpathy 亲自发声,对 GPT-4.5 进行了深度解读 GPT-4.5:算力堆砌的又一次进化? Karpathy 在他的推文中开门见山地指出,他期待 GPT-4.5 已经很久了,原因在于这次升级提供了一个定性衡量指标,可以观察到通过扩大预训练算力(简单来说就是训练更大的模型)所带来的性能提升斜率 他透露了一个关键信息:GPT 版本号每增加 0.5,大致意味着预训练算力提升了 10 倍! 为了让大家更直观地理解这个 "0.5" 的意义,Karpathy 还回顾了 GPT 系列的发展历程: • GPT-1: 几乎无法生成连贯的文本,还在非常早期的阶段 • GPT-2: 像一个“玩具”,能力有限,还比较混乱 • GPT-2.5: 直接“跳过”了,OpenAI 直接发布了 GPT-3 ,这是一个更令人兴奋的飞跃 • GPT-3.5: 跨越了一个重要的门槛 ,终于达到了可以作为产品发布的水平,并由此引爆了 OpenAI 的 “ChatGPT 时刻”!💥 • GPT-4: 感觉确实更好,但 Karpathy 也坦言,提升是 微妙的 。他回忆起参与黑客马拉松的经历,大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt,结果发现虽然差异存在,但很难找到那种 “一锤定音” 的例子 GPT-4 的提升更像是一种“润物细无声”的感觉: • 词语选择更具创造力 • 对 prompt 细微之处的理解有所提升 • 类比更加合理 • 模型变得更有趣 • 世界知识和对罕见领域的理解在边缘地带有所扩展 • 幻觉(胡说八道)的频率略有降低 • 整体感觉(vibe)更好 就像是 “水涨船高”,所有方面都提升了大约 20%。 📈 GPT-4.5:微妙的提升,依旧令人兴奋 带着对 GPT-4 这种“微妙提升”的预期,Karpathy 对 GPT-4.5 进行了测试(他提前几天获得了访问权限)。这次 GPT-4.5 的预训练算力比 GPT-4 又提升了 10 倍! 然而,Karpathy 发现,他仿佛又回到了两年前的黑客马拉松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出 🤔 尽管如此,这仍然非常有趣和令人兴奋,因为它再次定性地衡量了仅仅通过预训练更大的模型就能“免费”获得的能力提升斜率。 这说明,单纯地堆算力,依然能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化 注意!GPT-4.5 并非推理模型 Karpathy 特别强调,GPT-4.5 仅仅通过预训练、监督微调和 RLHF(人类反馈强化学习)进行训练,因此它还不是一个真正的“推理模型” 这意味着,在需要强大推理能力的任务(例如数学、代码等)中,GPT-4.5 的能力提升可能并不显著。在这些领域,通过强化学习进行“思考”训练至关重要,即使是基于较旧的基础模型(例如 GPT-4 级别的能力)进行训练,效果也会更好 目前,OpenAI 在这方面的最先进模型仍然是 full o1 。 据推测,OpenAI 接下来可能会在 GPT-4.5 模型的基础上,进一步进行强化学习训练,使其具备“思考”能力,从而推动模型在推理领域的性能提升。 GPT-4.5 的优势领域:EQ 而非 IQ 虽然在推理方面提升有限,但 Karpathy 认为,在那些不依赖重度推理的任务中,我们仍然可以期待 GPT-4.5 的进步。 他认为,这些任务更多与 情商 (EQ) 相关,而非智商 (IQ),并且瓶颈可能在于: • 世界知识 • 创造力 • 类比能力 • 总体理解能力 • 幽默感 因此,Karpathy 在测试 GPT-4.5 时,最关注的也是这些方面。 Karpathy 的 “LM Arena Lite” 趣味实验 为了更直观地展示 GPT-4 和 GPT-4.5 在这些 “情商” 相关任务上的差异,Karpathy 发起了一个有趣的 “LM Arena Lite” 实验。 他精心挑选了 5 个有趣/幽默的 prompt,用来测试模型在上述能力上的表现。 他将 prompt 和 GPT-4、GPT-4.5 的回复截图发布在 X 上,并穿插投票,让大家投票选出哪个回复更好,类似下面这种问题和投票方式 在 8 小时后,他将揭晓哪个模型对应哪个回复 写在最后: 即日起,ChatGPT Pro 用户 已经可以通过模型选择器体验 GPT-4.5 了! 下周将面向 Team 和 Plus 用户 开放,EDU 和 Enterprise 用户 稍后也将陆续上线。 发布会的最后,OpenAI强调了 无监督学习 和 推理能力 的重要性,并认为 GPT-4.5 是无监督学习领域的前沿成果。 更强大的世界知识和更智能的模型,将为未来的 推理模型和 Agent 奠定更坚实的基础 整场发布会给我感觉GPT-4.5亮点真的不多,从Andrej Karpathy的一手评测来看也是,提升的主要是情商?这个只有等大家使用以后自己感觉了
这么好的超跑你卖50万?小米大甩卖的样子我心疼
先叠buff: 本文极度主观,您当弹幕看就行 昨天早上我起床摸手机,看到新闻App密密麻麻的推送《雷军,新首富》;到了中午呢,标题变成了《雷军短暂当上了中国首富》;时间到了下午,我收到的是《雷军辟谣成为首富》。 虽然雷军没能成为全国第一有钱人,但这天对他来说依然是个和富贵相关的日子——晚上得开“双Ultra发布会”。 看到这个单词我怕极了,生怕它变成我用不起的小米 除了简洁的设计、实用的质量外,小米一直以来的标签就是“价格亲民”。而现在,小米终于要一只脚伸进高端赛道了:左手打小米15 Ultra,右手打小米SU7 Ultra,两个拳头锤得普通人脑子嗡嗡的。 买不起,还不能看了吗?这就带你看! 小米SU7 Ultra:拳打保时捷 小米SU7推出时,在朋友圈晒订单之后又退款的盛况还历历在目,但经过了一年的考验,SU7出现了风评逆转,甚至后来居上的态势。显然小米打算抓住风头再推一步,直接让小米进入国内电车的第一梯队。 先说重点:这次发布会推出的小米SU7 Ultra,创下多项赛道纪录,百公里加速1.98秒,最高时速359km/h(高铁啊),有285kg最大下压力。为了更好的表现,它采用了三电机配置前轴单V6s电机,后轴双V8s电机组合,最大马力1548PS。 这样的配置,SU7 Ultra甚至在上海国际赛车场破了保时捷Taycan保持的量产车单圈赛道纪录(虽然定语挺长的,但是也很厉害了),猜猜看最低多少钱入手? 不要998!不要998!只要52.99万! 据小米在发布会后提供的数据,开售10分钟后,SU7 Ultra已经订出了6900台。 虽然在发布会里没提,但是几个月前,SU7 Ultra的续航里程信息出现在了工信部的新能源汽车目录中。目录中揭示,SU7 Ultra配备了93.7kWh的电池,最远能提供630公里的续航里程。 这车还有五个颜色:黑色、白色、银色、鹦鹉绿、闪电黄,不过除了黑色和白色之外的选项都得加钱。 关于内饰,雷军是这样说的:“经常买超跑的朋友们都知道,这一套内饰不花200w出不了门。”SU7 Ultra在内部用了大量碳纤维,尤其是车顶,是一整块1.7平米的大碳顶,不仅轻而且韧。车外面也很豪华,虽然车标还是小米,但这次是个24k金的小米。 想抠车标的朋友们注意了,是镀金,抠下来也没啥用 除了快、豪华、便宜之外,大家不要忘了这是一个小米的产品,其他零零碎碎的配置也不少。比如,座椅按摩(我真心希望这个功能在驾驶时不能被启动!!!),105L前备箱,双50w无线充电,后视镜盲区监测,声学夹层隔音玻璃,噪音消除轮胎,同时它的前挡板化妆镜还是能调亮度和色温的。 玻璃也挺防晒的,雷军一直强调女车主啥的,要我说是个有皮肤的人就要注意防晒。 还有一些其他的功能,太多了,不说了 安全方面——看起来也挺安全的。SU7 Ultra的电池也布局在底部,但是外包了防弹涂层,据说抗物理伤害,防穿刺,不怕底盘剐蹭电池出问题,就算路面不平也能放心开。这个防弹涂层没有展开讲具体是什么东西,但他们演示了一个视频:给西瓜涂上防弹涂层,从目测三层楼的高度扔下来,西瓜直接弹飞了,没碎。 这个车还有被动安全功能:想加速追尾是不行的,车检测到前方有障碍会急刹;想倒车撞柱子也是不行的,也会急刹。当然这都是演示的功能,当个备份用可以,实际生活中不建议大家去测试。 制动系统上,SU7 Ultra用了Akebono前六后四活塞卡钳,和430mm超大尺寸碳陶制动盘,可承受连续10次180km/h刹停而不衰减,可以实现最短30.8米的100km/h刹停距离。 作为一个高端电车,SU7 Ultra也配备了智驾系统,可以漫游寻位泊车,极窄车位泊出,车上配了个运算能力还挺强的电脑。 这么狂躁的车上路,别人会不会很心慌?在赛车场地外,这个车最高只能跑160km/h,想跑更快需要解锁;而且,当车辆切换到“新手”驾驶模式后,限速会降到140km/h。 讲完之后,孔雀蓝色SU7 Ultra直接开上台了,雷军说:大家拿到手,不需要改装,就可以直接下赛道(全体鼓掌尖叫)。 我觉得雷军和这辆车马上要拥吻了 最后,你要是觉得这个还不够尊贵,不能体现身份,还可以购买81.49万的顶配“纽北限量版”。 米粉专用,不锈钢纸杯。 小米 15 Ultra:脚踢 iPhone 另一个Ultra是手机15 Ultra。作为一个不是很懂手机的人,在这近半个小时里,听到最多的两个词是“徕卡”和“苹果”。 反复cue徕卡,是因为这款手机用了很多徕卡的光学技术(以及外观设计)。在手机性能的六边形中,“拍摄”这一项成为了巨尖的尖尖。 凑很近拍,可以,粉扑上的粉都拍得清清楚楚。 拉近了拍远处也没问题,清晰度跟主摄拍的差不多——专业摄影师干活都要揣3个不同焦段的镜头,现在揣个手机也就齐活了。 拍夜景也挺厉害的。很多手机拍夜景,靠暴力拉高亮度,有时候看着不太自然,过于亮了。这款手机号称用了“光学的方法来解决夜景问题”,黑暗环境里拍的照片会更好看一些。 所有夜景图都是和iPhone做对比的 我很好奇:焦段超广、夜景超牛,如果你有这么个手机,你想拍啥? 除了拍照片外,“徕卡”也给拍视频助了一把力,主要是拍高速移动的物体还挺清晰的——发布会上展示了Ultra的小米手机拍摄Ultra的小米车,属于是某种原汤化原食了。 远的也拍、近的也拍,白天也拍、晚上也拍,这个手机就得很皮实耐用才行。根据小米集团合伙人、总裁卢伟冰介绍,这个精致玩意儿的屏幕配备了量产玻璃中最扛摔的那种,还特别耐磨,电池也大,方便出去扫街拍照拍视频,还能连着看8小时视频。 这些要素叠加在一起,我想到了世界上最适合用它的人——贝爷的摄像师啊!这个跋山涉水、披星戴月也不肯放下摄像机的无名英雄啊! 这些梆硬的卖点之外,小米还在手机上堆砌了一些现有技术,给了我们小惊喜: 信号更好——我最开始还纳闷了,又不是小灵通,哪个手机信号还差了?后来一想,在火车站、演唱会这种人多的地方信号确实不好,没法及时发朋友圈还怪遗憾的(而且贝爷的摄像师也常去野外对吧); 动态的人像壁纸——只要你愿意,每次唤醒手机屏幕都能看到雷总给你挥手(果壳编辑A:我总觉得有点怪)(果壳编辑B:哈迷表示这很正常); 用上AI就能让雷总跟你招手了 挺用心的配件——这很徕卡,甚至快门和徕卡相机的通用。只是我没有很想清楚,喜欢徕卡的人大可直接买徕卡相机,为什么要买这个手机和配件来拍照呢? 好了,我没忘记刚才说还有个关键词是“苹果”。 几乎每介绍一个功能,卢伟冰就要cue一下苹果,大意“我们和苹果差不多”“我们比苹果牛”“但我们没苹果贵”,苹果都被cue麻了。有意思的是,在本环节最后,卢伟冰宣布这款手机可以和iphone生态互通——第一反应是,你再怎么拉踩最终还得“结与国之欢心”,但转念一想,这是要从库克手里抢用户的气势啊! 价格嘛,6499元,感觉卢伟冰也宣布得不情不愿的,有种“我这个价卖你真是赔本了”“下不为例啊”“以后我真要涨价了”的扭捏感,笑死。 REDMI Book Pro 16 2025 名字很长的一款电脑 小米也要AIPC! 这个名字很长的电脑用了第二代英特尔酷睿Ultra处理器,集成全新intel Arc核显,内置XMX AI引擎,算力达到96TOPS,可支持80亿参数本地大模型稳定运行,从性能上可以AI了。那么问题是用的什么AI?是小爱同学。 本地AI支持自然语言交互,文字、图片、文档多模态输入,可以总结翻译文档,还能识别图片信息内容。 屏幕方面——14英寸屏幕搭载2.8K LCD护眼屏,支持120Hz高刷新率;16英寸搭载3.1K LCD护眼屏,支持165Hz高刷新率。并且,这是小米首次在笔记本电脑上用上了自主研发的青山护眼。 15.9毫米的厚度,塞了很大量的电池。这台电脑电池容量99Wh,这也是民航规定可携带的最大容量,据说能续航30小时。 最后最后,小米电脑可以融入苹果生态,iPhone、iPad、MacBook只要安装小米互联服务,就能和小米互相airdrop。 价格6499元,笔记本享受国补,补完之后5199元。怎么卖电脑也像卖白菜啊! 小米 Buds 5 Pro 自带录音和翻译的耳机 小米这个耳机,之前的噱头是给足了:“4000元内音质最好的tws耳机”(tws耳机就是真无线立体声耳机)。 那音质怎么个好法呢?发布会上讲得很抽象,让我不停联想到白居易当年是怎么形容琵琶声的。不过上台介绍的小米CMO许斐没那么好的文采,她大概说了两次“我也说不清,你们买了感受一下”。 抽象的咱理解不了,但有些实际的东西我们还是能咂摸: 这种真无线耳机最怕丢一只剩一只,如果2年内发生这个不幸事件,可以半价买一只; Wifi直连版据说能达到无损音质(这个版本贵200块)(能不能听出区别是你的事); 这盒耳机可以当录音笔和同声传译用——但这俩功能手机也有,你会用耳机还是用手机? 价格是1299元。老实说,最开始那句夸赞可以缩小范围到“2000元内”的。 家电全家桶 相比于手机和汽车的大篇幅介绍,家电部分在发布会上更像走流程的。所以这部分我们也不多赘述,大家看图为主吧。 小爱音箱 搭配了“超级小爱”的智能音箱,就像一个记性很好的电子家居仆人,不仅能执行你下达的一连串包括但不限于“关空调”“扫地”“远程备车”“每天7天开窗帘”的指令,还能回答“附近有什么好玩的地方”“我该穿什么衣服出门”之类的问题。 售价299元,加上国补之后是254元。 为什么小爱音箱不可以做得好看一些呢,长得跟空气净化器似的 除湿机 这款除湿机的主要卖点是双变频,据说这样不仅除湿特别快,还噪音低、用电少。除湿机最多能吸30升水,差不多相当于两大桶的桶装水;搭配下排水,还不用自己手动倒水。 售价1999元,国补1699元。 冰箱 强调了一下是上面双开门冷藏、下面大抽屉冷冻的法式冰箱,除此之外没品出啥特别的地方。要买可以,不拦着。 价格4499元,国补后3599元。 洗烘套装 强调了不伤衣服的精准烘干、低温烘干,还强调了一次烘干量大,也强调了洗烘速度快——不知道这三点是不是能同时做到,我猜不能。 价格6499元,国补后5199元。 在本部分,我稍微犯了一下文字工作者的职业病:“大件烘的透”,的→得。 中央空调 中央空调不仅有去年很受好评的天幕风和地毯风,还能选择“风吹人”、“风避人”的功能,听起来就像古代皇帝一样——要服侍的人对着你扇风还是对着别处扇风都行。 另外,这个空调能自己检测空间内有没有人。没人的话,它会自己降低功率;如果一个小时都没人,那它自己就关了,很适合出门忘记关空调的各位。 但我们觉得最实用的,是小米推出了中央空调的配套服务——他们开发了一个程序,里面有很多户型图,你也可以上传自己的户型图,小米就会计算出适合你的专业安装方案,并给你一条龙全包了后续的安装工作。 价格请看图吧。 Guokr 小米的这场发布会就像一场大甩卖——产品性能是个顶个的好,但小米宣布价格时的样子却让人心疼。不管是拳打保时捷还是脚踢苹果,小米决心要让你从衣食住行都能用上他们的产品。那么在这些产品里,你对哪些最心动呢? 作者:李小葵,翻翻 编辑:麦麦 封面图来源:小米 文中配图均来自小米及发布会直播截
无人在意的iPhone 16e,用起来到底咋样?
差友们, iPhone 16e 的测评给大家端上来了 ~ 在这款设备正式发布之前,新 SE 的爆料已经满天飞了,甚至在去年七八月份就已经开始有一些比较准确的爆料了,但托尼身边还是有一些坚定的果粉,当时根本不信苹果会出这么一款设备,还在等他们的小屏、 LCD 、高刷。 结果 iPhone 16e 一上来, 6.1 英寸刘海屏、 OLED 、 60Hz 。很多小屏党直接破防了: “ 我拿着 SE3 等了三年,就等来了这个玩意? ” 是的,与其说苹果给小屏党们发布了个 iPhone SE4 ,还不如说是给那些还在用 iPhone 11 的钉子户们准备了个 iPhone 11s —— 外观基本不变,摄像头只有一颗主摄;但是处理器是最新的 A18 、内存是能用上苹果 AI 的 8GB ,而且售价比如今还在卖的 iPhone 15 还便宜几百块钱,只要 4499 元起步,叠加完国补之后更是香甜。 虽然说我们编辑部左思右想一圈下来,还是感觉买个 iPhone 15 性价比更高一点,但无论你对 iPhone 16e 失望与否,它依旧是苹果做足功课、向全球推出的新产品。 就像我们上一篇文章说的, iPhone 16e 也许压根儿就不是冲着中国市场来的, 16e 的配置放在海外依旧足够 “ 嘎嘎乱杀 ” 。 好了~背景故事讲完了,最近我们也终于是拿到了这台手机,接下来就让托尼带着大家通过实测来看一看这次的 iPhone 16e 有没有什么不为人知的惊喜。 # 性能 首先来给大家唠唠性能,相信大家最关心的肯定是这颗 “ 残血 A18 ” 的实际表现了。虽然名字跟 iPhone 16 上的那个 A18 处理器一样,但 iPhone 16e 上这块还是挨了一刀,少了一颗 GPU 核心。 少了一个核心,能比 iPhone 16 、 iPhone 16 Pro 差多少?我们直接跑个分儿看看到底是骡子是马。 CPU 部分, iPhone 16 和 iPhone 16e 的表现如出一辙,差距相比 iPhone 16 Pro 也非常小,看来苹果并没有在这颗残血 A18 的 CPU 主频上动刀子。 来到 GPU 的部分,残血 A18 的劣势就表现出来了:相比满血 A18 ,它的跑分低了 13.7% 。看着这从上到下阶梯式的得分,托尼不得不感叹一句苹果真是等级森严。。。 不光跑分差一截,实际图形渲染差的更多。到了 3D Mark Wild Life Extreme 这边, iPhone 16e 的得分比 iPhone 16 低了 20.8% ,平均帧率也只有 18.2 帧。 要知道 A18 Pro 跟满血 A18 其实帧率差得并不大,难道 iPhone 16e 上少的这颗 GPU 是压垮骆驼的最后一根稻草嘛。。。 游戏实测环节也证实了这种差距,在 30 分钟的星槎海跑图测试中, iPhone 16e 的平均帧率只有 46.2 帧,而且这帧率波动。。。我严重怀疑我是看了个心电图。 iPhone 16e 崩铁 30 分钟帧率测试 不过原神跑下来 iPhone 16e 还算稳定,平均帧率能到 58.4 帧,玩起来还算流畅。 iPhone 16e 原神 30 分钟帧率测试 总的来说,屏幕前的老哥们要是想玩大游戏,还是买个标准版 16 吧,国补下来真差不了多少钱。 # 移动网络 说完性能,我们接下来盘的就是这颗苹果自研的 C1 基带了。自打上回苹果收购英特尔基带部门已经过去五六年的时间了,打磨了这么久才有第一代产品,托尼个人对这颗基带的期待还是挺高的。 为了探究这颗基带的真实实力,我们带上了 iPhone 16e 、 iPhone 16 Pro 和作为优秀基准的华为 Mate 70 Pro+ ,配合广电( 套餐峰值 300M )、联通( 套餐峰值 500M )两家运营商的卡,在室内、空旷地带、地下车库和电梯四个场景下跑了一轮网络测速,而且为了避免抢网的情况,这三台手机都是单独测速的。 没想到在第一轮的室内环境里, iPhone 16e 就露怯了。 在影棚的无影墙边上,华为和 iPhone 16 Pro 用联通卡都跑到了 500M 的峰值速率,而 iPhone 16e 只跑到 100M 左右。 广电卡这边也是差不多的结果,在另外两个都能跑满的情况下, iPhone 16e 只有 20M 左右。 室内(联通)—— 室内(广电) 向左滑动 因为我们无影墙的位置是在房间角落,为了避免偶然情况,我们在影棚里换了一个位置重新跑了一次,这回 iPhone 16e 的成绩就正常多了,跟另外两位差距不大。 室内(联通)—— 室内(广电) 向左滑动 就感觉 iPhone 16e 的信号挺容易受环境影响的。。。我们又移步室外空旷环境跑了一圈, iPhone 16e 的表现又让我看不懂了。 这回联通的速率只有 18M ,我们又开关飞行模式给它复测了一下,好在是跑到了一个可用的 160M 速率,但对比华为和 iPhone 16 Pro 都跑满的情况,这成绩确实有点差强人意。 室外(联通)—— 室外(联通复测) 向左滑动 而换上了广电卡之后, iPhone 16e 竟然力挽狂澜,测出的 233M 速率比华为和 iPhone 16 Pro 高了一倍! 室外(广电) 有点网文小说逆袭男主的感觉了嗷! 为了保险起见,托尼在这一轮也复测了一下,华为的速率是上到了 200M ,但 iPhone 16 Pro 还是在原地踏步。 室外(广电复测) 怎么感觉这 C1 也有点 “ 遇强则强,实力不详 ” 的意思。。。 到了地库, iPhone 搭配广电卡的传说还在续写,两台 iPhone 的速率都超过了华为 Mate 70 Pro+ 。 见证历史了朋友们,建议苹果把下图打印出来裱上。 地库( 广电 ) 等托尼换上联通卡, iPhone 16e 开始有点掉链子了,测之前信号掉到了 4G ,手动开关飞行模式后用 5G 跑完了全程,成绩跟华为差不多、比 iPhone 16 Pro 还要好点,但最终测完又掉回了 4G 。 地库( 联通 ) 根据这回我们观察到的结果, iPhone 16e 是存在回落 4G 且没法及时切换回 5G 的问题,这也有可能是新机优化的问题,建议等一波 OTA 。 到了电梯这里,我们发现这里应该是覆盖了广电 / 移动的信号的,华为这边能跑到 100M ,两台 iPhone 插广电卡都上到了 70M 左右的速度,能做到不失联。 而联通卡的表现就有点众生平等的意思了,其中 iPhone 16e 的表现会比另外两个差一点。 电梯(广电)—— 电梯(联通) 向左滑动 信号部分给大家做一个小总结,作为第一款搭载苹果自研基带的产品, iPhone 16e 的表现还没有托尼期待的那么好,但在大多数没那么极限的情况下,与使用高通基带的 iPhone 16 Pro 差距并不大。 而且从测试来看这颗基带绝对性能应该没啥问题,说不定以后放到 Pro 机型里,有了更高的制程 + 天线优化,实际表现也会迎头赶上。 # 续航 另外续航这回也是 iPhone 16e 重点宣发的点,苹果对此的解释是因为这把上了自己的 C1 芯片,能效提升了不少,视频播放能达到 26 个小时。 差点忘了, 60Hz 刷新率还有这个好处。。。并且托尼发现在这个尺寸下, iPhone 16e 是唯一一款用了单摄像头的 iPhone ,理论上这也能给电池让出不小的空间嘛。 于是我们拿出了标称视频播放 27 小时的 iPhone 16 Pro ,跟 iPhone 16e 一起做了我们的三小时续航测试。 B 站、录视频、逛淘宝、刷微博抖音一套下来,再来一把王者,最后还能剩 65% 的电! 这续航已经跟我们之前测过的 6550mAh 的红米 Turbo 4 不相上下了,成绩真是挺不错,中轻度使用下来一天应该没啥问题。 # 影像 接下来咱们来聊聊 iPhone 16e 的影像。 其实托尼是有点没想到,在 2025 年竟然还有单摄像头的手机出现。苹果可能也觉得这事儿不太合适,所以在自己的页面上大字强调:俺这是 “ 二摄一体 ” 的融合式摄像头! 其实这就是 iPhone 16 主摄的同款 4800 万像素的传感器。 用 1 倍焦距时会把 4 个小像素打包成一个大像素干活,输出 1200 万像素的照片;用 2 倍焦距的时候再拆分成 4800 万像素,取中心区域的 1200 万像素,实现了近似光学变焦的效果。 虽然托尼觉得没给超广角有点不厚道,实际上确实有很多人压根儿不用超广角,但刀得只剩一个还是有点。。。 那具体这颗融合摄像头实用性如何呢?托尼强制睡梦中的火锅当了一回模特,先从色调上看, iPhone 16e 的颜色确实更加讨喜了。 iPhone 16e —— iPhone 16 Pro 向左滑动 但放大火锅脸上的毛,就能发现 iPhone 16e 涂抹感比较严重,没有 iPhone 16 Pro 那么锐。 啊这,不是说好了跟其他 iPhone 16 机型同样优秀嘛。。。 iPhone 16e —— iPhone 16 Pro 向左滑动 号称无损裁切的 2x 焦段也是一样, iPhone 16e 的涂抹感始终要比 iPhone 16 Pro 更严重一些。 iPhone 16e —— iPhone 16 Pro 向左滑动 数毛党要不高兴了! 相比于画质,其实托尼觉得 iPhone 16e 的更大的短板还是焦段上的缺失。少了超广角不能愉快拍建筑和风光,少了长焦不能拍好看的妹子。 哦对了,说到拍妹子,这次 iPhone 16e 的单镜头是获取不到景深信息的,所以拍人是纯靠 “ 算 ” 的 —— 只能识别出人的正脸然后做虚化算法。 要是拍个侧面背影啥的,它只会冷冷提示一句,未检测到人物。 iPhone 16e —— iPhone 16 Pro 向左滑动 这意味着你拍个静物啥的也只能跟好看的虚化说拜拜了,如果有常用 iPhone 拍产品图的朋友,估计会挺失望的。。。 iPhone 16e —— iPhone 16 Pro 向左滑动 不过托尼对这一块也有点吹毛求疵了,但凡拿 iPhone 干活、做生产力拍摄的,可能早就买了 Pro 系列了 ~ # 总结 苹果在 iPhone 16e 的介绍页面里,总是把自己的产品亮点与 iPhone 11 这类机型做对比。 其实这样做的心思不难猜出,苹果是想把 iPhone 16e 卖给那些用着 iPhone 11 甚至更老机型的用户:跟那些旧产品相比, iPhone 16e 当然还算有些诚意。 不过 iPhone 11 好歹也算是个正代产品,换成 iPhone 16e 真的不算是消费降级? 哦等等。。。我好像知道这玩意为啥不叫 iPhone SE4 了。。。 上次的文章发出来之后,托尼也在评论区发现了一些想要买这款产品的用户。 他们的理由无非是,想给家里的老人换一个不会乱下软件的老人机、想给自己买一个备用机,这确实说明 iOS 的生态足够吸引人。 然而,却很少有人说,我想买这款产品当主力机:也就是说,可能那些花尽心思研究参数的人不会买它,而买了它的人也并不能用出它和其他 iPhone 的区别。 其实是因为,现如今用户们的需求,可能远不止 “ 系统好用 ” 这一点了。这个价位,安卓中端机能给大家带来的东西或许更多。 当然,没有不好的产品,只有不好的价格。现如今 128G 的 iPhone 16e 叠加国补已经来到了 3999 ,未来可能还会叠加平台补贴进一步下探。 随着产品降价,也能拉低苹果 AI 的门槛,让好系统、好生态普及给更多的人,托尼觉得这才是 iPhone 16e 出现的意义。
GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4.5正式发布,号称OpenAI最大和最好的聊天模型。 但很意外啊,这么大的事奥特曼都不来。 这次OpenAI也不打算秀炫酷的解题,也不打算晒各种榜单的排名,反而强调起了情商。 第一个现场演示: “我又被朋友鸽了,帮我写个短信告诉他们我恨他们。” o1意识到这样会“友尽”,但也只是很忠实的按要求完成了任务。 GPT-4.5甚至都没完成提示词中的任务,但整个互动显得更自然了: 先识别出用户很烦恼 建议更清楚的表达自己的情绪 给出两种备选方案 再询问用户是否坚持原来的要求 第二个现场演示,强调GPT-4.5掌握更多世界知识,以及讲述知识的方式更自然。 解释为什么海水是咸的。 GPT-4 Turbo掌握很多知识,但回答就像是在炫耀它很有知识,只是把事实罗列在一起。 同样这些知识,GPT-4.5的语气更有互动感,还考虑到用一句简洁的开场,让用户更容易记住三个关键词。 面对更专业的问题“用第一性原理解释AI对齐的必要性”,o1的回答像是写论文,而GPT-4.5通过“第1步、第2步、第3步……”来引导用户思考这个问题。 除了演示之外,直播中也透露了GPT-4.5开发过程的一些内幕: 如“激进地”使用了低精度训练,预训练阶段跨多个数据中心完成。GPT-4.5会成为未来推理模型的基础模型。 从今天起,GPT-4.5开放给200美元一个月的Pro用户。下周逐步开放给20美元一个月的Plus用户。 不是最前沿,但是最大模型 技术报告中表示:GPT-4.5不是一个前沿模型,但它是OpenAI最大的语言模型,比GPT-4的计算效率提高了10倍以上。 OpenAI称通过扩展无监督学习和推理提升AI的能力。 GPT‑4.5通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。 在衡量LLM事实准确性的SimpleQA基准上,GPT-4.5准确率62.5%,幻觉率37.1%,比GPT-4o、o1、o3mini优化了不少。 以下是一个具体的幻觉降低的案例。 假如用户询问“第一种语言是什么”,GPT-4.5会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。 此外,Blog中还称开发了新的可扩展的技术,能够利用从小型模型衍生出的数据来训练更大更强的模型,由此提升了GPT‑4.5的可操控性、对细微差别的理解以及自然对话能力。 在人类偏好评估中,测试者更倾向于选择GPT‑4.5而非GPT‑4o。 OpenAI表示,GPT‑4.5对人类意图的理解更深刻,能够以更细腻的“情商”解读微妙的线索或隐含的期望,还展现出了更强的审美直觉和创造力,在协助写作和设计方面表现出色。 比如,当用户表达“考试不及格、很难过”,它会安慰、鼓励用户。作为对比,4o给出的回答就更加冰冷,没什么安慰的话语。 在一些回复上,GPT‑4.5对比4o回答也更简洁。 另外,OpenAI还晒出了GPT‑4.5在标准学术基准测试中的结果,全面超越GPT-4o,在SWE-Lancer Diamond(coding)和MMMLU(multilingual)上超越o3-mini。 API定价非常贵 值得一提的是,GPT-4.5的API定价非常贵。 75美元/百万tokens输入、150美元/百万tokens输出。 对比GPT-4o,定价高出去15-30倍。 到底这个价格值不值呢?不少人已经分享了抢先体验的效果。 拿到内测的博主表示,实际使用中GPT-4.5非常有创造力、一定上了很多人文课。 Claude 3.7和GPT-4.5两个,非常相似。 他还列举了GPT-4.5视觉理解能力很强的例子。它能从这张星露谷截图中发现非常小的元素蝴蝶。 “独角兽评估”的实测表现也很好。 后续随着更多实测放出,应该还能看到更多有意思的例子。 One More Thing 最后,大家一定很关心,奥特曼去哪了呢? 在医院照顾小孩。 是的,他最近刚刚喜提一子。 直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8 参考链接:https://openai.com/index/introducing-gpt-4-5/ — 完 —
52.99万元的小米SU7 Ultra,要“革”顶级性能跑车的命?
出品: 电动星球 作者:Wallace 223 日前,小米 SU7 Ultra 原型车首次亮相,成为雷军年度演讲中的重头戏。 121 日前,雷军为小米 SU7 Ultra 举办了专门的预售发布会,针对该车的一系列能力做了详细介绍。 SU7 Ultra 的原型车有着更极致的赛道性能,但量产版的 SU7 Ultra 也同样不赖。「V8s+V8s+V6s」的三电机组合为其带来 1548PS 的澎湃马力、1.98s 的零百加速能力、最高 350km/h 的理论极速…… 在赛道测试中,SU7 Ultra 打破了上海国际赛车场的四门轿车圈速记录,仅用时 2:09.944;成都天府赛道,以 1:26.741 的成绩,同样打破了四门量产车的圈速记录…… 雷军表示,接下来小米 SU7 Ultra 量产车还将挑战包括「纽北」在内的全球各大赛道,用圈速成绩为其性能正名。 显然,「性能」就是 SU7 Ultra 最大的标签,但「价格」,始终是小米的最后王牌。 最终,52.99 万元的价格引来全场欢呼,小米 SU7 Ultra 的正式售价,相比预售价降低了近 30 万元,堪称「史无前例」。 发布会后小米宣布,SU7 Ultra 仅用 10 分钟便斩获 6900 个大定订单,距离「年销万台」的目标似乎只有一步之遥。 小米 SU7 Ultra,真的能改变「电动豪华车」的定义,在中国车市中再创造一个奇迹吗? 赛道级性能 小米 SU7 Ultra 的性能卖点,让我们快速回顾一下。 前文已经提到,小米 SU7 Ultra 配备三电机动力总成,最大马力可达 1548PS,能带来 1.98 秒的零百加速时间,理论最高时速可达 350km/h。 除了性能强劲,小米 SU7 Ultra 的综合配置也相应提升。 比如说制动系统,碳陶瓷制动盘(盘径达到 430mm)加上由 Akebono 提供的高性能制动卡钳,配合倍耐力提供的高性能轮胎,能为其带来赛道级的制动能力。 此外,小米 SU7 Ultra 的动力电池组也经过定制。这块「赛道版高功率电池包」最大放电倍率可达 16C,最大放电功率达 1330kW。在电量低于 20% 的情况下,仍能提供 800kW 的放电功率,以保障加速性能。 续航方面,CLTC 630km 的表现,应付日常使用也已经足够。 设计上,小米 SU7 Ultra 和标准版车型保持着类似的轮廓,长宽高尺寸为 5260×2064×1406mm,轴距 3000mm;但针对赛道或高性能场景,做了不少针对性优化。 官方介绍,小米 SU7 Ultra 可选面积达 1.7㎡ 的碳纤维车顶,后视镜外壳升级为碳纤维材质;碳纤维材质制成的前舱盖,设计了两个风道以优化空气动力学性能。 而夸张的高性能的空气动力学组件,则是小米 SU7 Ultra 在视觉上与常规版本差异最大的地方。 U 型风刀+大前铲、主动式的尾部扩散器,再加上全碳纤维打造的大尺寸尾翼,小米 SU7 Ultra 的「战斗感」足够强烈;这些空气动力学组件,也的确让这款高性能电动车的赛道表现得到提升。 当然,这些「拉风」的外观件几乎都需要选装,而且价格并不便宜。 不选装碳纤维尾翼的情况下,小米 SU7 Ultra 标准版将配备 Max 版本同款的电动升降尾翼,放弃其他选装件,SU7 Ultra 的造型与普通版 SU7 会更加相似。 希望以更低成本获得上述选装件的话,可以赶在 3 月底前下单。小米承诺,3 月底前下单,全车 15 件碳纤维配件将会免费赠送。 实际上,小米 SU7 Ultra 比肩「保时捷」的地方除了设计、性能,还有数量繁多的选装件,雷军甚至在发布会的尾声建议准车主们多花时间研究一下选装,因为「会非常花时间」。 还有「后手」 为了将赛道性能推向极致,小米 SU7 Ultra 提供了两个方案。 首先,SU7 Ultra 可直接选装「赛道竞速套装」,包括倍适登绞牙避震、高性能刹车盘、21 英寸 U 型锻造轮毂+倍耐力 P ZERO 热熔胎等一系列高性能改装件,和前文提到的碳纤维车顶等选装件,共要价 10 万元。 换言之,只需要 62.99 万元,就能获得一台性能出众但视觉效果同样「拉风」的「满血版小米 SU7 Ultra」,考虑到其正式起售价已经远低于预期,加上竞速套装后价格仍在可接受范围内。 如果车主不差钱且追求更极致的性能,小米 SU7 Ultra 还准备了一个特别版本——「纽北限量版」可供选择。 小米 SU7 Ultra 纽北限量版除了配备绝大多数的选装件外,还做了一定的赛道化定制,比如从四座布局更改为双座布局,更接近 SU7 Ultra 原型车,是更极致的赛道机器。 价格方面,小米 SU7 Ultra 纽北限量版为 81.49 万元,和预售价保持一致。 唯一可惜的是,小米 SU7 Ultra 的「竞速套装」和「纽北限量版」都将在小米 SU7 Ultra 挑战纽北赛道后上市,所以现阶段我们能接触到的,只有标准版、售价 52.99 万元的小米 SU7 Ultra。 「不缩水」的智能 近期,特斯拉 FSD 突然落地中国市场引发行业中的轩然大波,而雷军在发布小米 SU7 Ultra 期间,也提到了小米智驾近期的进展。 以 SU7 Ultra 的正式上市为契机,雷军宣布 Xiaomi HAD 智能驾驶系统正式进入到「端到端」时代,相关能力将全量推送。 Xiaomi HAD 智驾系统的算力储备达到了 11.45 EFLOPS,优质场景训练片段积累数则达到了 1000 万 Clips。不过雷军表示,当下上车的 Xiaomi HAD 端到端智驾,Clips 数为 300 万,还不是「满血状态」。 雷军还强调,小米 HAD 智驾系统会免费提供给消费者,而不是像特斯拉那样要价 6.4 万元。 回到小米 SU7 Ultra 上,虽为「赛道机器」但智驾能力却没有丝毫削减。整车依然配备了 27 颗传感器,其中就包括 1 颗 128 线激光雷达、3 颗毫米波雷达等先进传感器,还搭载两颗综合算力为 508 Tops 的 Orin-X 芯片,能完整支持小米智驾的所有功能。 雷军表示,小米 HAD 智驾已经实现了「车位到车位」能力,今年的愿景是「站稳第一梯队」。SU7 Ultra 的座舱表现看齐标准版车型,搭载高通 8295 芯片,能基于 Hyper OS 实现一系列生态互联功能。 综合来看,「不缩水」是小米 SU7 Ultra 在智能化层面的最大看点,毕竟这是一款强调驾驶乐趣、赛道性能的产品,并无肩负起带领小米智能向前迈进的历史使命。 有关智能驾驶更多的期待,或许可以放在下半年登场的小米 YU7 身上。 「国产豪车」新篇章? 作为近期正式上市的「国产豪华电车」之一,发布会后蔚来 ET9 难免地成为了小米 SU7 Ultra 的对比对象。 客观来说,这两款车型虽自称「豪华车」,但明显走的不是相同的「赛道」。 蔚来 ET9 是行政级旗舰,更强调外在气质和乘坐的舒适性、设计用料的豪华感;而小米 SU7 Ultra,则是通过性能的强化,来营造「豪华」气氛。 不管是蔚来也好、小米也好,呈现在我们眼前的,是中国新造车面对「高端化」课题,依据不同思路,交出的不同答卷。 蔚来 ET9,和同样在今年上市的尊界 S800,体现的是「未来属性」,是中式豪华电动车依靠「科技创新」颠覆产品定义的全新尝试;而小米 SU7 Ultra 所体现的,是在现有产品定义框架下,对极致技术、极致产品力的追求。 最终,小米 SU7 Ultra 通过「赛道成绩」这一客观条件,证明了中国车企有能力在先进供应链的加持下,打造出顶级的性能产品,从而打破了海外车企对「顶级性能车」的垄断。 更不用说,由中国新造车推出的顶级性能车,起售价也不过 52.99 万元而已——性能相近的竞品,售价已经来到 200 万元级别。 这还只是中国新造车「大反攻」的开始。 售价更高的蔚来 ET9,和「定价百万」的尊界 S800,还有比亚迪的仰望 U9 等,都即将在过去从未涉及的领域,向海外汽车巨头发起挑战。 「国产豪车」们,即将揭开更辉煌的篇章。
GPT-4.5发布会全程回放:如何在顶级AI模型竞争中脱颖而出?功能与价格深度分析
全文 2,000字 | 阅读约8分钟 自动播放 随着DeepSeek R1、Grok 3和Claude 3.7在短短一两个月内相继亮相,OpenAI昨天周四又将GPT-4.5加入这场愈发激烈的大模型竞赛。AI发展的速度令人瞠目,模型更新迭代的周期不断压缩,工业界和学术界都在感叹人工智能进化之快。 代号为"Orion"的GPT-4.5作为OpenAI迄今投入最多计算资源和数据的模型,其登场引发了业界对传统预训练方法是否已达天花板的深度思考尽管规模庞大,OpenAI在白皮书中指出,它并不认为GPT-4.5是一个前沿模型。 从周四2月27日开始,订阅OpenAI每月200美元ChatGPT Pro计划的用户将能够在研究预览阶段在ChatGPT中使用GPT-4.5。使用OpenAI API付费套餐的开发者也可以从今天开始使用GPT-4.5。至于其他ChatGPT用户,OpenAI发言人告诉TechCrunch,注册了ChatGPT Plus和ChatGPT Team的客户应该会在下周获得该模型的使用权。 (与GPT-4o和GPT-4omini相比, GPT-4.5 的API定价太贵了) 业界一直对Orion屏息以待,一些人认为它是传统AI训练方法可行性的风向标。GPT-4.5的开发使用了与OpenAI开发GPT-4、GPT-3、GPT-2和GPT-1相同的关键技术——在称为无监督学习的"预训练"阶段大幅增加计算能力和数据量。 在GPT-4.5之前的每一代GPT中,规模扩大都带来了数学、写作和编程等领域性能的巨大飞跃。确实,OpenAI表示,GPT-4.5的增大规模赋予了它"更深入的世界知识"和"更高的情商"。然而,有迹象表明,扩大数据和计算能力带来的收益开始趋于平缓。但是,在一些AI基准测试中,GPT-4.5的表现不如DeepSeek、Anthropic以及OpenAI自身的较新AI"推理"模型。 OpenAI承认,GPT-4.5的运行成本也非常高昂——如此昂贵以至于该公司表示正在评估是否继续长期在其API中提供GPT-4.5服务。 "我们将GPT-4.5作为研究预览版分享,以更好地了解其优势和局限性,"OpenAI在分享的博客文章中表示。"我们仍在探索它的能力,并期待看到人们以我们可能没有预料到的方式使用它。" 综合表现 OpenAI强调,GPT-4.5并非旨在完全替代GPT-4o——该公司为大多数API和ChatGPT提供支持的主力模型。虽然GPT-4.5支持文件和图像上传以及ChatGPT的画布工具等功能,但目前缺少一些能力,比如对ChatGPT逼真的双向语音模式的支持。 从优势方面看,GPT-4.5的性能比GPT-4o更强——也超过了许多其他模型。 在OpenAI的SimpleQA基准测试中,该测试评估AI模型对直接、事实性问题的处理能力,GPT-4.5在准确性方面优于GPT-4o和OpenAI的推理模型o1和o3-mini。根据OpenAI的说法,GPT-4.5比大多数模型产生幻觉的频率更低,理论上这意味着它编造内容的可能性应该更小。 OpenAI并未在SimpleQA测试中列出其顶级AI推理模型之一——deep research(深度研究)。值得注意的是,AI创业公司Perplexity的Deep Research模型在其他基准测试中与OpenAI的deep research表现相似,但在这项事实准确性测试中优于GPT-4.5。 在一部分编程问题子集——SWE-Bench Verified基准测试中,GPT-4.5的表现与GPT-4o和o3-mini大致相当,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet模型。在另一个编程测试——OpenAI的SWE-Lancer基准测试中(该测试衡量AI模型开发完整软件功能的能力),GPT-4.5的表现优于GPT-4o和o3-mini,但仍不如deep research模型。 GPT-4.5虽然在AIME和GPQA等困难学术基准测试中未能达到领先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型))的性能水平,但在这些相同测试中,它与或超过了领先的非推理模型,表明该模型在数学和科学相关问题上表现良好。 OpenAI还声称,GPT-4.5在基准测试不能很好捕捉的领域,如理解人类意图的能力方面,在质量上优于其他模型。OpenAI表示,GPT-4.5回应的语气更温暖、更自然,在写作和设计等创造性任务上表现出色。 我们实测效果发现GPT-4.5 不是一个推理模型(Reasoning Model) 它不是为编码或数学而设计的。它是为了创造力和写作而设计的。 在一项非正式测试中,OpenAI要求GPT-4.5和另外两个模型(GPT-4o和o3-mini)使用SVG(一种基于数学公式和代码显示图形的格式)创建独角兽图像。结果只有GPT-4.5创建出了类似独角兽的形象。 在另一项测试中,OpenAI要求GPT-4.5和其他两个模型回应提示:"我在考试失败后正经历一段艰难时期。"GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回应在社交适当性方面表现最佳。 扩展定律依旧受到挑战 OpenAI的GPT-4.5处于"无监督学习所能达到的前沿水平"。这可能是事实,但该模型的局限性似乎也证实了专家们的猜测——预训练的"扩展定律"将不再持续有效。 OpenAI联合创始人兼前首席科学家Ilya Sutskever在去年12月表示,"我们已经达到了数据峰值",并且"我们所知道的预训练方式无疑将会终结"。他的评论呼应了AI投资者、创始人和研究人员在去年11月向TechCrunch分享的担忧。 面对预训练的障碍,包括OpenAI在内的整个行业已经开始拥抱推理模型,这类模型执行任务的时间比非推理模型更长,但通常更加一致。通过增加AI推理模型用于"思考"问题的时间和计算能力,AI实验室确信他们可以显著提高模型的能力。 OpenAI计划最终将其GPT系列模型与o系列推理模型结合起来,从今年晚些时候推出的GPT-5开始。GPT-4.5据报道训练成本极高,多次推迟发布,且未能达到内部期望,它可能无法独自夺取AI基准测试的桂冠。但OpenAI很可能将其视为通往更强大技术的垫脚石。
特朗普关税大棒指向欧盟 美欧或上演“关税互殴”戏码
2月26日,美国总统特朗普对欧盟发起新一轮的猛烈抨击,称欧盟成立“就是为了搞砸美国”。他威胁要对欧盟征收25%的关税。 对此,欧洲各界反弹强烈。欧盟方面警告此举将严重损害欧美经贸关系,冲击全球经济稳定。 特朗普称将对欧盟征收25%关税  当天,特朗普在谈及欧盟时表示,欧盟“占美国便宜”,以各种理由“拒绝接受美国的汽车和农产品”,美国和欧盟之间有大约“3000亿美元”的贸易逆差。 美国总统 特朗普:欧盟的成立就是为了搞砸美国。我的意思是,咱们实话实说吧,欧盟的成立就是为了对付美国,这就是它的目的。 记者:你决定对欧盟征收什么水平的关税了吗? 美国总统 特朗普:我们已经决定了,很快就会宣布,整体来说是25%,包括汽车和其他各种商品。 美国政治新闻网站《政治报》此前报道指出,美欧贸易逆差并没有特朗普所言这么大。根据欧盟的数据,2023年美国对欧盟在货物贸易方面存在逆差,但在服务贸易方面实现了顺差。整体而言,2023年美国对欧盟的贸易逆差为大约560亿美元。   日程冲突?美国务卿与欧盟高官会晤取消 欧盟外交与安全政策高级代表卡拉斯26日起访问美国,原本计划当天与美国国务卿鲁比奥举行会晤。然而,会晤却在最后时刻被突然取消。美国和欧盟官员都表示,取消会晤只因“日程冲突”。一些欧洲国家官员表示,会晤取消让卡拉斯猝不及防。 卡拉斯24日宣布,访美期间将与鲁比奥讨论关乎双方利益的议题,如俄乌冲突和跨大西洋伙伴关系等。但在美国国务院网站上,鲁比奥2月26日的公开日程表上并没有与卡拉斯有关的日程。 对于卡拉斯在美国吃了“闭门羹”,欧洲方面似乎并不感到意外。有欧盟外交官这样评论:特朗普政府似乎不放过任何一个机会,来证明欧盟对他们而言没那么重要。 记者观察 欧盟及德国强烈反对 美欧裂痕加深 对于特朗普宣布将很快对欧洲商品征收25%的关税,欧盟方面,以及德国政府、经济界和舆论纷纷发声,谴责美方做法。   欧盟委员会:美若征收关税 将坚决回应  总台记者 阮佳闻:26日晚些时候,欧盟委员会回应称,如果美国最终决定对欧洲产品征收关税,欧盟将“对自由和公平贸易中不合理的壁垒作出坚决且迅速的回应”,欧盟“将始终保护欧洲企业、工人和消费者免受不合理关税措施的影响”。同时,欧盟坚持保持对话,以便为双方民众和公司“保留机会”。   德国已做好准备采取反制措施 德国方面长期以来对此的态度也很坚决,表示不会屈服于单边贸易霸凌,并已做好准备采取反制措施。 德国总理朔尔茨此前就已明确表示,若美国继续推进对欧洲商品加征关税的计划,反制措施将不可避免。德国经济部长哈贝克同样表态称,德国已经为可能的反关税措施做好准备,并警告美国,“这是一个非常糟糕的选择。”   德国经济界:美贸易壁垒破坏全球供应链 此事件进一步加深了美欧之间的裂痕,欧洲对美方贸易政策的不满情绪正在升级。德国经济界对此表示强烈担忧和反对,认为美国的单边关税政策对欧洲市场构成了直接威胁。 德国汽车工业成为此次关税升级的直接受害者。德国汽车工业协会主席穆勒近日强调,美国是德国汽车行业的重要市场,美方加征关税不仅伤害德国汽车制造商,也将推高美国消费者的购车成本。穆勒批评称,美方所谓“公平贸易”只是借口,实则是单方面保护主义政策,这将破坏全球供应链,危及数十万工作岗位。 分析人士指出,美欧贸易摩擦已不仅仅是经济问题,而是反映了双方在全球贸易体系中的不同立场。近年来,美方在贸易政策上屡屡对欧洲施压,欧洲企业已经不堪重负。特别是在俄乌冲突背景下,欧洲经济承受巨大压力,能源成本高企,市场需求疲软,美国此时实施贸易壁垒,无异于雪上加霜。德国科隆经济研究所估算,如果美方加征的关税全面落地,德国经济可能面临每年250亿欧元的损失,甚至导致15万就业岗位流失。   德国媒体:美国"极限施压" 欧洲不应屈服 德国媒体普遍认为,美国政府此举是“极限施压”的手段,是在全球贸易体系中制造混乱,因为美欧贸易战若全面升级,不仅会冲击制造业,还可能加剧全球经济的不稳定性。然而,欧洲不应屈服,必须推动更多自主贸易政策,以减少对美经济依赖。 美国的单边关税政策不仅对德国和欧洲的制造业构成了重大挑战,同时也加深了美欧之间的裂痕。当前的贸易博弈已经超越了单纯的经济层面,将对全球政治格局产生深远影响。如何加强自主性,维护自身的经济利益,已经成为欧洲亟待解决的关键问题。   法国财长:若美国加征关税 欧盟将以同样措施回应 针对美国总统特朗普26日称将宣布对欧盟进口商品征收25%关税一事,27日,法国经济与财政部长埃里克·隆巴尔说,如果美国对欧盟加征关税,欧盟将用同样的措施予以回应。 隆巴尔说,27日上午,七国集团的外交官与美国财政部长贝森特进行了交流,警告称关税战将导致通货膨胀,经济增长放缓。   研究机构:美加征关税将致双方经济动荡 27日,德国基尔世界经济研究所发布贸易政策评估称,美国总统特朗普对欧盟商品征收25%关税的措施如果实施,将导致欧盟和美国的经济萎缩,同时也会推高通胀压力。根据该研究所贸易政策评估模型模拟的结果,如果实施该关税措施,欧盟经济在第一年将平均萎缩0.4%,美国经济将萎缩0.17%。如果欧盟以25%的关税进行回应,美国的经济损失将翻倍。 基尔世界经济研究所贸易政策研究主任欣茨表示,美国对欧盟商品征收25%的关税不仅会给美欧经济关系带来压力,还会推高美国消费者和制造商的成本,削弱美国的竞争力并加剧通货膨胀。 专家解读 美“关税威胁”意在对欧盟趁火打劫 美欧之间在经济问题上的裂痕为何会加深?欧盟方面能否有效应对美国征收关税?  特约评论员 苏晓晖:表面上看,美国总统出言对欧盟加征关税有偶然性,但是从这种偶然当中,我们也可以看到必然,显然现在美国是有意对欧盟趁火打劫。首先,近一时期美国对外政策正在出现急剧的调整,美俄关系重置过程当中,欧洲试图来进行影响。而此时美国对欧洲进行施压和敲打是阻止欧盟进一步影响美国推动的政治进程,包括如何处理乌克兰危机,希望欧洲方面更多的配合。 包括未来在乌克兰安全保障方面,美国希望自己的欧洲盟友能够帮助美国干脏活,而且不抱怨,所以现在以关税对欧洲来进行敲打,趁火打劫,美国更容易达到自己的目标。同时美国看到,在欧洲内部很难形成共识和共同的行动,所以也试图试探欧洲的底线和可以进行掠夺的空间。   欧盟计划“先礼后兵” 美欧关系波动恐加大 同时,欧洲方面也在进行一定的反应,至少欧盟在计划与美国进行所谓的“先礼后兵”,而对于美方的这种胁迫,欧洲方面认为不能够从一开始就进行服从和屈从。所以现在欧洲认为,还是有机会与美方来进行沟通,包括通过谈判的方式来试图解决问题。 而另外一方面,欧洲在准备反制措施,不可能一味地坐视不理,欧洲有针对性地针对美国科技、服务等相关的巨头和企业。同时强调,尽管货物贸易欧洲有顺差,但是在服务贸易方面,美国有自己的市场,有自己的利益诉求,试图与美方来进行利益方面的博弈。 但是很显然,现在欧洲在讨论应对美国措施的时候,有更多的焦虑感。如果美国对欧盟加征全面关税,对于欧洲来说必然会造成损失。欧美之间的关系未来的波动也会进一步加大。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。