行业分类:
加载中...
头条分类:
加载中...
小米SU7首次召回,有点意思
今天(1 月 24 日),国家市场监督管理总局更新了一大批车辆召回通知。 其中广受关注的,便是小米对于总计近 3.1 万台 SU7 标准版车辆的召回计划。 而这,是小米汽车成立以来的首次召回。 有些家友可能会感到疑惑,仅仅只是一次 OTA 软件升级,怎么也算是召回?IT之家这就来跟大家详细了解一下。 01. 小米汽车,首次召回 了解背后的缘由之前,我们先来看一下本次召回的官方公告。 小米汽车科技有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。决定自即日起,召回如下车辆: 2024 年 2 月 6 日至 2024 年 11 月 26 日生产的部分 SU7 标准版电动汽车,共计 30931 台。其中: 车辆型号 BJ7000MBEVR2 涉及车辆 18410 台 车辆型号 XMA7000MBEVR2 涉及车辆 12117 台 车辆型号 XMA7000MBEVR5 涉及车辆 404 台 本次召回范围内部分车辆因软件策略问题,可能导致授时同步异常,影响智能泊车辅助功能对静态障碍物的探测,增加剐蹭或碰撞的风险,存在安全隐患。 小米汽车科技有限公司将通过汽车远程升级(OTA)技术,为召回范围内的车辆免费升级软件,以消除安全隐患。 IT之家注意到,在小米王化的微博评论区中,有用户分享了本次 OTA 升级的版本号为 1.4.7。另外截图中的服务管家称“除 OTA 升级外,不涉及任何零配件更换。” 02. 预判了网友的预判 在国家市场监督管理总局发布了召回信息之后,小米汽车也没有“藏着掖着”,而是火速更新了一期答网友问。 IT之家汇总如下: 此次 OTA 召回需要车主驾驶车辆到服务点么? 此次 OTA 召回仅通过对车辆进行免费远程升级(OTA)即可完成,不需要车辆进店进行任何检查或处理。我们将以短信、手机 App 等方式通知相关车主,用户也可致电小米汽车科技有限公司客户服务热线:400-182-6888,了解更多关于此次 OTA 召回的详细信息。 既然是软件升级,直接通过远程 OTA 不就行了么,为什么要叫主动召回? 我们将通过汽车远程升级(OTA)技术,为召回范围内的标准版小米 SU7 车辆免费升级软件。 本次 OTA 软件升级召回,意在进一步提升智能泊车辅助功能的可靠性。小米汽车永远把用户安全作为第一原则,虽然本次升级不需要物理更换任何零件,但我们仍按照召回的程序进行管理和备案。 相关说明已经在国家市场监督管理总局网站上公示,您可前往做更多具体信息的了解。 小米汽车将不断的为用户追求更高的安全标准,致力于为所有用户带来更高品质、更安全的汽车产品。 只有标准版小米 SU7 在此次 OTA 召回范围内?小米 SU7 Pro 和 Max 版本不需要么? 本次 OTA 软件升级召回,仅针对 24 年 11 月 26 号前生产的部分小米 SU7 标准版车型,并不涉及其他版本的小米 SU7。我们已经通过 App 和短信方式通知了涉及 OTA 召回车辆的主控账号所有人,将通过推送 OTA 升级的方式强化其智能泊车功能。 “本次召回涉及 2024 年 2 月 6 日至 2024 年 11 月 26 日生产的部分标准版 SU7”,小米 SU7 标准版不是 2024 年 3 月 28 日发布,4 月 3 日才交付么,为什么 2 月份就开始生产了? 在小米 SU7 正式上市前,为了使其经历更细致、更全面的长时间路测,我们生产了大量仅用于内部测试的工程车辆。其中有部分测试车也在此次通过 OTA 软件升级召回的车辆范围之内。 为什么小米 SU7 标准版智能泊车事故 11 月发生,现在才发公告? 11 月 14 日事情发生后我们第一时间确定了问题原因,为云端服务偶发故障引起的软件授时同步异常,并通过云端服务先实施了有效的防范措施,随后又在智能泊车辅助中加入了更多冗余保护策略措施,已确认排除风险可能。此后,又经过两个月的长时间版本反复测试验证,验证确认安全稳妥。在与主管部门沟通和协商后,本着对用户认真负责的态度,主动发起了本次 OTA 软件升级召回。 这波问答,可以说是“预判了网友们的预判”。 召回,不一定就是“洪水猛兽”,只要厂商和用户保证信息透明、合理沟通,其实也会化解掉许多没有必要的矛盾。 不知道,这次会不会掀起友商们再一波的“答网友问”热潮。 03. 原来,OTA 也算召回 我们不少人对于汽车“召回”这个概念的理解,可能还停留回 4S 对硬件进行维修或者更换上。 小米这次只是进行软件 OTA,用户自己在家“点一下”即可完成,怎么也算是召回呢? 熟悉智能网联汽车的朋友们可能知道,这早已不是一件新鲜事了。 比如 2023 年 5 月,特斯拉推送取消强制动能回收的 OTA 时,就发布了召回公告。 早在 2020 年 11 月,《市场监管总局办公厅关于进一步加强汽车远程升级(OTA)技术召回监管的通知》就已经对此作出了规定。 IT之家帮大家总结了一下通知要点: 生产者采用 OTA 方式对已售车辆开展技术服务活动的,应按照《条例》及《实施办法》要求,向市场监管总局质量发展局备案。 生产者采用 OTA 方式消除汽车产品缺陷、实施召回的,应按照《条例》及《实施办法》要求,制定召回计划,向市场监管总局质量发展局备案,依法履行召回主体责任。如 OTA 方式未能有效消除缺陷或造成新的缺陷,生产者应当再次采取召回措施。 也就是说,当车辆出现了产品缺陷时,厂商不能“偷偷”推送一个 OTA 草草了事,隐瞒自己的责任,而必须遵循汽车召回的流程,制定召回计划,向市场监管总局质量发展局备案。 我们设想一下,如果官方没有发布召回公告,许多用户对于车辆存在的问题可能并不知情,并没有及时进行升级,会带来更多的安全隐患。 在许多用户的眼中,软件 OTA 似乎是一件小事,但在智能汽车网联化发展的今天,汽车提供了丰富的软件特性, 一个小 bug 也很可能影响我们的行车安全性,这样的规定可以说是树立了一道底线。
对撞测试抹黑小米SU7!小米法务部:某博主及同伙已被依法缉拿归案
快科技1月25日消息,小米法务部今天发文称,近日从司法机关获悉,涉嫌恶意抹黑小米汽车商业信誉、商品声誉的某平台博主及其同伙多人,已被依法缉拿归案。 2024年8月13日,某平台博主发布其将小米汽车与某品牌汽车对撞的所谓“测试视频”,有意误导公众。 其中“测试”方法及结论,存在诸多严重谬误与偏颇,在网络上造成极为恶劣的影响,严重损害小米公司商业信誉。 事件发生后,小米公司立即固定证据,开展法律维权工作,坚决捍卫公司合法权益。 未来,小米公司将持续依法维权、坚决捍卫公司权益和声誉。 小米同时也表示,恳请广大用户和媒体朋友,共同抵制不实信息和恶意抹黑行为,携手营造健康、有序的网络环境。 据悉,汽车博主“原来是翔翔啊”在8月份发布了一段名为《当小米SU7撞上一辆极氪007》的视频。 测试中,碰撞速度为时速60公里,按照90%的重叠率进行碰撞,结果小米SU7遭遇了小电瓶断电、车门无法打开的情况。 然而,视频部分画面引发了质疑,网友称前后画面展示的小米SU7小电池存在差异,博主就此回应称,电池在拆下时完好,但在打包装车时被叉车碰坏。 当时小米汽车就表示:经过分析,我们认为这一所谓“测试”是设置不严谨、记录不完整、结论不真实的。 事后,该博主发文道歉,但依然引起巨大争议。
璩静名下公司成立不到一年拟注销,此前因“霸道女总裁”人设塌房离职
天眼查App显示,近日,深圳市星光健康管理有限公司新增一条注销备案公告,注销原因为决议解散。 图源:天眼查 该公司成立于2024年4月,法定代表人、董事、经理为璩静,注册资本1万元人民币,行业为“互联网和相关服务”,经营范围含日用百货销售、家用电器销售、通信设备销售、文化娱乐经纪人服务、礼仪服务、咨询策划服务、网络技术服务、信息咨询服务等。股东信息显示,该公司由璩静持股80%。 璩静2015年加入华为,任华为公共及政府事务部副总裁、中国媒体事务部部长,负责华为国内媒体事务、对外传播和危机沟通等。2021年8月,任百度公司副总裁(VP),负责集团公众沟通部工作。 去年5月,璩静从百度离职。当月9日凌晨,她在朋友圈发文称,因个人短视频引起风波,跟广大网友诚恳道歉,“各个平台上,大家的意见和评论我都认真读了看了,很多批评非常中肯,我深刻反思、虚心接受。” 璩静表示,在发布短视频之前,她没有事先征求公司意见,不符合相关流程,也不代表公司立场,特此澄清和道歉。视频中很多不妥不适之处,使外部对公司价值观和企业文化产生误解,造成了严重伤害,也诚恳道歉。 璩静称,发短视频的初心是想把工作做好,但心太急了,方法不当,给大家带来了不适和困扰,诚恳接受各种批评。 此前,在短视频平台,璩静致力于打造“霸道女总裁”的人设,选取的话题极具冲突性。去年五一期间,接连发布数条颇具争议的短视频内容,多个相关话题词条登上微博热搜。 其发布的4条视频内容分别为:“员工闹分手提离职我秒批,为什么要考虑员工的家庭……我又不是她婆婆,我主要考虑的是她能不能在她的岗位,及时给我交付结果……”“谁挣钱多谁买单,职场新人不要买单”“公关人春节周末没有假期”“职业女性对于家庭的最大遗憾”,涉及了职场女性、劳工关系等热门话题,口吻辛辣,观点出格尖锐,很吸引眼球。 在视频中,璩静还提及曾遭到员工在公司内散布几百封关于她的举报信,称信中“大部分内容都是诽谤杜撰的”。但与此同时,璩静放话称,“你为什么要给我写投诉信,咱俩认识吗?我可以让你在这个行业里找不到工作,我只要发一篇小作文,你试试看,你的名誉不扫地吗?” 因璩静在视频中谈的内容过于激烈而引发关注,外界对于视频内容的讨论,进一步上升至百度的价值观。 有网友表示:热度确实有了,但都是负面的。 也有分析人士指出,璩静发布的几个视频均有“引战”成分,这是非热点事件当事人的个人IP迅速崛起的常规手法,在微博、微信公众号、百家号、抖音等都常见。 去年5月7日,璩静清空了抖音号上的全部视频。两天后,璩静更新短视频账号,内容为道歉声明。 不过,极目新闻记者发现,该道歉声明目前已不见,近百万粉丝的抖音账号上,作品仍为0。 极目新闻综合澎湃新闻、上观新闻、当事人社交账号 (来源:极目新闻) 更多精彩资讯请在应用市场下载“极目新闻”客户端,未经授权请勿转载,欢迎提供新闻线索,一经采纳即付报酬。24小时报料热线027-86777777。
东方甄选不在意亏1亿,但俞敏洪的心结还是董宇辉
分手半年,俞敏洪还没完成“去董宇辉化”。 1月21日晚间,东方甄选公布2025财年,截至2024年11月30日止6个月的中期业绩,东方甄选总营收为21.87亿元,同比下降9.3%;公司净亏损9650.3万元,上年同期则为盈利1.6亿元,同比由盈转亏。 受此影响,1月22日,新东方股价大跌,盘中一度跌超30%。截至收盘跌超24.2%,市值蒸发约185亿港元;东方甄选股价也一度跌近10%。摩根大通、摩根士丹利等多家大行相继下调其评级。 亏损,都因董宇辉 对于亏损,东方甄选给出了两套说辞。一套是把亏损原因归结为公司持续经营业务,即自营产品及直播电商业务的GMV(商品交易总额)减少,同比降幅达16.2%。该业务板块的净营收额也同比减少9.3%。 还有一套,东方甄选在业绩报告中提及“与辉同行”多达18次。还特意强调,若剔除出售与辉同行的财务影响,东方甄选报告期内净赚3270万元。 无论是那种口径,该报告期内,东方甄选的亏损都与董宇辉有关,也就是由剥离“与辉同行”带来的。 去年7月,俞敏洪彻底与董宇辉分拆时,他在社交媒体上表示,董宇辉购买公司的钱我安排了,公司是送给宇辉的。“我们已经公布的数据是,在与辉同行的账上还留存1.4亿元净利润,这1.4亿元实际是把宇辉的收入分配之后,剩下本来应该属于东方甄选的利润。” 但即便按此计算,东方甄选持续经营业务的净利润也同比下滑了80%。此外,财报数据显示,2025财年上半年,东方甄选全平台GMV(商品交易总额)只有48亿元。这与2022财年上半年的表现几乎相同。 若剔除与辉同行直播间产生的总营收——与辉同行是在2024年7月25日剥离的,东方甄选这份半年报,还包含与辉同行约两个月的流水和业绩——东方甄选营收将是同比下滑达到18%。 也就是说,缺少董宇辉这类超级主播坐镇,东方甄选自身盈利能力和带货能力都在下滑,整体表现又回到董宇辉刚刚爆火的2022年,仿佛又回到了起点。俞敏洪和东方甄选,甚至新东方都在承受去董宇辉化的阵痛。 去董宇辉化,不说切到了东方甄选的大动脉,也差不多了。与之对比,自立门户的董宇辉则喜提“百亿直播间”。第三方数据显示,过去一年,“与辉同行”直播间在抖音累计带货超102亿元,成为2024年抖音预估带货销售额最高的直播间。 此外,关于董宇辉“一年狂赚28亿元”的消息,也在2025年年初刷屏。董宇辉已经由当初东方小孙眼里,不适合做管理,只适合天马行空想象的带货主播,转型成为一方诸侯了,而且是势力最为顶尖的。 俞敏洪的野心和心结 俞敏洪对此十分淡定,在股东电话会议上安抚市场时说,“我们总GMV的下降,相对来说是在可控的范围之内的。”他进一步对外传递信心称,“我们的战略定位明确且清晰。我们希望打造东方甄选品牌的‘百年老店’,短期的波折并不能影响我们团队的初心和决心。” 这番话,如果不考虑东方甄选上市公司股东的权益,可以理解为,眼下的局面都在俞敏洪的掌控之中。并且,东方甄选进一步回归到他创立时的“初心”轨道上。 换句话说,东方甄选巨亏的背后,或是俞敏洪的野心:要按照最初对东方甄选的设定,来印证自己的商业逻辑和内心是自洽的。而这个野心的另一面,也是他的心结:董宇辉,代表着他玩不转的流量。 董宇辉正式单飞时,唐辰就分析,过去很长一段时间,东方甄选和俞敏洪为董宇辉分担了太多炮火,俞敏洪都被骂怕了,直言自己现在说话已经很小心,在网上被骂次数比100辈子加起来都多,最后不得不关闭抖音评论。 “中国合伙人2.0”版本演绎出了符合流量时代的剧情。这半年的缓冲期,对东方甄选来说也未见得不是一件好事,其商业模式已经稳固,即不依赖大主播,不做MCN,做自营,背后还有新东方作为依托。接下来,俞敏洪只要稳定局面,东方甄选依然是直播电商里重要的玩家。 某种意义上,东方甄选是俞敏洪“一念生,一念起”的产物。新东方面临双减压力时,俞敏洪从薇娅的身上找到“灵感”,“薇娅一年能卖一百多个亿,我带着几十个老师做直播是不是一年也能做上百亿?” 他定调做农业,但不只是一个电商机构,更不是电商MCN。探路的重任就落在孙东旭身上,也就是后来“小作文事件”的主角之一:东方小孙。董宇辉也是跟着他一步步从西安来到北京,成为新东方在线转型谋生的直接受益者。 东方甄选刚走红时,CEO孙东旭(东方小孙)说,希望东方甄选的未来,左手是产品科技公司,右手是文化传播公司。还未改名为东方甄选的新东方在线,也曾在财报中提到,将“以东方甄选为品牌,致力于成为中国优质农业及其他产品的电商平台」。” 这个定位,在2025财年中期业绩报告中进一步被明确为:成为一个为客户甄选好物的直播购物平台;以东方甄选品牌的自营农产品为核心的杰出产品和科技公司;以及为客户带来愉快精神体验的文化传播公司。 俞敏洪曾写过一本书,叫《我曾走在崩溃边缘》,细数了新东方的发展历程,包括他创业的低谷期、人生9次走在崩溃边缘的经历以及新东方挺过的七大危机。他自己和新东方也多次“从绝望中找希望”。 在这个过程中,俞敏洪总结出经验:新业务要与旧业务有产业链上下游的联系,要能复用旧资源。 成立三年多时间,东方甄选做直播电商、卖农产品、做自营产品、自建独立App、整合供应链、涉足文旅产业等业务,被很多人不理解。 但结合新东方此前在教培行业积累的内容能力、渠道能力和销售能力,并且拥有海量的高质家庭用户来看,俞敏洪的商业设计也能跑得通。 这是俞敏洪的“舒适区”,或是“路径依赖”。一旦节外生枝,出现俞敏洪控制不了的因素,他就会毫不手软的砍掉,与董宇辉的分道扬镳,就是如此。 东方甄选,只能姓“俞” 俞敏洪可能至今还无法理解,直播电商头部主播与MCN机构的博弈。但与董宇辉的切割,短期内流量流失的阵痛和损失,他是可以承受的。董宇辉和他的流量很重要,但没有董宇辉对俞敏洪更重要。 或者说,东方甄选姓“俞”,不姓“董”,才是俞敏洪最大的“野心”,同时也是“心结”。 董宇辉是俞敏洪未曾料到的变量。他和东方小孙多次在镜头前表达过类似的观点。比如,俞敏洪在接受凤凰卫视吴小莉专访时,他表示,“董宇辉引爆这个事是意外的,完全不在我们的计划中。”“我没什么感受,互联网的热度都是过几天就没有了。” 也因为这个意外,让他的个人情绪,盖过一个成熟老练的企业家的本该有的格局,让类似罗永浩那句“铁公鸡”的标签,被越来越多的贴出,也导致他一次次失态,落得被“网暴”的境地。比如,他多次在公开场合“敞开心扉”,后悔创办东方甄选。 这些话,显然有点孩子气。创业不是请客吃饭,更不是过家家。但流量来了,俞敏洪没有做好接住的准备,但客观上是受益的。 目前,东方甄选离不开流量,但俞敏洪会着重去洗流量,拿到自己可以掌控的流量。董宇辉的丈母娘们,就都归董宇辉,让她们“与辉同行”就好。 没有超级主播的“捣乱”,俞敏洪对这家公司的掌控就更加自如。其中一个例证,就是东方小孙的回归。 在2025年财报会上,谈及内部管理,俞敏洪谈到了东方小孙回归直播间,这也是被自己允许的。经过了思考以后,东方小孙反复请求,因为他也希望能为公司多做点事情。此外,东方小孙在产品遴选和产品质量抓控方面确实非常不错,因为小孙的个性就是做事情总是希望做到极致的状态。 言外之意,俞敏洪信任的还是东方小孙:忠诚、执行力强。而他本人更多是对于整个公司的整体大方向的把握,以及主播和公司管理者们努力的方向,他们情绪和心态的把握。 其中一个背景是,去年7月底,剥离与辉同行后,俞敏洪为东方甄选找了两个方向,一个是流量,另一个是产品。对于流量,俞敏洪加强了和抖音的合作。但半年过去,从结果来看,这条路走起来正变得越来越难。 持续加码自营就成为新的战略重心。在财报中,东方甄选明确,2025年,东方甄选在未来打法上,将会从流量导向转向家庭需求,将集中资源于那些用户访问频率高、需求稳定的业务领域,如日常消费品、食品和家居用品等。 对于东方甄选自有APP,其重要性则进一步加大,被提升至核心地位。俞敏洪表示,2025年自己最主要的任务是要增加东方甄选APP的活跃度、注册量和会员人数。 退一步说,即便没有董宇辉的爆红,东方甄选也还能以一个比较稳健的态势发展。俞敏洪在董宇辉出圈后,对新华财经表示,“幸亏出了个董宇辉,如果没有董宇辉,那么我们肯定还在卖农产品,但是不一定能卖这么好”。 俞敏洪已经63岁了,东方甄选对他的意义,不只是关乎这家公司的生死,以及无数股民的利益,更重要的是他内心的自洽。就像他在劝慰股东和分析师时所说,“我选择的这条路,不走出来让我自己内心满意的声誉,我是不会放下的。” 参考资料: 字母榜,《俞敏洪不在意亏1亿》 唐辰同学,《董宇辉,这次终于单飞了》 三言科技,《俞敏洪东方甄选电话会实录》 窄播,《东方甄选要做一盘怎样的生意》
首款“印度制造”芯片将于今年推出:28nm工艺
快科技1月25日消息,近日,印度铁路、通信、电子和信息技术部长Ashwini Vaishnaw在达沃斯世界经济论坛期间透露,该国首款国产半导体芯片计划于2025年首次亮相。 “我们第一款‘印度制造’芯片将于今年推出,我们可以在印度找到设备制造商、材料制造商和设计师。”Vaishnaw 向媒体表示。 据报道,第一款“印度制造”芯片将采用 28nm工艺。世界上最先进的芯片制造商目前正在研究2nm工艺,但大多数行业并不需要太尖端的工艺,28nm芯片已经广泛应用于各个行业,包括汽车、消费电子和物联网 (IoT)等等。 在采访中,Vaishnaw表示,印度正在努力发展其半导体制造生态系统,鼓励芯片制造过程中所需材料供应商投资印度工厂。他说,这些公司在最近的一次活动中对在印度开业的前景反应热烈。 据悉,印度政府已将印度半导体任务 (IIndia Semiconductor Mission,ISM) 作为Digital India Corporation下的一个独立业务部门。 ISM拥有行政和财务自主权,其任务是制定和实施长期战略,以开发半导体和显示器制造设施,以及培育强大的半导体设计生态系统。 印度还计划吸引大量外国投资,以加强该国的半导体行业。恩智浦半导体计划投资超过10亿美元扩大其在该国的研发业务,而Analog Devices正在与塔塔集团合作探索国内半导体制造机会。 此外,美光科技正在古吉拉特邦建造一座价值27.5亿美元的组装和测试工厂,预计将创造5,000个直接工作岗位和15,000个社区工作岗位。
大厂瓜分“春晚经济”的野心,还能实现吗?
1月份,小红书与B站前后宣布与《2025年春节联欢晚会》达成合作,前者成为今年春晚独家笔记分享平台,后者成为春晚同步直播平台,并提供独家弹幕互动服务。同时,在12月份,阿里巴巴也签订2025 乙巳蛇年《春节联欢晚会》独家电商互动平台合作项目。 从2015年,互联网大厂取代酒企、药企、家电企业轮番登上春晚舞台后,几乎每年春晚都有一家互联网企业的身影。2020年的快手、2021年的抖音、2022年的京东……仅阿里就与春晚合作了四次。 当然,中间也不是没有过缺席的尴尬。2023年,一度最爱撒钱搞气氛的互联网大厂几乎集体消失在春晚的名单上,直到去年春晚,京东与小红书才再度出现。坦白来说,如今的春晚流量大不如前,如“微信红包”那样的盛大场面怕是也很难再诞生。 但互联网似乎还在觊觎春晚的热度,谁也不甘心就此放下。 “春晚”的流量是在贬值吗? 不可否认的是,随着内容赛道的日渐充实,早就在内容上失去新意的春晚开始被这届观众所抛弃,数据显示,从2016年到2019年这四年之间,春晚的收视率还在30%以上,到2020年以后,曾经万人空巷的春晚收视率跌至20%出头。 这几年,互联网大厂多次与春晚合作,但其流量如昙花一现,真正的转化少之又少。典型的例子是百度,2019年百度在春节红包活动中一举收获上亿新增用户,百度APP的日活高达到2.4亿,同比增长67.3%。 可惜好景不长,除夕过后,百度好不容易凭春晚拉来的流量留存率还不到20%。无独有偶,快手在2020年春节DAU一度达到2.8亿,随后又跌至2.5亿;2021年,抖音成为春晚独家红包互动合作伙伴,日活在除夕当晚达到5.8亿,但很快DAU又回落到5亿左右。 往后几年的趋势更是可想而知,毕竟QuestMobile数据显示,截至2024年9月,中国移动互联网月度活跃用户达到12.44亿,同比增长只有1.7%。春晚这一IP的国民度再高,也无法破除“巧妇难为无米之炊”的魔咒。 然而,尽管春晚流量在现实层面的转化越来越低,赞助成本却节节攀升。据悉,1984年春晚正式开始征询广告时,康巴丝钟表只用3000只钟做了广告费。有媒体统计过,2005年,春晚的冠名费用是680万,到2010年是5000多万,到2018年之后,整场节目赞助高达10亿。 需要注意的是,这些数据虽未经过官方认证,但CTR中国市场研究部的数据显示,2010年央视春晚广告收入高达6.5亿元。2010年也是春晚赞助最疯狂的年度之一,当年“零点报时”由美的以5201万元竞得,比标底高出800多万元;春晚另一档评选节目独家冠名则被郎酒以1.1亿元夺得,比底价高出4000多万元。 时至今日,明显已经意识到春晚效应在不断打折的互联网大厂,依旧在继续这门生意。其中的缘由虽令人匪夷所思,但也不是无迹可寻。首先,春晚累计四十多年的号召力依旧存在,2016 年至 2022 年的春晚观众总规模分别是 10.3 亿、10.8 亿、11.3 亿、11.7 亿、12.3 亿、12.72 亿、12.96 亿。 其次,各大社交平台正在逐年刺激春晚的长尾效应,往往春晚本身的流量稀薄,但碎片化的二度传播丝毫没有因为春晚本身的内容贬值而下降。 以2024年春晚为例,小红书的“大家的春晚”话题浏览量高达1.4亿。 著名的“春山学”更在豆瓣、抖音、B站形成霸榜之势,据悉,两分钟的《上春山》在B站的播放量高达700万,十五分钟的“春山学”分析视频播放量更是突破900万,评论3.9万。带货方面,女星们的同款服饰在各大电商平台一瞬售罄。 也就是说,春晚的带货能力与话题性在国内内容IP圈始终有着独一无二的地位,正是这种一时间无法撼动、取代的顶流地位,让互联网在2025年继续趋之若鹜,哪怕付出的代价并不轻松。 “消失”的春晚红包 一个有趣的现象是,在2015年微信红包在春晚爆火后,连续几年抢春晚红包似乎成了除夕夜的一大固定活动,但随着春晚红包在2022年京东出手15亿后,随后几年里,大厂的红包数额一减再减,总额一度前后相差一半多。 连同2021年春节红包总计122亿元 ,2022年春节红包总计80亿元综合来看,春节红包已经连续三年走低。玩法套路也一年比一年复杂,回望过去几年,电商平台的红包基本与消费相关,短视频平台则在大量的互动中不断拉新。 如今,春节红包更是赫然“消失”在春晚长河中。 截至目前,已经官宣的小红书、B站、阿里在这届春晚的玩法上基本没有红包的影子。据悉,B站除了春晚直播,还有一场嘉宾联动和串联的直播。而小红书同样也在直播上下功夫,把镜头直接搬进春晚后台。 阿里虽未明确今年春晚的活动,但阿里云成为总台2025春晚云计算AI独家合作伙伴。 这两年,AI成为整个科技圈的重头戏,去年开始互联网大厂再登春晚逐渐将AI玩法加入其中,比如百度就在春晚期间推出AI烟花、 AR 找好运、AI 扫脸测福气、AI变装等花式玩法,阿里在2025年应该也不会例外。 为什么互联网突然对最能调动气氛的发红包环节失去了兴趣。 一方面,春晚红包于企业而言是一笔不可忽略的巨大开支,尤其百度在2019年第一季度还由于春晚红包出现了上市后的首次亏损。另外一方面,即便是各大平台的红包试图与消费行为绑定,也难以改变当前的消费环境。 眼看春节将至,各大平台的年货节迟迟没有掀起多少水花。数据显示,2024年1—11月份,社会消费品零售总额442723亿元,同比增长3.5%,这意味着国内消费市场已步入低增长时代。 事实上,这几年的年关消费力度已经变得更为理智。 “Tech星球”就曾表示,某头部电商平台赞助的电视台的元旦跨年晚会,平台成交额的增量还不如双十一。整个年关消费从去年开始降级,2024年年货节期间,甚至“百元年货”成了各大平台的主阵地,小红书上100元办年货挑战有161.4万次浏览。 或许在这些企业的意识里,当消费欲望一降再降时,与其疯狂撒钱不讨好还不如直接通过互动调动用户积极性,或者借势来丰富平台的内容生态。目前来看,B站与小红书在这一方面的想法不谋而合,而作为互联网“小众”一流,这种方式明显比单纯的红包打法更合适。 在大厂结束春晚撒钱大赛后,互联网无人接替红包大战了吗?其实未必。去年春节,以问界、特斯拉、一汽丰田、理想、哪吒汽车、吉利、领克等在内的多个汽车品牌打起了春节营销竞争,基本围绕着置换补贴或直接现金让利等方式展开。 就连去年尚未发布汽车的小米也跃跃欲试。一代新人换旧人,春晚舞台上或许什么都会改变,唯独商业大戏只会一年比一年精彩。 风头正劲造车势力,也卷不动春晚了? 一直以来,能和一众互联网大厂在春晚经济中掰手腕的,非车企莫属。随着互联网大厂纷纷开启低调模式,作为最近几年最为热门的汽车领域,在去年的春晚上,更是狠狠刷了一把存在感。 车企与春晚的缘分还要追溯到2019年,那一年,春晚长春分会场是红旗汽车的主场,而深圳分会场则由比亚迪承包。2024年,岚图汽车甚至还在春晚期间为全国人民带来超级大奖-100辆岚图汽车使用权,包括岚图FREE、岚图梦想家、岚图追光三款主力车型。 2025年,一度与互联网大厂“同台竞技”的车企还会上春晚吗? 但截至目前,大部分车企对今年的春晚兴致缺缺,或许是当前新能源汽车在消费市场上的势头已不需要春晚助阵,2024年,国内新能源乘用车销量突破1097.5万辆,同比暴增42%。全年渗透率更是达到惊人的47%,远超行业此前预计的40%目标。 蛇年春晚之前唯一有消息传出的车企是赛力斯,据悉,2025年春晚重庆分会场或许会在赛力斯超级工厂取景,但这一传闻目前还未有确切的官方回应。只不过,可以确定的是,经过一年的价格战,整个汽车市场元气大伤,再砸钱上春晚的可能性十分渺茫。 中国汽车流通协会数据显示去年1-8月,“价格战”已致使新车市场整体零售累计损失1380亿元;2024年上半年,中国上市车企销量占到全球31%,但利润只有9%,18家上市车企利润总和仅为488亿元。 对比一众经常被唱衰的丰田、大众,前者同期净利润高达1253亿元,后者还有795亿元。 单车利润也大幅度下滑。2024年上半年,小鹏、蔚来、零跑、极氪单车利润分别为-5.1万元、-8.32万元、-2.55万元、-4.78万元。而一直在被取代的奔驰、宝马单车利润还能保持在三万以上。2024年,国内下游工业企业的平均利润率还都能在6%以上,但去年9月份,汽车行业的利润率跌至3.4%,创下年内新低。 疲惫了一整年的车企似乎没有精力再理会春晚的风头,而2025年第一月刚开始,厌倦于价格战的车企又掀起了新一年的价格战。根据“新华财经”统计,进入1月份,已经有近40家车企用各种方式优惠促销,覆盖范围从高端车型到中低端车型,从新能源汽车到燃油车。 杀敌一千,自损八百的汽车价格战大有流血打到底的趋势,从市场的角度来看,这是整个汽车行业颇为无奈的选择,2024年6月开始,新能源车的渗透率连续突破50%,甚至在8月达到了53.7%的峰值。 新能源汽车这边,显然已经触碰到了真正的赛点,而传统燃油车不得不守卫自己的地盘。贝瑞德判断,2025年中国汽车市场销量预计将进一步增长2%至3%,一场硝烟滚滚的斗争赫然在吹响号角。 至于春晚,和互联大厂一样,似乎车企也没有多余的力气去凑这个热闹了,春晚经济的大变局,已经悄悄来临。
曾月薪两万的中产,入职假装上班有限公司
“可以再给我加点活儿干吗?” 下午六点,北京某soho楼里的员工们迎来了“下班”点,结束了一天的工作,37岁的朱斌正和老板诉苦。 他不是工作狂,也不想赚加班费,更不是想错开晚高峰。他每天花30元来这里“工作”,要的可不是按时下班。 假装上班有限公司,有限,而不悠闲 30元一天,朱斌租到了工位,拥有了宽带,雇了个老板,省下顿饭钱,还能享受从家中奔波至上班地,再回家的通勤质感。这是失业的他,能给自己最体面的交代。 朱斌失业半年了,从失业的第一刻起,他就在假装工作了,但直到加入了假装上班有限公司,才终于有了份归宿感。此前,他试过去图书馆、网吧、哥们家、公园,无非都是在全天候做简历,找岗位,浏览招聘信息。可年底了,岗位不是很多,还得提防招聘平台上各式各样的骗子公司。为了更离心宜的公司岗位更近,有时他每天回到家后,还得熬夜在妻子眼皮底下抽时间改简历。 适逢双十一,妻子在给家里添置家电,朱斌看了看价格,买的话,贵,错过了,以后会更贵,朱斌咬着牙,将原先承诺的那笔开销转到妻子银行卡上。看着不多的余额,朱斌合上了电脑,打算出门抽根烟。 他的电脑很多年没换过了,之前习惯用公司电脑,不论是下资料素材或是在线摸鱼看视频,都很快。如今全天候地用回了自己老旧的电脑,不太适应,太慢了。不过他现在最不缺的就是时间。 失业这件事,最好瞒的是妻子,她白天要上班,晚上带孩子,颇为忙碌,朱斌在每天回家前都会编出些当天同事值得吐槽的具体细节,以及领导表扬他的具体措辞,这不仅舒缓妻子的身心,还能锻炼自己的表达能力。 可不好瞒的是父母。这对经历过下岗潮的老人极其看重朱斌工作的稳定,即便有着一千多公里的距离,但他们时常通过电子设备,搬进鸟的眼睛里,盯着朱斌身旁的风。在朱斌从小到大的择校、择业等各类重要决策过程中,父母就常有干涉,这也让如今成家立业后的朱斌对二老总是“报喜不报忧”。 平日里,母亲总会在他加班时的晚上9点左右打来视频电话,可如今朱斌因没有了工位,怕真相暴露,已挂掉过很多次视频电话了。 “怎么每次都晚上九点才开会哦?”刚被挂掉电话的妈妈发来微信,显得有些不耐烦。 “年底了,公司效益不好,我们草木皆兵啊。”朱斌躺在床上,从容地打出了这句谎言,上回他编得是“老板第二天要出差”。 谁让父母近年来身体状况在走下坡路呢,朱斌是实在不忍心把失业带来的经济上的压力转嫁到他们身上。 这就是2024年底一位失业中年的生活切片。 是假装上班公司拯救了他。如今的朱斌,终于可以随心所欲地拨通老家母亲的视频电话,推拉摇移手机前置镜头,让她隔着屏幕感受soho写字楼里川字排开的500瓦大功率白炽灯泡炙烤出的班味儿了。 为此,他愿意增加一笔每月六百元的开支,从而短暂地拥有一份安全感与确定性。也愿意再花点钱,某宝下单一份礼物带回老家,毕竟如果父母问起来公司春节发什么福利了,也不必支支吾吾。 “公司”里还管饭,某些基础设施不错的公司还有免费茶水、咖啡。屏蔽那些“中年失业后,千万别做这6件事”的公众号推送吧,这里是失业中年的托儿所,城市中产的新型产业基地,创业失败者的小饭桌。也是那些想在失业后短暂放飞自我,又害怕堕落为躺平一族的都市白领们的灵魂摆渡舱。 图书馆没电脑,网吧没有工作氛围,星巴克太喧嚣,家里孩子太哭闹。大冬天,躺在公园长椅上睡觉太冷——2024年底,“假装上班有限公司”就这样应运而生,还有些地方叫它共享创业区,这也无可厚非,毕竟我们不会知道你面前正啃着鲍师傅的老刘会不会是下一个张一鸣。赵一鸣也行。 公司里尽管没什么实质的业务(或者说公司里最实质的业务就是圆你的上班梦),但老板收钱了,就得拿出点职业操守,他们会不定期巡视你的工位,也会配合你进行业务上的争执,比如,将你落选的方案重重拍在你工位上,不过方案可能也没几页纸,气势上会差一些,意思对了就行。A4纸还得花钱呢。 平日里不太方便吐槽的前司老板与同事,在假装上班公司里你可以畅所欲言 去网上随便搜搜,你就会知道以上只是假装上班公司对员工最基本的福利待遇。 其余的诸如岗位职责等细项,得看你与不同的老板间的化学反应。 如果ta是一位经历过大厂锤炼的互联网老白领,那么你可以象征性地准备些日报、周报、月报模版,再去小红书上搜几句行业黑话反复练习。记住,到岗后,能开会就别线上,能拉群就别邮件。即便是假装上班,也要摆出一副殉道者与苦行僧的姿态。念周报的时候必须注重routine,永远强调你的数据之准确,会议上输出观点时,少说“好的好的”或“It make sense”。 如果ta是一位曾在体制内如鱼得水,擅于把玩人情世故的人精,那么你只需穿着重剑无锋、大巧无工的kolon或迪桑特去与ta寒暄,这能让你在短时间内便得到ta内心赠予的“失业编制”。 而如果你的老板只不过是个想以假装上班公司开启创业生涯的失业者,那你们不必有过多交流,你的岗位职责完全可以是:有着丰富的沉默沟通经验,擅长只通过眼神、微笑便能应对任何职场上的尴尬场面。 这里是没钱租办公室的小型初创团队的天堂——假装上班公司凭借足以卷死写字楼的日租均价,将是你们的创业绿洲;这里也是社保即将断缴的牛马们的庇护所——如果你有此需求,在选取公司的时候,可留意以下选项。 需要注意,挂靠单位代缴社保,隐藏着诸多法律风险,如果挂靠双方未形成真实劳动关系,本质上是通过虚构劳动关系来骗取社保资格。 这里也完全可以是一个在职社畜的精神按摩房,想象一下吧,一个并未失业的人宁愿浪费几天工资,也要请假跑去假装上班公司花钱体验生活——就像一个健康的人假装病患,不定期去癌症患者俱乐部中接受大家的慰藉一样——ta想要的,只不过是将那份职场上的戾气与辛酸,转化为一份同是天涯沦落人式的精神慰藉,然后继续觉得——活着真好。 肯定也有那种闲散惯了的老自由职业者,跟风想找虐,尝试一下被管的感觉。 说白了,大家来到这里,除了短暂逃避生存困境与应付家人的嫌弃与质疑之外,无非是想找到聊天搭子、游戏搭子或是创业搭子,找到一个严寒之下可以报团取暖的小窝。 此外,由于很多企业介意员工简历上的空窗期,还有不少失业者寄希望于靠假装上班公司来填补简历上的空白。不少假装上班公司也在招募帖上表示能够盖章出具实习证明、工作证明,甚至帮忙进行入职背调等。 这是一场“员工”压榨“老板”的游戏 如今你打开闲鱼或小红书,搜索“假装上班”,可以看到类似的公司正在天南海北迅速运作着。 浙江银柿财经采访过几位假装上班公司的老板,他们表示,公司在招揽假装上班这档子生意时,付出的成本,主要是租金。 “我们是每天20元,包月300元,业务不以挣钱为目的,主打交朋友、找“上班搭子”,“我们每月房租差不多3500元,就算是10个人都选了包月,靠这个实际收入也覆盖不了成本。” “不是每天都有人过来,人流不稳定的。” 更多的公司发布“假装上班公司”的帖文,只是“蹭热度”,有一些网友联络他们,也只是聊聊假装上班的梗,而非想要参与进假装上班这个项目中去。 这么看的话,“假装上班”只是许多公司的副业,他们更希望利用闲置空间资源,提供工位,聚拢人气。 毕竟当人流量大了起来,就可以开展免费或付费活动,如“沙龙”“心理疗愈”“创业搞钱”“交友局”“读书会”“运动户外”等等。 更有意思的是,在企业信息查询平台上,你可以搜到许多“表里如一”的公司,他们的注册时间无一例外集中在元旦前后,也就是这次“假装上班”的全民自嘲风潮开始的时候。对于这些公司来说,他们恐怕只是想趁这热度,捞一把“上班费”。 这些公司的注册资本在1~10万元不等,公司成员共1-3位,均未提供联系方式 你完全可以在闲鱼、小红书、淘宝上通过搜索“假装上班”且通过一定的筛选机制,管窥该产业的部分现状。 在小红书平台上,“假装上班”这一话题的浏览量已经超过2000万,讨论量达5万条。 闲鱼平台上,全国目前共有213家含有“假装上班”业务的公司,其中,江浙沪地区以56家领先于全国其他地区。 而京津冀地区只有17家,排名最后。 另一个维度里,北上广之外的全国各地区,单个工位一天的租金一般为15~30元,但是在北上广深等一线城市,一个工位的单日费用可能就需要50~60元。显然,高有高的理由。 世上本无路,走得人多了,无路之路也是路,无非是更卷了。行业卷起来了之后,拼的就是“老板”的包装能力。你公司里的业务包装得不精美,会遭到“员工”的嫌弃。 为此,有些公司承诺会提供一些比较简单的娱乐和解压项目——桌游和棋牌游戏;飞镖和拳击等等。 还有些公司安放了匿名信箱,你可以用信纸倾诉情感,等他人回复;还有的设立了易物站,你可以将家里的闲置拿来交换。 还有爱猫的老板,会组织员工撸猫,吸猫…… 诸如工种的细项分类,如客服类,财务类等等的沉浸式“上班”体验,看上去也正在开发中,至于落实与否,似乎不重要了。生活有时需要的只是一些想象力。 不仅是写字楼里的工作室,有些画室、咖啡店,也蹭着热度,结合着自身特点,纷纷发布带有“假装上班公司”话题的帖子。 对于科技、金融类公司来说,他们只需要按照平日里的正常工作程序来操作,即可为付钱来上班的员工制订岗位职责,各行各业都守着自己的一亩三分地进行“二次创造”,所以对于假装上班业务来说,很大程度上,老板的调性,决定了员工的调性。 二次元老板,往往会要求来付费上班的员工也是二次元。 农场主老板们,则会以一种孤独民宿老板的姿态,要求来上班的员工给出故事,而他有酒,有露营的大草地。 实际上这就是个周末亲子乐园 也难免会有想要跨圈层体验的失业者。 或许他们选择公司时,根本没考虑圈层,考虑的只是实惠。 可想而知,他们的“线上面试”过程,实际就是一场“扩列”式的寒暄;线下的相聚,则是一场短暂刺穿固化的圈层与阶层壁垒的过程。在这个过程里,人们一窥彼此的生活与精神角落,也一窥彼此的寂寥。 假装上班,其实是一场全国范围内的Party 假装上班公司发展到现在,看上去只不过是另一种线下聚会的形式与缘起,起码现在,我们无法知道它究竟能否真正成为失意者们的乐园。 如果它真能创造价值,那对于老板来说,这无疑是一项省略了无用的生产过程,直接开始“剥削”员工的天才业务。有趣的是,员工也可以随时以反制姿态,“剥削”老板。 这也是一场失业与未失业的城市中青年们共同参与的云创业构想,互联网的评论区里,没有多少人无聊到以上帝视角去审视这场自欺欺人,大家更多地是去贡献自己的想象力,用思考是延伸一切的媒介之价值观,打破了时空的束缚,硬生生将这场缘起于经济下行的失业潮流,变为了创业潮流。 在这个租金飞涨导致资本流失,民企受创、岗位剧减,新设备与新技术正逐渐代替人工的就业环境下。中年白领们某天突然发现,因极低的就业率,职场新人们正以猛虎扑食之势来和你卷技能、卷精力。智联招聘于2024年针对应届毕业生调研形成的《大学生就业力调研报告》显示,今年普通本科院校的硕博毕业生就业率仅为33.2%。在很多应届硕士生不得不“黄袍加身”去送外卖的情形下,中年失业的你更别无选择。 这也是为何《逆行人生》这般描摹落魄中产改行送外卖的现实主义题材电影能在一定时间内冲至网络舆论的风口浪尖,成为它精准受众们的一剂五味杂陈的鸡汤。 如果有一天,你被算法清算出局,被年龄送至soho楼外,被房贷锁在了系统中,那么欢迎去假装上班公司。它也许会成为一条新的赛道,但在它目前还只是一条“河流”时,在其中野泳一会儿,也可以是种别样的体验。 在这里,能遇见什么样的同事,全凭缘分。但靠各自的技能接单,攒出点业务,也不是完全不可能:会word的写点产品策划案,会office的做点外贸商单,会剪映的剪条推广视频,小红书玩得溜的,发帖时上一个“tiktok refugee”的标签,这不就有可能远销海外,妥妥商业闭环了么。 说到底,这个世界正在进行着的,无非是一场因互联网的繁盛,而演化出的金钱与灵魂的全球化交换。
AI走的是死路?专家剖析致命缺陷,不具备大规模应用前提
编辑:智子 乔杨 从软件工程和网络安全的角度来看,当前的AI落地前景如何?「可解释性」方面的研究,真的能让AI拜托「黑箱」属性吗? 2024年11月,莱斯特德蒙福特大学网络安全教授Eerke Boiten发表了一篇警示文章,题为「当前的AI是一条死胡同吗」。 在这篇文章中,Boiten教授从软件工程的角度出发,分析了当前AI技术在管理和控制方面的重大缺陷。 他表示,AI系统的本质问题在于它们无法与已有的软件工程实践有效结合,尤其是在复杂性管理和规模控制方面。尽管AI在诸如自动化、医疗、金融等领域取得了显著成就,但其核心问题在于无法确保系统在规模化应用中的可控性与可靠性。 AI的复杂性管理问题 Boiten指出,目前的AI系统与传统软件开发标准存在严重的不匹配。 软件工程的基本原则之一是,关键系统必须具备可管理性、透明性和问责制,而AI技术恰恰在这些方面存在缺陷。 例如,许多现代AI系统,尤其是基于深度学习的模型,在训练和应用过程中缺乏透明的决策过程,且很难追溯和解释其决策依据。 这种「黑箱」性质让AI系统在关键任务中的应用充满风险。尤其是在涉及人类生命健康、金融交易、网络安全等领域时,无法控制的系统可能带来灾难性的后果。 正因如此,Boiten认为,当前AI的不可管理性本质上让它无法在这些领域担任核心角色。 缺少可靠性 此外,Boiten还强调了AI系统在可靠性方面的不足。 虽然AI的表现常常令人惊叹,但其本身的可靠性依然远未达到理想的水平。在进行高风险决策时,尤其是在医疗、司法、金融等领域,AI的错误率仍然不可忽视。 例如,AI在图像识别中的误差率可能较低,但在医学诊断中,哪怕是极小的错误也可能带来致命后果。 AI的在可靠性上的缺陷不仅仅体现在其技术能力上,更体现在其系统架构的可管理性上。 由于缺乏有效的监管和透明的设计,AI系统往往难以在严格的工程标准下工作。在面对不断变化的现实情况时,AI的决策过程可能会出现不稳定和不可预测的情况,这就增加了在关键领域应用它们的风险。 「可解释AI」并非终极答案 为了应对AI的复杂性问题,业界提出了「可解释AI」的概念,试图使AI的决策过程更加透明和易于理解。 这种方法看似解决了长久以来被诟病的「黑箱」问题,但Boiten指出,这一解决方案并不能根除问题。 他认为,「可解释AI」并没有改变AI在复杂应用场景中的根本缺陷,它只是尝试解释现有模型的内部工作方式来减少不确定性。然而,这并不意味着AI能够在所有领域都能高效且可靠地运行。 因此,AI技术的进一步发展不能单纯依赖于「可解释性」,而应该更多地关注如何提升AI系统的可控性和安全性。对于AI的监管和标准化,目前还没有形成统一且有效的行业规范,而这一缺失将导致其在未来面临更大的挑战。 数据责任:难以跨越的障碍 除了「可解释性」和「可靠性」,Boiten还指出,AI技术面临的另一个巨大挑战是数据责任问题。 AI系统的决策质量,高度依赖于训练数据的质量,但目前很难有效保证数据的公正性、完整性和代表性。 由于数据存在偏差,AI模型可能会产生带有偏见的判断,这在一些敏感领域尤为严重,如司法审判、招聘决策等。 尽管业界推出了多种方案来减少数据偏见,但Boiten称,这些方案仅仅是隔靴搔痒,并未触及问题的根本。 随着AI技术的发展和应用场景的扩大,数据偏见和隐私问题将变得更加严重。如果得不到有效解决,我们将不可避免地面临伦理和法律风险。 未来展望:潜力与挑战并存 Boiten教授的警示并不是对AI技术的全盘否定,而是对其在关键应用中的风险进行了深刻反思。 他承认,AI在许多领域已经展现出了巨大的潜力,尤其是自动化和数据处理等方面。然而,更广泛的应用必须在更加严格的工程标准下进行。对于那些影响人类安全和生活质量的领域,AI的使用需要更加谨慎和透明。 文章的最后,Boiten回答了开头抛出的问题——AI的未来并非一条死路,但当前的技术瓶颈和管理难题确实需要引起足够的重视。 如果业界能在提升可控性、透明度和可靠性方面取得突破,AI将能在更广泛的领域内发挥其潜力。否则,上述这些挑战足以限制AI在关键领域的落地,甚至让我们走进「死胡同」。
揭秘非洲当下创投圈真相
AI将使非洲8亿青年实现弯道超车。 编译|董斌 在大多数人看来,提起非洲时总是与自然资源和基础设施挂钩,却鲜少有人将它与早期科技创业或数字经济联想在一起。然而随着移动互联网逐渐渗透、人口结构的持续年轻化以及越来越多国际与本地资金的注入,非洲的风险投资生态正悄悄发生改变。 非洲领先的早期风投基金之一“Launch Africa Ventures”基金管理合伙人Zach George(扎克·乔治)在近期访谈中回顾了第一期基金从最初期望的千万美元级别,迅速扩大到3000多万美元规模的历程,并阐明了其背后的逻辑:在非洲,传统发展金融机构的资金模式虽庞大,却缺乏深入灵活的早期支持,而“Launch Africa Ventures”则通过引入拥有行业专长和国际网络的合伙人及有限合伙人,为初创企业提供导师式陪伴。这种策略不仅让企业获得切实可行的运营经验,也令投资者的资源与被投公司的诉求形成了互补闭环。 在全球宏观环境经历估值回调的背景下,非洲的估值波动相对温和,非洲市场反映出更多的是一个稳中有升的局面。其中金融科技是非洲的投资热点,包括移动支付、保险科技和数字银行等多个领域,其增长潜力基于当地大量尚未被充分满足的金融需求。而物流、供应链以及与电子商务相关的“最后一公里配送”业务,也在庞大且年轻的人口结构和日渐成熟的移动基础设施下获得了新一波机会。扎克认为,非洲大陆正以令人意想不到的速度拥抱数字化,不少项目在获客与运营管理上面临挑战的同时,也伴随着更持久的客户留存与较高的用户忠诚度。 本次访谈并非一味向外界“喊话”或制造噱头,而是在冷静分析非洲创投的真实发展轨迹、企业面临的挑战,以及怎样透过精巧的资本安排为当地市场创造实在价值。非洲风险投资环境正在经历的重要变迁,或许正是下一个10年中不容忽视的经济新风口。 以下为访谈精彩内容: 1.我们通过让投资人也深度参与到创业公司中,形成了一个互相支持的闭环生态,而不仅仅是写支票给初创公司然后静待回报这么简单。 2.在过去10到15年里,印度、东南亚和拉丁美洲已经用事实证明,新兴市场同样能够诞生市值超过百亿美金的科技公司。 3.数字经济正在非洲形成风暴般的增长机遇。 4.非洲一直以来的估值相对比较“理性”,在全球热钱泛滥的时候也没有出现特别夸张的泡沫。 5.非洲创投生态目前进入了“优胜劣汰、适者生存”的阶段。 6.我们喜欢自信而不傲慢的创始人。 以下为采访全文,有删改: 1 投资者深入参与创业公司 主持人:今天非常高兴邀请到“Launch Africa Ventures(启动非洲风险投资)”基金管理合伙人扎克·乔治。3年前,他曾向我们分享如何在非洲推进早期风险投资,并且从华尔街转向非洲大陆创业生态的故事。如今全球的投资环境发生了巨大的变化,所以我再度请他来,为我们分享非洲风险投资生态系统的现状,以及他个人和团队又有哪些新的发现和发展。 扎克·乔治:谢谢你的邀请。回想3年前的访谈,正值我们推出“Launch Africa Ventures”第一期的初始阶段。那时,我们的目标是募集大约1000万~1500万美元,但结果超乎我的预期,募集了超过3600万美元,成为了当时非洲最大的早期基金之一。 不同的是,在非洲,传统的私募股权或风险基金往往依赖发展金融机构的资金,比如世界银行集团旗下的国际金融公司或非洲开发银行等。它们的资金规模巨大,但往往不太愿意在早期阶段给创业公司提供所需的“智力资本”“行业资源”或高度灵活的运营支持。于是我们决定采取另一种策略:以深度合作伙伴兼具专业知识及实际行业资源的投资者为主体,共同营造一个支持初创企业的生态系统。我们的投资者不仅出资,还能够投入他们的时间和经验,真正做到提供实质性指导。 主持人:可以想象,许多早期创业公司在非洲并不仅仅需要资金,他们更需要能打通人脉的资源、行业的专门指导以及在当地市场的深耕与分销经验。那么,“Launch Africa Ventures”在这一方面是如何构建自己的特色生态的呢? 扎克·乔治:我们的做法是除了基金本身的管理团队,我们还将有限合伙人(LP)的背景和他们所拥有的行业、技术以及全球网络也纳入其中,为初创企业形成一个更宽泛的支持系统。换言之,除了基金本身提供的投后管理或对接资源,我们的LP也能够为投资组合中的公司直接提供行业洞察、国际扩张渠道乃至顾问服务。 举几个例子。我们有一位美国东海岸资深金融从业者,他曾在大型资产管理公司T. Rowe Price任职多年,对资产管理、信用服务与财富管理业务有着深厚的经验。他对我们投资组合中从事金融科技、贷款、理财或储蓄业务的初创公司十分感兴趣,经常担任他们的顾问或导师,与他们一起做市场扩张策略、监管合规分析等等。 还有一位在欧洲负责DHL创新部门多年的LP,他对物流、供应链以及电商的末端配送等领域非常熟悉。他主动表示愿意给我们在“最后一公里物流”或“电商配送”领域的创业公司提供咨询。这对于需要拓展跨境物流或优化配送网络的初创公司来说帮助非常大。 此外还有来自不同地区的大型银行、零售商、保险公司高管,他们的资金在某种程度上并不是他们最大价值所在,反而是他们在本地市场的深层次链接和行业经验更为关键,后者能够切实帮助初创企业对接渠道或建立合规体系。 换句话说,我们通过让投资人也深度参与到创业公司中,形成了一个互相支持的闭环生态,而不仅仅是写支票给初创公司然后静待回报这么简单。 2 如果我是LP,为什么要投你? 主持人:我记得你在第一期基金所做的事情,不仅仅是提供资本,更是把建议和资源注入创业公司之中,这一点确实非常关键。那我们不妨再角色扮演一下:假设我现在是一个家庭办公室的负责人,或者某位高净值人士,对非洲正在发生的事情有兴趣,但又犹豫应该如何分配资金。我走进你办公室,请你向我推介“Launch Africa Ventures”,你会怎么说? 扎克·乔治:首先,我会问一句:“你有多少时间?”然后我会解释,为什么要把非洲视为全球多元化投资组合中的关键一环。在过去10到15年里,印度、东南亚和拉丁美洲已经用事实证明,新兴市场同样能够诞生市值超过百亿美金的科技公司。非洲在这方面落后印度10~12年,落后东南亚、拉丁美洲7~8年,但现在正在迅速赶上。 非洲长期以来给外界的印象更多与自然资源绑定,比如矿业、石油天然气、基础设施、公共事业等。如今,随着互联网和移动设备的迅猛普及,加之超过15亿人口的红利与愈发年轻化的人口结构,数字经济正在非洲形成风暴般的增长机遇。 非洲目前平均年龄仅约18岁,这意味着在15亿人口里,约有8亿是21岁以下的年轻人。他们对于健康、教育、娱乐、消费方式以及理财方式的了解几乎都是从数字化方面开始。 十几年前,在非洲使用1GB移动流量的平均价格可能要50美元以上,价格非常昂贵;如今,该成本已在大多数非洲国家降至2美元甚至更低。曾经在2010年时,整个非洲大陆的手机数量还远不及纽约一地的手机保有量;而现在非洲的手机总数已超过了整个北美(包括美国和加拿大)的总和。这带来前所未有的在线交易与数字服务需求。 此外,非洲人口增速高、消费潜能巨大且正日趋深度数字化,这为金融科技、电子商务、数字娱乐、教育科技、医疗科技等多个赛道提供了极佳的发展土壤。因此,在进行全球资产配置的时候,如果你想抓住下一波新兴市场的高增长潜力,又希望投资组合多元化,非洲早期科技板块是非常值得期待的。 主持人:那除了这些宏观的因素,你们基金本身有什么独特的机制或亮点,使得LP值得把资金投给你们? 扎克·乔治:我们有几个差异化之处。首先是重视深度赋能。不只是资金,我们强调引入拥有专业经验与行业资源的LP,借助他们的导师式参与,为早期公司提供切实可行的帮助。 还有共同投资机会。我们的LP除了向基金出资以外,还可以对我们投资组合中的公司进行直接投资,而且不收取额外的费用或业绩报酬。也就是说,如果你是我们的LP,你就可以在基金投了某家公司之后,以同样的估值上限或优惠条款继续追加投资,从而在后续轮次中获得更大比例的股份和更高的潜在收益。 我们在非洲大陆的主要孵化器、加速器乃至后续风险基金中都深度布局,能够帮助创业公司快速对接资源。同时,当企业做到一定阶段,我们也会帮助其与更大型、后期的基金甚至战略投资方连接,确保企业能得到后续融资。 我们的目标是让所有LP和被投企业都能获得“1加1大于2”的协同效应。对于真正想要参与非洲经济转型的个人或机构,加入我们的基金可以实现既满足社会影响力的增长又获取可观财务回报的双重目标。 3 在非洲,创投生态进入了优胜劣汰阶段 主持人:在之前的第一只基金(LAV One)中,你们当时投了多少家公司?其中有多少跨越了最初的估值或收入目标? 扎克·乔治:当时我们最初的目标是用约1000万~1500万美元投出30家左右的早期科技公司,但最终却投了3100万美元,覆盖了约133家创业公司。 从结果来看,我们投资的公司覆盖金融科技、物流、电商、保险科技、医疗健康等多个领域;很多公司的估值都远超我们初始预期。之所以能够产生这种爆发式的增长,一方面是因为这几年非洲整体创投环境在改善,另一方面是我们主动为企业嫁接了许多资源,包括市场拓展、行业经验、国际伙伴等等。许多以往缺乏的运营指导或行业通路,都在我们投后的服务体系中获得了补足。 主持人:你提到非洲创投格局的改善,这一点很重要。过去两年,全球科技股经历了估值调整。非洲市场在这一波调整中的表现如何? 扎克·乔治:大约18~24个月前,全球范围内发生了大规模的市场估值回调。从美国硅谷到欧洲、拉丁美洲和亚洲,许多明星初创公司估值腰斩。相比之下,非洲受到的影响较小。原因在于非洲一直以来的估值相对比较“理性”,在全球热钱泛滥的时候也没有出现特别夸张的泡沫。举个例子,如果一家做支付的创业公司在硅谷或印度,Pre-A轮或A轮就可能给到年化营收(ARR)的20倍甚至更高的估值;而在非洲,类似模式可能只在10倍左右。因此,当整体环境收紧时,非洲公司的估值跌幅相对更小,很多项目依然保持可观的融资进展。 不过,也确实存在资金更趋向于“头部化”的现象,有韧性、能够管理好现金流并体现明确增长潜力的公司获得了更多资源,而同质化程度高、烧钱模式严重的公司可能面临合并或倒闭。非洲创投生态目前进入“优胜劣汰、适者生存”阶段。 主持人:很多观众和初创企业家都会好奇,在非洲创业最具挑战或成本最高的部分是什么?你之前提到获客成本偏高,而且非洲的市场分割比较显著。你能否详细谈谈这一点? 扎克·乔治:与美国或欧洲大多数市场相比,非洲做B2C获客的挑战在于,你不能只依赖Facebook、谷歌、Instagram等线上广告,因为在一些国家和地区,这种线上投放可能覆盖不足,或者消费者信任度不高。传统媒体如电视、广播、报纸,甚至口口相传在许多非洲市场依然是很重要的获客渠道,因此营销成本并不低。 此外,在有些细分领域竞争也十分激烈。例如中小企业贷款在尼日利亚就有十多家初创公司,大家都想抓住中小微企业的需求,争夺同样的市场。这就需要创业公司在产品、风控、服务方式上有更多创新,而不是仅仅“价格战”或“砸广告”。 另一方面,由于许多非洲国家的消费者品牌忠诚度较高,一旦他们对某个产品或平台产生了较好的使用体验,就会保持较长的留存期。这与人们在文化上更看重可信赖关系也有一定关联。所以,虽然获客成本高,但如果能做出口碑,留存率和客户终身价值也会更可观。 主持人:那么,从投资人的角度来看,你们挑选公司时会特别注重哪些指标或信号?比如说对团队的判断标准是什么? 扎克·乔治:我们主要看以下几点。首先是创始团队的学习与执行能力。我们非常看重创始团队是否愿意倾听建议、积极迭代。对创业期公司而言,创始人的可培养度与配合度比商业模式本身更重要。如果一个团队非常顽固,不愿调整策略,或者拒绝外部建议,那么在种子轮或天使轮这样的早期阶段就会让我们相当顾虑。 同时,我们喜欢自信而不傲慢的创始人。他们有雄心壮志,但也尊重专业意见,懂得如何让投资人做教练而不是当船长。毕竟经营公司的是创始团队,投资人提供的是指导与资源。 我常常让创始人在一张餐巾纸上就能给我解释他们的商业模式、市场规模以及如何构建可持续的收入来源。如果需要用特别复杂的模型才能说服人,那往往说明他们对核心市场理解不够深入。 非洲市场独特之处在于,各国监管、语言、文化并不完全一致。如果公司只在南非或尼日利亚等单一市场经营,一开始可能够用,但要想快速增长,往往必须面向东非、西非、北非乃至出海做跨境业务。创始团队若能在早期就思考和规划多国扩张,会对我们是一个很大的加分。 此外,多数国际投资者习惯要求目标公司设置在对投资者友好的司法辖区,如美国特拉华州或英国、新加坡、荷兰等地,而在非洲当地设立运营子公司由母公司全资控股。许多创始人往往忽视了这一点,或者拖延至要签投资文件时才临时去搭建架构,导致流程延宕、风险增加。如果他们在和我们对话之前就已具备这样的合规架构,会让我们感到专业和放心。 4 非洲是否适配AI? 主持人:你们的第一期基金已取得很不错的成绩,接下来准备发行的第二期基金(或称LAV Two)会有什么不同吗?你们在投资策略或行业聚焦上会不会有所调整? 扎克·乔治:我们第二期基金的重点,仍然会以创业期为主,但也有可能会把部分资金投向可以横跨创业期与成长期的企业。 从行业上看,金融科技依旧是热点,尤其是数字支付、数字银行、保险科技这些与庞大人口基数和企业需求紧密结合的领域。此外,物流与供应链、零售科技、农业科技和医疗科技依然是重点关注赛道。 与此同时,我们也会更关注那些已经具备一定营收规模,例如每月经常性收入在2.5万到10万美元之间,并且对市场理解较深,对团队搭建与合规也有较完善做法的公司。我们的典型做法就是通过安全协议或可转换票据来投资,并在公司进入A轮时帮助他们对接后续更大规模的基金,然后我们在A轮或B轮时根据具体情况实现部分退出或二级交易,让我们的LP可以提前获得流动性。 主持人:在过去一年,AI技术的大爆发引发了全球关注。有人认为AI会在很多地方取代人力,也有人认为AI能帮助提升技能,尤其在教育和培训方面潜力巨大。对于非洲这样一个人口结构年轻,同时教育资源又相对匮乏的大陆,你怎么看AI会带来的机遇和挑战? 扎克·乔治:我承认,很多人会担心,“AI是不是会抢走非洲的工作岗位?”但实际上,我更倾向于相信AI可以以更快速度帮助人们获得教育与技能,而不需要昂贵的师资、校舍等传统投入。 举例来说,非洲很多年轻人接受正规高等教育的机会有限,但如果有AI驱动的在线教育平台,能以极低成本甚至免费为他们提供编程、机械、木工、电工等各种理论和实操指导,将极大促进职业技能升级。同时,电信运营商也可能提供类似“零流量费”的学习内容,或者银行、保险公司主动支持金融知识普及。这样一来,非洲年轻人掌握就业技能的速度将被大幅提高,甚至可能跳过很多传统教育阶段的限制。 对整个非洲大陆8亿青年而言,弯道超车式的技能获取将是AI给他们带来的最大红利。当然,前提是我们要解决基础的数字基础设施,比如确保网络覆盖、提高智能手机的可负担度等,这些在过去十年已经有了显著改善。 主持人:扎克,感谢你抽出时间来分享你的思考。最后一个问题是:除了二期基金(或三期基金)的募集,你对“Launch Africa Ventures”乃至非洲生态的长期规划是什么?你最想看到怎样的转变? 扎克·乔治:就我个人而言,我最大的愿景是能在非洲建立一整套多元化的资金价值链,而不仅仅是股权风险投资。有些企业并不适合风险投资,而更适合收入分成融资、夹层融资或债务融资。如果我们能够成立一家综合性的非洲资本平台,提供适配企业不同阶段和不同行业需求的资本与服务——从种子轮的股权,到扩张期的基于收入分成的融资,再到成熟阶段的债务或并购,这样我们就能为非洲企业提供更加完整的资金支持闭环。 非洲远不止于依靠自然资源的旧模式,数字经济的潜能巨大,人口与人才储备可观。我们希望用专业的资本与生态服务,让更多非洲青年能创办具有全球视野的公司,解决广泛的社会与商业痛点。等他们成长到一定规模,我们也会将接力棒交给更大型的私募、国际基金或进行并购整合,让他们在国际舞台上展示更大的影响力。 如果说10年前,大家还在讨论“非洲究竟能不能培育出真正的科技巨头?”那么今天,我们已在非洲见证了多个估值独角兽的出现,相信未来10年一定还会加速诞生更多。期望到时候,全世界对非洲创业与投资的看法都将大为改观——这就是我的初心,也是我会一直努力推动的方向。
物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代
我们都没预料到,AI 领域的 2025 年是这样开始的。 DeepSeek R1 真是太厉害了! 最近,「神秘的东方力量」DeepSeek 正在「硬控」硅谷。 我让 R1 详细解释勾股定理。这一切都是 AI 在不到 30 秒时间里一次性完成的,没出任何错。简单来说,its over. 在国内外 AI 圈,普通网友发现了神奇的强大新 AI(还开源),学界专家纷纷喊出「要奋起直追」,还有小道消息称海外的 AI 公司已经如临大敌。 就说这个本周刚发布的 DeepSeek R1,它没有任何监督训练的纯强化学习路线令人震撼,从去年 12 月 Deepseek-v3 基座发展到如今堪比 OpenAI o1 的思维链能力,似乎是很快达成的事。 但在 AI 社区热火朝天的读技术报告、对比实测之余,人们还是对 R1 有所怀疑:它除了能跑赢一堆 Benchmark 以外,真的能领先吗? 能自建模拟「物理规律」 你不信?来让大模型玩玩弹球? 最近几天,AI 社区的一些人开始沉迷一项测试 —— 测试不同的 AI 大模型(尤其是所谓的推理模型)来处理一类问题:「编写一个 Python 脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」 一些模型在这项「旋转球形」基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称,国内人工智能实验室 DeepSeek 的开源大模型 R1 完胜 OpenAI 的 o1 pro 模式,后者作为 OpenAI ChatGPT Pro 计划的一部分,每月收费 200 美元。 左边是 OpenAI o1,右边是 DeepSeek R1。如上所述,这里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」 根据另一位网友在 X 上的说法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型对物理原理判断错误,导致球偏离了形状。也有用户报告称,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相对更旧的 OpenAI GPT-4o 都一次性通过了评估。 但这里面也是能分出高下的: 在这个推文底下的网友表示:o1 的能力原本很好,在 OpenAI 优化速度过后就变弱了,即使是每月 200 美元的会员版也一样。 模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法,其算法需要去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。 AI 初创公司 Nous Research 的研究员 N8 Programs 表示,他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。「必须跟踪多个坐标系,了解每个系统中的碰撞是如何进行的,并从头设计代码以使其具有鲁棒性。」 虽然弹跳球和旋转形状是对编程技能的合理测试,但对于大模型来说还是个新项目,即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为 AI 大模型基准测试的一部分的话,还需要改进。 无论如何,经过这一波实测之后,我们对大模型之间的能力不同有了观感。 DeepSeek 是新的「硅谷神话」 DeepSeek 正让大洋彼岸陷入「恐慌」。 Meta 员工发帖称「Meta 工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」 而 AI 科技初创公司 Scale AI 创始人 Alexandr Wang 也公开表示,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。 他还认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会「改变一切」。 X 博主 @8teAPi 则认为,DeepSeek 并不是一个「副业项目」,而是像洛克希德・马丁以前的「臭鼬工厂」。 所谓「臭鼬工厂」,就是当初洛克希德・马丁公司(Lockheed Martin)为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队,从事尖端或非常规的技术研究与开发。从 U-2 侦察机、SR-71 黑鸟,到 F-22 猛禽、F-35 闪电 II 战斗机都是从这里走出来的。 后来,这个词逐渐演变成一个通用术语,用来形容在大公司或组织内部设立的「小而精」、相对独立且自由度更高的创新团队。 他给出的理由有两个: 一方面是 DeepSeek 拥有大量的 GPU,据称有超过一万块,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能达到 5 万块。 另一方面,DeepSeek 只从中国排名前三的大学招聘人才,这意味着 DeepSeek 与阿里巴巴和腾讯具有同等的竞争力。 仅凭这两个事实,就可以看出,显然 DeepSeek 在商业上取得了成功,并且已经足够知名,能够获得这些资源。 至于 DeepSeek 的开发成本,该博主表示,中国科技公司可以获得各种各样的补贴,比如低用电成本和用地。 因此,DeepSeek 非常有可能大部分成本都被「安置」在核心业务之外的某个账目上,或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外,没人完全清楚所有财务安排。有些协议可能只是「口头协定」,只靠声誉就能敲定。 不管怎样,有几点是明确的: 这个模型非常出色,与 OpenAI 两个月前发布的版本相当,当然也有可能不如 OpenAI 和 Anthropic 尚未发布的新模型。 从目前来看,研究方向仍主要由美国公司主导,DeepSeek 模型属于对 o1 版本的「快速跟进」,但 DeepSeek 的研发进度非常迅猛,比预期更快地迎头赶上,他们并没有抄袭或作弊,最多只是逆向工程。 DeepSeek 主要是在培养自己的人才,而不是依赖美国培养的博士,这大大扩展了人才库。 与美国公司相比,DeepSeek 在知识产权许可、隐私、安全、政治等方面受到的约束较少,围绕错误地使用那些不想被训练的数据的担忧也较少。诉讼更少,律师更少,也更少顾虑。 毫无疑问,越来越多的人认为 2025 年将会是决定性的一年。与此同时各家公司都在摩拳擦掌,比如 Meta 就正在建立一个 2GW+ 的数据中心,预计在 2025 年投资 600-650 亿美元,年底拥有超过 130 万块 GPU。 Meta 甚至用一张图表展示了 2 千兆瓦数据中心与纽约曼哈顿的对比。 但现在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不让人焦虑? Yann LeCun:要感谢开源 Hyperbolic 的 CTO、联合创始人 Yuchen Jin 发帖表示,在仅 4 天时间里,DeepSeek-R1 向我们证明了 4 个事实: 开源 AI 仅落后于闭源 AI 不到 6 个月 中国正在主导开源 AI 竞赛 我们正进入大语言模型强化学习的黄金时代 蒸馏模型非常强大,我们将在手机上运行高智能 AI 由 DeepSeek 引发的连锁反应仍在继续,比如 OpenAI o3-mini 免费可用、社区中希望能减少关于 AGI/ASI 的模糊讨论以及传闻 Meta 陷入恐慌等。 他认为,现在很难预测最终谁会获胜,但不要忘记后发优势的力量,毕竟我们都知道是 Google 发明了 Transformer,而 OpenAI 解锁了其真正潜力。 此外,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 也表达了自己的看法。 「对于那些看到 DeepSeek 的性能就认为『中国正在超越美国的 AI』的人,你理解错了。正确的理解是:开源模型正在超越专有模型。」 LeCun 表示,DeepSeek 之所以这次一鸣惊人,是因为他们从开放研究和开源(如 Meta 的 PyTorch 和 Llama)中获益。DeepSeek 提出了新想法,并在他人工作的基础上构建。因为他们的工作是公开发布和开源的,每个人都可以从中受益,这就是开放研究和开源的力量。 网友们的反思还在继续,在对于新技术发展兴奋的同时,也能感受到一点点忧虑的气氛,毕竟 DeepSeek 们的出现,可能会带来真金白银的影响。 参考内容: https://x.com/ivanfioravanti/status/1881969391547683031 https://x.com/Aadhithya_D2003/status/1882105009548222953 https://x.com/8teAPi/status/1882836551866204656 https://x.com/Yuchenj_UW/status/1882840436974428362 https://x.com/ylecun/status/1882943244679709130 https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/
上手智谱GLM-PC :帮你抢春运票、发微信,还不用付200美元,有它还要啥OpenAI的Operator
作者|Yoky 开年OpenAI放出了第一个王炸:Operator,定睛一看,这不是早就上线的智谱智能体 AutoGLM 和 GLM-PC 么? 早在今年10月25日,智谱便上线了移动端和Web端插件形式的AutoGLM,它只需接收简单的文字/语音指令,它就可以模拟人类操作手机和浏览器。11月29日,智谱上线了更大权限的,基于PC的自主Agent:GLM-PC,并于2025年1月23日,更新了1.1版本,并全面公测。 从效果上看,OpenAI展示的一些Operator的应用场景,AutoGLM也完全能搞定,以浏览器插件的形式增强了产品灵活性的同时进一步降低了门槛,更重要的是,完全免费,立省200美元! 比如,AutoGLM能够自主的在YouTube里给Operator写上一句“商业互吹”,或者去X里给Operator点赞。 自动播放 亦或是在OpenTable上预订好餐厅的多任务分步处理,AutoGLM都能够做到丝滑完成。 自动播放 升级后的GLM-PC与基于Web端的Agent有着更大的权限以此拓宽能力边界,比如GLM-PC不仅能够预订餐厅,更能在系统中book日历提醒,来保证准时赴约。 硅星人全面测评了最新版本的GLM-PC,接管整个电脑的权限后,它不仅能发微信、整理文件,还可以通过手机远程遥控GLM-PC进行协作,甚至还在这个一票难求的春运时间,不间断操作帮我抢到了回家的火车票... 1 懂事的PC,已经学会自己抢车票、买年货了 当GLM-PC能够控制电脑后,会发生什么? GLM-PC分为两种模式:极速模式和深度思考模式,其中极速模式并不支持附件上传和多轮对话,也就是端到端的text to action,通过手机远程遥控也仅支持极速模式;而深度思考模式则会展现思考链路和逻辑,输入和输出内容更加丰富,可执行的指令也更加复杂。 在GLM-PC提供的案例中,有“群发助手”的引导,对话框中是一段预设的prompt,本以为要测试的我,忘记了自己的微信中真的有一个名为「相亲相爱一家人」的群。于是GLM-PC开始自动操作准备给每一位群友发上一段祝福,哪怕被我紧急拦截,也已经群发了10个人。 一开始,我们用它来执行了一些相对简单的任务,比如用它来查找关于OpenAI的最新新闻,阅读了相关文章后帮我简单整理一下基本信息传回,同时基于智谱清言的语言理解能力,对新闻事件进行了分析。 自动播放 自动播放 接着难度逐渐升级,我让GLM-PC在小红书上找到推荐的北京粤菜馆,GLM-PC在小红书中搜索了关于北京粤菜馆的帖子进行分析,它竟然还聪明地知道阅读评论,在评论中找到几家推荐比较多的餐厅,然后跳转到大众点评中查了评分,最后将4.5分以上的餐厅整理进名单,回传给我。 还真别说,最终筛选出来的几家粤菜馆,味道真的不错也避雷了网红餐厅。 自动播放 要过年了,AI能不能替我挑选点年货,加到淘宝的购物车里? 在这个过程中,展示了GLM的多层分析能力,毕竟年货不是某一种具体的商品,在我向它提出这个需求时,它先是思考,送给父母年货包括五谷杂粮、保健品、家电,虽然不一定完全符合父母的心意,但对类别的判定相对准确。 紧接着它在淘宝中分类搜索了具体的商品,而不是直接搜索“年货”两个字,当然,过程中出现了一些bug,当它搜索谷子的时候,跳出来是二次元文化的吧唧,不够时髦的GLM-PC一时间没能理解这并不是目标商品,仍然将它加进了购物车。 自动播放 GLM-PC还化身为了抢票神器,还没抢到回家车票的我,让GLM-PC帮我买最早一班的车票,它不仅查了几天的车票情况,还慷慨的帮我点选了商务座,结果成功买到一张26日的一等座。 自动播放 不过在我们的测试中,也发现了涉及到账号登录、扫码登录的页面,GLM-PC没办法自主操作,也不会停下来,而是不停地重复该页面。 与Operator一样,GLM-PC也做了敏感性测试,让用户在敏感时刻,比如确认提交信息、确认支付等页面接盘操作。 同时,在GLM-PC操作电脑页面时,会由GLM-PC主导鼠标,人为干预后仍然继续GLM的流程,只能按下暂停键或结束键才能完全交予人类接管。 1 GLM-PC怎么做到的? 在技术路线上,GLM-PC与Operator采用的是同一种技术方案:基于多模态大模型的视觉识别与空间进行交互。 据OpenAI介绍,Operator基于最新研发的Computer-Using Agent (CUA) 模型,通过观察屏幕并使用虚拟鼠标和键盘来完成任务,而无需依赖专门的API接口。 早在2023年12月,智谱便发布了CogAgent,是其第一个基于视觉语言模型(Visual Language Model, VLM)的开源 图形界面智能体 GUI Agent 模型。GLM-PC即是基于该模型的初代产品。据开发文档中介绍,通过多模态感知实现全 GUI 空间交互。这些 GUI Agent,类似人类,能以视觉形式感知界面元素与布局,模拟人类进行点击、键盘输入等元操作,极大拓展了 Agent 在虚拟交互空间的应用边界。 在GLM-PC 1.1版本中,使用更强大的视觉语言模型GLM-4V-9B作为基座模型,用来提升模型的基座图像理解性能。 与Operator相同的是,基于LLM模型提出Prompt,同时输入的模态(图像感知)、输出的操作空间(点击、滚动、键盘输入)的交互方式一致,同时思考了Agent和人类的使用权交接情况,对于敏感时刻的判断等等。 且在介绍中,Operator令Sam Altman颇为骄傲的是它的自我进化和自我反思能力,即Operator可通过不断操作和学习掌握人类的习惯,不断拓宽自身的能力边界。 GLM-PC也基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」,其中包括了一种核心技术WebRL,对于大模型智能体任务规划、训练任务和数据稀缺、反馈信号稀少和多任务策略分布等问题进行了有意识的对抗,加之自适应学习策略,能够在迭代过程中不断改进,持续稳定提高自身性能,并在执行过程中获取更多新技能。 不同的是,目前Operator现阶段仅针对Web端,并且与ChatGPT绑定付费,而GLM-PC是独立的App,可针对电脑进行操作(包括浏览器和电脑本地),同时手机可远程遥控操作电脑,并且完全免费。 从Operator的日志上看,Operator一次仅能执行单步的线性预测,和步骤执行,而GLM-PC具备多层级规划预测能力,并将CogAgent 多模态GUI Agent模型与 CodeGeex代码生成模型相结合,可实现复杂严谨的逻辑控制。 但GLM-PC也对于硬件端的算力储备有一定的限制,仅支持M系列的Mac电脑以及Windows10以上的系统。我们在M1芯片的MacBook Air上进行测试,整个过程中并未出现卡顿情况。 总的来看,GLM-PC更适合国内的互联网环境,移动端和PC端联动也更符合日常的使用习惯。据硅星人了解,GLM-PC也将根据用户的反馈持续迭代交互体验,真正解放了打工人的双手!
免费体验:微软Copilot开放“深度思考”,你的专属AI策略顾问
IT之家 1 月 25 日消息,科技媒体 Windows Latest 昨日(1 月 24 日)发布博文,报道称微软正开始邀请 Copilot 用户,免费体验“深度思考”(Think Deeper),会花费更多时间分析问题,并逐步剖析推理生成更详细、更符合用户需求的答案。 IT之家注:“深度思考”基于 OpenAI 的 o1 模型,此前仅在微软的 Copilot 实验室中提供,为 Copilot Pro 订阅用户专享,可以分析用户的提示词,并详细罗列解答步骤,让推理过程更加清晰。 与 OpenAI 的 o1 类似,“深度思考”无法访问网络实时信息,其知识库目前仅更新至 2023 年 10 月,也不会显示信息来源。 “深度思考”功能目前仅对部分免费 Copilot 用户开放,且存在使用次数限制。免费用户每周大约只能使用三次,而付费用户的限制则取决于同时使用该功能的 Copilot Pro 用户数量,每周大约接近 50 次。 如果同时使用“深度思考”的用户过多时,该功能图标会变为半透明,表明该功能消耗大量资源,这也是微软即使对 Pro 用户也无法提供更多使用次数的原因。 Windows Latest 的测试表明,“深度思考”在处理诸如数学和科学问题、编码挑战、场景规划和创意生成等需要深度推理和分析的任务时表现出色。 例如,在制定健身计划的测试中,“深度思考”不仅能够根据用户的提示提供训练计划,还能根据用户的目标(如肌肉肥大)提供蛋白质摄入量、训练动作细节、营养建议等更全面的指导,而常规 Copilot 则需要多次交互才能达到类似效果。
DeepSeek持续震撼硅谷:创始人采访被“拿放大镜”看
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪—— 刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。 目前结果来看,它在各个维度上都保持领先。 在衡量模型编程开发能力的WebDev分榜上,R1位列第二,与闭源的Claude 3.5 Sonnet相差不到40分。 网友实测体验表示,确实如此,R1在30场battle中只输了4、5次。 另一边,硅谷对DeepSeek的好奇不减。 毕竟,它可是一个“副业”。 创始人梁文峰的中文采访更是被翻译成英文,“拿着放大镜”逐字认真阅读。 他提出的观点也被总结成箴言,在互联网上流传。 真正的差距不是1年或2年,而在于是原创还是模仿。 图灵奖得主LeCun也为DeepSeek做出中肯评价: 它代表了开源的力量。 这意味着,开源模型正在超越专有模型。 值得一提的是,同为开源领域代表的Meta刚刚公布了2025年在AI领域的布局计划:650亿美元,投算力、投人才。 有爆料称,Meta内部已经因为DeepSeek感到恐慌。 “他们让OpenAI一次又一次看清自己” 所以,在硅谷视角里,他们更关心DeepSeek的哪些信息? 最首要的莫过于,DeepSeek如何赚钱。 挖到的信息有点出乎意料,或许DeepSeek还没想赚钱的事。 控股DeepSeek的是幻方量化,他们有一批顶级科学家,有充裕的算力资源,DeepSeek其实是一个“副产物”。 在2023年末我就听说他们在做DeepSeek。即使在当时的中国,还没有人把他们当回事。 其次,为何DeepSeek能成功。梁文峰在2023年5月2024年7月接受暗涌的两次采访,也被老外扒出来了。 他们最关心的五个方面分别是: 1、创新第一性原则:与其他致力于快速商业化的中国AI公司不同,DeepSeek专注于基础的AGI研究和创新。他们认为,中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。梁文峰说,创新不完全是商业驱动的,还需要好奇心和创造欲。 2、革命性架构:DeepSeek V2中采用的新型MLA(多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。 这并不是为了挑起一场价格战——他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于V3和R1模型中。 3、独特的公司文化和人才战略:DeepSeek保持着一个完全自下而上的组织结构,为研究人员提供无线的计算资源,优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才——中国本土的应届毕业生和年轻技术人才,而非海外招聘。 4、致力于开源:尽管行业开始趋向于闭源模型(OpenAI和Mistral),DeepSeek仍致力于开源,并认为开源对于建立一个强大的技术生态系统至关重要。梁文峰认为,在颠覆性技术面前,闭源形成的护城河是短暂的。 他们的真正价值在于建立一个具备创新能力的组织。 5、底层计算挑战:尽管拥有足够的资金和技术,DeepSeek也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文峰认为,面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进AI模型至关重要。 除此之外,采访中的诸多细节也被网友认真品味。 原文中,梁文峰被问道:怎么看待做量化同时做大量基础研发,不烧钱吗? 他回答:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。 海外网友感慨: 这帮人是一群有点理想化的“技术狂”,他们坚信自己能搞出通用人工智能(AGI),而且他们确实有这个资源和天赋。我真是太喜欢他们了! 此外也避免不了一些对比: 梁文峰展现出一种完全不同的心态,他们的成功当之无愧,我也很期待看到他们一次又一次让“OpenAI”认清自己。 当然放眼AI领域的整体发展,能够看到DeepSeek,对于所有人而言或许都是兴奋的。 尽管我忍不住觉得他们有点天真,毕竟在商业化上他们有点“自断后路”。但看到一个团队坚持理想并取得成功,确实让人觉得很欣慰。 随着R1的惊艳亮相,DeepSeek正在兑现自己所说的一切。拓宽技术边界、坚持开源、专注于技术开发…… 那么,DeepSeek是如何走到现在的呢? 用AI做量化,再回到AI 梁文峰本硕均就读于浙江大学信息与电子工程学专业。 2008年,梁文峰毕业,开始带领团队使用机器学习等技术探索全自动量化交易。 当时量化在国内还是个新鲜概念,能否赚钱是个未知数。2010年沪深300股指期货推出,量化投资迎来春天。据公开信息显示,梁文峰团队正是乘上这股东风,很快自营资金超过5亿元。 与此同时,深度学习浪潮的齿轮开始转动,人工智能率先在硅谷爆发。 2015年,梁文峰与校友共同创立幻方量化。仅仅1年后,他们就推出了旗下第一个AI模型,第一份由深度学习生成的交易仓位上线执行,使用GPU进行计算。 2017年,幻方量化宣称实现投资策略全面AI化。 2018年,幻方量化确立AI为公司的主要发展方向。 AI加持下,幻方量化旗下基金回报率远超同期沪深300指数。2019年,资金管理规模突破百亿元。 2019年,梁文锋在当年的金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,这是他少见的公开演讲。 演讲全文的确充满“程序员视角”: 量化公司是没有基金经理的,基金经理就是一堆服务器。人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。 也是这一年,幻方量化开始大规模布局AI算力,搭建起“萤火一号”集群。2021年,“萤火二号”落成。这样的算力基建,成为如今DeepSeek快速奔跑的底层支撑。 2021年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一。 值得一提的是,在幻方量化的官网上,AI基础科学研究始终占据重要位置,包括在大模型浪潮前。 幻方量化曾表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。 我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。 2023年,幻方量化将下场做大模型的独立新组织命名为深度求索,并强调将专注于做真正人类级别的人工智能。 目标不是复刻ChatGPT,而是研究和揭秘AGI的更多未知信息。 DeepSeek的故事也就开始于这一刻。 一个80后程序员在搅动中国量化市场后,完成资金积累,组建起年轻蓬勃的团队,似乎又回到了他原本的起点、回到AI,但产生的能量正在全球掀起骇浪。 One More Thing 值得一提的是,幻方量化还长期向慈善机构捐赠,官网披露公司员工“一只平凡的小猪”个人捐助 1.38 亿元,支持 15 家慈善机构的 23 个公益项目,在全国范围内帮助弱势群体,促进社会的公平和发展。 爆料消息称,这个员工就是梁文峰本人。 参考链接: [1]https://www.reddit.com/r/LocalLLaMA/comments/1i6dlvj/inside_deepseeks_bold_mission_ceo_liang_wenfeng/ [2]https://www.threads.net/@yannlecun/post/DFNvN3euNEV?xmt=AQGzPcW8Rr7oXT6-rHIoKzBNL5x2PNnaprvJBL6uIhgoQA [3]https://finance.eastmoney.com/a/202501223304127161.html [4]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg — 完 —
微软等开源AIOpsLab,可构建自主云AI Agent
微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。 同时支持人类、数字和AI Agents的不同类型的协作模式,并通过模块化设计易于扩展新应用程序、工作负载和故障场景。 开源地址:https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file AIOpsLab的架构一共包含五个关键部分,协调器、服务、工作负载生成器、故障生成器以及可观测性。 协调器的主要任务是与智能体建立会话,共享有关基准测试问题的信息,包括问题描述、响应格式指南以及智能体可以调用的API。这些API是一组文档化的工具,例如获取日志、获取指标和执行shell命令,它们被设计来帮助智能体解决任务。 协调器对智能体的实现没有任何限制,提出问题并轮询智能体以获取基于先前结果要执行的下一个动作。每个动作都必须是有效的API调用,协调器会验证并执行这些调用。 此外,协调器拥有对部署的特权访问权,可以代表智能体采取任意行动,例如扩展、重新部署等,以解决智能体面临的问题。最后,协调器还负责调用工作负载和故障生成器,以创建服务中断,这些中断作为实时基准测试问题,为智能体提供了实际操作的环境。 服务模块可以帮助AIOpsLab适应不同的真实云服务环境,包括微服务、无服务器和单体服务等。AIOpsLab还利用开源应用套件DeathStarBench提供了源代码、提交历史和运行时遥测,使得研究人员能够在一个受控的环境中复现和研究生产事件。通过添加Blueprint这样的工具,AIOpsLab可以扩展到其他学术和生产服务,并无缝部署这些服务的新变体。 工作负载生成器在AIOpsLab中扮演着重要角色,主要负责创建正常和故障场景的模拟,以测试代理在不同条件下的性能。工作负载生成器根据协调器的规范接收任务,例如任务、期望效果、规模和持续时间,并利用基于真实生产痕迹训练的模型生成符合这些规范的工作负载。 在故障场景中,工作负载生成器可以模拟资源耗尽、利用边缘情况或触发级联故障等条件,这些都是受到真实事件启发的。正常场景则模仿典型的生产模式,例如,日常活动周期和多用户交互。 当不同的特征例如,服务调用、用户分布、到达时间可能导致期望效果时,多个工作负载可以存储在问题缓存中供协调器使用。 故障生成器是AIOpsLab的一个创新功能,主要用于跨各种通用云场景。包括细粒度的故障注入,能够模拟由生产事件启发的复杂故障全流程展示。故障注入器还可以在不同系统级别注入故障,暴露根本原因,同时保持语义完整性,并考虑云微服务之间的相互依赖性,使用户能够对AIOps能力进行全面的测试和评估。 可观测性则可以提升AIOpsLab的全面监控能力,包括Jaeger的追踪、Filebeat和Logstash格式化记录的应用日志,以及Prometheus监控的系统指标。AIOpsLab还捕获了较低级别的系统信息,如系统调用日志和集群信息。为了处理潜在的数据过载问题,AIOpsLab通过API允许用户选择他们需要的特定信息,确保量身定制和全面的可观测性。
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
编辑:KingHZ 【新智元导读】AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。 捍卫「人类智慧」最后一战! 刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。 具体结果如下: Scale AI和CAIS同时公布了相关论文、数据集和测试代码。 项目链接:https://lastexam.ai/ 网友对这项工作也不吝赞赏: 「人类最后一次考试」 为了评估AI的能力的进展,已发布了多个数据集,针对语言模型,根据「Paper with code」网站统计,就有165个相关数据集。 然而,目前的基准测试难度并未跟上进步的步伐:LLM在一些热门基准测试(如MMLU)上已能达到90%以上的准确率,这限制了对最新LLM能力的有效评估。 甚至有基准被爆出,可能存在给某些模型「漏题」的问题。 为此,Scale AI和CAIS推出了名为「人类最后的考试」(Humanity's Last Exam)的多模态基准测试,旨在成为这类封闭式学术基准测试的最终版本,覆盖广泛的学科领域。 测评一览 「人类最后一次考试」(HLE)包含两种问题格式: 精确匹配题(Exact-Match Questions):模型需要输出一个完全匹配的字符串作为答案。 选择题(Multiple-Choice Questions):模型需要从五个或更多选项中选择一个正确答案。 此外,HLE是一个多模态基准测试,其中10%的问题要求理解文本和图像参考,80%的问题为精确匹配题,其余为选择题。 该数据集包含3000道难度较高的问题,涉及100多个学科。 各学科分类,大体如下: 图3:HLE高级类别分组。 大部分问题已公开发布,同时保留了一部分私有测试集,用于评估模型是否存在过拟合现象。 在项目网站上,公布了不同领域/科目的8个样题,包含化学、物理、数学、计算机科学、语言学等。 比如,其中的一道常识性问题: 希腊神话中,伊阿宋的曾祖父是谁? 具体样题,参考下列图片。 创建流程 为了吸引高质量的问题提交,HLE设立了总额50万美元的奖金池,并提供以下奖励: 顶级问题奖励:每道排名前50的问题将获得5,000美元奖金。 优质问题奖励:接下来的500道问题,每道将获得500美元奖金。 此外,任何被HLE接受的问题提交者,都有机会成为相关论文的共同作者,激励了众多高水平的专家参与,特别是那些拥有高级学位或在相关技术领域拥有丰富经验的专业人士。 总体而言,总收集了超过70,000个试验性问题,其中13,000个问题被选出来供人类专家评审,进而最终确定在公开考试中发布的3,000个问题。 近1000名专家成功提交了问题。 他们来自50个国家的500多个机构,其中大多数贡献者是活跃的研究员或教授。 问题涵盖了多种格式,包括纯文本和多模态难题,整合了图像和图表。 为了确保问题的高质量和难度,HLE的数据集通过以下流程创建: 问题筛选:首先接收问题提交,这些问题专门前沿的LLM设计,LLM通常难以正确回答。 迭代优化:在专家同行评审的帮助下,反复修改和优化提交的问题,提升问题的复杂性和准确性。 手动审核:由组织者或由组织者培训的专家,手动审核每道问题,确保问题符合测试要求。 保留私有数据集:除了公开数据集,还保留了一部分私有测试集,用于评估模型在公开基准测试上的过拟合和可能的作弊行为。 HLE的数据集创建流程 具体结果 研究者共测评了7个模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。 表1显示,所有前沿模型在HLE中的准确率都很低,所有模型的校准表现都很差,反映在较高的RMS校准误差分数中。 表1:不同模型在HLE上的准确率和RMS校准误差。 具有推理能力的模型,通常需要显著更多的推理时间和计算资源。 为了更清晰地了解这一点,对各模型生成的补全(completion)token数量进行了分析。 正如图5所示,推理模型Gemini 2.0 Flash Thinking、o1和DeepSeek-R1为了提升性能,需要生成的token数量远远超过非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(见图5)。 图5:不同模型的平均补全(completion)token数量 展望未来 在「人类最后一次考试」(Humanity's Last Exam,简称 HLE)中,目前的LLM表现仍然非常差。 但从发展历史来看,基准测试的饱和速度非常快——模型往往在短短的时间内,从接近0的准确率跃升至接近100%的表现。 鉴于AI发展的快速步伐,在2025年底前,模型有可能在HLE上超过50%的准确率。 AI实验室有新榜单可刷了,跃跃欲试 如果模型在HLE中获得高分,将表明模型在封闭式、可验证的问题以及前沿科学知识方面的专家级表现,但这并不意味着模型具备自主研究能力或「通用人工智能」(AGI)。 HLE测试的是结构化的学术问题,而非开放式研究或创造性问题解决能力,因此它更侧重于技术知识和推理能力的衡量。 作者在论文表示:「虽然HLE是给予模型的最后一场学术考试,但它远非AI评估的最后一个基准。」 参考资料: https://x.com/DanHendrycks/status/1882433928407241155 https://x.com/alexandr_wang/status/1882481229708358027 https://scale.com/blog/humanitys-last-exam-results https://lastexam.ai/ https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanity's%20Last%20Exam.pdf
AI霸屏的第二年,硅谷大佬们都Pick哪些AI产品?
全网最“主观”的 AI 产品榜单。 出品 | 白鲸出海编辑部 作者 | 张凯然 编辑 | 殷观晓 前些日子,全球顶级 VC a16z 发布了一份相当有趣的 AI 产品榜单,本次榜单并不是按照网站流量或收入等硬性指标来收录产品的,而是邀请了 24 位 AI 行业的从业者,每人选择本年度自己最喜欢的 3 款 AI 产品,并给出了评价。 这 24 位“大佬”中,投资人代表有 a16z 联合创始人 Marc Andreessen、Y Combinator 现任 CEO 陈嘉瑞(Garry Tan)等;从业者代表有 Perplexity CEO Aravind Srinivas、Meta 产品设计总监 Danny Trinh、Adobe 首席战略官 Scott Belsky 等,除此之外,社媒上相当活跃的 a16z 合伙人们,比如 Olivia Moore、Justin Moore 等也参与其中。 虽然,部分评委会出现给自家产品 “投亲情票”的情况存在,入选的产品也会偏向各赛道中的生产力工具。但就笔者自己的观感而言,这次评选还是有些客观、理性在的。 Perplexity“Pick 率”超25%, 一、“AI 工具”是最受欢迎的产品类型 这些“大佬”们的投票,一共提及了 45 款产品(如上图),从这些产品中我们可以看到一些总体的总体趋势: 1、AI 搜索产品 Perplexity 是被提及最多的产品,24 人中有 6 人选择了这款产品,Pick 比例为 25%。2024 年初 Perplexity 的访问量只有千万左右,但是到 11 月访问量就超过了 1 亿(12 月略有下降,为 9000 万左右)。去年 12 月,Perplexity 引入了广告作为新的商业化路径,其 CEO 表示,截止 2025 年底,将把商业化收入提升至 1.27 亿美元,毛利率从 30% 提升到 75%。Perplexity 已经在 2024 年内完成多轮融资,估值飙升至 90 亿美元。Perplexity 作为今年讨论度非常高的 AI 产品,被选择最多也实至名归。 2、被选择次数超过 2 次的产品有 ElevenLabs(音频生成,5 次),Suno(音乐生成,4 次)、Claude(ChatBot,3 次),这三款产品的访问量都是全球 Web 端 AI 产品 Top50 的水平。 3、令人颇为惊讶的是,作为 AI 产品“扛把子”的 ChatGPT,仅被 a16z 合伙人 Justin Moore 提及 1 次。笔者认为,出现这个情况的原因,一方面是大家对 ChatGPT 有些“审美疲劳”,另一方面,2024 年内 ChatGPT 推出 AI 搜索功能和 o1 推理模型等新动作,也并不是那么的令人惊艳。 除了这些总体观察外,笔者将所有“大佬”提到的 45 款产品进行了分类,从分类中我们也能看出一些趋势: “AI 工具”主要指的是针对工作或生活中的某一个场景而推出的综合工具,比如写作工具、会议纪要工具、演示工具等等。 1、AI 工具是所有产品类型中产品数量最多的,一共 10 款,占比为 22%。针对工作/生活各个场景的提效产品,也是一个持续的热点,毕竟提升大模型能力固然重要,但如果找不到应用场景,也只能是空中楼阁。 2、产品数量排名第二的是 AI 视频,一共 8 款,占比 18%。作为起步较晚的一个模态,今年迎来了爆发式的增长,不仅市面上出现了多个“图/文生成视频”产品,Talking Video、长剪短工具等产品类型,都涌现出了不少明星产品。 3、虽然 Perplexity 被 Pick 的次数是最多的,但它所在的 AI 搜索赛道却相当的惨,除 Perplexity 外的其他产品,无一上榜。 4、其他占比超过 10% 的产品类型有 AI ChatBot/Agent 和 AI 图像,也是之前就很热门的 AI 赛道。但是我们还能看到,像 AI 编程,AI 心理/医疗/育儿等垂类行业/场景,也涌现出不少产品,开始被从业者们所关注。 5、除了 AI 软件之外,Meta 和雷朋合作推出的智能眼镜、AI 陪伴产品 Curio、智能驾驶网约车Waymo 等 AI“硬件”,亦进入了从业者们的视野。 本次选题,我们仍将聚焦 AI 工具、AI ChatBot/Agent、AI 图像、AI 视频,四个最主要的 AI 产品类型,并聚焦那些能够被 Pick,但并不那么知名的产品,跟随从业者的“主观视角”,观察那些具有潜力的产品们。而像 AI 硬件、AI 心理/医疗/育儿等新晋产品类型,我们将在以后单独推出选题进行观察,这里就不过多赘述了。 二、AI 工具:落地场景越来越丰富, 被提及的大多在起步初期 AI 工具这个分类主要指的是针对工作或生活中的某一个场景而推出的综合工具,比如写作工具、会议纪要工具、AI 演示工具等等 在 AI 工具分类的这些产品中,被 cue 到的唯一名气较大的产品就是 Gamma,从流量数据来看,11 月份 Gamma 的流量达到巅峰,但 12 月份有所下降。我们曾经在 AI+PPT 的选题中观察过 Gamma,感兴趣的读者可以移步阅读《AI+?,吸量又赚钱》。 Gamma 2024.5-2024.12 流量数据|图片来源:AI Pure 今年另一个被讨论次数很多的 AI 工具是 Google 推出的 NoteBookLM。 NotebookLM 界面 2024 年 5 月,Google 正式推出搭载 Gemini 大模型的 AI 笔记产品 NoteBookLM。它可以基于用户上传的文档、视频、音频等信息,由AI完成回答问题、生成摘要、提取关键词等任务,尤其是基于上传信息生成播客(支持双人对话)的功能广受好评。 NoteBookLM 6-12 月流量数据|图片来源:AI Pure NoteBookLM 在 9-10 月这个区间有一波流量的快速增长,截止 12 月份,其流量已经触及千万大关。 而 Adobe Acrobat AI Assistant 只被 Adobe 首席战略官提及一次,有亲情票的嫌疑,作为全球 PDF 阅读器市场占有率超 50% 的产品,加入 AI 功能也是顺理成章。 下面我们把注意力放到那些被大佬们推荐,但却没那么知名的产品上…… Granola 使用场景:线上会议 主要功能:Granola 是一款 AI 会议纪要工具,当用户进行线上会议时,它可以进行会议的逐字记录,也可以基于会议内容生成简短的会议纪要,并且将常用的会议纪要模版保存下来,以备后续使用。 Ben’s Bites 创始人 Ben Tossell评价: 最适合会议的笔记应用。我几乎试过所有其他的工具,而我喜欢它的原因是:它不会影响会议本身造成尴尬,而且产品设计非常精美,在我使用过的工具中,它提供了最好的转录和摘要功能。 Lindy 使用场景:电子邮件管理、线上会议、线上营销、线上客服、内容创作等 主要功能:Lindy 是一款面向工作场景的 AI 效率工具,提供多样化的功能,Lindy 的主要区别在于为用户提供了流程编辑器,编辑自己的工作流,并让 AI 完成相关任务,简化工作量。目前 Lindy 提供 100 多个工作流模板,主要针对会议、营销、内容创作等场景。 The Rundown AI 创始人兼 CEO Rowan Cheung 评价: 这个工具可以帮助销售团队完成最繁琐、最耗时的任务,让团队能够专注于真正重要的事情,比如策划有影响力的活动、与客户交流等。 Flow 使用场景:文字录入 主要功能:Flow 是一款 AI 听写工具,目前仅支持 MacOS 系统,用户可以在任何需要文字输入的场景中使用 Flow 进行语音输入,转录成文字。目前 Flow 支持 100 种语言,其官网显示,这款工具可以将文字输入的速度提升三倍。 Ben’s Bites 创始人 Ben Tossell 评价:我每天都在使用这个转录应用。只需设置一个键,并开始说话,应用会将语音转录并格式化为文字(包括生成总结要点、引用内容,或者在你重复自己时进行小幅修正),并自动粘贴到应用中。 ElevenLabs 设计主管 Ammaar Reshi 评价: 这个语音转录功能非常棒,我只需要对着我的 Mac 说话。它会自动去掉所有“呃”或“嗯”这样的语气词,甚至在识别到我在列举清单时,会自动格式化为项目符号。 Cora 使用场景:邮件管理 主要功能:根据官网上的介绍,Cora 会每天两次为用户提供简洁的邮件摘要,用户可以迅速找到需要回复的重要邮件,并将相关邮件用故事线的形式进行归类,除此之外,Cora 还提供智能回复、垃圾邮件过滤等功能。目前 Cora 正在逐步开放注册,用户需要先加入 Wishlist 以获取使用权限。 Ben’s Bites 创始人 Ben Tossell 评价: 这是 Every 开发的一款尚未发布的工具。它能处理大量邮件,每天还会给我发送报告,它已经处理了我 90% 以上的邮件。它可以根据不同类型的邮件设置规则,自动归档邮件,并在需要时草拟回复。 Spiral 使用场景:写作 主要功能:Spiral 是一款针对重复性写作的AI工具,在使用时,用户需要提供一段内容,AI 可以将内容改写成特定风格、结构、语气的内容,比如用户提供播客大纲,让 Spiral 来撰写文字摘要或相关社媒推广内容。Spiral 的目标人群是内容创作者、营销人员等需要大量处理文字内容的用户。 值得一提的是,Spiral与上面提到的Cora都来自于一家位于纽约的初创公司Every。 新闻通讯作者兼播客主持人 Lenny Rachitsky 评价: 我们在播客工作流程中使用这个工具来生成可能的标题、缩略图创意以及关键内容总结。它经过训练,能够符合我们的风格,并参考以往最成功的节目。 Particle. News 使用场景:新闻浏览 主要功能:Particle.news 是一款AI新闻阅读应用,开发者是前 Twitter 工程师。Particle 会按照每日的重大新闻事件,将各个新闻媒体的报道整合起来,并给出摘要和相关出处,尽量为用户提供全面的视角,此外,App 端的 Particle 还提供 AI 问答、媒体政治倾向标注、语音朗读等更多功能。 目前,Particle 已经与路透社、法新社、财富杂志等新闻媒体机构达成合作,也完成了总计 1530 万美元的两轮融资。目前 Particle 已经在网页端和美国市场 iOS 和 iPadOS 平台上线,但近 30 天下载量仅为 2257。 Adobe 首席战略官 Scott Belsky 评价: 这是我每天使用的新闻应用,它会综合各个来源的视角,然后以一种越来越符合我偏好的方式,推送最客观的摘要内容。 Cubby 使用场景:研究、信息整理 主要功能:用户可以在 Cubby 中储存和管理文章、PDF、YouTube 视频、播客、推文、演示文稿和电子书等多种内容类型,产品提供标记评论、AI 摘要/问答、相关内容智能推荐等功能,此外,Cubby 还提供浏览器插件和团队协作相关功能。 a16z 合伙人 Zach Cohen 评价:拥有一个专为研究设计的集中式工作空间是一种神奇的体验。它可以切换不同的模式,在多个网站间进行搜索,还支持内嵌式的 AI 功能。此外,“生成推文串”的功能简直是为风投人士量身定制的。 三、AI ChatBot/Agent:大厂的主战场, 唯一例外是“真人版”C.AI AI ChatBot/Agent 的产品并不太令人意外,ChatGPT、来自 Anthropic 的 Claude、Meta AI、以及马斯克旗下 X.ai 的 Grok,基本上都是各个大公司布局的产品。 12 月 ChatBot 流量榜单 Top3|图片来源:AI产品榜 而全球 ChatBot 流量榜排名第二的 Google Gemini 却没有被任何人提及,虽然自身没被提及,但搭载了 Gemini 的 NotebookLM 却上榜了(上文已介绍过)。除了 NoteBookLM 之外,Gemini 还被整合到了 Workspace、YouTube、Gmail、广告等等 Google 旗下的产品和服务中。虽然对这些“整合”的评价褒贬不一,但 Google 依托自身生态体系来做 AI 应用的策略是比较明确的。 Delphi 官网主页|图片来源:Delphi 而另一个上榜的 ChatBot/Agent 产品是 Delphi,它给自己的定义是一个“数字克隆工具”,用户可以上传与自己或其他人相关的信息(包括社媒内容、文章、演讲等),Delphi 会基于这些内容创建一个包含思想、声音等元素的“Agent”,可以用其代替真人来聊天,或回复邮件等。这个模式有点类似于 c.ai 制作角色,只是 Delphi 面向的对象是真实的人。 四、AI图像:上榜产品们“各显神通” 注:目前一些生图产品中会包含生视频功能,但如果该产品以生图功能为主,就会被划归生图类别,而例如可灵、Runway 等以视频为主,兼有生图功能的产品,则会在下文中进行介绍。 在 AI 图像产品中,“老大哥”Midjourney、广受好评的 ideogram、以及商品图制作赛道的绝对霸主 Photoroom,被 Pick 的原因主要是名气和口碑。从流量数据来看,近半年,这三款产品基本稳定,并没有明显增长或断崖式下跌。 而另外三款产品被 Pick 的原因则是“特色功能”。 Playground创作界面 我们曾在今年国庆期间推出的选题《刚好一周年,登上第一期 a16z 榜单的生图产品们都怎样了?》选题中观察过 Playground,它从之前的传统文生图,变成了“改图”的模式,用户可以输入Prompt 让 AI 对图片进行修改,减少由于模型不稳定带来的“抽卡”问题,也能比直接生成更符合用户需求。但我们也观察到它并没有针对特定的场景做设计优化,访问量也从 400w 左右掉到了 200w 左右。 Krea 创作界面 Krea 最有特色的功能是“实时生图”,如上图所示,用户在输入 Prompt 之后,还能通过在左侧图片上增加不同颜色和形状的图形,来更稳定地控制生成图片中各个物体的颜色,位置,相对关系等等,给生图增加更多的确定性。除此之外,Krea 还有文生图、物体与背景相融合、文生视频等其他功能。 Krea 2D 转 3D 的新功能|图片来源:Krea 1 月 17 日,Krea 又在实时生图板块中推出了 2D 图像转 3D 图像的功能,但不知道是否因为仍处在测试阶段,笔者目前无法使用这个新功能。 Remix 落地页面(左 1),创作页面(左 2), 发现页面(左 3),聊天页面(左 4) Remix 与其他产品都不同,它的主阵地不在 Web 端而在 App 端,在基础的图文生图像/视频和图片风格化等基础功能外,Remix 拥有比较完善的社区功能,包括可以上下划动的内容分享页面,完善的作品排名和搜索功能,以及聊天/群组等功能。在 web 端做生图社区的很多,但是在 App 端,还以 TikTok 滑动卡片做信息流的,Remix 应该是独一份。 五、AI 视频:文生视频仍赔本, Talking Video、长剪短能赚钱 从这些被 Pick 的 AI 视频产品中,目前主流的落地产品类型有三个,文生视频、Talking Video 和长视频剪短视频。 文生视频是今年最热的一个 AI 赛道,尤其是出海企业和华人创企,异常活跃。7 月份 Kling 推出时,就在海内外引起大规模的讨论,网站访问量一个月就从 200 万增长到了 1500 万,时至今日,可灵的流量虽有所下降,但 Minmax 的 HailuoAI、生数的 Vidu、华人创企的 Haiper 等产品,都进入了视频生成产品 Top10,拿下了不错的成绩。 但是虽然 AI 视频生成可能是通向 AGI 的路径之一,但作为一款产品来说,还处于很早期的阶段。快手虽然靠可灵狠狠赚了一波流量,但它的 ROI 却不太能打得正,11 月快手表示可灵的月流水达千万人民币(136 万美金)级别,但知情人士透露,仅在 6 月到 9 月其海外投放费用就达到 33 万美金,而可灵的模型训练费用和日常推理成本(应该是截至 11 月份数据),更是达到了上亿美金的级别,相比成本,收入微不足道。而其他的文生视频产品也大抵如此,仍处于赔本赚吆喝的阶段。 而要说赚钱,长剪短和 Talking Video 是更加务实的选择,就拿以面向 Talking Video 场景的 Captions 为例,2024 年 12 月,它的全球双端月流水达到 100 万美元,再加上 Web 端数据向好,收入还是很可观的。而流量更好的 HeyGen 商业化成绩更是不错,今年 6 月创始人徐卓透露,HeyGen 的 ARR 已达到 3500 万美元,付费用户超 4 万。凭借着良好的商业化成绩,HeyGen 也受到了资本的偏爱,总融资额达 6500 万美元,估值 5 亿美元。而同样来自华人创始人的长视频剪短视频产品 OpusClip 的 ARR 也达到了千万美元。 展望 2025 年,视频赛道的最大变量可能就是 TikTok 的禁令了,这项禁令会如何影响 AI 视频赛道,我们还会持续关注。 参考信息:https://a16z.com/apps-unwrapped/

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。