奥特曼公开承认“搞砸了”,AI巨头为何突然“纠偏”?_OpenAI_模型_能力
1月27日,OpenAI首席执行官萨姆·奥特曼在一场公开直播中罕见承认:公司在开发ChatGPT-5时“确实搞砸了”,出现了路线偏差。他坦言,团队过度聚焦于提升模型的智力、推理和编程能力,导致模型在写作等通用能力上“偏科”,某些表现甚至不如前代。奥特曼承诺将重新校准方向,回归打造“真正高质量的通用型模型”的初心。
这一罕见的公开“认错”,迅速在科技界引发震动。
反思背后,是GPT-5发布后积累的用户反馈与内部审视。从GPT-3到GPT-5,行业曾深信“规模决定一切”,GPT-4的巨大成功更强化了这一路径。然而,激烈的市场竞争——尤其是与谷歌、Anthropic等在编程、推理等硬核能力上的竞赛——驱使***向能直观体现“智能”飞跃的领域倾斜。同时,主流学术基准测试侧重于数学、代码等可量化领域,无形中成了研发的“指挥棒”。即便GPT-5引入了“自动切换器”机制以优化算力,其根本目标仍是更高效地服务深度推理任务。
副作用在用户端逐渐显现。2025年GPT-5发布后,大量用户反馈其写作能力“退化”:文章逻辑清晰却用词模式化,缺乏文***与自然感,“AI味”浓重。一些基础性问题,如简单拼写和计数,反而会出错。尽管奥特曼曾将部分问题归咎于技术故障,但持续的批评促使了更深层检讨。
一个在创意写作、细腻表达上不稳的模型,与大众对“像人一样交流”的AI助手的期待产生了落差。这对OpenAI打造普及化超级应用的品牌形象构成了挑战。更深层看,在竞争对手持续发力、全球监管日益关注的背景下,此次“纠偏”也是一次战略校准。通过公开承认“偏科”,OpenAI意在重新夺回对“通用人工智能”定义的话语权,强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。
奥特曼的声明,涟漪将波及多个层面。
对OpenAI自身,这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效“补短板”,提升创造性写作、情感理解等能力,是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡“专精”与“通用”,将成为未来几年的核心课题。
对AI行业,OpenAI的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续,或会减缓特定赛道的“军备竞赛”,激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现,可能成为新焦点。这也给在“通用性”或“人性化交互”上有特色的竞争对手更多市场叙事空间。
对公众与学界的AGI讨论,此次***提供了鲜活案例。它尖锐地提问:何为真正的AGI?是能在特定测试中拿高分,还是具备可灵活迁移的综合智能?奥特曼在直播中描绘了他心目中的AGI里程碑:当模型第一次面对完全陌生的新环境或工具时,只需解释一次甚至无需解释,就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分,更强调自主学习和适应未知的泛化能力。
技术层面,在现有千亿甚至万亿参数规模的模型上“补短板”,其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计,并可能需要发展新的训练算法,使模型在不损害已有强项的前提下,高效学习新能力。
其次,评估体系亟待变革。现有主流基准测试已不足以衡量模型的“通用性”。行业可能需要发展新型的、更全面的评估标准,例如动态交互测试、开放式创意任务评估等,以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的“Tong Test”框架,强调通过动态的物理和社会交互来评估AGI,正是这一方向上的探索。
OpenAI的“纠偏”,像是技术发展“钟摆效应”的体现。在专注与泛化、性能与安全之间,行业轨迹往往不是直线前进,而是在探索极端后回调寻找新的平衡。
来源:布谷财经返回搜狐,查看更多
同类文章排行
- Rust开发Web后端效率如何?
- 你的低成本爱好是什么?
- 多益网络输了餐费官司,准备近几年搬离广州,你怎么看?
- 如何实现USB2.0比USB3.0更快?
- 利智当年有多被排挤?
- 为什么有的人喜欢带着 MacBook 去咖啡店或者书店上网,而不是 ThinkPad 之类的?
- 大家如何看待有穆斯林患者要求输穆斯林同胞的血液,即输“清真血”这个事?
- 本人女20,平胸跟男生一样怎么办 ?
- 为什么苹果从来不宣传内存?
- 都是研制核武器,美国为何只敢动伊朗,对朝鲜却畏首畏尾?
最新资讯文章
- 为什么iPhone还不支持地震预警?
- 如何判断一个游戏是用手柄玩更好还是用键鼠玩更好?
- 伊朗真这么一直怂下去吗?
- 小米 YU7的3分钟20万辆订单是真的吗?
- 如何评价电影《碟中谍8:最后清算》?
- 你无意间做过哪些好事?
- 合租这样做,我很过分吗?
- 特斯拉Model Y如何应对小米 YU7的冲击?
- 为什么部分人瞧不起深圳?
- 有哪些BI工具惊艳了你?
- 上吊后不想死了,能不能手抓吊绳自救呢?就像做引体向上那样?
- 雷军,是真的如表现的那么真诚吗?
- 网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)?
- Golang 的 Web 框架该怎么选择?Web 开发又该怎样学?
- 如何写出军工级的代码?
- 为什么公务员晋升要卡年龄?
- 做客孩子临走时带走几只玩具,我的孩子抗拒并一直哭,要怎么开导?
- 为什么开了这么多会,却依然提升不了员工的***?
- 为什么说 Node.js 有望超越J***a?
- 你最想吐槽什么车上的什么设计?





