OpenAI甩出GPT-5.5 Instant!幻觉暴降52%,话少三成,全员免费_用户_模型_个性化
智东西
作者 | 王涵
编辑 | 冰倩
智东西5月6日报道,今天,OpenAI正式推出GPT‑5.5 Instant版,将从今天开始向所有ChatGPT用户逐步推出,取代GPT‑5.3 Instant成为默认模型。
此次更新主要体现在日常交互上,GPT‑5.5 Instant的对话语气更加自然,回答准确率更高且更紧凑,并且当用户使用个性化功能时,模型还能够调取过往的对话记录,补充背景信息。
Sam Altman第一时间转发官宣推文“强推”这一模型,并称:“速度、智能、个性,再加上强大的记忆与个性化能力,这几方面的改进组合在一起,当它们同时发挥作用时,给人的感觉已经远不止是各部分简单的相加,而是一种整体大于部分之和的体验。”
在内部评估中,在医学、法律和金融等领域,GPT‑5.5 Instant的幻觉率比GPT‑5.3 Instant减少了52.5%。
基准测试方面,在衡量科学图表推理准确度的CharXiv-reasoning中,GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模态专家推理测试MMMU-Pro中,GPT-5.5 Instant的准确率提升了6.8%。
在文档解析任务中,GPT-5.5 Instant的错误率降低了2.1%,相对降幅约14.4%。在博士级科学问答测试中,GPT-5.5 Instant的准确率提升了7.1%。在数学竞赛AIME 2025中,其准确率涨了15.8%。
在API中,GPT‑5.5 Instant的名称为“chat‑latest”。对于付费用户,GPT‑5.3 Instant在退役前还将保留三个月,可通过模型配置设置进行访问。
基于过往对话、上传文件及已连接Gmail的增强个性化功能,正在向网页端的Plus和Pro用户推出,即将登陆移动端,并***在未来几周内扩展至Free、Go、Business和Enterprise用户。
记忆来源功能正在向网页端所有ChatGPT个人版套餐用户推出,并将很快登陆移动端。特定个性化来源的可用性可能因地区而异。
在OpenAI官宣推文下方有,网友注意到了该模型的AIME成绩的提升,认为“这表面上是产品更新,实则是纯粹的推理能力升级,绝不仅仅是聊天的微调。这是一种“偷偷”发布思考模型的方式。”
还有网友发现:“‘更温暖、更简洁’这两点恰恰是用户真正抱怨过的地方。有意思的是,今年最大的一次模型升级,本质上却更像是一次‘性格补丁’。”
但也有不少网友对这次升级并不买账,他们想要的是更实用的功能更新。甚至还有网友在怀念GPT-4o。
一、图像解析能力提高,虚***信息减少52.5%
在内部评估中,对于涵盖医学、法律和金融等领域的高风险提示,GPT‑5.5 Instant生成的虚***信息比GPT‑5.3 Instant减少了52.5%。在用户曾标记存在事实错误的特别具有挑战性的对话中,它也减少了37.3%的不准确说法。
GPT-5.5 Instant提升了图像解析、STEM学科(科学、技术、工程和数学)问答水平,还可智能判断是否调用网络搜索,从而给出更优质的回复。
从案例中可以看出,GPT‑5.5 Instant一开始认可了错误的解法,但随后发现将x=3代回原方程时不成立。它识别出了实际的代数错误(用户移项有误),然后使用求根公式得出了正确的解。
而GPT‑5.3 Instant虽然也发现了x=3不成立,但就此止步,错误地得出没有实数解的结论,而不是重新检查代数步骤并求解修正后的二次方程。
二、回答更紧凑,字数减少30.2%
此外,GPT‑5.5 Instant的回答更加紧凑、切中要点,同时在保持温暖感和个性化。
该模型能够在传达相同信息且更具实用性的同时,减少冗长和过度格式化导致的回答过长问题。其还会减少不必要的追问,并避免如随意添加表情符号等让回答显得杂乱。
GPT‑5.5 Instant使用的字数减少了30.2%,行数减少了29.2%。其回答语气把握得当:非正式、实用且适合工作场合,同时避免了过度解释。该模型针对不同情况提供了可实际使用的脚本,始终围绕“界限”来阐述问题。
GPT‑5.3的回答则更完整,尤其是“不要做什么”的部分,但对于一个非正式的日常建议类提示来说,略显过于复杂,其结构和推敲程度可能超出了用户的实际需求。
三、自动检索历史对话,记忆来源功能全系上线
GPT‑5.5 Instant还能利用过往聊天记录、上传的文件以及Gmail中的上下文信息,从而使回答更具个性化。
该模型可智能判断何时融入个性化元素以优化回复,同时其检索历史对话、匹配上下文的速度大幅提升,无需用户反复重复表述。
可以看到,GPT‑5.5 Instant的回答能够更好地引用过往对话和相关的已连接数据,从而提供更细致、高度个性化的建议。而GPT‑5.3 Instant的回答虽然考虑到了用户位于旧金山这一因素,但对于推荐尝试的地方,给出的建议仍较为笼统。
ChatGPT全系模型现已上线记忆来源功能。用户可查看个性化回答所引用的上下文依据,并获得自主管控权限。
当模型生成个性化回复时,用户能够追溯答案所依托的具体上下文,包括已保存记忆及历史对话记录;对于过时、失效或无关的信息,可随时进行删除与更正。
此外,用户分享对话内容时,记忆来源信息不会对外展示。同时该功能支持多种隐私管控方式:可单独删除不愿被引用的历史对话,在设置界面编辑或清空已保存记忆,也可使用临时对话模式,全程不调用、不更新个人记忆。
结语:交互质量与用户可控性提升
在基础能力趋于收敛的背景下,“怎么让模型回答地更让用户舒服?”成为大模型厂商思考的问题。
GPT‑5.5 Instant的更新给出了OpenAI的答案::其一,其减少了在专业知识问答方面的幻觉率;其二,回答的简洁度与语气调控被纳入优化目标;其三,记忆来源功能建立信任基础。
客观而言,这类“体验型更新”难以通过传统基准测试完全量化其价值,其真实效果还将取决于用户在长期使用中的主观感受。返回搜狐,查看更多
同类文章排行
- 为什么有关部门要在已有中国移动、中国电信、中国联通三家充分竞争的运营商的情况下再设立中国广电?
- 奥迪暂停全面电动化***,不再设定停售燃油车时间表,此前沃尔沃、奔驰也调整全面电动化***,如何解读?
- 匿名关了,大家实名说说你最近的烦恼?
- 求推荐一款中小企业使用的进销存软件(零售批发类,要有记录序列号功能)?
- 为什么我看了凡人修仙传后再看其它修仙***都感觉看不下去?
- 以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的?
- 美国真会下场对伊朗开战吗?
- 女朋友送的switch被亲戚要求送小孩我该怎么办?
- 顶级军事家的水平有多恐怖呢?
- 你知道哪些餐饮界的暴利菜品?
最新资讯文章
- Linux里面usermod -L zhangsan命令是什么?
- 女朋友去露营,3女2男的,要在野外搭帐篷过一夜,她的闺蜜不想让我去,我该怎么办?
- 女生真正的完美身材是什么样子?
- 中国军队有多强,在世界能排第几?
- 评价一下Proxmox VE与ESXi的优劣?
- 《明朝那些事儿》的作者当年明月疯了,疯了就可以摆脱烦恼了吗?
- 为什么家里的长辈炒菜基本都会放葱姜蒜等调料,而对于部分年轻人似乎变得可有可无?
- 如何评价歌手单依纯?
- 微软edge浏览器为什么逐渐被其他的浏览器代替?
- Golang vs Rust vs Dlang 哪个更有前途,哪位大牛这 3 门语言都用过?
- 女生被踢裆也会很疼吗?
- 瑜伽裤和牛仔裤哪个更显身材?
- 为什么他们可以闻出来我身上的穷酸味?
- JetBrains 放弃 AppCode 是否是一个错误决定?
- 使用J***a开发简单CAD软件?
- 为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
- Linux内核代码大佬们如何观看的?
- 美国真会下场对伊朗开战吗?
- 一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公安系统的问题?
- 为什么《古惑仔》这类的「江湖义气黑帮片」在主流影视中销声匿迹了?





