OpenAI o3-pro发布，也许当前的RAG过时了_资讯

OpenAI o3-pro发布，也许当前的RAG过时了

创始人

2025-06-16 15:02:19

0次

OpenAI 宣布 o3-pro 的发布，这无疑是人工智能领域的一大重磅消息。o3-pro 凭借其先进的技术架构和卓越的性能，展现出强大的实力。在自然语言处理等方面，它表现出更高的准确性和效率，能够更好地理解和生成自然语言。相比之下，当前的 RAG（检索增强生成）技术可能在某些方面显得有些过时。RAG 虽然在一定程度上利用了检索信息来辅助生成，但在处理复杂语言任务和深度理解方面，o3-pro 显示出了明显的优势。它有望引领人工智能的新潮流，为各种应用场景带来更优质的服务和体验。

前两天，OpenAI 发布 o3-pro，号称最强推理 AI 模型上线，推理能力再创新高。对于推理最强这个信息，很多人都是无所谓的状态，但随后的信息就很嗨了：

伴随o3-pro的推出，OpenAI还做出了一个令人意外的决定，o3的价格下调80%，降至与GPT-4o相当的水平。具体来说：

1. 调整前：输入token每百万10美元，输出token每百万40美元；

2. 调整后：输入token每百万约2美元，输出token每百万约8美元。

虽然对比DeepSeek的费用来说还是偏贵，但已经是很有诚意的降价了，一些同学对此可能没什么概念：

10000字的提示词之前要花0.72元，现在只需要0.144元了。

除此之外，o3-pro上下文窗口大小为 200k，最大输出 token 数为 100k，这意味着至少可以输入约15万字的提示词！

大家知道15万字是什么概念吗，一篇短篇小说，各位得看一晚上了！

而无论是更便宜的资费还是更强的上下文，都利好于Agent架构的记忆问题，用大白话说就是，RAG有了更长的提示词上下文，可以玩得更花了！

作为AI应用80%会涉及的技术，今天我们就来简单介绍下RAG的几种玩法。

AI应用很简单，简单到一周就可以出demo；AI应用也很复杂，复杂到一年后效果依旧跟demo差不多，下图就是AI产品调用流程的具象化：

它是一段提示词输入+LLM处理后的一段输出，但这里输入和输出的学问就大了。

一、基础RAG

最简单的检索增强模式，通过简单的文档检索提升模型的应答质量。

最初使用这个模式的时候，多半是为了加入特殊数据（知识），比如大模型关于糖尿病的治疗输出是基于临床指南的，而我们实现了一个医生的数字分身后，就要用该医生的回答，这里的流程是：

基础RAG优势在于快、易落地；短板则是检索策略死板、推理链条单薄。

RAG在工程层面只包含三个关键步骤：向量检索→上下文拼接→一次性生成。

这套流程足以在短时间内构建可用 Demo，但当场景复杂度提升时，缺陷也会迅速暴露。下面按“现象-成因-应对”顺序展开：

就是因为基础RAG存在这样或那样的限制，业内很快就衍生出了高级RAG框架：

二、高级RAG

所谓高级RAG，其实也没那么高级，其实就是在RAG的基础上增加了很多工程控制策略。

也就是把“只会在一个抽屉翻文件”的基础 RAG，升级成“先问清需求、跑遍图书馆、再把最有价值的段落按优先级贴到桌面”的智能助手，显著提升召回率+精准度+可观测性。

这里举个例子：

所以，高级 RAG=多通道找资料+智能排序+过程可追踪的检索增强方案，让 AI 回答更全又更准，还能快速定位哪里出错。

传统 RAG 只用向量 Top-k 检索，常常会漏掉专业术语或编号；高级 RAG 可以同时跑向量、关键词、结构化数据等多路召回，再用轻量模型二次排序，把真正相关的段落放到最前。

系统会自动记录召回率、覆盖率等指标，一旦出了问题，也可以很快查到是检索缺料还是 Prompt 失误。

总而言之，就是策略层面多了一些设计，对调试而言更友好了。

三、GraphRAG

GraphRAG我们在前面已经介绍过了。

如果说基础 RAG 像“在抽屉里翻资料”、高级 RAG 像“跑遍图书馆并打上标签”，那 GraphRAG 就是把所有书的知识点串成一张关系网，查询时直接沿着网状路径跳跃推理。

它把“检索增强”升级到了“关系增强”，让模型真正理解“谁跟谁有关系、为什么”：

对比之前的RAG技术，GraphRAG的门槛会高一些，其构建过程就很复杂，比如之前的真实案例，他会有个知识预处理阶段：

输入：

输出：

四、推理型RAG

如果说 GraphRAG 可以把资料“织成网”，那推理型 RAG 就是在网里塞进一位能“拆题-找料-论证-拍板”的小型决策官。它将思维链推理与检索动态调度融合，直接面向“复杂思考+自主决策”场景。

事实上，我并不认为推理型RAG比知识图谱的策略更高明，但如果基于知识图谱做推理，效果显然会更好，只不过，不通过图谱也能CoT。

以下是一些对比：

为方便各位理解，我这里举个案例：

30 岁男性，三天前起发热 38.6 ℃，伴咳嗽、皮疹（躯干散在红斑），近 24 h 出现乏力、关节酸痛。血常规：WBC 12 × 10⁹/L，CRP 48 mg/L。

给出最可能的 5 个诊断并指出下一步检查/用药建议。

要处理这个问题，就要上推理型RAG了：

步骤1：症状网络构建

先把患者口述的所有信息拆成“症状、体征、检查、指标”等标准标签，再自动计算“两两/三元”组合的重要度。

系统只对权重最高的组合打上深度检索标记，并在界面里用节点-边图可视化，医生一眼就能看出真正值得追问与排查的线索，避免让零散信息淹没核心问题。

步骤2：动态取数

策略引擎实时监听高权重组合，比如：

1. 出现“黄痰+胸痛”时，立即调用感染性疾病索引；

2. 检测到“呼吸短促”则切换到胸膜并发症知识图谱。

这样做的好处是先问清再查料，按需拉取指南段落、病例摘要和实验室阈值，而不是一次性拉满 Top-k，既省 token 又缩短响应延迟。

检索结果会带上“触发原因+来源库”的标签，便于后续审计。

步骤3：回溯闭环

系统先基于当前证据自动生成首版诊断列表并打置信度分，再为每条诊断设置关键否定条件（如“若无发热，则需重新评估肺栓塞”）。

一旦反事实验证不通过，回溯控制器就会重开检索-推理流程并写入修正日志，形成可追踪的自纠错闭环。

最终输出不仅是一行诊断结论，更包含推理路径、证据引用和下一步检查/用药建议，既合规也方便质量迭代。

五、Agentic RAG

这个东西就没啥好介绍的了，基本也是Manus那套模型即所有的套路，主打模型会自己聪明地查找到所有需要的资料，我暂时没用过，也就不评论了……

结语

过去两年，模型发生了很大的变化，主要体现在两个方面：

第一，模型的基础能力更强了；
第二，模型的上下文更长了。

但这在前两年可不是这么回事，主流大模型的上下文窗口只有 4k–8k-16k-32k-64k-……的不断发展。

最初，谁想让模型吸收操作手册或聊天库，唯一的可行办法就是先把文档切成能塞进窗口的小片段，再做向量检索和拼接。

于是各种花式chunk策略应运而生：递归滑窗、层级重叠、语义边界分段，它们不是“炫技”，而是时代的权宜之计。

如今，通用模型上下文模型把窗口拉到 128k、200k 甚至更大。结果很直接：能整篇塞进去的文档，就没必要硬切。

这并不是否定旧方法，而是承认边际收益正在递减：你再雕琢分块粒度，带来的增益也抵不过“一次性放进去”带来的信息完整度。

但是，当前模型对长文的理解还不行，插入过长的提示词依旧有个窗口期。

所以，新一代的RAG使用，近期可能会出现不小的演进：

1. 窗口够大就整篇输入，不够再按结构化单元分；把“切不切”当成成本决策，而非技术信仰；

2. 检索层负责把文本、图像、视频统一变成向量或结构，业务代码不再东拼西凑；

3. 检索-推理-验证全程留痕。

过去分块是时代产物；未来的看点，是让检索和推理在更丰富、更实时的多模态数据上无缝衔接，把工程精力投到真正能提高业务价值的环节，而不是继续在切割细节上反复雕花。

本文来自微信公众号：叶小钗，作者：叶小钗

上一篇：用AI两年半，我常用到的12个思维模型

下一篇：央视关注福州：“闽台同心”共创渔业融合发展

OpenAI o3-pro发布，也许当前的RAG过时了

相关内容

热门资讯