软件技术参考:RAG应用机理
RAG (Retrieval-Augmented Generation) 是一种提高大模型回答质量和准确性的技术方法。简单来说,它将语言模型与检索系统相结合,从而使模型生成回答时可以直接访问与用户相关的外部知识和文献数据。此应用的AI调优技术原理将采用RAG为主要形式之一。
RAG的工作流程大致如下:
- 嵌入与索引:在系统准备阶段,已对一批文件(例如新闻报道、专业文章、分析报告等)进行分块处理,并将这些文字块转换为嵌入向量。这些嵌入向量会储存在向量数据库中(这个过程也称为索引),以便用于后续检索。
- 用户输入:用户向系统提出一个问题或查询。
- 检索:在用户提交查询时,系统会根据用户的问题生成相应的查询向量,并在已建立的向量数据库中检索最相关的文字块。这是 RAG 的核心步骤——在回答前先查找合适的外部资讯。
- 生成并输出:将用户原始问题和检索到的文字块一并传递给大语言模型。大语言模型在接收到相关上下文资讯后,整合用户问题与检索到的资讯,生成更准确的回答。在这一过程中,大语言模型的回答不仅依赖其自身的参数与训练记忆,还结合了更新、更权威的外部参考资料,从而提高了回答的品质、可靠性与即时性。
RAG 通过将信息检索与文字生成相结合,使得大语言模型的回答更有依据且上下文相关。