基于AI大模型开发RAG知识库最佳实践

基于AI大模型开发RAG知识库最佳实践
    马上咨询


    讲师介绍

    讲师最近几年带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。完成多个深度学习实践项目,广泛应用于医疗、交通、银行、电信等多个领域。从2020年推出的多门课程《AI大模型赋能行业应用与解决方案》《AI 大模型辅助软件研发管理与效能提升》和《AI大模型技术及开发应用实践》更是广受欢迎,已经为几十家企业培训,作为一名AI技术专家,对人工智能的理解深入透彻。他不仅精通AI的编程技术,还熟悉各种AI工具的使用,尤其在AI行业应用更是有着独特的见解和实践经验;自从2023年以来帮助多家研发中心做AI辅助开发效能提升咨询服务。同时也是微软人工智能认证工程师,阿里云AI人工智能训练师。在人工智能领域的深耕和创新,也得到了出版社的青睐,计划出版自己的著作。也在多家技术大会做AI技术讲座。

    为什么需要该课程

    大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。RAG目前是基于LLM系统中最受欢迎的架构,有许多产品基于RAG构建,使RAG成为推动聊天机器人发展和增强LLM在现实世界应用适用性的关键技术。

    你可以参加吗?

    • 各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师,公司管理者。
    • 本课程面向零基础LLM应用开发者,不需要了解复杂数学算法,机器学习原理。建议具备基础的Python知识,但即使你对 Python 不太熟悉,也完全没有关系。课程主要阅读讲解部分案例代码。


    课程内容安排
    第一部分: RAG技术概述
    1. RAG技术概述
    2. 加载器和分割器
    3. 文本嵌入和 向量存储
    4. 如何生成和存储Embedding
    5. 检索器和多文档联合检索
    6. RAG技术的关键挑战
    7. 检索增强生成实践
    8. RAG技术文档预处理过程
    9. RAG技术文档检索过程
    第二部分: RAG的架构和核心组件
    1. RAG架构 
    2. 文档的导入和解析
    3. 文档的分块 
    4. 文本块的嵌入
    5. 向量数据库的选择 
    6. 文本块的检索 
    7. 回答的生成 
    8. 案例实践- 如何快速搭建RAG系统 
    9. 使用框架:LangChain的RAG实现 
    10. 使用低代码平台coze、Dify、智谱构建RAG 
    第三部分: 企业私有知识的数据导入
    1. 用数据加载器读取
    2. LangChain中的数据加载器 
    3. 用LangChain读取目录中的所有文件 
    4. 用LlamaIndex读取目录中的所有文档 
    5. 用LlamaHub连接Reader并读取数据库条目 
    6. 用Unstructured工具读取各种类型的文档 
    7. 读取图片中的文字 
    8. 读取PPT中的文字 
    9. 用大模型整体解析图文 
    10. 网页文档的爬取和解析 
    11. PDF文件的文本格式、布局识别及表格解析 
    12. PDF文件加载工具概述 
    13. 案例分析
    第四部分: RAG核心技术-文本切块
    1. RAG场景下的提示词和文本切片
    2. 文本切块 
    3. 固定大小文本切块 
    4. 特殊格式文本切块 
    5. 基于深度学习模型的文本
    6. 不同的分块策略
    7. 递归分块
    8. 带滑动窗口的句子切分 
    9. 分块时混合生成父子文本块 
    10. 分块时为文本块创建元数据 
    11. 在分块时形成有级别的索引  
    第五部分: 嵌入(Embedding)向量和向量数据库基础 
    1. 嵌入Embedding核心概念
    2. 嵌入是对外部信息的编码 
    3. 句子嵌入模型和SentenceTransformers框架 
    4. 图像和音频嵌入模型 
    5. 大模型时代的嵌入模型
    6. 什么是向量 
    7. 向量间的相似度 
    8. 相似度应用案例 
    9. 为什么需要向量数据库 
    10. 向量数据和传统数据的差异 
    11. 数据库核心原理
    12. 向量数据库 
    第六部分: RAG查询检索前处理 
    1. 查询检索构建
    2. Text-to-SQL——自然语言到SQL的转换 
    3. Text-to-Cypher——从自然语言到图数据库查询 
    4. Self-query Retriever——自动从查询中生成元数据过滤条件