讲师介绍
讲师最近几年带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。完成多个深度学习实践项目,广泛应用于医疗、交通、银行、电信等多个领域。从2020年推出的多门课程《AI大模型赋能行业应用与解决方案》《AI 大模型辅助软件研发管理与效能提升》和《AI大模型技术及开发应用实践》更是广受欢迎,已经为几十家企业培训,作为一名AI技术专家,对人工智能的理解深入透彻。他不仅精通AI的编程技术,还熟悉各种AI工具的使用,尤其在AI行业应用更是有着独特的见解和实践经验;自从2023年以来帮助多家研发中心做AI辅助开发效能提升咨询服务。同时也是微软人工智能认证工程师,阿里云AI人工智能训练师。在人工智能领域的深耕和创新,也得到了出版社的青睐,计划出版自己的著作。也在多家技术大会做AI技术讲座。
为什么需要该课程
大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。RAG目前是基于LLM系统中最受欢迎的架构,有许多产品基于RAG构建,使RAG成为推动聊天机器人发展和增强LLM在现实世界应用适用性的关键技术。
你可以参加吗?
- 各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师,公司管理者。
- 本课程面向零基础LLM应用开发者,不需要了解复杂数学算法,机器学习原理。建议具备基础的Python知识,但即使你对 Python 不太熟悉,也完全没有关系。课程主要阅读讲解部分案例代码。
课程内容安排 |
第一部分: RAG技术概述 |
- RAG技术概述
- 加载器和分割器
- 文本嵌入和 向量存储
- 如何生成和存储Embedding
- 检索器和多文档联合检索
- RAG技术的关键挑战
- 检索增强生成实践
- RAG技术文档预处理过程
- RAG技术文档检索过程
|
第二部分: RAG的架构和核心组件 |
- RAG架构
- 文档的导入和解析
- 文档的分块
- 文本块的嵌入
- 向量数据库的选择
- 文本块的检索
- 回答的生成
- 案例实践- 如何快速搭建RAG系统
- 使用框架:LangChain的RAG实现
- 使用低代码平台coze、Dify、智谱构建RAG
|
第三部分: 企业私有知识的数据导入 |
- 用数据加载器读取
- LangChain中的数据加载器
- 用LangChain读取目录中的所有文件
- 用LlamaIndex读取目录中的所有文档
- 用LlamaHub连接Reader并读取数据库条目
- 用Unstructured工具读取各种类型的文档
- 读取图片中的文字
- 读取PPT中的文字
- 用大模型整体解析图文
- 网页文档的爬取和解析
- PDF文件的文本格式、布局识别及表格解析
- PDF文件加载工具概述
- 案例分析
|
第四部分: RAG核心技术-文本切块 |
- RAG场景下的提示词和文本切片
- 文本切块
- 固定大小文本切块
- 特殊格式文本切块
- 基于深度学习模型的文本
- 不同的分块策略
- 递归分块
- 带滑动窗口的句子切分
- 分块时混合生成父子文本块
- 分块时为文本块创建元数据
- 在分块时形成有级别的索引
|
第五部分: 嵌入(Embedding)向量和向量数据库基础 |
- 嵌入Embedding核心概念
- 嵌入是对外部信息的编码
- 句子嵌入模型和SentenceTransformers框架
- 图像和音频嵌入模型
- 大模型时代的嵌入模型
- 什么是向量
- 向量间的相似度
- 相似度应用案例
- 为什么需要向量数据库
- 向量数据和传统数据的差异
- 数据库核心原理
- 向量数据库
|
第六部分: RAG查询检索前处理 |
- 查询检索构建
- Text-to-SQL——自然语言到SQL的转换
- Text-to-Cypher——从自然语言到图数据库查询
- Self-query Retriever——自动从查询中生成元数据过滤条件
|