大模型微调与应用实践

大模型微调与应用实践
    马上咨询

    讲师介绍

    周旭辉,海之翼科技创始人&CEO,AI 算法技术专家

    目前主要做大模型的研发与行业应用方向。 擅长大模型底层大模型训练、微调(SFT),中间层 langchain 框架搭建与开发,上层应用智能知识库、智能BI决策助手、智能客服等;擅长常见的 AI 算法方向与案例讲解,注重实践。

    曾任百度车联网首席架构师, 从0 到1 研发了百度大数据用户画像平台,广泛应用于搜索、凤巢、贴吧、知道等产品;腾讯 T12,负责电商用户画像与增长。 主导并开发过保险、银行、汽车多个行业的人工智能产品,例如人群包挖掘、贷款 AI 评分、保险电销提效、汽车线索分级、销量智能 BI 分析等。

    国际顶级会议 ICJAI2019 论文《Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator》,专利10+件。

    做过项目的部分客户:

    • 银行: 建设银行、工商银行、交通银行、广发银行等;
    • 保险: 阳光保险、大都会保险、招商信诺、安盛天平等;
    • 汽车: 理想汽车、宝马汽车、比亚迪汽车等;
    • 软件: 华为、中国移动、用友软件等。


    课程概要

    在深度学习和自然语言处理的快速发展中,大模型技术已经在许多应用中展现出了显著的性能。然而,理解这些模型的运作原理,以及如何有效地利用和调整这些模型,对于许多组织和个人来说,仍然是一项挑战。如果您或您的组织正在面临以下问题,那么这个课程将为您提供深入的解决方案:

    • 对深度学习和 NLP 的基本概念理解不够
    • 不清楚如何利用现有的大模型进行项目开发
    • 对于如何微调大模型以适应特定任务的知识有限
    • 对于如何实现多模态的理解和实践经验不足
    • 对于如何使用新兴的大模型技术, 如 Stable Diffusionl,缺乏实践经验

    通过这个课程,您将获得深度学习、NLP 和大模型技术的深入理解,以及实践这些技术的经验,从而为您的项目或研究提供强大的支持。


    课程亮点

    课程将从深度学习的基础开始,介绍 Transformers、BERT、GPT 技术, 接下来讲一下无监 督预训练模型, 并通过解读和复现一个小型的 GPT 项目来实践模型的开发、训练和微调。 课程还包括进阶介绍 zero-shot、few-shot 的概念, Prompt engineering (提示工程技术), Chain of Thought(CoT 思维链) 技术,以及大模型微调技术。

    进阶课程还包括如何应用其他大模型技术,包括多模态的实现、Stable Diffusion(文生图)。 本课程不仅提供了大模型技术的理论知识,还注重实战经验的培养。我们将引入实际的项目和应用场景,使您能够在实践中理解和应用这些理论知识。

    案例包含最近大模型最火的方向知识库问答、 NL2SQL(Text2SQL)以及数字人+GPT 生 成带货视频。课程的最终目标是让您能够入门使用和微调这些大模型,或者能结合自己业务场景带来工作效率的提升跟,同时成为一个大模型方面的专业人士。


    课程收益

    • 掌握人工智能的基本概念和原理:通过学习人工智能的基本概念和原理学员可以更好地理解人工智能的应用场景和优势。
    • 掌握人工智能的实践技能:学员需要掌握人工智能的实践技能,包括使用工具和框架进行开发、调试和测试等。
    • 了解人工智能的应用场景:学员需要了解人工智能的应用场景。
    • 提高人工智能的创新能力:学员需要通过学习人工智能的创新能力,提高自己的创新能力,以便在未来的工作中更好地应用人工智能。
    • 掌握人工智能的最新发展趋势:学员需要了解人工智能的最新发展趋势以便更好地把握未来的发展方向。


    课程时间

    2天(6小时/天) 


    授课对象

    本课程适用于具备一定编程基础和对深度学习感兴趣的学员,包括开发者、数据科学家等;要求学员具备 Python 编程经验。


    课程大纲

    第一天:大模型深度探索与产品设计

    • 深度解读:全方位介绍AIGC (1h)
      • AIGC分类
      • 大模型全景认识
      • chatGPT 发展简史
      • chatGPT 应用实例
      • 技术发展与挑战
    • 市场洞察:了解大模型行业与竞品(1h)
      • 算法、算力、数据
      • 技术门槛
      • 竞品分析
      • 国内外技术现状
      • Sora 文生视频介绍与底层原理讲解
    • 技术分析:掌握 chatGPT底层技术原理与搭建可用系统(2h)
      • 底层技术原理
      • Prompt 技巧
        • 在 GPT 中使用 Prompt 技巧的原理和效果
        • 如何设计和优化 Prompt 来引导 GPT 生成特定类型的文本
      • Prompt 工具介绍
        • 创建一个会话
        • 如何选择模型、面具(Mask)的使用、清除会话的必要性
      • 案例分析:营销应用
        • 通过案例展示如何使用大模型 prompt 技术辅助营销活动
        • 实践,给出一个题目,学员完成
      • 案例分析: 报告写作应用
        • 如何使用大模型 prompt 技术辅助报告写作
        • 实践, 给出一个题目,学员完成
      • Prompt-NL2SQL
        • 初级构建
        • 进阶技巧
        • 优化 4 个层次
      • 被低估的prompt
        • 查答案
        • 进阶方法论:元问题
        • 利用 GPT 找到自己的阶段
          • 沟通模板
          • 如何快速了解一个行业
      • 其他:不同大模型需要的 prompt 需要不同吗?
        • 如何利用开源模型或者 openai 接口部署一套使用工具
    • 产品设计:新时代下的产品设计思路 (1h)
      • 所有企业系统值得重做一遍
      • 设计理念的核心:人机交互
      • 用户体验的重要性
      • 技术能力考虑
      • 汽车智能说明书产品设计思路
    • 商业变革:商业落地探索分析 (1h)
      • 大模型引发的商业变革
      • 大模型技术的商业应用策略
      • 哪些场景适合落地
      • 分析大模型成功的商业化案例
      • 未来可能得几个方向
      • 课上作业:结合当前已学知识,组队讨论构建新产品。(可选)

    第二天:GPT基础、预训练、微调与prompt案例

    • 大模型基础知识(2h)
      • NLP 与大模型
        • NLP 常见任务
        • 大模型解决思路
      • 预训练模型技术基础
        • Transformer
        • BERT 实现特点
        • GPT 实现特点
      • GPT 详解
        • GPT 三兄弟
        • GPT 预训练模型训练步骤
        • Zero-shot
        • few-shot 技术
      • Prompt 技术
      • 什么是 Prompt 技术以及其背后的原理
      • Prompt 技术在自然语言处理中的应用
      • Prompt 的构建方法和策略
    • 预训练技术与实操预训练一个小型预训练流程 (1h)
      • 目标和复现步骤的介绍
      • 第一阶段 -  数据准备:
        • 数据收集和清洗
          • 数据收集的方法和来源。
          • 数据清洗的重要性,包括去除噪声、处理异常值和数据预处理等
        • 数据预处理
          • 介绍数据预处理的目的和常见方法
        • 构建训练集和验证集
          • 如何划分数据集为训练集和验证集
          • 交叉验证和数据集平衡
      • 第二阶段 -  环境准备:
        • 硬件和软件环境要求
          • 进行深度学习任务所需的硬件要求,例如GPU和内存等
        • 所需的深度学习框架和库、环境创建
      • 第三阶段 -  关键算法和实战:
        • 字典训练
        • 世界知识 VS 行业知识
      • 实战演练: 使用提供的代码和数据进行微型 GPT 的复现
        • 使用西游记小说训练一个预训练模型
      • 模型评估方法
      • 优化方向
      • 常见踩坑与解决思路
      • 总结
    • 微调技术与实践(1h)
      • 模型微调的方法和实践:
        • 介绍模型微调的概念和原理
        • 常用的微调策略和技巧
        • 数据集选择和准备
        • 微调过程中的超参数调整
        • 模型微调的评估和验证方法
      • 指令微调
        • Self-instruction 方法
        • Instruction-folowing
        • Ptuning-V2
        • Lora
        • QLora
      • 开源免费可商用大模型 Baichuan13B 微调实践:
        • 常见的 Baichuan13B 模型微调方法介绍
        • 数据准备、环境搭建
        • 代码编写、运行代码、获取结果
        • 如何微调数学计算
        • 如何微调选择题
        • 如何过滤有害言论
        • 如何微调理解能力
        • 其他微调常见坑与优化思路
          • 通用知识遗忘
          • loss 不下降
          • 用开源数据微调效果差
          • 多少条数据效果比较好
    • 对话机器人专题与实操练习(1h)
      • 对话机器人的分类与构成
      • 传统对话机器人方案
      • 大模型机器人实现方式
      • 以订餐对话机器人为例, 拆开每段代码讲解如何实现一个 任务型对话机器人
      • 学员在代码基础上完成环境配置、增加“号码”检测功能,完成订机票、订会议室、汽车问卷回访机器人,学会 并能扩展到一些实际应用场景。
    • API 服务(0.5h)
      • API 服务部署:
        • 介绍将微调后的模型部署为 API 服务的方法和代码
        • 使用 FastAPI 框架搭建 API 服务
        • 将微调后的模型加载到 API 服务中
      • 前端调用:
        • 介绍前端调用 API 服务的方法
        • 前端调用的常见场景
        • 实现与用户的交互和展示生成的文本结果
      • 流式读取:
        • 介绍流式读取数据的概念和优势
        • 如何实现流式读取数据的方法(后端)
        • 如何实现流式读取数据的方法(前端)
      • 如何做大模型私有化部署
        • 私有化部署的难点
        • 私有化部署的方案
        • 私有化部署中的内容安全考虑
    • 分组练习(0.5h)
      • 结合公司业务, 分组完成一个 AI 应用产品的创意、方案生 成、代码实现。
      • 每组派代表介绍自己项目、亮点、用到的方法与演示。

    第三天:langcha in技 术,Agents 技术与两个案例分享

    • Langchain 技术(2h )
      • Langchain 技术介绍
        • Langchain 要解决的问题
        • Lanchain 的优势和劣势
        • Langchain 有哪些关键组件
      • 使用 Langchain 搭建一个chatPDF 系统
        • 整体流程
        • PDF 读取
        • 文件分割
        • 向量化(Emmbeddings)
        • 向量数据库
          • 向量计算的方法
          • 向量计算的难点
          • 向量数据库如何加速
      • LLM 融合结果
      • Langchain 技术框架的优缺点
      • Langchain 和开源大模型结合
      • 作业:使用 LangChain+开源大模型完成小作业(可选)
    • 金融智能知识库案例介绍与初步实现(1h)
      • 项目介绍
        • 数据介绍
        • 问题介绍
        • 难点
      • 离线处理:
        • 数据提取
        • 数值计算
        • 结构分析
        • 存数据库
    • 金融知识库比赛前九名经验&kaggle 大模型比赛RAG经验详解(精华2 h)
      • 框架步骤:
        • 问题分析(问题分级、要素提取)
        • 答案召回(正则匹配、ES 检索、 NL2SQL)
        • LLM 拼装
        • 答案格式化(后处理)
      • 其他环节优化经验
        • 数据召回
        • 数值计算
        • 答案融合
        • 微调意图识别
        • 微调 NL2SQL
    • Agents 技术与智能BI 案例、智能水务案例(1h)
      • 大模型 Agents 技术的概述
        • 介绍大模型 Agents 技术的定义和应用领域。
        • 解释大模型 Agents 技术与传统人工智能方法的区别。
      • 大模型 Agents 技术的原理和模型
        • 大模型 Agents 技术的基本原理, 为什么是下一代技术。
        • 介绍常见的大模型 Agents 实现方式
      • 智能 BI 案例
        • 需要实现的基本功能
        • 高级功能
        • 挑战
        • 方案选型
        • 最终效果
      • 智能水务案例介绍
        • 需要实现的基本功能
        • 高级功能
        • 挑战
        • 方案选型

    第四天:专题答疑与实际操作 (1h)

    • 多轮对话专题(2h)
      • 多轮对话常见应用
      • 多轮对话和单轮的区别
      • 多轮对话传统实现方案
      • 多轮对话应用场景
      • 大模型下的多轮对话效果如何
      • 大模型多轮对话存在的常见问题
      • 如何自动从对话样本中自动构建多轮对话样本
      • 多轮对话训练时的 loss 计算
      • 多轮对话如何高效训练
    • 表格数据专题(1h)
      • 常见表格的处理方法
      • 如何优化表格提取
      • 表格数据如何让大模型能识别
    • NL2SQL 专题 (1h)
      • 什么是NL2SQL?
      • 传统实现方案
      • 大模型实现方案
      • 如何微调NL2SQL?
      • 开源数据还是场景数据?
      • NL2SQL优化技巧
    • 其他问题(1h)
      • Langchain 召回不足
      • LangChain 如何用开源 Agent
      • Langchain 向量模型选型
      • Langchain 的文档分割方法
      • Agent 选型
      • Agent 微调优化方法