数据质量与算法模型质量最佳实践

数据质量与算法模型质量最佳实践
    马上咨询

    数据质量与AI算法测试典型问题分析 ~ 0.5小时

    测试典型问题分析

    • 问题分析
    • 讨论

    AI领域发展与应用 ~ 1小时

    AI领域发展与应用

    • AI在各行业的落地应用
    • 案例演示
    • AI技术概览
    • AI技术的四要素
    • AI模型的研发流程
    • 深度学习与神经网络
    • 图像算法常用应用领域
    • 语音算法常用应用领域
    • NLP算法常用应用领域
    • AI的未来发展趋势

    AI领域的全局质量框架体系 ~ 1小时

    全局质量框架体系

    • 需求质量
    • 代码质量
    • 数据质量
    • 算法模型质量
    • 产品质量
    • 线上质量
    • 运营分析
    • 【案例】AI微服务全局质量分析

    数据质量建设~ 5小时

    数据质量概述

    • 数据质量定义
    • 数据质量的维度
      • 完整性
      • 规范性
      • 一致性
      • 准确性
      • 唯一性
      • 及时性
      • 关联性
    • 影响数据质量的因素
      • 信息因素
      • 技术因素
      • 流程因素
      • 管理因素
    • 数据质量管理方法

    数据源

    • 生产回流数据
    • 构造数据
    • 数据增强
    • 数据合成

    数据回流

    • 数据回流的意义
    • 数据回流系统建立
    • 数据回流原则

    数据清洗

    • 重复数据删除
    • 无效数据删除
    • 低质数据转存

    数据脱敏

    • 数据脱敏概述
    • 脱敏包含数据类型
    • 工程脱敏
    • 静态脱敏
    • 动态脱敏
    • 去标识化
    • 匿名化
    • 随机值
    • 数据替换
    • 对称加密
    • 平均值
    • 偏移与取整
    • AI脱敏
    • 图像脱敏
    • 语音脱敏

    数据丰富与覆盖率

    • 数据丰富度评价
    • 数据覆盖率分析

    数据分类

    • 数据标签化
    • AI标签化处理
    • 图像CV自动分类
    • 语音ASR自动分类
    • 文本NLP自动分类

    数据质量评估

    • 完整性评估指标
    • 规范性评估指标
    • 一致性评估指标
    • 准确性评估指标
    • 唯一性评估指标
    • 及时性评估指标
    • 关联性评估指标

    数据质量监控

    • 数据质量仪表盘设计
    • 数据质量监控维度
    • 监控告警

    数据质量改进

    • 数据质量改进闭环
    • 数据质量分析
    • 数据改进措施
    • 数据质量改进效果评估

    标注数据质量建设~ 1小时

    标注数据质量建设

    • 数据预标注
    • 高价值数据筛选
    • 标注数据平台建设
    • 数据小样试标注
    • 标注数据需求对齐
    • 标注数据质检
    • 标注数据抽检
    • 标注数据供应商管理
    • 标注数据供应商绩效评价
    • 标注数据质量分析
    • 标准数据质量提升举措
    • 模型badcase与数据质量相关性分析

    算法模型质量建设~ 5小时

    常用术语解释

    • 过拟合
    • 欠拟合
    • 监督学习
    • 无监督学习
    • 强化学习
    • 损失函数
    • 正向传播
    • 反向传播
    • 梯度下降
    • badcase

    算法模型测试范围

    • 算法模型功能测试
    • 算法精度指标测试
    • 算法模型性能测试
    • 算法模型稳定性测试
    • 算法模型健壮性测试
    • 算法模型一致性测试
    • A/B实验
    • 线上模型效果评估

    模型功能测试


    • 数据设计
    • 入参场景设计
    • 出参校验

    算法评测指标

    • 准确度
    • 精确度
    • 召回率
    • F1
    • WER
    • CER
    • 一致性

    精度指标计算

    • 图像算法精度常用指标
    • 语音算法精度常用指标
    • NLP算法精度常用指标
    • 标注数据
    • 精度指标计算脚本
    • 精度指标分析评价

    算法性能测试

    • 算法模型性能测试
    • 性能指标统计
    • 算法性能报告与jenkins集成

    算法稳定性测试

    • 算法模型稳定性测试
    • 稳定性测试常态化
    • 内存泄漏检测

    算法健壮性测试

    • 混沌测试数据集构建
    • 模型崩溃检测

    算法一致性测试

    • 算法输出与工程输出对比
    • 数据回放系统
    • 对比结果分析

    A/B实验

    • 什么是A/B实验
    • A/B实验的价值
    • A/B实验实现方案

    线上模型效果评估

    • 线上模型效果评估的价值
    • 线上、线下的差异
    • 如何常态化执行线上模型效果评估

    用模型测试模型

    • 为什么要用模型测试模型?
    • 图像领域模型测试模型案例
    • 语音领域模型测试模型案例
    • NLP领域模型测试模型案例
    • 算法badcase自动化筛选
    • badcase每日推送

    算法测试自动化建设~3小时

    Python语言开发基础

    • Python语言开发基础
    • 脚本概念
    • 脚本与程序对比
    • 常用脚本语言
    • 脚本的运行机制
    • Python语法规则
    • Python运行方法
    • Python运行机制
    • 【案例】python脚本多个案例

    Python开发进阶案例

    • Python数据类型与变量
    • 类与对象
    • 面向对象编程
    • Python控制结构
    • Python函数
    • Python列表与元组
    • Python字典与集合
    • Python基本文件操作
    • 程序的错误与异常处理

    算法测试环境自动化构建

    • 依赖库自动安装
    • 环境自动部署

    算法测试自动化案例实践

    • 精度指标计算脚本
    • 自动化报告生成
    • ROC曲线生成
    • 与Jenkins集成

    算法指标测试平台构建

    • 平台建设目标
    • 算法指标自动化评测
    • 竞品分析
    • 精度迭代趋势折线图

    课程总结与答疑 ~0.5小时