Skip to content

Latest commit

 

History

History
433 lines (260 loc) · 13.8 KB

Readme.md

File metadata and controls

433 lines (260 loc) · 13.8 KB

💻 AI系统方向

入门指南

Static Badge Static Badge

注:⚡为基础必读,💎为基础选读,💡为进阶阅读

AI基础入门

ML/DL、AIGC大模型基础

面向之前没有 ML/DL、AIGC大模型 相关基础的同学

ML/DL系统框架

ML/DL系统基础

学习线上课程并完成作业,了解深度学习系统的基本组成,同时要求作业不能光做完就算了,注重运行效率的优化,比如跟PyTorch对比,是更快还是更慢

DL系统框架

分布式训练

(分布式)训练框架

调研学习现在主流的分布式训练系统,包括他们的系统框架实现,以及介绍主要技术的文章

分布式训练综述

介绍分布式训练的blog post有很多,可以上网搜索其他相关内容进行初步了解,有一定基础知识储备后再看这两篇综述会更合适

数据并行(All-Reduce based)
ZeRO/FSDP并行
流水并行
张量并行/算子并行
3D并行
自动并行
Tensor Annotation
专家并行/MoE训练
序列并行/长窗口并行
通信压缩
显存节约
算子融合优化
长序列训练
多模态训练
异构训练

LLM推理服务

LLM服务系统框架
综述
Batching
模型并行

分布式推理中也有用到很多并行策略,建议对前面关于并行策略的内容也进行阅读了解

显存管理
投机推理
Prefix Sharing
PD分离
Chunked Prefill
模型压缩

Diffusion(文生图、文生视频)推理服务

DiT系统框架
分布式推理