个人 ML / DL / LLM 教学内容生产仓 —— 知识笔记 + 可运行 demo + 视频脚本 + 录屏发布工作流。 受众、协作约定见
CLAUDE.md。
-
语言即职责
- Python:研发实验室与数据管道(Pandas 深浅拷贝的 OOM 陷阱、高吞吐预处理服务)
- Go / Java / Node.js:AI 基础设施与业务网关(ONNX Runtime 实现零网络 I/O 本地推理)
- React / 前端:Agent 状态可视化、WebGPU 端侧推理
-
跨越物理与数据边界
- 显存 vs GC:避免 JVM/V8 的 STW 长尾延迟
- 零拷贝:抛弃 JSON/REST,拥抱 Apache Arrow / Parquet 列式格式
-
持久化执行:AI Agent 动辄几分钟的长周期调用,需要强状态的分布式工作流引擎
- 01 · KNN(12 期录屏)
- 02 · 线性回归(10 期录屏)
- 03 · 逻辑回归(10 期录屏)
- 04 · 决策树(11 期录屏)
- 05 · 集成学习(13 期录屏)
- 06 · K-Means
- 07 · 朴素贝叶斯
- 08 · 实战 · IBM HR Attrition 流失预测
详见 02-DL/README.md。
- 00 - 总览
- 01 - PyTorch 张量与自动微分
- 02 - 神经网络基础(ANN / 激活 / 损失 / 优化)
- 03 - CNN
- 04 - RNN
- 05 - 模型部署:ONNX Runtime 跨语言加载
- 词嵌入(Embedding)
- Transformer 架构
- 迁移学习:FastText → BERT / GPT
- Prompt Engineering
- RAG 智能简历推荐(ES + Milvus + BGE-M3)
- AI Agent:Function Calling + 后端 CRUD 集成
- Multi-Agent + MCP 协议
阶段四完成后再细化设计。
内容生产仓,不是"学习进度投影"。每个落地章节的标准产物:
- 知识笔记(
NN-*.md)— 概念解释 + 工程视角 - 可运行 demo(
demos/*.py或 marimo notebook)— 视觉化 + 交互 - 视频脚本(
scripts/<episode>/script.json)— 拍摄底稿 + review - 录屏 manifest — 由
scripts/tools/recording/sync_recording.py自动写入下游 staging
上游素材(pptx / 配图)在 assets/(gitignored);下游录屏 / 渲染 / 发布走 astral-pipeline。
episode id 命名:<series><algo><NN> —— 例 mlknn01 / mllinreg01 / dlcnn01。SSOT 在 astral-pipeline/schemas/series.json。
ai-engineer-roadmap/
├── README.md # 本文件 · 全局导航
├── CLAUDE.md # 给 Claude Code 的协作协议
│
├── 01-ML/ # 阶段一 · 传统机器学习(7 算法 + 1 实战)
│ ├── _*-guide.md # workflow / explanation / script / recording / publish guides
│ └── NN-<algo>/ # 每算法:知识笔记 + demos/ + scripts/
│
├── 02-DL/ # 阶段二 · 深度学习
│
├── scripts/ # 仓库级工具脚本
└── assets/ # 原始素材(gitignored)
文件命名约定:NN-Kebab-Case-Title.md(NN 为阶段内序号,从 01 起)。