🚀 AI工程化落地方向 · 完整学习路线规划

最后更新于：2026年3月12日晚上

🚀 AI工程化落地方向 · 完整学习路线规划

假设你是杭电研一/研二学生，以下按 4个阶段 规划，总周期约 12-18个月

📅 阶段一：地基夯实期（第1-3个月）

🎯 目标：成为一个合格的Python工程师，而不是”会写Python脚本的人”

月份        重点内容                         完成标志
─────────────────────────────────────────────────────
第1个月     Python工程化 + Git              能独立搭建规范项目
第2个月     深度学习基础 + PyTorch           能复现经典模型
第3个月     后端开发入门 + 数据库基础          能写出API服务

1️⃣ Python精通（工程级）

❌ 常见误区： 很多人以为刷了LeetCode就算会Python，这是”脚本级”，不是”工程级”。

✅ 工程级Python要掌握的：

📁 项目结构规范
my_project/
├── src/
│   ├── __init__.py
│   ├── models/          # 模型定义
│   ├── services/        # 业务逻辑
│   ├── api/             # 接口层
│   └── utils/           # 工具函数
├── tests/               # 单元测试
├── configs/             # 配置文件
├── Makefile
├── pyproject.toml
├── Dockerfile
└── README.md

学习清单：

主题	具体内容	学习资源
语言进阶	装饰器、生成器、上下文管理器、类型注解、异步编程(asyncio)	《Fluent Python》
项目管理	Poetry/PDM依赖管理、pyproject.toml、虚拟环境	官方文档
代码质量	Ruff/Black格式化、MyPy类型检查、pytest单元测试	Real Python网站
设计模式	工厂模式、单例模式、观察者模式（面向AI服务场景）	《Python设计模式》
Git协作	分支管理、PR流程、Conventional Commits	Learn Git Branching

🏋️ 练手项目：

构建一个 "命令行文件管理工具"
要求：
- 使用 Click/Typer 做CLI框架
- 支持文件搜索、批量重命名、内容统计
- 完整的 pytest 测试覆盖
- 使用 Poetry 管理依赖
- GitHub 上规范的 README + CI

2️⃣ 深度学习基础 + PyTorch

学习路径：

Week 1-2: 深度学习基础理论
  ├── 神经网络基本原理（前向传播、反向传播）
  ├── CNN（卷积、池化、经典架构）
  ├── RNN/LSTM → Transformer（重点！）
  └── 资源：吴恩达 Deep Learning Specialization（B站有）
       或 李宏毅机器学习课程（更推荐，每年更新）

Week 3-4: PyTorch 实战
  ├── Tensor操作、自动求导
  ├── Dataset/DataLoader 数据管道
  ├── nn.Module 模型定义
  ├── 训练循环（train/eval/save/load）
  ├── GPU训练 + 混合精度训练
  └── 资源：PyTorch 官方教程 + 小土堆PyTorch教学(B站)

🏋️ 练手项目：

用 PyTorch 从零实现一个文本分类器
- 数据集：THUCNews 或者 IMDB
- 模型：从 TextCNN → LSTM → Transformer Encoder 逐步升级
- 要求：完整的训练/验证/测试 pipeline
- 使用 TensorBoard 记录训练过程
- 保存模型 checkpoint，支持断点续训

3️⃣ 后端开发 + 数据库

为什么AI工程师需要后端能力？

因为你的模型最终要变成服务，要有API、要能被调用、要能扛住并发。

📚 FastAPI（首选框架，3-4天快速上手）
  ├── 路由、请求/响应模型（Pydantic）
  ├── 异步处理（async/await）
  ├── 中间件、依赖注入
  ├── 文件上传、流式响应（SSE）← 大模型必备
  └── 资源：FastAPI 官方文档（写得极好）

📚 数据库基础（1周）
  ├── PostgreSQL / MySQL（关系型）
  │   ├── SQL 基础 CRUD
  │   └── SQLAlchemy ORM
  └── Redis（缓存，AI服务常用）
      └── 基本数据结构、缓存策略

🏋️ 阶段一综合项目：

🎯 "AI图片分类Web服务"
━━━━━━━━━━━━━━━━━━━━━━━━
├── FastAPI 后端服务
├── 上传图片 → PyTorch模型推理 → 返回分类结果
├── 结果存入 PostgreSQL
├── 接口文档自动生成（Swagger）
├── Docker 容器化部署
└── 完整 GitHub 仓库 + README

📅 阶段二：核心能力构建期（第4-7个月）

🎯 目标：掌握大模型应用开发全栈能力

月份        重点内容                           完成标志
──────────────────────────────────────────────────────
第4个月     Transformer深入 + HuggingFace      能使用预训练模型
第5个月     LLM应用开发（RAG为核心）            能搭建RAG系统
第6个月     模型部署与优化                      能部署生产级服务
第7个月     Docker/K8s + 综合项目               能交付完整项目

4️⃣ Transformer & 大模型基础

📚 学习路线：
Week 1: Transformer 架构精读
  ├── 《Attention is All You Need》论文精读
  ├── 自注意力机制、多头注意力、位置编码
  ├── 手写简化版 Transformer（加深理解）
  └── 资源：Jay Alammar 的图解Transformer（经典博客）

Week 2: 大模型发展脉络
  ├── GPT系列演进：GPT → GPT-2 → GPT-3 → InstructGPT → ChatGPT
  ├── 开源模型生态：LLaMA → Qwen / ChatGLM / DeepSeek
  ├── 关键概念：预训练、指令微调、RLHF、对齐
  └── 资源：各模型论文 + 李宏毅大模型课程

Week 3-4: HuggingFace 生态
  ├── Transformers 库（模型加载、推理、Pipeline）
  ├── Datasets 库（数据处理）
  ├── Tokenizers（分词器原理 BPE/WordPiece）
  ├── PEFT 库（高效微调，后面会深入）
  └── 资源：HuggingFace 官方课程（免费）

5️⃣ 大模型应用开发（🔥最核心技能）

这是你和”纯算法研究员”拉开差距的关键！

📚 学习路线：

━━ Part A: RAG（检索增强生成）━━━━━━━━━━━━━━
  这是目前企业落地最多的大模型应用模式！
  
  基础概念：
  ├── 什么是RAG？为什么需要RAG？
  ├── 向量嵌入（Embedding）原理
  ├── 向量数据库：Milvus / Chroma / FAISS
  ├── 检索策略：语义检索 + 关键词检索 + 混合检索
  └── 重排序（Reranker）：BGE-Reranker / Cohere
  
  进阶能力：
  ├── 文档解析：PDF/Word/表格 → 结构化处理
  ├── 分块策略（Chunking）：固定/语义/递归分块
  ├── 多路召回 + 融合排序
  ├── Query改写 / HyDE
  └── 评估体系：Ragas / 自建评估流程

━━ Part B: 开发框架 ━━━━━━━━━━━━━━━━━━━━━━
  LangChain（必学）
  ├── Chain / Prompt Template / Output Parser
  ├── Memory（对话记忆管理）
  ├── Retriever + VectorStore 集成
  └── LCEL（LangChain Expression Language）
  
  LlamaIndex（推荐学）
  ├── 更专注于数据索引和检索
  ├── 多种Index类型
  └── 适合文档问答场景

━━ Part C: API集成 ━━━━━━━━━━━━━━━━━━━━━━━
  ├── OpenAI API / Claude API 调用
  ├── 国内：通义千问API / 智谱API / DeepSeek API
  ├── 流式输出处理（SSE）
  ├── Token计算与成本控制
  └── 多模型路由与降级策略

🏋️ 核心项目（简历重点项目！）：

🎯 "企业知识库问答系统"
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📝 功能：
├── 上传企业文档（PDF/Word/Markdown）
├── 自动解析、分块、向量化
├── 基于RAG的智能问答
├── 支持多轮对话 + 引用溯源
├── 对话历史管理
└── 管理后台（文档管理、效果监控）

🛠️ 技术栈：
├── 后端：FastAPI
├── 大模型：Qwen/DeepSeek API + 本地模型可选
├── 向量数据库：Milvus 或 Chroma  
├── 框架：LangChain
├── 数据库：PostgreSQL（存对话历史）
├── 部署：Docker Compose
└── 前端：Gradio 或 Streamlit（简单即可）

6️⃣ 模型部署与优化

📚 学习路线（2-3周）：

模型推理优化：
├── ONNX Runtime
│   ├── PyTorch → ONNX 模型导出
│   └── ONNX Runtime 推理加速
├── TensorRT（NVIDIA GPU 极致优化）
│   ├── ONNX → TensorRT Engine
│   └── FP16/INT8 量化
├── vLLM（大模型推理框架，重点学！）
│   ├── PagedAttention 原理
│   ├── 连续批处理
│   └── OpenAI兼容API部署
└── 量化技术
    ├── GPTQ / AWQ / GGUF
    └── llama.cpp（CPU推理）

模型服务化：
├── Triton Inference Server（NVIDIA出品）
├── TorchServe
├── BentoML（推荐，上手快）
└── 性能指标：QPS、延迟P99、吞吐量

7️⃣ Docker & K8s

📚 Docker（1周搞定）：
├── Dockerfile 编写（多阶段构建）
├── Docker Compose（多容器编排）
├── 镜像优化（减小体积、加速构建）
└── GPU Docker（nvidia-docker）

📚 Kubernetes 基础（1-2周，了解即可）：
├── 核心概念：Pod/Deployment/Service/Ingress
├── 基本操作：部署、扩缩容、滚动更新
├── ConfigMap/Secret 配置管理
└── 了解 GPU 调度（AI场景特有）

💡 不需要精通K8s运维，理解原理+会用就行
   重点是知道你的AI服务如何在K8s上部署和扩展

📅 阶段三：竞争力构建期（第8-11个月）

🎯 目标：掌握加分技能，建立技术壁垒

月份         重点内容                         完成标志
──────────────────────────────────────────────────────
第8-9个月    Agent开发 + 模型微调              能构建Agent系统
第10-11个月  MLOps + 云平台 + 高质量项目        完整的工程能力

8️⃣ AI Agent 开发（🔥2025-2026最火方向）

📚 学习路线：

基础概念：
├── Agent = LLM + 记忆 + 工具使用 + 规划
├── ReAct 框架（推理+行动）
├── Function Calling / Tool Use
└── 多Agent协作模式

开发框架：
├── LangGraph（LangChain团队出品，重点学！）
│   ├── 状态图（StateGraph）
│   ├── 节点与边的定义
│   ├── 条件路由
│   ├── 人机协作（Human-in-the-loop）
│   └── 检查点与持久化
├── CrewAI（多Agent框架）
├── AutoGen（微软出品）
└── Dify / Coze（低代码Agent平台，了解即可）

进阶能力：
├── 复杂工作流编排
├── Agent记忆管理（短期/长期/实体记忆）
├── 工具开发（自定义Tool封装）
├── 安全与可控性（输出过滤、权限控制）
└── Agent评估与调试

🏋️ Agent项目（简历亮点项目！）：

🎯 "智能数据分析Agent"
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📝 功能：
├── 用户用自然语言描述分析需求
├── Agent自动：
│   ├── 理解意图 → 生成SQL/Python代码
│   ├── 执行代码 → 获取数据
│   ├── 生成可视化图表
│   └── 撰写分析报告
├── 支持多轮交互修改
└── 错误自动修复

🛠️ 技术栈：
├── LangGraph 编排工作流
├── Code Interpreter（代码沙箱执行）
├── E2B / 自建Docker沙箱
└── FastAPI + WebSocket实时通信

9️⃣ 模型微调

📚 学习路线（2-3周）：

理论基础：
├── 全参数微调 vs 参数高效微调（PEFT）
├── LoRA / QLoRA 原理（矩阵低秩分解）
├── Adapter / Prefix-Tuning（了解即可）
└── 指令微调数据格式（Alpaca/ShareGPT格式）

实战操作：
├── 数据准备
│   ├── 高质量指令数据构造
│   ├── 数据清洗与去重
│   └── 数据格式转换
├── 微调工具
│   ├── HuggingFace PEFT + TRL
│   ├── LLaMA-Factory（推荐！一站式微调工具）
│   └── Axolotl
├── 训练技巧
│   ├── 学习率调度
│   ├── 梯度累积/检查点
│   └── DeepSpeed / FSDP（多卡训练）
└── 评估
    ├── 困惑度（Perplexity）
    ├── 人工评估
    └── LLM-as-Judge

🏋️ 微调项目：

🎯 选择一个垂直领域（如：法律/医疗/金融）
├── 收集领域数据 → 构造指令微调数据集
├── 基于 Qwen2.5-7B 用 QLoRA 微调
├── 评估微调前后效果对比
├── 部署微调后的模型（vLLM）
└── 撰写详细的实验报告

🔟 MLOps

📚 学习路线（2周）：

实验管理：
├── MLflow（模型追踪、版本管理、部署）
├── Weights & Biases（实验可视化）
└── DVC（数据版本控制）

CI/CD for ML：
├── GitHub Actions 自动化流程
├── 模型测试 → 打包 → 部署自动化
└── A/B测试、灰度发布

监控与运维：
├── 模型性能监控（延迟、准确率漂移）
├── 数据漂移检测
├── Prometheus + Grafana（服务监控）
└── 日志管理（ELK或简化方案）

1️⃣1️⃣ 云平台

📚 选一个主力云平台深入（推荐阿里云，杭州就业优势）：

阿里云：
├── PAI 平台（模型训练、部署）
├── 模型在线服务（EAS）
├── OSS（数据存储）
├── ACK（K8s容器服务）
└── DashScope（大模型API服务）

华为云：
├── ModelArts（一站式AI开发平台）
├── 推理服务部署
└── 了解昇腾生态（加分项）

📅 阶段四：求职冲刺期（第12-15个月）

🎯 目标：项目打磨 + 简历优化 + 面试准备

🎯 简历项目矩阵（准备3-4个项目）：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

项目1（核心）: 企业级RAG知识库问答系统
  → 展示：大模型应用 + 全栈工程能力

项目2（亮点）: 智能Agent工作流系统  
  → 展示：前沿技术 + 复杂系统设计能力

项目3（深度）: 垂直领域模型微调+部署
  → 展示：模型优化 + 部署能力

项目4（实验室）: 研究生课题相关项目
  → 展示：研究能力 + 学术素养

💡 每个项目都要：
  ├── GitHub 仓库整洁规范
  ├── 详细 README（架构图+效果展示）
  ├── 可运行的 Demo
  └── 能讲清楚技术选型和设计决策

面试准备清单

📚 八股文（AI工程师版本）：
├── Python：GIL、深拷贝/浅拷贝、装饰器原理、异步原理
├── 深度学习：反向传播、梯度消失/爆炸、BatchNorm、Dropout
├── Transformer：自注意力计算复杂度、KV Cache、Flash Attention
├── RAG：分块策略对比、检索指标(Recall/MRR)、幻觉处理
├── 大模型：训练三阶段、RLHF/DPO、涌现能力、Scaling Law
├── 部署：量化原理、推理优化、服务高可用
├── 系统设计：设计一个AI对话系统的架构
└── 算法题：LeetCode中等难度为主（每天1-2题）

📚 推荐面试准备资源：
├── 《大模型面试八股文》（GitHub上有很多整理）
├── 牛客网面经（搜AI工程师/大模型工程师）
└── 各公司技术博客（了解技术栈偏好）

📅 每日学习时间分配建议

┌─────────────────────────────────────────────┐
│         研究生日常时间分配（工作日）            │
├─────────────────────────────────────────────┤
│  上午 9:00-12:00   实验室/课题工作            │
│  下午 14:00-17:00  技能学习（看教程+动手）     │
│  晚上 19:00-21:00  项目实战（写代码）          │
│  晚上 21:00-22:00  LeetCode 1-2题           │
│                                             │
│  周末：集中时间做项目 / 看论文 / 整理笔记       │
└─────────────────────────────────────────────┘

📚 精选学习资源汇总

类别	资源	说明
深度学习	李宏毅ML课程（B站）	每年更新，含大模型内容
PyTorch	官方Tutorial + 小土堆	基础入门
LLM基础	Andrej Karpathy “Let’s build GPT”	从零理解GPT
RAG	吴恩达 x LangChain 短课程	DeepLearning.AI出品
Agent	LangGraph 官方文档 + 教程	最新最全
微调	LLaMA-Factory GitHub	中文文档，上手快
部署	vLLM 官方文档	大模型部署必备
综合	GitHub “awesome-LLM” 系列	资源索引

⚡ 最后几个关键建议

1. 🎯 "做出来" 比 "学完" 重要
   不要陷入教程地狱，每个模块学完立刻做项目

2. 📝 坚持输出
   写技术博客（掘金/知乎/CSDN），面试时是加分项

3. 🤝 尽早实习
   研一下/研二上就投实习，杭州AI公司很多机会
   
4. 🔄 关注社区动态
   - 关注：GitHub Trending、Hugging Face 动态
   - 公众号：机器之心、量子位、AI工程化
   
5. 💡 课题尽量和AI工程方向结合
   和导师沟通，论文方向往应用落地靠
   
6. 🏗️ GitHub是你的第二简历
   保持绿点，项目代码质量要高

记住核心原则：你的定位不是”发论文的研究员”，而是”能把AI能力变成可靠产品的工程师”。企业需要的是能把模型从实验室搬到生产环境的人。

随笔

#大模型 #AI工程化 #学习路线 #RAG #Agent #微调 #部署 #MLOps

🚀 AI工程化落地方向 · 完整学习路线规划

https://xtanguser.github.io/2026/03/12/🚀 AI工程化落地方向 · 完整学习路线规划/

作者

小唐

发布于

2026年3月12日

许可协议

力扣（LeetCode）刷题上一篇

Vue 3 + Nginx + Docker 全面实战指南下一篇