零基础6个月AI工程师速成：我如何从门外汉到具备RAG和Agent实战能力

高效码农

3 小时前

从零到AI工程师：我的6个月转型实战路线图

“

我用3个月验证了一件事：普通人完全可以在半年内掌握AI工程的核心技能。

”

接下来，我想用6个月完成自我转型——这绝对是我今年做的最正确的决定。当我思考转型方向时，恰好看到一篇文章，我逐字学习，现在把核心内容结合自己的理解分享给你。

为什么AI工程师可能是你最值得考虑的转型方向

你可能已经在其他行业摸爬滚打几年，感觉职业发展遇到了天花板；也可能是刚毕业的学生，不想做不喜欢的工作；又或者只是想掌握一项未来十年都值钱的技能。

无论你属于哪种情况，AI工程都是一个值得认真考虑的方向。

它不需要名校背景，不需要数学博士学位，更不需要你住在硅谷。它需要的只是一套可以学习的实用技能，加上6个月的专注投入。

对于大多数想进入这个领域的人来说，最大的困惑不是”去哪学”，而是**”到底该学什么”**。

这篇文章的目标很简单：给你一条清晰的6个月路径，让你真正具备”用AI构建产品”的能力。

你不需要精通人工智能的每个领域。你需要学习如何在现实世界中构建有用的AI系统。

AI工程师到底在做什么？

很多人一听到”AI Engineer”，脑海里会浮现出一个从零训练超大模型的研究员。

但现实是，大多数现代AI工程师做的事情要务实得多——他们是在现成模型之上，构建产品和系统的人。

具体包括：

连接LLM API
设计prompt和上下文流转
构建聊天、搜索或自动化系统
集成工具、数据库和外部API
处理结构化输出
提升可靠性、成本效率和延迟表现
把AI能力真正部署进应用

在实践中，AI工程师往往处于这些角色的交叉地带：

软件工程
产品工程
自动化工程
应用型AI

这也是为什么这个岗位增长得这么快——公司需要的不仅是研究员，更需要能把模型变成有用产品的人。

如果你能构建真实的LLM应用、检索系统、自动化工作流和可上线的生产级流程，那么你距离”可雇佣”状态，已经比绝大多数初学者更近了。

第1个月：把编程和基础打扎实

第一个月的目标是成为一个”能写代码的人“。你不需要成为Python大师，只需要做到不再需要Google搜索基础语法、能自信地写出简单程序就够了。

AI工程首先是软件工程。后面几个月默认你已经会写干净的Python、会用终端、会调用API、也能管理一个代码库。这个月就是你的地基。

1. Python（必备）

Python是AI工程的语言，这一点几乎没有争议。

怎么学： 从一个结构化课程开始，一定要逼自己动手写代码，而不是只看视频。初学者最常犯的错误就是被动消费内容——一边看，一边觉得”我懂了”，结果从没真正打开编辑器。

学习资源：

Python for Everybody (Coursera) – 零基础最佳起点
freeCodeCamp Python Course (YouTube) – 4小时全面基础
CS50P: Python编程简介 (哈佛) – 更严格的课程
官方Python教程 – 权威参考

重点掌握： 变量、数据类型、循环、条件判断、函数、列表/字典/集合、文件读写与JSON处理、类和基础面向对象、异常处理、虚拟环境venv与pip、requirements.txt的理解。

练习项目： 做一个简单的CLI工具，比如读写JSON文件的个人记账工具，或调用公共API并格式化输出的小脚本。

2. Git和GitHub

Git是专业开发者用来保存和分享代码的工具。从现在开始，你写的每一个项目，不管多小，都应该放在GitHub上。

学习资源：

GitHub Skills – 官方交互式课程
Learn Git Branching – 最直观的可视化工具
Pro Git Book – 全面参考书

重点掌握： git init、add、commit、push、pull的基本操作、分支和合并的理解、.gitignore的作用、在GitHub上创建仓库并推送本地项目、会写基本的README。

3. CLI/终端基础

作为AI工程师，你需要通过命令行运行脚本、安装包、管理服务器、浏览文件。

学习资源：

重点掌握： 文件导航(cd、ls、pwd、mkdir、rm)、文件查看(cat、less、grep)、从终端运行Python脚本、环境变量、对PATH的基础理解。

4. JSON、API、HTTP与异步基础

从第二个月开始就要调用LLM API，所以必须先搞明白Web API是怎么工作的。

学习资源：

重点掌握： GET、POST请求、读写JSON、HTTP状态码含义、API key认证、async/await的作用。

练习项目： 写一个Python脚本调用免费的公共API（如icanhazdadjoke.com），把返回结果整理成干净的JSON输出。

5. 基础SQL和Pandas

你不需要成为数据科学家，但会经常需要查看、查询和处理数据。

学习资源：

重点掌握： SQL：SELECT、WHERE、GROUP BY、JOIN、ORDER BY；Pandas：加载CSV、筛选行、选择列、基础聚合。

6. FastAPI

FastAPI是目前最流行的Python Web框架之一，用来构建API服务。

学习资源：

FastAPI官方教程 – 最好的框架文档之一
Python API开发 (freeCodeCamp, YouTube) – 19小时全面课程

重点掌握： 创建GET/POST接口、路径参数和查询参数、用Pydantic定义请求体、运行uvicorn、使用FastAPI内置/docs测试API。

第1个月里程碑

到这个月结束时，你应该能够：

写出能读写文件、调用API、处理错误的Python程序
用Git管理代码，并把项目推到GitHub
自如使用终端
理解HTTP请求并在Python中发起
用基础SQL查询SQLite
在本地构建并运行简单的FastAPI应用

第2个月：掌握LLM应用开发

第二个月的目标是用OpenAI和Anthropic的API构建真正的AI应用。到月底，你应该能熟练写出可靠的提示词、从模型获取结构化数据、让模型调用你的函数、处理各种可能出现的错误。

这是AI工程的核心。其他所有内容都建立在这一个月学到的东西上。

1. Prompt基础

Prompt本质上是：如何为一个概率性模型写出稳定、可靠、可复现的指令。

学习资源：

重点掌握： system message和user message的区别、具体性的重要性、链式思考(chain-of-thought)、few-shot示例、措辞变化对输出的影响。

练习： 拿一个真实任务（如总结文档、提取关键信息、分类反馈），针对同一任务写5个不同prompt，对比结果。

2. 结构化输出/JSON Schema

在真实应用中，你需要的是能解析、能存储、能用于代码的结构化数据。

学习资源：

重点掌握： 用Pydantic定义数据模型、把schema传给API、结构化输出和JSON模式的区别、如何优雅处理拒绝。

练习项目： 做一个发票解析器，输入原始文本，输出结构化Python对象（发票编号、金额、项目、到期日）。

3. 函数/工具调用

工具调用把LLM从文本生成器变成了能执行操作的工具——这是整篇指南中最重要的技能之一。

关键理解： 模型实际上不执行你的函数。它只是检查提示词，当判断应该使用工具时，返回一个包含函数名和参数的结构化调用。然后你的代码执行这个调用，并把结果发回去。

学习资源：

重点掌握： 如何用JSON Schema清晰描述函数、如何解析工具调用响应、如何执行函数并把结果喂回模型、tool_choice的概念。

练习项目： 做一个简单助手，给它3个工具（获取天气、计算表达式、搜索笔记），观察模型如何根据问题自动选择调用哪个工具。

4. 流式响应

流式输出让用户边看模型生成边得到结果，而不是等全部内容生成完再一次性返回。

学习资源：

重点掌握： 设置stream=True、迭代delta chunks、从分块里拼装完整响应、在FastAPI中通过StreamingResponse暴露流式接口。

5. 对话状态

LLM本身是无状态的——它不会在请求之间自动记住上下文。所谓”对话记忆”，其实是每次请求时把完整消息列表重新发给模型。

学习资源：

重点掌握： messages数组结构、追加user和assistant历史消息、上下文窗口限制及超出后的处理、基础截断策略。

练习项目： 做一个终端多轮聊天机器人，每轮都把消息追加到messages列表里，加/reset命令清空历史，并打印当前token数。

6. 成本、延迟与Token基础

如果不理解成本和token，最后往往会收获超出预期的账单和慢得无法忍受的应用。

学习资源：

重点掌握： token是什么（约4个字符或3/4个单词）、输入输出token定价差异、上下文窗口影响、小模型与贵模型的选择取舍。

7. 失败处理

LLM API会失败——rate limit、timeout、JSON格式错误、非预期输出。能否优雅处理这些失败，决定了你的东西只是demo还是真正的产品。

学习资源：

重点掌握： 429限流错误与指数退避、超时处理、使用前验证模型输出、失败回退策略。

8. 提示注入意识

提示注入是LLM应用最重要的安全风险之一——用户通过输入改变、覆盖甚至注入新的系统行为。

学习资源：

重点掌握： 直接注入和间接注入的区别、为什么system prompt不是真正安全的、最小权限原则、不要把未经验证的LLM输出自动用于高风险决策。

第2个月里程碑

到这个月结束时，你应该能够：

写出稳定可靠的prompts
用Pydantic+Instructor从模型拿到结构化JSON
把tool calling接进自己的Python函数
通过FastAPI实现实时流式输出
正确管理多轮对话历史
在请求前估算token成本
API错误出现时不让系统崩掉
解释什么是prompt injection并应用基础防护

第3个月：真正把RAG学明白

本月目标：构建能够基于文档回答问题的系统，而不是只依赖模型训练数据。

到月末，你应该能够完成：文档摄取→向量化→存储→检索→基于检索结果生成有依据、可引用、相对准确的回答。

RAG是当前AI工程里需求最旺盛的实战技能之一。几乎所有真正的企业级AI场景（客服机器人、内部知识库、文档问答）本质上都在用RAG。

1. Embeddings

文本embedding是把一段文本投影到一个高维向量空间里。最关键的是：语义相似的文本在这个空间里通常彼此接近——这就是相似度搜索成为可能的原因。

学习资源：

重点掌握： 向量的概念、为什么相似文本得到相似向量、余弦相似度如何工作、不同embedding模型的区别、embedding维度的实践意义。

练习： 准备20句相关句子做embedding，自己写一个最近邻搜索，给任意query返回最相近的3条。

2. Chunking

文档通常太大不能直接整篇做embedding，需要在向量化前先把文档拆成更小片段。你怎么切，直接决定了系统能不能找准信息。

学习资源：

重点掌握： 固定大小+overlap作为默认基线、对结构化文档用递归切分、语义切分、理解核心权衡（chunk太大→检索精度差；chunk太小→上下文不够）。

新手建议： 从LangChain的RecursiveCharacterTextSplitter开始，参数用chunk_size=500，chunk_overlap=50——对多数文档比较稳妥的默认值。

3. 向量数据库

有了embeddings后，你需要一个地方高效存储和搜索它们。

不同场景下的选择建议：

Chroma：适合本地快速原型
Pinecone：适合托管型、开箱即用的规模化场景
Weaviate：适合开源灵活性和混合检索
Qdrant：适合复杂过滤和自托管
pgvector：如果已在用PostgreSQL

学习资源：

重点掌握： 如何创建collection、如何插入带metadata的embeddings、如何按相似度查询top_k、如何在查询时做metadata filtering。

练习项目： 把任意公开文档的50-100页内容索引进Chroma，附带metadata（源URL、章节标题），写查询函数，给任何问题返回最相关的5个chunk。

4. Metadata过滤

单纯相似度搜索对真实应用远远不够。Metadata filtering能把检索范围限制在相关子集里（日期、来源、文档类型、用户、类别），大幅提升结果可用性。

学习资源：

重点掌握： 在ingestion阶段给每个chunk打好metadata、常见字段（文件名、页码、章节、日期、类别）、查询时用这些字段缩小范围。

5. Reranking

Reranking的流程是：第一阶段快速召回，第二阶段对候选结果做更精细的重排序——只增加一点延迟，检索质量显著提升。

学习资源：

重点掌握： retrieve-then-rerank两阶段模式、bi-encoder和cross-encoder的区别、rerank top-20和rerank top-5的延迟/质量权衡。

6. 检索质量问题

大多数RAG失败，不是模型失败，而是检索失败。

常见问题及修复思路：

语义漂移：query rewriting或HyDE
chunk边界问题：增大overlap或使用语义切分
metadata上下文缺失：使用metadata filtering
top-k太小：先增大召回的top_k，再在rerank后缩小

学习资源：

7. 降低幻觉

RAG能显著降低幻觉，但不能彻底消除。只要出现检索失败、chunk质量差、信息来源冲突，模型还是可能胡编。

学习资源：

重点掌握： 要求模型只根据给定上下文回答、当上下文没有答案时明确说”I don’t know”、在输出前加置信度阈值、先检查retrieval质量。

8. 引用与Grounding

一个真正可信的RAG系统，不应该只给答案，还应该告诉用户：答案来自哪里。

学习资源：

重点掌握： 把metadata（文件名、页码、URL）一并带进prompt上下文、要求模型在回答里引用来源、在UI或API响应里展示来源。

9. 你的RAG框架：LangChain还是LlamaIndex

当前最值得掌握的两个框架：

LlamaIndex：更适合”以检索和索引为中心”的场景，能让你很快做出可用原型
LangChain：更适合应用开始像”编排引擎”的时候（多agent工作流、工具调用、条件分支）

建议：第3个月先从LlamaIndex入手做RAG，等第4个月学agents，再把重心慢慢转到LangChain/LangGraph。

学习资源：

练习项目： 做一个”chat with your docs”应用——导入10-20份PDF或文本文件，提供FastAPI接口接受问题，检索top 5相关chunks并加reranking，用Claude或OpenAI返回带引用的答案。

第3个月里程碑

到这个月结束时，你应该能够：

解释embedding是什么，为什么相似文本会得到相似向量
用合理策略对任意文档做chunking
在向量数据库里存储、查询embeddings，结合metadata filtering
用reranking提高检索质量
系统化调试常见检索失败
用LlamaIndex或LangChain构建完整的端到端RAG pipeline

第4个月：Agents、Tools、Workflows与Evals

本月目标：构建能够自主执行动作序列的AI系统，把多步骤工作流接起来，并且建立评估机制去判断它们到底好不好用。

到月末，你应该能从零做出一个真实agent，知道什么时候不该用agent，并且知道如何衡量系统表现。

这一阶段，AI工程开始真正变复杂。第4个月掌握的东西，会明显拉开”普通初级AI工程师”和”能端到端负责整个AI功能的人”之间的差距。

1. Agent循环

Agent可以理解成一种以目标为导向的系统，持续在以下循环里运转：观察→推理→行动。

所谓”thinking”发生在prompt里，”branching”发生在agent在多个工具之间做选择时，”doing”则发生在你的外部函数真正被执行的时候。

学习资源：

Anthropic：构建有效的Agent – 生产级agents最值得先读的文章
OpenAI：构建Agent实用指南
freeCodeCamp：开源LLM Agent手册
LangChain学院：LangGraph简介

重点掌握： perceive→plan→act→observe循环、循环终止条件、tool call失败时的处理、agent本质上是LLM负责分支决策的while循环。

练习： 不借助任何框架，直接用OpenAI或Anthropic API手写一个agent——给它3个工具、一个目标、一个循环。

2. 工具选择

你给工具写的描述和参数说明，其实就是LLM的”使用手册”。如果手册含糊，LLM就会误用工具、在错误时机调用工具，或干脆无视工具。

学习资源：

重点掌握： 工具名要是自解释的动词、描述里写清楚”什么时候调用”、参数尽量少且类型清晰、设计工具时默认调用者是LLM。

新手建议： 每写完一个工具定义，都问自己：”如果我只看到这份JSON Schema，我能明确知道该什么时候、怎么调用它吗？”

3. 状态管理

在LangGraph里，state是一份沿着图流动的共享内存对象，保存消息、变量、中间结果、决策历史，并在执行过程中自动被各节点读取和更新。

学习资源：

重点掌握： 用TypedDict定义state schema、reducers如何合并并行更新、内存态和持久化checkpoint的区别、human-in-the-loop如何通过查看并修改state实现暂停与继续。

4. Agent中的重试与失败处理

Agent的失败方式比普通单轮LLM调用更复杂——一次糟糕的工具调用可能会污染state、导致无限循环、静默产生错误答案。

学习资源：

重点掌握： 设置最大迭代次数防止无限循环、针对单个工具做指数退避重试、在工具执行层捕获异常并记录日志、静默重试vs显式暴露失败。

5. 什么时候不要用Agent

这是AI工程里最重要也最常被忽视的判断之一。Agent很酷，但它们也：慢、贵、不可预测、难调试。

决策框架：

如果任务可以在一个prompt里解决 → 用单次LLM调用
如果步骤固定且可预测 → 用workflow
只有当步骤数量真的不可预测，需要动态决策时 → 用agent

学习资源：

务必记住： 一个由3次固定LLM调用组成的链式流程，几乎总会比”也许会调用3次”的agent更快、更便宜、更容易调试。把agent留给真正开放式的问题。

6. 多步骤工作流

在”单次prompt”和”完整agent”之间，存在一大片非常高产的中间地带：workflow。

常见模式：

prompt chaining：上一步输出作为下一步输入
routing：先分类，再分发给专门处理器
parallelization：多个调用并行执行，再聚合
orchestrator-subagent：一个LLM负责规划，其他LLM负责执行

学习资源：

练习项目： 做一个3步内容流水线——第一步提取关键事实，第二步基于事实并行生成tweet、LinkedIn post和摘要，第三步评估三份结果质量并选出最佳版本。

7. 评估工具

Evals的意义是让你知道AI系统是否真的在工作，而不只是”手工测过几个例子好像没问题”。

学习资源：

DeepEval – 类似pytest的LLM评估框架
Promptfoo – 自动化测试、横向对比prompt和模型
LangSmith – 追踪、调试和评估
Ragas – 专门面向RAG评估

重点掌握： 构建包含20-50个代表性输入的golden test set、输出的评估方式（确定性规则、LLM-as-judge）、每次换prompt或换模型时自动跑evals。

关键思维： Evals不是锦上添花。你每一次在没有跑eval的情况下改prompt、换模型、调retrieval，本质上都在赌。真正能持续交付稳定AI产品的工程师，是一直在跑eval的那类人。

8. 任务成功指标

除了自动化eval，你还需要能衡量”系统是否完成了真实目标”的指标。

学习资源：

重点掌握： 过程指标和结果指标的区别（过程：agent是否调用了正确工具；结果：任务最终是否成功）、在动手前先定义成功标准、对难以精确匹配的输出使用LLM-as-judge。

练习项目： 拿你第3个月做的RAG pipeline，给它配一套正式的eval harness——从文档中造30个问答对，让系统跑一遍，用DeepEval评估相关性、忠实性和完整性，然后改一项参数再次跑，对比是否提升。

第4个月里程碑

到这个月结束时，你应该能够：

解释agent loop是什么，不靠框架自己实现一个
写出能被模型稳定正确选择的工具描述
用LangGraph或同类工具正确管理agent state
在agent loop内处理失败而不让系统崩溃
清楚判断某个任务该用agent、workflow还是单次prompt
构建能够串联、路由、并行化LLM调用的多步骤工作流
写出能在改prompt或换模型时发现回归的自动化evals
为任何AI系统定义并追踪任务成功指标

第5个月和第6个月：专属你的方向

第五和六个月完全取决于你的目标。你对什么感兴趣？想做什么类型的人工智能应用？这些问题的答案会指引你的学习方向。

一些可能的方向包括：

Agent产品开发——深入LangGraph或AutoGen，构建能代表用户自主行动的多代理系统。

企业AI/RAG——深入RAG的细微差别，处理大规模文档、复杂检索策略和评估。

AI安全和防护——学习防护栏、LLM安全的细微差别，以及在生产中部署AI的红队测试。

AI UI/UX——学习如何围绕LLM构建优秀的用户体验，处理流式、恰到好处的加载状态、优雅的错误处理。

特定领域的AI——金融、医疗、法律——每个领域都有特定的知识和监管要求。

选择一个方向，深入下去。6个月后，你应该有足够的基础来继续自学，并在AI工程领域开始你的职业生涯。

现在开始吧

不需要等到”准备好”才开始。

AI工程的核心不是理论，而是实践。每一行你写的代码，每一个你调试的bug，每一个你部署的应用，都在把你推向”真正能用AI构建产品”的人。

6个月后的你，会感谢今天做出决定的自己。

现在开始吧。