从零到AI工程师:我的6个月转型实战路线图

我用3个月验证了一件事:普通人完全可以在半年内掌握AI工程的核心技能。

接下来,我想用6个月完成自我转型——这绝对是我今年做的最正确的决定。当我思考转型方向时,恰好看到一篇文章,我逐字学习,现在把核心内容结合自己的理解分享给你。


为什么AI工程师可能是你最值得考虑的转型方向

你可能已经在其他行业摸爬滚打几年,感觉职业发展遇到了天花板;也可能是刚毕业的学生,不想做不喜欢的工作;又或者只是想掌握一项未来十年都值钱的技能。

无论你属于哪种情况,AI工程都是一个值得认真考虑的方向。

它不需要名校背景,不需要数学博士学位,更不需要你住在硅谷。它需要的只是一套可以学习的实用技能,加上6个月的专注投入

对于大多数想进入这个领域的人来说,最大的困惑不是”去哪学”,而是**”到底该学什么”**。

这篇文章的目标很简单:给你一条清晰的6个月路径,让你真正具备”用AI构建产品”的能力。

你不需要精通人工智能的每个领域。你需要学习如何在现实世界中构建有用的AI系统。


AI工程师到底在做什么?

很多人一听到”AI Engineer”,脑海里会浮现出一个从零训练超大模型的研究员。

但现实是,大多数现代AI工程师做的事情要务实得多——他们是在现成模型之上,构建产品和系统的人

具体包括:

  • 连接LLM API
  • 设计prompt和上下文流转
  • 构建聊天、搜索或自动化系统
  • 集成工具、数据库和外部API
  • 处理结构化输出
  • 提升可靠性、成本效率和延迟表现
  • 把AI能力真正部署进应用

在实践中,AI工程师往往处于这些角色的交叉地带:

  • 软件工程
  • 产品工程
  • 自动化工程
  • 应用型AI

这也是为什么这个岗位增长得这么快——公司需要的不仅是研究员,更需要能把模型变成有用产品的人。

如果你能构建真实的LLM应用、检索系统、自动化工作流和可上线的生产级流程,那么你距离”可雇佣”状态,已经比绝大多数初学者更近了。


第1个月:把编程和基础打扎实

第一个月的目标是成为一个”能写代码的人“。你不需要成为Python大师,只需要做到不再需要Google搜索基础语法、能自信地写出简单程序就够了。

AI工程首先是软件工程。后面几个月默认你已经会写干净的Python、会用终端、会调用API、也能管理一个代码库。这个月就是你的地基。

1. Python(必备)

Python是AI工程的语言,这一点几乎没有争议。

怎么学: 从一个结构化课程开始,一定要逼自己动手写代码,而不是只看视频。初学者最常犯的错误就是被动消费内容——一边看,一边觉得”我懂了”,结果从没真正打开编辑器。

学习资源:

重点掌握: 变量、数据类型、循环、条件判断、函数、列表/字典/集合、文件读写与JSON处理、类和基础面向对象、异常处理、虚拟环境venv与pip、requirements.txt的理解。

练习项目: 做一个简单的CLI工具,比如读写JSON文件的个人记账工具,或调用公共API并格式化输出的小脚本。

2. Git和GitHub

Git是专业开发者用来保存和分享代码的工具。从现在开始,你写的每一个项目,不管多小,都应该放在GitHub上。

学习资源:

重点掌握: git init、add、commit、push、pull的基本操作、分支和合并的理解、.gitignore的作用、在GitHub上创建仓库并推送本地项目、会写基本的README。

3. CLI/终端基础

作为AI工程师,你需要通过命令行运行脚本、安装包、管理服务器、浏览文件。

学习资源:

重点掌握: 文件导航(cd、ls、pwd、mkdir、rm)、文件查看(cat、less、grep)、从终端运行Python脚本、环境变量、对PATH的基础理解。

4. JSON、API、HTTP与异步基础

从第二个月开始就要调用LLM API,所以必须先搞明白Web API是怎么工作的。

学习资源:

重点掌握: GET、POST请求、读写JSON、HTTP状态码含义、API key认证、async/await的作用。

练习项目: 写一个Python脚本调用免费的公共API(如icanhazdadjoke.com),把返回结果整理成干净的JSON输出。

5. 基础SQL和Pandas

你不需要成为数据科学家,但会经常需要查看、查询和处理数据。

学习资源:

重点掌握: SQL:SELECT、WHERE、GROUP BY、JOIN、ORDER BY;Pandas:加载CSV、筛选行、选择列、基础聚合。

6. FastAPI

FastAPI是目前最流行的Python Web框架之一,用来构建API服务。

学习资源:

重点掌握: 创建GET/POST接口、路径参数和查询参数、用Pydantic定义请求体、运行uvicorn、使用FastAPI内置/docs测试API。

第1个月里程碑

到这个月结束时,你应该能够:

  • 写出能读写文件、调用API、处理错误的Python程序
  • 用Git管理代码,并把项目推到GitHub
  • 自如使用终端
  • 理解HTTP请求并在Python中发起
  • 用基础SQL查询SQLite
  • 在本地构建并运行简单的FastAPI应用

第2个月:掌握LLM应用开发

第二个月的目标是用OpenAI和Anthropic的API构建真正的AI应用。到月底,你应该能熟练写出可靠的提示词、从模型获取结构化数据、让模型调用你的函数、处理各种可能出现的错误。

这是AI工程的核心。其他所有内容都建立在这一个月学到的东西上。

1. Prompt基础

Prompt本质上是:如何为一个概率性模型写出稳定、可靠、可复现的指令

学习资源:

重点掌握: system message和user message的区别、具体性的重要性、链式思考(chain-of-thought)、few-shot示例、措辞变化对输出的影响。

练习: 拿一个真实任务(如总结文档、提取关键信息、分类反馈),针对同一任务写5个不同prompt,对比结果。

2. 结构化输出/JSON Schema

在真实应用中,你需要的是能解析、能存储、能用于代码的结构化数据。

学习资源:

重点掌握: 用Pydantic定义数据模型、把schema传给API、结构化输出和JSON模式的区别、如何优雅处理拒绝。

练习项目: 做一个发票解析器,输入原始文本,输出结构化Python对象(发票编号、金额、项目、到期日)。

3. 函数/工具调用

工具调用把LLM从文本生成器变成了能执行操作的工具——这是整篇指南中最重要的技能之一。

关键理解: 模型实际上不执行你的函数。它只是检查提示词,当判断应该使用工具时,返回一个包含函数名和参数的结构化调用。然后你的代码执行这个调用,并把结果发回去。

学习资源:

重点掌握: 如何用JSON Schema清晰描述函数、如何解析工具调用响应、如何执行函数并把结果喂回模型、tool_choice的概念。

练习项目: 做一个简单助手,给它3个工具(获取天气、计算表达式、搜索笔记),观察模型如何根据问题自动选择调用哪个工具。

4. 流式响应

流式输出让用户边看模型生成边得到结果,而不是等全部内容生成完再一次性返回。

学习资源:

重点掌握: 设置stream=True、迭代delta chunks、从分块里拼装完整响应、在FastAPI中通过StreamingResponse暴露流式接口。

5. 对话状态

LLM本身是无状态的——它不会在请求之间自动记住上下文。所谓”对话记忆”,其实是每次请求时把完整消息列表重新发给模型。

学习资源:

重点掌握: messages数组结构、追加user和assistant历史消息、上下文窗口限制及超出后的处理、基础截断策略。

练习项目: 做一个终端多轮聊天机器人,每轮都把消息追加到messages列表里,加/reset命令清空历史,并打印当前token数。

6. 成本、延迟与Token基础

如果不理解成本和token,最后往往会收获超出预期的账单和慢得无法忍受的应用。

学习资源:

重点掌握: token是什么(约4个字符或3/4个单词)、输入输出token定价差异、上下文窗口影响、小模型与贵模型的选择取舍。

7. 失败处理

LLM API会失败——rate limit、timeout、JSON格式错误、非预期输出。能否优雅处理这些失败,决定了你的东西只是demo还是真正的产品。

学习资源:

重点掌握: 429限流错误与指数退避、超时处理、使用前验证模型输出、失败回退策略。

8. 提示注入意识

提示注入是LLM应用最重要的安全风险之一——用户通过输入改变、覆盖甚至注入新的系统行为。

学习资源:

重点掌握: 直接注入和间接注入的区别、为什么system prompt不是真正安全的、最小权限原则、不要把未经验证的LLM输出自动用于高风险决策。

第2个月里程碑

到这个月结束时,你应该能够:

  • 写出稳定可靠的prompts
  • 用Pydantic+Instructor从模型拿到结构化JSON
  • 把tool calling接进自己的Python函数
  • 通过FastAPI实现实时流式输出
  • 正确管理多轮对话历史
  • 在请求前估算token成本
  • API错误出现时不让系统崩掉
  • 解释什么是prompt injection并应用基础防护

第3个月:真正把RAG学明白

本月目标:构建能够基于文档回答问题的系统,而不是只依赖模型训练数据。

到月末,你应该能够完成:文档摄取→向量化→存储→检索→基于检索结果生成有依据、可引用、相对准确的回答。

RAG是当前AI工程里需求最旺盛的实战技能之一。几乎所有真正的企业级AI场景(客服机器人、内部知识库、文档问答)本质上都在用RAG。

1. Embeddings

文本embedding是把一段文本投影到一个高维向量空间里。最关键的是:语义相似的文本在这个空间里通常彼此接近——这就是相似度搜索成为可能的原因。

学习资源:

重点掌握: 向量的概念、为什么相似文本得到相似向量、余弦相似度如何工作、不同embedding模型的区别、embedding维度的实践意义。

练习: 准备20句相关句子做embedding,自己写一个最近邻搜索,给任意query返回最相近的3条。

2. Chunking

文档通常太大不能直接整篇做embedding,需要在向量化前先把文档拆成更小片段。你怎么切,直接决定了系统能不能找准信息。

学习资源:

重点掌握: 固定大小+overlap作为默认基线、对结构化文档用递归切分、语义切分、理解核心权衡(chunk太大→检索精度差;chunk太小→上下文不够)。

新手建议: 从LangChain的RecursiveCharacterTextSplitter开始,参数用chunk_size=500,chunk_overlap=50——对多数文档比较稳妥的默认值。

3. 向量数据库

有了embeddings后,你需要一个地方高效存储和搜索它们。

不同场景下的选择建议:

  • Chroma:适合本地快速原型
  • Pinecone:适合托管型、开箱即用的规模化场景
  • Weaviate:适合开源灵活性和混合检索
  • Qdrant:适合复杂过滤和自托管
  • pgvector:如果已在用PostgreSQL

学习资源:

重点掌握: 如何创建collection、如何插入带metadata的embeddings、如何按相似度查询top_k、如何在查询时做metadata filtering。

练习项目: 把任意公开文档的50-100页内容索引进Chroma,附带metadata(源URL、章节标题),写查询函数,给任何问题返回最相关的5个chunk。

4. Metadata过滤

单纯相似度搜索对真实应用远远不够。Metadata filtering能把检索范围限制在相关子集里(日期、来源、文档类型、用户、类别),大幅提升结果可用性。

学习资源:

重点掌握: 在ingestion阶段给每个chunk打好metadata、常见字段(文件名、页码、章节、日期、类别)、查询时用这些字段缩小范围。

5. Reranking

Reranking的流程是:第一阶段快速召回,第二阶段对候选结果做更精细的重排序——只增加一点延迟,检索质量显著提升。

学习资源:

重点掌握: retrieve-then-rerank两阶段模式、bi-encoder和cross-encoder的区别、rerank top-20和rerank top-5的延迟/质量权衡。

6. 检索质量问题

大多数RAG失败,不是模型失败,而是检索失败。

常见问题及修复思路:

  • 语义漂移:query rewriting或HyDE
  • chunk边界问题:增大overlap或使用语义切分
  • metadata上下文缺失:使用metadata filtering
  • top-k太小:先增大召回的top_k,再在rerank后缩小

学习资源:

7. 降低幻觉

RAG能显著降低幻觉,但不能彻底消除。只要出现检索失败、chunk质量差、信息来源冲突,模型还是可能胡编。

学习资源:

重点掌握: 要求模型只根据给定上下文回答、当上下文没有答案时明确说”I don’t know”、在输出前加置信度阈值、先检查retrieval质量。

8. 引用与Grounding

一个真正可信的RAG系统,不应该只给答案,还应该告诉用户:答案来自哪里。

学习资源:

重点掌握: 把metadata(文件名、页码、URL)一并带进prompt上下文、要求模型在回答里引用来源、在UI或API响应里展示来源。

9. 你的RAG框架:LangChain还是LlamaIndex

当前最值得掌握的两个框架:

  • LlamaIndex:更适合”以检索和索引为中心”的场景,能让你很快做出可用原型
  • LangChain:更适合应用开始像”编排引擎”的时候(多agent工作流、工具调用、条件分支)

建议:第3个月先从LlamaIndex入手做RAG,等第4个月学agents,再把重心慢慢转到LangChain/LangGraph。

学习资源:

练习项目: 做一个”chat with your docs”应用——导入10-20份PDF或文本文件,提供FastAPI接口接受问题,检索top 5相关chunks并加reranking,用Claude或OpenAI返回带引用的答案。

第3个月里程碑

到这个月结束时,你应该能够:

  • 解释embedding是什么,为什么相似文本会得到相似向量
  • 用合理策略对任意文档做chunking
  • 在向量数据库里存储、查询embeddings,结合metadata filtering
  • 用reranking提高检索质量
  • 系统化调试常见检索失败
  • 用LlamaIndex或LangChain构建完整的端到端RAG pipeline

第4个月:Agents、Tools、Workflows与Evals

本月目标:构建能够自主执行动作序列的AI系统,把多步骤工作流接起来,并且建立评估机制去判断它们到底好不好用。

到月末,你应该能从零做出一个真实agent,知道什么时候不该用agent,并且知道如何衡量系统表现。

这一阶段,AI工程开始真正变复杂。第4个月掌握的东西,会明显拉开”普通初级AI工程师”和”能端到端负责整个AI功能的人”之间的差距。

1. Agent循环

Agent可以理解成一种以目标为导向的系统,持续在以下循环里运转:观察→推理→行动

所谓”thinking”发生在prompt里,”branching”发生在agent在多个工具之间做选择时,”doing”则发生在你的外部函数真正被执行的时候。

学习资源:

重点掌握: perceive→plan→act→observe循环、循环终止条件、tool call失败时的处理、agent本质上是LLM负责分支决策的while循环。

练习: 不借助任何框架,直接用OpenAI或Anthropic API手写一个agent——给它3个工具、一个目标、一个循环。

2. 工具选择

你给工具写的描述和参数说明,其实就是LLM的”使用手册”。如果手册含糊,LLM就会误用工具、在错误时机调用工具,或干脆无视工具。

学习资源:

重点掌握: 工具名要是自解释的动词、描述里写清楚”什么时候调用”、参数尽量少且类型清晰、设计工具时默认调用者是LLM。

新手建议: 每写完一个工具定义,都问自己:”如果我只看到这份JSON Schema,我能明确知道该什么时候、怎么调用它吗?”

3. 状态管理

在LangGraph里,state是一份沿着图流动的共享内存对象,保存消息、变量、中间结果、决策历史,并在执行过程中自动被各节点读取和更新。

学习资源:

重点掌握: 用TypedDict定义state schema、reducers如何合并并行更新、内存态和持久化checkpoint的区别、human-in-the-loop如何通过查看并修改state实现暂停与继续。

4. Agent中的重试与失败处理

Agent的失败方式比普通单轮LLM调用更复杂——一次糟糕的工具调用可能会污染state、导致无限循环、静默产生错误答案。

学习资源:

重点掌握: 设置最大迭代次数防止无限循环、针对单个工具做指数退避重试、在工具执行层捕获异常并记录日志、静默重试vs显式暴露失败。

5. 什么时候不要用Agent

这是AI工程里最重要也最常被忽视的判断之一。Agent很酷,但它们也:慢、贵、不可预测、难调试。

决策框架:

  • 如果任务可以在一个prompt里解决 → 用单次LLM调用
  • 如果步骤固定且可预测 → 用workflow
  • 只有当步骤数量真的不可预测,需要动态决策时 → 用agent

学习资源:

务必记住: 一个由3次固定LLM调用组成的链式流程,几乎总会比”也许会调用3次”的agent更快、更便宜、更容易调试。把agent留给真正开放式的问题。

6. 多步骤工作流

在”单次prompt”和”完整agent”之间,存在一大片非常高产的中间地带:workflow。

常见模式:

  • prompt chaining:上一步输出作为下一步输入
  • routing:先分类,再分发给专门处理器
  • parallelization:多个调用并行执行,再聚合
  • orchestrator-subagent:一个LLM负责规划,其他LLM负责执行

学习资源:

练习项目: 做一个3步内容流水线——第一步提取关键事实,第二步基于事实并行生成tweet、LinkedIn post和摘要,第三步评估三份结果质量并选出最佳版本。

7. 评估工具

Evals的意义是让你知道AI系统是否真的在工作,而不只是”手工测过几个例子好像没问题”。

学习资源:

  • DeepEval – 类似pytest的LLM评估框架
  • Promptfoo – 自动化测试、横向对比prompt和模型
  • LangSmith – 追踪、调试和评估
  • Ragas – 专门面向RAG评估

重点掌握: 构建包含20-50个代表性输入的golden test set、输出的评估方式(确定性规则、LLM-as-judge)、每次换prompt或换模型时自动跑evals。

关键思维: Evals不是锦上添花。你每一次在没有跑eval的情况下改prompt、换模型、调retrieval,本质上都在赌。真正能持续交付稳定AI产品的工程师,是一直在跑eval的那类人。

8. 任务成功指标

除了自动化eval,你还需要能衡量”系统是否完成了真实目标”的指标。

学习资源:

重点掌握: 过程指标和结果指标的区别(过程:agent是否调用了正确工具;结果:任务最终是否成功)、在动手前先定义成功标准、对难以精确匹配的输出使用LLM-as-judge。

练习项目: 拿你第3个月做的RAG pipeline,给它配一套正式的eval harness——从文档中造30个问答对,让系统跑一遍,用DeepEval评估相关性、忠实性和完整性,然后改一项参数再次跑,对比是否提升。

第4个月里程碑

到这个月结束时,你应该能够:

  • 解释agent loop是什么,不靠框架自己实现一个
  • 写出能被模型稳定正确选择的工具描述
  • 用LangGraph或同类工具正确管理agent state
  • 在agent loop内处理失败而不让系统崩溃
  • 清楚判断某个任务该用agent、workflow还是单次prompt
  • 构建能够串联、路由、并行化LLM调用的多步骤工作流
  • 写出能在改prompt或换模型时发现回归的自动化evals
  • 为任何AI系统定义并追踪任务成功指标

第5个月和第6个月:专属你的方向

第五和六个月完全取决于你的目标。你对什么感兴趣?想做什么类型的人工智能应用?这些问题的答案会指引你的学习方向。

一些可能的方向包括:

Agent产品开发——深入LangGraph或AutoGen,构建能代表用户自主行动的多代理系统。

企业AI/RAG——深入RAG的细微差别,处理大规模文档、复杂检索策略和评估。

AI安全和防护——学习防护栏、LLM安全的细微差别,以及在生产中部署AI的红队测试。

AI UI/UX——学习如何围绕LLM构建优秀的用户体验,处理流式、恰到好处的加载状态、优雅的错误处理。

特定领域的AI——金融、医疗、法律——每个领域都有特定的知识和监管要求。

选择一个方向,深入下去。6个月后,你应该有足够的基础来继续自学,并在AI工程领域开始你的职业生涯。


现在开始吧

不需要等到”准备好”才开始。

AI工程的核心不是理论,而是实践。每一行你写的代码,每一个你调试的bug,每一个你部署的应用,都在把你推向”真正能用AI构建产品”的人。

6个月后的你,会感谢今天做出决定的自己。

现在开始吧。