深入探索 Google DeepMind Gemini 模型:示例、代码片段与实战指南
人工智能(AI)模型近年来发展迅速,其中 Google DeepMind 推出的 Gemini 系列在自然语言理解、多模态生成和智能代理等方面表现尤为出色。本篇文章将基于官方示例仓库里的 README 和配套笔记本,手把手带你从入门到进阶,一步步掌握 Gemini 模型的核心用法。所有内容均严格取自源码,不做任何外部延伸,保证信息真实有效,适合专科及以上背景的开发者阅读。
目录
-
仓库概览 -
快速上手:克隆与环境配置 -
指南深度解读 -
函数调用 -
ReAct 智能代理 -
多种代理模式 -
长期记忆集成
-
-
实战示例一览 -
OpenAI SDK 集成 -
Google 搜索接入 -
结构化输出与 Pydantic -
音频转录 -
原生图像生成 -
文件在线编辑 -
LangChain 整合 -
上下文缓存
-
-
脚本与自动化 -
JavaScript 示例 -
Gemma:另一种 GenAI 选择 -
贡献指南与开源协议 -
实用技巧与最佳实践
仓库概览
该项目名为 “Google DeepMind Models Samples, Snippets and Guides”,收录了各类 Gemini 家族模型的精简示例、可视化笔记本和操作指南。主要目录结构包括:
-
examples/:针对单个功能调用的 Jupyter 笔记本。 -
guides/:核心模式和工作流的概念性教程。 -
scripts/:脚本级自动化样例,适合批量处理和命令行运行。 -
javascript-examples/:在 Web 或 Node.js 环境中调用 Gemini 功能的示例。
所有内容均采用 MIT 许可证,无任何使用限制,方便大家 Fork、修改与扩展。
快速上手:克隆与环境配置
只需几步即可启动你的 Gemini 之旅:
-
克隆仓库
git clone https://github.com/philschmid/gemini-samples.git cd gemini-samples
-
配置环境变量
在项目根目录新建.env
文件,填入 API 密钥:GEMINI_API_KEY=你的_api_key
-
安装依赖
-
Python 环境:
pip install -r requirements.txt
-
JavaScript 示例:
npm install
-
-
启动 JupyterLab
jupyter lab
打开
examples/
或guides/
下的.ipynb
文件,跟着笔记本动手练习。

指南深度解读
1. 函数调用(Function Calling)
-
路径: guides/function-calling.ipynb
-
内容:教你如何设计提示词和函数接口,让模型输出符合预定义 JSON 架构的结果,适合构建具备外部工具调用能力的聊天机器人。
2. ReAct 智能代理
-
路径: guides/langgraph-react-agent.ipynb
-
内容:展示 ReAct 范式,如何在推理与动作(如调用 API、抓取网页)之间交替执行,结合 LangGraph 协调复杂工作流。
3. 多种代理模式
-
路径: guides/agentic-pattern.ipynb
-
内容:对比单步代理、多步规划器和循环控制器等多种智能代理架构,帮助你为不同场景选型。
4. 长期记忆集成
-
路径: guides/gemini-with-memory.ipynb
-
内容:讲解如何存储、检索和更新持久化记忆,实现跨会话的上下文保留,构建有“记忆”能力的对话系统。
小贴士:先专注一个指南,复制示例代码到新 notebook 中,拆分测试再集成其它模式。
实战示例一览
在 examples/ 目录下,你会看到以下精彩示例:
-
OpenAI SDK 集成
通过官方 SDK 调用 Gemini,感受最基础的补全能力。 -
Google 搜索接入
在提示词中嵌入实时搜索结果,构建带数据检索能力的智能助手。 -
结构化输出与 Pydantic
用 Pydantic 定义模型输出的数据结构,保证下游代码的类型安全。 -
动态元提示词
让模型自己生成 JSON 架构,再在后续请求中引用该架构,引导输出。 -
音频转录
带时间戳的音频转写,用于字幕生成或播客索引。 -
原生图像生成
调用 Gemini 2.0 Flash 实验模型,直接从文本生成图片,无需单独的图像 API。 -
文件在线编辑
上传源代码或文档,让模型按需重构、格式化或翻译。 -
LangChain 整合
在 LangChain 框架中接入 Gemini,结合工具、记忆与链式思考。 -
代码执行与数据分析
在 Notebook 中运行 Python 代码,生成数据分析结果与可视化图表,并返回到同一环境。 -
模型上下文协议(MCP)
管理多步对话的请求/响应,对大型对话场景尤为关键。 -
CrewAI 体验
试用 Gemini 2.5 Pro 的实验性 CrewAI 功能。 -
顺序函数调用
在一次对话中连续调用多个函数,保持上下文连贯。 -
批量 API 请求
将多条提示聚合到单次请求,提升吞吐效率。
脚本与自动化
scripts/ 目录下的 Python 脚本可直接用于生产环境或定时任务:
-
gemini-browser-use.py
:模拟浏览器抓取,结合模型做网页信息抽取。 -
gemini-mcp-agent.py
&gemini-mcp-pipedream.py
:基于模型上下文协议的事件驱动代理示例。 -
gemini-veo-meta.py
:面向 Veo3 模型的元学习优化脚本。 -
veo3-generate-viral-vlogs.py
:多步骤链式调用,自动生成短视频脚本。 -
gemini-image-meta.py
:结合 Imagen 模型,生成上下文相关的图像元数据。
这些脚本可以与 CI/CD、Cron 作业、Serverless 平台无缝集成。
JavaScript 示例
javascript-examples/ 目录包含 Node.js 版示例:
-
gemini-native-image-out.js
:在 JavaScript 环境下调用 Gemini 2.0 Flash,生成图像。
安装 GenAI 包:
npm install @google/genai
执行脚本:
node javascript-examples/gemini-native-image-out.js
Gemma:另一种 GenAI 选择
项目中还收录了 Gemma 系列的对比示例:
-
examples/gemma-with-genai-sdk.ipynb
:使用 GenAI SDK 调用 Gemma 3 27B。 -
examples/gemma-function-calling.ipynb
:针对 Gemma 实现函数调用模式。
你可以根据性能和成本需求,比较 Gemini 与 Gemma 两者的差异。
贡献指南与开源协议
欢迎贡献与改进:
-
Fork 本项目并新建分支。 -
运行现有示例,确保兼容性。 -
增添新示例或优化文档。 -
提交 Pull Request,并简要说明改动内容。
本项目采用 MIT 许可证,自由使用、修改和分发。
实用技巧与最佳实践
-
循序渐进:先从单个示例开始,验证环境配置无误后再拓展。 -
拆分测试:将示例拆成最小单元,调整提示词和参数。 -
数据校验:关键输出尽量配合 Pydantic 或 JSON Schema,降低异常风险。 -
精细记忆:只存储必要上下文,避免记忆库过大拖慢性能。 -
批量调用:对高并发场景,优先使用批量 API 以节省网络开销。 -
保持更新:定期关注官方仓库,获取最新功能和实战示例。

通过本仓库的示例、指南与脚本,从“Hello, world!”式的初步尝试到生产级 AI 代理构建,都能快速上手并落地。立刻行动,用 Gemini 模型为你的项目注入智能力量!