Gemini 使用指南

Google Gemini 是 Google 最强大的原生多模态 AI 模型。它不仅是 GPT-4 的最强竞争对手，更凭借其与 Google 生态（Docs, Gmail, Drive）的无缝集成，成为工作效率的神器。

1. 模型版本

Gemini 的命名体系分为三个等级：

Gemini Ultra: 最强版。用于处理极其复杂的任务（如复杂的推理、编码、创意协作）。通常需要订阅 Gemini Advanced。
Gemini Pro (1.5 Pro): 中坚力量。支持超长上下文（200万 Tokens），是性价比最高的选择，API 极其强大。
Gemini Flash (1.5 Flash): 速度之王。轻量级、低延迟、高吞吐，适合大规模任务或即时响应场景。

2. 核心优势：原生多模态与超长窗口

2.1 原生多模态 (Native Multimodal)

不同于其他模型是“拼接”的（文本模型+视觉编码器），Gemini 从训练之初就是多模态的。

视频理解：你可以直接上传一段 1 小时的视频，问它：“第 20 分钟大家在争论什么？”它能精准回答，就像它“看”过一样。
音频理解：直接上传 MP3 会议录音，它能区分发言人并总结纪要。

2.2 200万 Token 上下文

这是 Gemini 目前最大的护城河。

海量数据分析：可以一次性上传几百份 PDF 合同、整个代码库、或者几十本小说。
大海捞针 (NIAH)：在海量数据中寻找一个微小的细节，准确率极高。

3. 使用 Google AI Studio

虽然普通用户使用 gemini.google.com，但建议开发者和极客使用 Google AI Studio。

网址: aistudio.google.com
优势:
- 免费 API: 目前提供慷慨的免费额度。
- Prompt 调试: 专业的 System Prompt 调试界面。
- 参数控制: 可以调整 Temperature, Safety Settings。
- 导出代码: 调试好的 Prompt 可以一键导出为 Python/cURL 代码。

4. Google Workspace 集成

如果你使用 Google Docs/Gmail：

@Gemini: 在文档中输入 @Menu 呼唤 Gemini，让它帮你续写文章、润色邮件。
跨应用调用: "查找我 Drive 里关于去年 10 月预算的所有表格，并总结成一份报告。" Gemini 会自动扫描你的云端硬盘并生成结果。

5. API 调用示例 (Python)

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel('gemini-1.5-flash')

# 文本对话
response = model.generate_content("如何学习 Python？")
print(response.text)

# 多模态（图片）
import PIL.Image
img = PIL.Image.open('image.jpg')
response = model.generate_content(["这张图里有什么？", img])
print(response.text)

最后更新：2025-12

Gemini 使用指南

1. 模型版本

2. 核心优势：原生多模态与超长窗口

2.1 原生多模态 (Native Multimodal)

2.2 200万 Token 上下文

3. 使用 Google AI Studio

4. Google Workspace 集成

5. API 调用示例 (Python)

AI导航助手