实用教程
工具使用和开发集成实用教程
工具教程
Claude Code、Cursor等AI工具安装与使用
最详细的 Claude Code 安装教程,Windows/macOS/Linux 全平台支持,包含环境配置、API设置、常见问题解答
根据不同场景选择最合适的AI大模型,避免浪费预算
从注册到进阶,全面掌握ChatGPT的使用技巧
AI编程助手Copilot的安装配置和使用技巧
Anthropic官方终端AI编程工具Claude Code的完整使用指南
AI原生编辑器Cursor的完整使用教程,从入门到精通
Dify、Coze、n8n等平台快速构建智能体
Suno V4 于 2024 年底/2025 年初发布,主要改进包括:
| 特性 | Suno V4 | Udio 1.5/2.0 |
- **Text to Speech (TTS)**: 文字转语音。支持 29 种语言。
OpenAI 提供了目前市面上也属于第一梯队的文本转语音(Text-to-Speech, TTS)模型。它的特点是**极度自然**,能在只有文本输入的情况下,自动脑补出语气、停顿和情感,听起来完全不像传统的机械朗读。
通义听悟(Tongyi Tingwu)是阿里云推出的一款**工作学习效率神器**。它专注于音频/视频内容的转写与分析,不仅能把长达几小时的会议录音瞬间变成文字,还能帮你总结重点、画思维导图。
Whisper 是 OpenAI 开源的一个通用语音识别模型。与传统的语音识别服务(如百度、谷歌 API)不同,Whisper 是完全**开源免费**的,你可以把它下载到自己的电脑上离线运行。它是目前全球公认的开源语音识别效果的天花板。
Claude 目前主要提供三个量级的模型:
Gemini 的命名体系分为三个等级:
文心一言(ERNIE Bot)是百度推出的基于文心大模型(ERNIE)技术的新一代知识增强大语言模型。它在中文语言处理、中国文化理解以及多模态生成方面具有显著优势,非常适合国内用户在写作、办公、编程等场景使用。
Kimi 智能助手基于 Moonshot AI 自研的大模型开发。
豆包(Doubao)是字节跳动推出的一款超智能 AI 助手,基于云雀大模型开发。它以“拟人化”和“语音交互”见长,不仅是一个问答工具,更像是一个随时在线的智能伙伴。豆包在移动端的体验尤为出色,同时提供了网页版和桌面客户端。
Qwen 的产品线覆盖全尺寸:
通义千问(Tongyi Qianwen,英文名 Qwen)是阿里云推出的超大规模语言模型。它在开源界(Hugging Face)和闭源应用(通义 App)中都表现极佳,是目前国产大模型中的佼佼者,特别是在长文档处理和代码能力上。
DeepSeek 是由杭州深度求索人工智能基础技术研究有限公司开发的系列大模型。
Perplexity 是一个**对话式搜索引擎**。
POE(Platform for Open Exploration)是由知名问答社区 Quora 推出的 AI 聚合平台。它不是一个单一的 AI 模型,而是一个超级入口,让你能在一个 App 或网页里同时使用世界上最顶尖的几乎所有 AI 模型。
Windsurf 是基于 VS Code 开发的 IDE,因此它完美兼容 VS Code 的所有插件和主题。
- **完全开源**:完全免费且开源,不用担心隐私问题,代码透明。
Continue 是目前最受欢迎的**开源** AI 编程助手插件。与 GitHub Copilot 不同,Continue 允许你自由连接任何 LLM 模型——无论是云端的 GPT-4/Claude 3.5 Sonnet,还是本地运行的 DeepSeek/Llama 3。这使它成为隐私敏感型开发者或希望低成本使用 AI 的首选。
Amazon CodeWhisperer 现已升级并集成到 **Amazon Q Developer** 中。这是亚马逊 AWS 推出的企业级 AI 编程助手。与 GitHub Copilot 相比,它更强调**安全性**、**企业合规**以及与 AWS 云服务的深度集成。
Tabnine 是大模型辅助编程领域的元老级产品。与 GitHub Copilot 和 Cursor 不同,Tabnine 更加侧重于**企业级安全**和**私有代码保护**。它是众多 500 强企业(如 LG, Samsung)的首选 AI 编程工具。
Devin 是由 Cognition AI 推出的全球首个**全自主 AI 软件工程师**。它的出现标志着 AI 编程工具从“副驾驶 (Copilot)”向“自动驾驶 (Autopilot)”的跨越。
- **极致的真实感**:V7 在皮肤纹理、解剖结构(尤其是手部)和光影渲染上达到了新的高度,几乎难以区分真假。
传统的绘图模型需要:
新手常混淆的概念:
- **显存优化极致**:在低显存显卡上,ComfyUI 往往能跑出更高分辨率的图,因为它不会一直加载所有模型。
Adobe Firefly 是 Adobe 推出的创意生成式 AI 模型系列。与其他 AI 工具不同,Firefly 的最大卖点是**商业安全**——它的训练数据全部来自 Adobe Stock 正版图库和公开许可内容,企业用户可以放心使用而无需担心版权纠纷。
Leonardo AI 是目前功能最全面、对免费用户最友好的 AI 绘图平台之一。它不仅画质极佳(特别是游戏资产、3D 渲染风格),还提供了包括**模型微调**、**实时画布**、**纹理生成**在内的一整套工具链。
即梦 AI(原名 Dreamina)是字节跳动推出的顶级 AI 创作平台。依托于抖音庞大的视频数据和豆包模型,即梦不仅在**AI 绘画**上表现出色,其**AI 视频生成**能力更是目前国内第一梯队,甚至被誉为“中国版 Sora”。
通义万相(Tongyi Wanxiang)是阿里云推出的 AI 绘画创作平台。基于阿里强大的通义大模型家族,它在**电商设计**、**艺术风格迁移**以及**创意素材生成**方面表现尤为突出。
- **通义 APP**: 手机端直接使用。
文心一格(Wenxin Yige)是百度推出的 AI 艺术和创意辅助平台。它基于文心大模型的跨模态生成能力,是国内最早公测的 AI 绘画产品之一。它最大的优势在于**懂中国文化**。
- **国风/艺术风格**: 百度在中文古诗词理解上优势明显。输入一句“落霞与孤鹜齐飞”,它能生成非常有意外境的国画。
在 AI 绘画领域,一直有一个痛点:AI 不会写字。你让 Midjourney 画一个“写着 Happy Birthday 的蛋糕”,它往往会画出一堆乱码。
Flux 目前发布了三个版本:
Sora 2 是 OpenAI 推出的第二代视频生成模型,相比初代版本(Sora 1.0),它在“理解物理世界”方面取得了重大突破。
Runway Gen-3 Alpha 是目前(2025年)市面上公认第一梯队的视频模型。
Pika 2.0 是一次质的飞跃,它不仅仅是生成视频,更是让视频“活”了起来。新增的**对口型 (Lip Sync)** 和 **音效生成 (Sound Effects)** 功能,让你一个人就能像皮克斯工作室一样制作有声有色的动画短片。
- **生成时长**: 这是可灵最大的卖点。相比于 Runway/Luma 通常只有 5-10 秒,可灵支持单次生成 5 秒,但可多次延展至 3 分钟以上,且保持连贯。
即梦 AI 的视频生成功能是目前国内公认的“最强战力”,甚至在很多场景下超过了国外的 Runway Gen-2。依托字节跳动强大的算法积累,即梦生成的视频在**动作幅度**和**画面连贯性**上表现惊人。
Vidu 是由生数科技(核心团队来自清华大学)发布的国产自研视频大模型。它是国内最早对标 OpenAI Sora 的产品之一,主打**一键生成高清长视频**和**极致的一致性**。
Dream Machine 是一个高质量、高速度的 Transformer 架构视频生成模型。
Haiper 是由前 Google DeepMind 和 TikTok 团队成员创立的 AI 视频生成平台。它主打**视觉美学**和**可控性**,其生成的视频在色彩和光影上非常讨喜,且提供了一系列精细的控制工具。
Minimax(海螺 AI)是 2024-2025 年异军突起的国产大模型黑马。其推出的 `video-01` 模型以**极高的清晰度**和**电影级质感**著称,在很多评测中被认为是最接近 Sora 画质的国产模型之一。
PixVerse 是一款功能非常均衡的 AI 视频生成工具。它最大的特色在于**角色一致性 (Character Consistency)** 和 **4K 超高清放大**,非常适合用来制作连续剧情的 AI 短片。
Morph Studio 与其说是一个视频生成工具,不如说是一个**AI 视频剪辑工作台**。它的设计理念不是“生成一个片段”,而是“制作一部电影”。它首创了 Storyboard(故事板)工作流,极大提升了长视频的制作效率。
Hotshot 最初是一个网页版 AI 视频生成服务,后来其团队被 xAI 收购。目前,Hotshot 最宝贵的遗产是其开源的 **Hotshot XL** 模型。
开发集成
API接入、MCP配置、开发框架等
Claude Code + MCP 服务器一键安装脚本,支持配置中转站 API,适用于 Windows/macOS/Linux
为 Claude Code 配置常用 MCP 服务器,扩展文件访问、网络搜索、浏览器控制等能力
从零开始学习如何调用各大AI模型的API,包含完整代码示例
手把手教你在 Claude Desktop 和 Cursor 中配置 MCP,连接文件系统、数据库等
学习最流行的LLM应用开发框架LangChain,构建RAG、Agent等AI应用
学习专为RAG设计的LlamaIndex框架,轻松构建知识库问答系统
使用 Vercel AI SDK 快速构建 AI 驱动的 Web 应用,支持流式响应
LangChain、LlamaIndex等主流框架实战
Google AI Studio 是 Google 提供的免费且强大的 AI 开发平台。通过它,开发者可以免费获取 Gemini Pro 的 API Key,并使用多模态 Prompt 进行实验。
- **Freeform Prompt**: 自由模式,像写文档一样写 Prompt,可以图文混排。
OpenAI Playground 是面向开发者和专业用户的调试后台。与 ChatGPT 这个“成品软件”不同,Playground 让你能接触到 GPT 模型的底层参数,是学习 Prompt Engineering(提示词工程)的最佳场所。
Playground 提供了三种交互模式,对应 API 的三个端点:
Anthropic Console 是 Claude 系列模型(Claude 3.5 Sonnet / Opus)的开发者后台。它界面极其简洁,但拥有一个业界最强的杀手锏功能:**Prompt Generator (提示词生成器)**。
Anthropic 的工作台设计非常极简。
这里托管了数十万个开源模型。
Replicate 是一个“让 AI 模型像 API 一样调用”的平台。它并不生产模型,而是把开源界最强的模型(如 Llama 3, Stable Diffusion XL, Whisper)都部署在云端,你只需要写几行代码就可以调用,按秒计费。
一个完整的 AI 应用。包含人设(Prompt)、技能(Plugins/Workflows)、记忆(Database)和开场白。
不同于 Coze 等 C 端平台,Dify 更偏向于 **企业级/开发者** 场景。
FastGPT 是一个基于 LLM 的开源知识库问答系统。简单来说,它可以让你把公司的文档、产品手册喂给 AI,然后快速生成一个“懂业务”的 AI 客服或助手。它最大的特点是**可视化工作流**编排。
硅基流动(SiliconFlow)是目前国内最强的开源模型加速平台之一。它提供了包括 Qwen 2, DeepSeek V2, GLM-4, Stable Diffusion 3 在内的顶尖开源模型的 API 服务。
Tool Use(在 OpenAI 中也称为 Function Calling)是让大模型连接外部世界的桥梁。通过这个功能,AI 不再只是一个只会聊天的机器,而是能联网搜索、查询数据库、操作软件的智能体(Agent)。
现在的顶尖大模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro)基本都是多模态模型,它们不仅能读文字,还能“看”图片。通过 Vision API,你可以实现图像识别、OCR、看图写代码等功能。
- **一个 Key 调所有**: 只需要配置一个 OpenRouter API Key,就能调用上百种模型。
- **极致速度**: 针对开源模型进行了深度推理优化,Token 生成速度极快。
LLM 生成回复需要时间,尤其是生成长文时,首字延迟 (TTFT) 可能只有 0.5 秒,但生成完整内容可能需要 30 秒。
在没有 Function Calling 之前,如果你问 ChatGPT:“今天北京天气怎么样?”,它只能告诉你:“我无法联网,不知道。”
不要一股脑把 100 个 API 全扔给 LLM。
当你希望 AI 把一篇简历提取成数据库能存的格式时:
- **截图转代码**: 传一张网页截图,让 AI 直接写出 HTML/Tailwind 代码。
如果把 GPT-4 比作**顶级大厨**(核心大脑),那么 LangChain 就是**设备齐全的现代化厨房**。
很多新手会问:"我已经学了 LangChain,还需要学 LlamaIndex 吗?它们有什么区别?"
如果你是做网页开发(Web Developer)出身,特别是用 **Next.js** 或 **React** 的,那你肯定会爱死这个库。
在 LangChain 的早期,Agent(智能体)是个黑盒子。你告诉它:"帮我查天气然后发邮件"。
如果说 LangGraph 是让你像程序员一样精确控制流程,那么 **CrewAI** 则是让你像**老板**一样管理公司。
**AutoGen** 是由**微软 (Microsoft)** 研究院推出的多智能体框架。与 CrewAI 类似,它也主打"多 Agent 对话",但它的技术底蕴更深,甚至支持 Agent 之间**互相写代码、运行代码**。
这也是**微软**出品的框架,但定位和 AutoGen 完全不同。
**Deepset Haystack** 是一个老牌的、德国严谨风格的 NLP 框架。
实用教程
VPS搭建、服务器配置等实用教程
从零开始搭建稳定防封的代理节点,Vmess + WebSocket + TLS + 网站伪装,适用于各种客户端
构建一个能规划行程、预订服务的旅行智能体
实现自动搜索、分析并生成研究报告的智能体
创建多智能体虚拟社会,模拟社交互动
综合运用所学,设计并实现你的智能体项目
Ollama 是一个开源的大模型管理和推理工具,类似于 Docker 之于容器。
vLLM 是目前最流行的高性能大模型推理引擎。它最著名的技术是 **PagedAttention**,能将显存利用率和吞吐量(Throughput)提升 10 倍以上。
- **环境隔离**: 你的 Stable Diffusion 需要 PyTorch 1.13,而 vLLM 需要 PyTorch 2.1,装在同一个系统里必定冲突。Docker 让它们互不干扰。
如果你手头有多个 API Key(OpenAI, Claude, Azure, 硅基流动等),或者你想把 API 分发给团队/朋友使用并控制额度,你需要一个 **API 管理系统**。
Cloudflare 不仅能加速网站,现在还能跑 AI。**Workers AI** 是 Cloudflare 推出的 Serverless AI 推理服务。它的惊人之处在于:代码运行在全球边缘节点,离用户最近,且**免费额度极高**。
Vercel 是 Next.js 的母公司,也是目前部署 AI Web 应用(如 Chatbot)的首选平台。配合 **Vercel AI SDK**,你可以用几十行代码写出一个功能完备的 ChatGPT 网页版。
- **界面**: 极简的聊天窗口 (Streamlit)。
知识库问答是目前最落地的 AI 应用场景。本教程将教你如何把一份 100 页的操作手册变成一个“百问百答”的 AI 助手。
做客服机器人比做知识库更难,因为客服需要“情商”,而且不能一直当复读机。
不想写周报?让 AI 帮你写。这个项目的核心在于**数据收集**。AI 写不出东西是因为没有素材,一旦你把这周做的事喂给它,它能写得比你好十倍。
直接让 AI “把这段话翻译成中文”,效果通常很一般。如果你想达到“信达雅”的级别,必须使用 **Agentic Translation(代理翻译)** 模式。这是吴恩达(Andrew Ng)大力推崇的模式。
如何让 AI 总结一份 200 页的财报或一本小说?直接丢给它肯定会报错(Token 超限),或者它只读了开头和结尾。我们需要使用 **Map-Reduce** 策略。
你是否想给自己的博客或 CMS 加上类似 Notion AI 的“魔法棒”功能?其实非常简单,核心就是一个文本处理接口。
以前做“拍照识物”需要训练复杂的卷积神经网络(CNN),现在有了多模态大模型,你只需要写一句 Prompt。
视频教程
即将上线精选视频教程,敬请期待
从零开始学习使用ChatGPT
用AI写代码的完整流程