Hugging Face 平台入门
这里托管了数十万个开源模型。
5分钟
2025-12-26
AI平台开发云服务Hugging
Hugging Face 平台入门
Hugging Face (抱抱脸) 是 AI 领域的 "GitHub"。它是全球最大的开源模型、数据集和 Demo 托管平台。无论你是想下载 Llama 3,还是想找一个微调好的数据集,或者体验最新的 AI 应用,这里都是第一站。
1. 三大核心板块
1.1 Models (模型库)
这里托管了数十万个开源模型。
- Search: 可以按任务(Text Generation, Image Classification)、库(PyTorch, Safetensors)、语言(Chinese, English)筛选。
- Model Card: 每个模型的主页,通常包含介绍、使用方法、License 和引用信息。
- Files: 模型的实际权重文件(
.bin,.safetensors)。
1.2 Datasets (数据集)
用于训练和微调的数据。
- 格式通常为 JSONL, Parquet 或 CSV。
- 可以直接通过
datasets库一行代码加载。
1.3 Spaces (应用空间)
可以在线运行的 AI 应用 Demo。
- 基于 Gradio 或 Streamlit 构建。
- 用于快速展示模型效果,你不需要买显卡,直接在网页上点几下就能测试最新的论文成果。
2. 如何下载模型
2.1 使用 Python (huggingface_hub)
这是最标准的方法,支持断点续传和缓存管理。
# 命令行工具
# pip install huggingface_hub
# huggingface-cli download <Repo_ID> --local-dir ./my_model
# Python 代码
from huggingface_hub import snapshot_download
model_path = snapshot_download(
repo_id="meta-llama/Meta-Llama-3-8B-Instruct",
local_dir="./llama3",
token="YOUR_HF_TOKEN" # 部分模型需要申请权限
)
2.2 国内加速 (重点)
由于网络原因,国内直接连接 Hugging Face 往往很慢或超时。可以使用镜像站 HF-Mirror。
Windows Powershell 设置环境变量:
$env:HF_ENDPOINT = "https://hf-mirror.com"
huggingface-cli download ...
Linux/Mac:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download ...
3. Transformers 库基础
Hugging Face 维护的 transformers 库是目前 NLP 领域的标准库。
from transformers import pipeline
# 极简模式:甚至不需要手动下载模型,它会自动缓存
classifier = pipeline("sentiment-analysis")
result = classifier("I love using Hugging Face!")
print(result)
# Output: [{'label': 'POSITIVE', 'score': 0.99}]
4. 常见问题
- Gated Models (门控模型): 像 Llama 3, Gemma 这样的模型,需要你先在 Hugging Face 网页上点击 "Agree" 签署协议,并且在代码中提供
User Access Token才能下载。 - Safetensors: 看到这个后缀不要奇怪,它是
.bin(PyTorch) 的替代品,加载速度更快且更安全(防止 pickle 注入攻击)。
最后更新:2025-12