Gemma 4本地实测：谷歌最强开源多模态模型

Gemma 4 太猛了！谷歌最强开源模型，本地就能跑多模态（实测）

来源零度解说 × 无（教程型独白）视频时长约11分钟报告字数3,528字阅读时间8min原始链接https://www.youtube.com/watch?v=jTVKagbUA68

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约11分钟📖 本报告 3,528字⏱ 预计阅读 8min💡 5个核心观点

导读

零度解说是国内知名的 AI 工具评测频道，专注于把海外最新 AI 工具以中文教程的形式带给普通用户，内容以实操演示为主，受众覆盖从零基础到有一定技术背景的 AI 爱好者。

这期视频的背景是 Google 刚刚正式发布了 Gemma 4 系列开源大模型。零度在第一时间完成了本地部署和多项能力测试，内容涵盖：模型参数对比、显存需求、Ollama 安装流程、多模态图像理解、逻辑推理，以及最关键的——将 Gemma 4 对接到 Claude Code 等 Agent 工具中实现自动化任务。

最值得记住的一件事：Gemma 4 的 31B 参数版本在公开排行榜上排第 3，超越了一批参数规模大 20 倍的模型，而且完全免费商用、支持完全离线运行——这对注重数据隐私、不想依赖云端 API 的用户来说是极大的解放。

核心观点速览

Gemma 4 是谷歌迄今最强的开源模型：4 个版本覆盖手机端到高端 GPU，全系 Apache 2.0 协议，免费商用。
31B 参数 = 超越 20 倍体量的竞品：在 Arena AI 文本排行榜上排第 3，26B 排第 6。
真正的多模态：图像、视频、音频均可理解，且支持 140+ 语言。
消费级显卡可跑：12GB 显存可跑量化版，16-24GB 可流畅使用 26B/31B 量化版。
可对接 Claude Code、OpenClaw、Codex：作为本地后端，驱动 Agent 工作流。

一、Gemma 4 系列全面解析

四个版本，覆盖手机到服务器

Google 这次一次性开源了 4 个不同参数规模的 Gemma 4 模型，针对不同设备和使用场景：

模型	参数规模	架构	适用设备
Gemma 4 2B	20 亿	紧凑型	手机 / IoT
Gemma 4 4B	40 亿	紧凑型	手机 / 边缘设备
Gemma 4 26B	260 亿	专家混合（MoE）	消费级 GPU
Gemma 4 31B	310 亿	稠密型	消费级高端 GPU

2B 和 4B 针对移动端做了优化，注重多模态能力和低延迟，可运行在数十亿台 Android 设备上；26B 和 31B 则面向更强大的设备，可本地驱动 IDE 编程助手和 Agent 工作流。

一个重要区别：26B 采用的是 MoE（混合专家）架构，实际激活参数更少，因此比稠密型的 31B 速度更快、显存占用更低，适合追求速度的用户；31B 稠密型则在质量上更胜一筹，适合追求效果。

排行榜数据

在 Arena AI 文本排行榜（用户盲测投票，目前公认最客观的 LLM 排行榜之一）上：

Gemma 4 31B：排名第 3
Gemma 4 26B：排名第 6

零度特别强调：这些模型超越了一些参数规模大 20 倍的模型。这意味着每个参数的"性价比"做到了前所未有的高度。

能力清单

多模态理解：图像、视频、音频均可输入（较大版本支持音频）
光学字符识别（OCR） ：识别图片中的文字
代码生成：支持完全离线编码
Agent 工作流：可作为工具调用型 Agent 后端
多语言：支持 140+ 种语言
许可证：Apache 2.0，允许免费商业使用，可自由修改和部署

二、显存要求与版本选择指南

Google 官方列出了各量化版本的显存需求，零度在视频中做了整理：

量化精度	文件大小	最低显存需求	备注
Q4（最低）	约 9.6G	3GB	仅限 4B 以下小模型
Q4（26B）	约 16GB	12GB 以上	甜品级首选
Q4（31B）	约 18-20GB	24GB	零度演示机配置
BF16 满血（31B）	63GB	63GB+	旗舰级，需高端卡

零度的实际建议：

显卡 12GB → 选 Gemma 4 26B 的 Q4 量化版（约 9.6G）
显卡 24GB → 选 31B 的 Q4 量化版（约 16-18G）
追求极致质量且显存充裕 → 31B BF16 满血版（63G）

零度自己的显卡是 24GB，他选择了 26B 量化版（约 16GB），并特别指出 31B 虽然质量更好，但会把 24GB 显存打满，输出速度较慢（测试时用了约 200 秒） 。因此他后来在 Agent 测试时切换到了更小的量化版以换取速度。

三、本地安装流程（Ollama 方案）

视频演示了最简单的安装方式：通过 Ollama 一键下载运行。

完整流程

第一步：安装 Ollama 客户端

前往 Ollama 官网，下载对应系统版本（Windows / Mac / Linux），总大小约 1.7GB，安装约 1 分钟。

第二步：选择模型版本

在 Ollama 的 Gemma 4 页面，可以看到多个量化版本：

默认版本（9.6G）：适合 12GB 显卡
更小量化版（7.2G）：更省显存
26B 量化版（约 16-18G）
31B BF16 满血版（63G）

按自己的显存选对应版本，复制一键安装命令。

第三步：在终端运行安装命令

打开命令提示符（Windows：CMD 或 PowerShell），粘贴安装命令，回车。模型会自动下载（16GB 约 2 分钟，实际取决于网速）。

第四步：在 Ollama 客户端使用

安装完成后，打开 Ollama 客户端，在模型选择栏找到 Gemma 4，即可直接对话使用。

除 Ollama 外，视频也提到可以用 LM Studio 进行安装，操作方式类似。

四、三项实测：能力表现如何？

实测一：视觉 + 代码能力（架构图 → Docker 部署文件）

测试方法：给 Gemma 4 31B 上传一张复杂的企业级 AWS 云原生架构图，要求根据图中结构生成对应的 Docker Compose 部署文件。

Gemma 4 的表现：

进入深度思考模式后，正确识别出架构图中的组件：Nginx 负载均衡、多 WordPress 实例、主从数据库、Redis 缓存、S3 对象存储、共享卷
生成了完整的 Docker Compose 文件
附带部署说明和步骤

零度评价："这样我们只要通过一张图，就可以帮我们搞定了。" 这个任务对视觉理解和代码生成的综合能力要求很高，表现令人满意。

注意：由于 31B 模型把他的 24GB 显存几乎打满，输出速度较慢，总共用了约 200 秒。这是本地大模型在消费级设备上的正常局限——用 26B 量化版会快很多。

实测二：高级逻辑推理（网络排障问题）

测试方法：提出一个网络配置逻辑矛盾题——

"我有一个内网 IP 地址是 192.168.1.10 的服务器，我已经在路由器上把 80 端口映射到 192.168.2.20，为什么外网还是访问不了？请列出所有逻辑上的矛盾点。"

（注意：这个问题本身就有逻辑陷阱——映射的内网 IP 和服务器 IP 不是同一个。）

Gemma 4 的表现：

正确识别出核心矛盾：端口映射指向的 IP（192.168.2.20）与服务器 IP（192.168.1.10）不一致
进一步指出了其他可能原因：公网 IP 是否是运营商内网 IP（如 100.x.x.x 网段的大内网 IP，无法从真正公网访问）
给出了清晰的排查步骤

零度评价："它是非常聪明的，高级推理能力还是非常不错的，至少目前还没有翻车。"

实测三：多模态视觉 → 代码生成（截图 → 游戏）

测试方法：上传一张截图，让 Gemma 4 根据截图设计并生成一款可运行的在线小游戏（代码）。

Gemma 4 的表现：

快速生成了完整的游戏代码（HTML + JavaScript）
零度将代码直接粘贴到浏览器运行，游戏完全可玩
演示中成功抓取了 5 个金块，游戏逻辑正常，最终得分 2300 个金币，显示"恭喜你，通关成功"

零度的点评："这还只是本地的量化版模型，已经非常可以了。" 强调了这个结果不是通过 API 云端模型实现的，而是运行在本地消费级显卡上的量化版本。

五、Agent 实测：对接 Claude Code（OpenClaw）

这是视频最有实用价值的部分——将 Gemma 4 作为本地模型后端，对接到 AI 编程 Agent 工具上。

支持的 Agent 工具

Ollama 上的 Gemma 4 可直接对接以下工具：

Claude Code（视频中称为"OpenClaw"，即 Ollama 的 Claude Code 桥接方案）
OpenClaw（Claude Code 的开源替代）
Codex / Open Code
Open WebUI（前端界面）

实际对接步骤

在 Ollama 客户端找到"连接到 Claude Code"的安装命令，复制
以管理员身份打开 PowerShell，粘贴并运行
选择模型（Gemma 4 31B），确认
访问生成的本地链接，即可在浏览器中以类 Claude Code 界面使用 Gemma 4

Agent 能力测试

任务：抓取 Hugging Face 上今天前 5 条 AI 相关新闻，总结要点，翻译成中文，生成 Markdown 格式文章，方便发布到 WordPress。

结果：Gemma 4 作为 Agent 后端，自动调用工具，完成了抓取→整理→翻译→格式化的完整流程，输出了可直接粘贴到 WordPress 使用的 Markdown 文章。

这个案例的意义在于：完全本地化的 Agent 工作流，不经过任何云端 API，数据不出本机，对企业或注重隐私的用户而言非常有价值。

六、为什么 Gemma 4 重要？（延伸解读）

视频本身以教程为主，但背后有几个更大的意义值得提炼：

1. 开源 vs 闭源的权力转移

Gemma 4 31B 在公开排行榜排第 3，意味着一个可以本地运行、免费商用的开源模型，性能已经接近 GPT-4o、Claude Sonnet 这类顶级闭源模型。对普通开发者和中小企业来说，"用不起云端 API"这个门槛正在消失。

2. 数据隐私的真正解决方案

以前说"本地大模型"，大多数人要么没显卡跑不了，要么质量太差用不上。现在有了 12GB 显卡可跑的 Gemma 4 26B，且性能足够实用——这是第一次让"把大脑装在自己电脑里"变得普通人可及。

3. MoE 架构的胜利

26B MoE 版本之所以能用更少显存达到接近 31B 密集版的效果，是因为 MoE 每次推理只激活部分专家网络，计算量大幅减少。这代表了 2025-2026 年大模型架构的主流趋势——不是堆参数，而是更聪明地使用参数。

4. 移动端 AI 的真正起点

2B 和 4B 版本可以跑在普通 Android 手机上，支持多模态，支持 Agent——未来手机里会内置一个能听、能看、能推理的本地 AI 引擎，Gemma 4 是这条路上目前最强的起点。

七、行动指南

如果你只是想体验一下：用 Ollama 安装 Gemma 4 26B 的 Q4 量化版（12GB 显卡即可），用 Open WebUI 作为前端，5 分钟完成配置。

如果你想用于 Agent 工作流：按视频演示，通过 Ollama 对接 Claude Code 或 OpenClaw，把 Gemma 4 作为本地 LLM 后端，可以完成：抓网页、读文件、写代码、生成文档等自动化任务，全程不依赖云端 API。

如果你在做企业内网部署：选 31B BF16 满血版（需要 A100/H100 级别显卡），结合 Apache 2.0 许可证，可以自由修改部署，无需向 Google 支付任何费用。

显存选型速查：

你的显卡显存	推荐版本
4-8GB	4B 量化版
12GB	26B Q4量化（9.6G）
16-24GB	31B Q4量化（16-20G）
40GB+	31B BF16 满血（63G）

附录：金句与关键信息

"它的单位参数智能水平做到了前所未有的高度。" —— Google 官方声明

"这还只是本地的量化版模型，已经非常可以了。" —— 零度

"全系列采用 Apache 2.0 许可协议，允许免费商业使用，任何人都可以自由修改和部署。"

时间线索引

时间	内容
[00:00]	Gemma 4 发布介绍，4 个版本概览
[00:30]	四版本参数对比（2B/4B/26B/31B）
[01:00]	Arena AI 排行榜：31B 排第3，26B 排第6
[01:30]	多模态能力、多语言、Apache 2.0 许可介绍
[02:00]	显存需求表格解析
[02:20]	Ollama 下载安装演示
[03:30]	在 Ollama 选择并下载 Gemma 4 模型
[05:30]	实测一：架构图 → Docker 部署文件
[06:55]	实测二：网络逻辑推理（端口映射问题）
[08:55]	实测三：截图 → 游戏代码
[09:45]	对接 Claude Code（OpenClaw）演示
[10:45]	Agent 任务：抓取 HuggingFace 新闻并输出 Markdown
[11:05]	资料下载地址说明

Ctrl+Enter 发送

还没有评论，来第一个留言吧 ✨

你可能也喜欢

AI 前沿

从仓库到工厂：黄仁勋的计算终局判断

：Lex Fridman × ：Jensen Huang（NVIDIA CEO，在任 34 年，全球最长任职科技公司 CEO）

9min · 4,376字

AI 前沿

7M 参数 + 1000 样本击败 o3：YC 拆解为什么 Recursion 是下一代 AI scaling law

Y Combinator · Decoded × Francois（YC visiting partner，资深 ML 研究员）

13min · 6,403字

AI 前沿

当50年风险管理大师听到"等死几千万人再说"——Paul Tudor Jones 的 AI 恐惧

：Paul Tudor Jones（Tudor Investment 创始人，50年市场经验）

8min · 3,831字

AI 前沿

诺奖得主的 AGI 缺口清单：Demis Hassabis 认为我们还差什么

：Demis Hassabis（Google DeepMind CEO，2024 诺贝尔化学奖得主，AlphaFold / AlphaGo 创造者）

8min · 3,547字

← 浏览更多报告

AI 前沿

Gemma 4本地实测：谷歌最强开源多模态模型

Gemma 4 太猛了！谷歌最强开源模型，本地就能跑多模态（实测）

来源零度解说 × 无（教程型独白）视频时长约11分钟报告字数3,528字阅读时间8min原始链接https://www.youtube.com/watch?v=jTVKagbUA68

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约11分钟📖 本报告 3,528字⏱ 预计阅读 8min💡 5个核心观点

导读

核心观点速览

Gemma 4 是谷歌迄今最强的开源模型：4 个版本覆盖手机端到高端 GPU，全系 Apache 2.0 协议，免费商用。
31B 参数 = 超越 20 倍体量的竞品：在 Arena AI 文本排行榜上排第 3，26B 排第 6。
真正的多模态：图像、视频、音频均可理解，且支持 140+ 语言。
消费级显卡可跑：12GB 显存可跑量化版，16-24GB 可流畅使用 26B/31B 量化版。
可对接 Claude Code、OpenClaw、Codex：作为本地后端，驱动 Agent 工作流。

一、Gemma 4 系列全面解析

四个版本，覆盖手机到服务器

Google 这次一次性开源了 4 个不同参数规模的 Gemma 4 模型，针对不同设备和使用场景：

模型	参数规模	架构	适用设备
Gemma 4 2B	20 亿	紧凑型	手机 / IoT
Gemma 4 4B	40 亿	紧凑型	手机 / 边缘设备
Gemma 4 26B	260 亿	专家混合（MoE）	消费级 GPU
Gemma 4 31B	310 亿	稠密型	消费级高端 GPU

排行榜数据

在 Arena AI 文本排行榜（用户盲测投票，目前公认最客观的 LLM 排行榜之一）上：

Gemma 4 31B：排名第 3
Gemma 4 26B：排名第 6

零度特别强调：这些模型超越了一些参数规模大 20 倍的模型。这意味着每个参数的"性价比"做到了前所未有的高度。

能力清单

多模态理解：图像、视频、音频均可输入（较大版本支持音频）
光学字符识别（OCR） ：识别图片中的文字
代码生成：支持完全离线编码
Agent 工作流：可作为工具调用型 Agent 后端
多语言：支持 140+ 种语言
许可证：Apache 2.0，允许免费商业使用，可自由修改和部署

二、显存要求与版本选择指南

Google 官方列出了各量化版本的显存需求，零度在视频中做了整理：

量化精度	文件大小	最低显存需求	备注
Q4（最低）	约 9.6G	3GB	仅限 4B 以下小模型
Q4（26B）	约 16GB	12GB 以上	甜品级首选
Q4（31B）	约 18-20GB	24GB	零度演示机配置
BF16 满血（31B）	63GB	63GB+	旗舰级，需高端卡

零度的实际建议：

显卡 12GB → 选 Gemma 4 26B 的 Q4 量化版（约 9.6G）
显卡 24GB → 选 31B 的 Q4 量化版（约 16-18G）
追求极致质量且显存充裕 → 31B BF16 满血版（63G）

三、本地安装流程（Ollama 方案）

视频演示了最简单的安装方式：通过 Ollama 一键下载运行。

完整流程

第一步：安装 Ollama 客户端

前往 Ollama 官网，下载对应系统版本（Windows / Mac / Linux），总大小约 1.7GB，安装约 1 分钟。

第二步：选择模型版本

在 Ollama 的 Gemma 4 页面，可以看到多个量化版本：

默认版本（9.6G）：适合 12GB 显卡
更小量化版（7.2G）：更省显存
26B 量化版（约 16-18G）
31B BF16 满血版（63G）

按自己的显存选对应版本，复制一键安装命令。

第三步：在终端运行安装命令

打开命令提示符（Windows：CMD 或 PowerShell），粘贴安装命令，回车。模型会自动下载（16GB 约 2 分钟，实际取决于网速）。

第四步：在 Ollama 客户端使用

安装完成后，打开 Ollama 客户端，在模型选择栏找到 Gemma 4，即可直接对话使用。

除 Ollama 外，视频也提到可以用 LM Studio 进行安装，操作方式类似。

四、三项实测：能力表现如何？

实测一：视觉 + 代码能力（架构图 → Docker 部署文件）

测试方法：给 Gemma 4 31B 上传一张复杂的企业级 AWS 云原生架构图，要求根据图中结构生成对应的 Docker Compose 部署文件。

Gemma 4 的表现：

进入深度思考模式后，正确识别出架构图中的组件：Nginx 负载均衡、多 WordPress 实例、主从数据库、Redis 缓存、S3 对象存储、共享卷
生成了完整的 Docker Compose 文件
附带部署说明和步骤

零度评价："这样我们只要通过一张图，就可以帮我们搞定了。" 这个任务对视觉理解和代码生成的综合能力要求很高，表现令人满意。

实测二：高级逻辑推理（网络排障问题）

测试方法：提出一个网络配置逻辑矛盾题——

"我有一个内网 IP 地址是 192.168.1.10 的服务器，我已经在路由器上把 80 端口映射到 192.168.2.20，为什么外网还是访问不了？请列出所有逻辑上的矛盾点。"

（注意：这个问题本身就有逻辑陷阱——映射的内网 IP 和服务器 IP 不是同一个。）

Gemma 4 的表现：

正确识别出核心矛盾：端口映射指向的 IP（192.168.2.20）与服务器 IP（192.168.1.10）不一致
进一步指出了其他可能原因：公网 IP 是否是运营商内网 IP（如 100.x.x.x 网段的大内网 IP，无法从真正公网访问）
给出了清晰的排查步骤

零度评价："它是非常聪明的，高级推理能力还是非常不错的，至少目前还没有翻车。"

实测三：多模态视觉 → 代码生成（截图 → 游戏）

测试方法：上传一张截图，让 Gemma 4 根据截图设计并生成一款可运行的在线小游戏（代码）。

Gemma 4 的表现：

快速生成了完整的游戏代码（HTML + JavaScript）
零度将代码直接粘贴到浏览器运行，游戏完全可玩
演示中成功抓取了 5 个金块，游戏逻辑正常，最终得分 2300 个金币，显示"恭喜你，通关成功"

五、Agent 实测：对接 Claude Code（OpenClaw）

这是视频最有实用价值的部分——将 Gemma 4 作为本地模型后端，对接到 AI 编程 Agent 工具上。

支持的 Agent 工具

Ollama 上的 Gemma 4 可直接对接以下工具：

Claude Code（视频中称为"OpenClaw"，即 Ollama 的 Claude Code 桥接方案）
OpenClaw（Claude Code 的开源替代）
Codex / Open Code
Open WebUI（前端界面）

实际对接步骤

在 Ollama 客户端找到"连接到 Claude Code"的安装命令，复制
以管理员身份打开 PowerShell，粘贴并运行
选择模型（Gemma 4 31B），确认
访问生成的本地链接，即可在浏览器中以类 Claude Code 界面使用 Gemma 4

Agent 能力测试

任务：抓取 Hugging Face 上今天前 5 条 AI 相关新闻，总结要点，翻译成中文，生成 Markdown 格式文章，方便发布到 WordPress。

结果：Gemma 4 作为 Agent 后端，自动调用工具，完成了抓取→整理→翻译→格式化的完整流程，输出了可直接粘贴到 WordPress 使用的 Markdown 文章。

这个案例的意义在于：完全本地化的 Agent 工作流，不经过任何云端 API，数据不出本机，对企业或注重隐私的用户而言非常有价值。

六、为什么 Gemma 4 重要？（延伸解读）

视频本身以教程为主，但背后有几个更大的意义值得提炼：

1. 开源 vs 闭源的权力转移

2. 数据隐私的真正解决方案

3. MoE 架构的胜利

4. 移动端 AI 的真正起点

七、行动指南

如果你只是想体验一下：用 Ollama 安装 Gemma 4 26B 的 Q4 量化版（12GB 显卡即可），用 Open WebUI 作为前端，5 分钟完成配置。

如果你在做企业内网部署：选 31B BF16 满血版（需要 A100/H100 级别显卡），结合 Apache 2.0 许可证，可以自由修改部署，无需向 Google 支付任何费用。

显存选型速查：

你的显卡显存	推荐版本
4-8GB	4B 量化版
12GB	26B Q4量化（9.6G）
16-24GB	31B Q4量化（16-20G）
40GB+	31B BF16 满血（63G）

附录：金句与关键信息

"它的单位参数智能水平做到了前所未有的高度。" —— Google 官方声明

"这还只是本地的量化版模型，已经非常可以了。" —— 零度

"全系列采用 Apache 2.0 许可协议，允许免费商业使用，任何人都可以自由修改和部署。"

时间线索引

时间	内容
[00:00]	Gemma 4 发布介绍，4 个版本概览
[00:30]	四版本参数对比（2B/4B/26B/31B）
[01:00]	Arena AI 排行榜：31B 排第3，26B 排第6
[01:30]	多模态能力、多语言、Apache 2.0 许可介绍
[02:00]	显存需求表格解析
[02:20]	Ollama 下载安装演示
[03:30]	在 Ollama 选择并下载 Gemma 4 模型
[05:30]	实测一：架构图 → Docker 部署文件
[06:55]	实测二：网络逻辑推理（端口映射问题）
[08:55]	实测三：截图 → 游戏代码
[09:45]	对接 Claude Code（OpenClaw）演示
[10:45]	Agent 任务：抓取 HuggingFace 新闻并输出 Markdown
[11:05]	资料下载地址说明