别再给AI交月费：Gemma 4本地部署零成本指南

来源九姨小课堂 × 无（单人教程）视频时长约10分钟报告字数3,837字阅读时间8min原始链接https://www.youtube.com/watch?v=zmETsyALUX8

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约10分钟📖 本报告 3,837字⏱ 预计阅读 8min💡 5个核心观点

导读

九姨小课堂是一个中文 AI 工具教程频道，以"手把手教学、零基础友好"著称，专注于让普通人也能用上最前沿的 AI 技术。九姨的视频节奏快、信息密度高，特别擅长把看似复杂的技术操作拆解成谁都能跟着做的步骤。

Google 刚刚发布了 Gemma 4 系列模型——一整个从手机到工作站全覆盖的开源模型家族。九姨第一时间做了这期拆解+部署教程，核心论点非常明确：Gemma 4 采用 Apache 2.0 协议，意味着你可以免费商用、数据不出本地、彻底告别给AI交月费的时代。

这不只是一次模型更新，而是"个人技术主权"的一次集体迁移。

核心观点速览

Gemma 4 不是一个模型，是一整个全能家族。 从手机端的 E2B/E4B（口袋级），到消费级显卡的 26B MoE（效率王），再到工作站级的 31B Dense（智商天花板），覆盖了几乎所有使用场景。
Apache 2.0 协议才是最大的新闻。 以前 Google 的"开源"总让人觉得是"借给你用"，现在彻底放开——随便改、随便封装、甚至直接拿去卖钱，没有法律追溯风险。
12GB 显存就能跑 26B 大模型。 通过 MoE（混合专家）架构，26B 模型每次只激活 3.8B 参数，在 RTX 3060 级别的显卡上就能流畅运行。
部署只需要一条命令。 通过 Ollama，整个本地部署过程极其简单，加上浏览器插件就有了完整的聊天界面。
实测表现达到 GPT-4 级别。 逻辑推理、多模态图片理解、文案创作三个场景均表现出色。

一、Gemma 4 家族全景：从口袋到工作站的全线覆盖

九姨开篇就把 Gemma 4 定性为"不是一个模型，而是一整个全能家族"，然后逐一拆解了三个层级的产品。

E 系列（E2B / E4B）：口袋里的原子弹

这两个模型专为手机和树莓派设计，是真正的"口袋级 AI"。

模型	总参数	推理有效参数	上下文	模态
E2B	5.1B	2.3B	128K	文字+图像+音频
E4B	8B	4.5B	128K	文字+图像+音频

关键亮点：

闪电般的本地推理速度——参数虽多，但推理时只用一小部分
原生三模态输入（文字+图像+音频），不是后期拼接的能力
128K 超长上下文，对一个手机端模型来说非常慷慨

手机端怎么用？

Android：下载 MLC Chat（Google 亲儿子，已接入系统级 AI Core）
iOS：App Store 搜索 Pocketpal AI，下载模型即用

延伸思考：手机端原生跑三模态 AI，这件事的想象空间很大。它意味着你的手机可以在完全离线的情况下，理解图片、处理语音、完成复杂对话——不需要联网，不需要付费，数据完全在本地。对隐私敏感的使用场景（医疗咨询、个人日记分析、离线翻译等），这是真正的 game changer。

26B A4B（MoE）：消费级显卡的效率之王

这是九姨本期的主角模型，也是她实际部署和测试的那个。

指标	数值
总参数	25.2B
每次激活参数	3.8B
上下文窗口	256K
最低显卡要求	RTX 3060（12GB 显存）

MoE（Mixture of Experts，混合专家）架构是这个模型的核心技术：虽然总参数高达 25.2B，但每次推理时只启动最精锐的 3.8B 核心参数。这带来了两个直接好处：

速度翻倍——只算一小部分参数，自然快
显存减半——不需要把所有参数都载入显存

九姨用 RTX 4070 Ti（12GB 显存）实测，跑文字和图像解析都很流畅。她指出甚至更入门的显卡（如 RTX 3060）也能胜任。

这意味着什么？ 你不需要花几万块买专业级显卡，手头的游戏显卡就足够了。一块二手 3060 大概一千多块，就能在家跑一个拥有 256K 上下文、GPT-4 级智力的大模型。

31B Dense：智商天花板

实打实 30.7B 全量参数，没有 MoE 的取巧——就是为极限性能而生。

256K 上下文
适合高性能工作站
复杂代码重构、深度图像理解的首选
目前开源逻辑推理的王者

不过这个版本显存需求更高，不是每个人都能本地跑起来。九姨在本期视频中没有实际测试这个版本。

二、Apache 2.0——比模型本身更重要的事

九姨在视频中反复强调：所有参数的升级，都比不上协议的改变重要。

以前 Google 的开源模型用的是自己的 Gemma 使用条款，虽然名义上"开源"，但各种限制让企业不敢真心投入——条款模糊，总感觉是"借给你用"的。

现在 Gemma 4 彻底转向了 Apache 2.0 协议，这是业界公认的最宽松开源协议之一：

随便修改——你可以在 Gemma 4 基础上做任何定制
随便封装——打包成你自己的产品，完全合法
甚至可以直接拿去卖钱——没有法律追溯风险
数据不离港——所有计算在本地完成，没有任何数据上传

九姨把这称为"技术主权"：

从这一刻起，模型是你的，产生的价值也是你的。这才是真正让那些昂贵的闭源定制感到颤抖的地方。

延伸思考：这对创业者和中小企业的意义尤其重大。以前要在产品里嵌入 AI 能力，要么用 API（每月账单不可控），要么用带限制的开源模型（法律风险）。现在 Gemma 4 + Apache 2.0 = 免费的 GPT-4 级 AI 引擎，可以直接嵌入你的产品卖钱。这不是"省了月费"的级别，而是"商业模式变了"的级别。

三、手把手部署教程：Ollama + 浏览器插件

九姨用了视频一半的时间做实际的部署演示，步骤非常清晰。

方式一：在线体验（30秒上手）

最简单的方式：

打开 Google AI Studio
登录 Google 账号
在右侧模型选择框选择 Gemma 模型
直接开始对话

适合想先试试效果再决定要不要本地部署的人。

方式二：Ollama 本地部署（重点）

这是视频的核心教学内容。九姨的测试环境是 RTX 4070 Ti（12GB 显存） 。

第一步：设置模型存储路径（重要！）

默认情况下，Ollama 会把模型下载到 C 盘，模型文件动辄几十 GB，C 盘空间会迅速告急。

操作：

在其他盘创建一个文件夹（如 D:\OllamaModels）
搜索"环境变量" → 编辑系统环境变量
在系统变量中新建一个变量
变量名：OLLAMA_MODELS（一字不差）
变量值：浏览到刚才创建的文件夹
确认保存

第二步：安装 Ollama

从 Ollama 官网下载对应系统版本，双击安装即可。

第三步：下载并运行 Gemma 4

在 Ollama 首页搜索 "Gemma"
选择想要的版本（九姨选了 26B 参数版以平衡性能）
打开命令行，粘贴对应的运行命令
等待模型下载完成
出现对话提示界面 → 部署成功！

模型默认开启"思考模式"——会先进行思考过程，然后输出答案。

第四步：安装浏览器聊天界面

没人喜欢在黑乎乎的命令行里跟 AI 对话。九姨推荐安装一个浏览器扩展插件（支持 Chrome、Edge 等），安装后就有了类似 ChatGPT/Gemini 的图形化聊天界面，可以方便地上传图片、音频等文件。

操作：

保持命令行在后台运行
打开浏览器，安装扩展插件
插件会自动连接到本地运行的 Ollama
在上方选择模型，开始对话

四、实战测试：三个场景验证 GPT-4 级智力

场景一：逻辑推理——棉花和铁的重量陷阱

九姨用了经典的"一斤棉花和一斤铁哪个重"的陷阱题来测试。

结果：Gemma 4 成功识破了陷阱，不仅给出了正确答案（一样重，都是一斤），还根据核心逻辑和物理学原理进行了细致的分析，并保持了幽默的总结风格。

九姨的评价：逻辑推理已经达到 GPT-4 级别，并且能听懂比较精细化的指令。

场景二：多模态视觉——地缘局势地图分析

九姨直接拖入了一张地缘局势地图，给出了这样的提示词："请帮我分析一下这个地图，分析该地区的局势，如果能附带一些历史遗留问题总结和介绍就更好了。"

结果：

视觉解读——正确识别出地图上的具体地理位置和信息
局势分析——准确分析了冲突的核心
历史梳理——按要求整理了历史遗留问题

九姨评价"总体分析蛮精准的"。这说明 Gemma 4 的多模态能力不是花架子——它确实能看懂图片并进行有深度的推理分析。

场景三：生产力——视频标题和文案生成

九姨以自己正在录的这期视频为例，输入提示词：

"我正在录制这期本地部署 Gemma 4 的教程视频，请根据我现在的操作帮我写出三个极具点击欲望的标题，以及一段100字左右的视频简介，要突出12GB显存也能跑和保护隐私两个卖点。"

结果：Gemma 4 不仅完成了标题和简介的创作，还额外提供了封面设计提示、关键词标签、录制建议——甚至可以直接拿来使用。

延伸思考：这个场景特别有说服力，因为它展示的不是"AI 能不能写"，而是"AI 在理解了你的具体场景后能不能给出高质量的定制化输出"。一个本地运行的、免费的模型能做到这个水准，对内容创作者来说意味着不再需要为 ChatGPT Plus 付月费了。

五、为什么这件事很重要

九姨在视频开头和结尾反复强调的"技术主权"概念，值得展开说说。

过去几年，AI 的使用模式是"租用智力"——你把数据发给 OpenAI/Google/Anthropic 的服务器，它们处理完返回给你，按用量收费。这个模式有三个根本问题：

数据安全：你的所有对话内容、文件、图片都经过了第三方服务器
成本不可控：用量越大账单越高，企业级使用动辄每月几千美元
依赖性：如果服务商涨价、限速、改条款，你毫无还手之力

Gemma 4 + Apache 2.0 + Ollama 的组合，从根本上翻转了这个模式：

数据不出门——所有计算在你的电脑上完成
零边际成本——只要显卡在跑，每次对话的边际成本趋近于零
完全自主——模型是你的，想怎么改就怎么改，想卖就卖

正如九姨所说："从这一刻起，模型是你的，产生的价值也是你的。"

总结

这期视频虽然只有 10 分钟，但信息密度很高。核心收获：

对想试试的人：用 Google AI Studio 在线体验，零门槛。

对想本地跑的人：Ollama 一条命令 + 环境变量设置 + 浏览器插件 = 完整的本地 AI 助手。12GB 显存的消费级显卡就够了。

对想做产品的人：Apache 2.0 协议意味着你可以在 Gemma 4 基础上构建商业产品，不用担心法律问题，不用交月费。

一句话总结：Google 这次不是"开源了一个模型"，而是把 GPT-4 级别的智力免费送到了每个人的桌面上，还顺手把法律限制全部拆掉了。这确实是 AI 从云端枷锁向个人主权的一次集体大迁移。

附录

Gemma 4 家族速查表

模型	总参数	激活参数	架构	上下文	适用设备	模态
E2B	5.1B	2.3B	Dense	128K	手机/树莓派	文字+图像+音频
E4B	8B	4.5B	Dense	128K	手机/树莓派	文字+图像+音频
26B A4B	25.2B	3.8B	MoE	256K	消费级显卡（12GB+）	文字+图像
31B Dense	30.7B	30.7B	Dense	256K	高性能工作站	文字+图像

本地部署快速步骤

创建模型存储文件夹（非 C 盘）
设置系统环境变量 OLLAMA_MODELS 指向该文件夹
下载安装 Ollama
命令行运行 ollama run gemma4:26b（或其他版本）
安装浏览器聊天插件
开始使用

手机端快速入口

系统	推荐App	备注
Android	MLC Chat	Google 官方接入系统级 AI Core
iOS	Pocketpal AI	App Store 直接搜索下载

时间线索引

时间	内容
[00:00]	Gemma 4 家族全景：E系列、26B MoE、31B Dense 三大产品线
[03:10]	Apache 2.0 协议的颠覆性意义——技术主权的真正回归
[03:51]	在线体验：Google AI Studio 快速上手
[04:28]	本地部署教学：Ollama 安装 + 环境变量设置 + 模型下载
[07:54]	实测场景一：逻辑推理（棉花vs铁的重量陷阱）——通过
[08:23]	实测场景二：多模态视觉（地缘局势地图分析）——精准
[09:01]	实测场景三：生产力（视频标题+文案生成）——可直接使用
[09:49]	总结：数据不离港，开启个人 AI 时代

Ctrl+Enter 发送

还没有评论，来第一个留言吧 ✨

你可能也喜欢

AI 前沿

从仓库到工厂：黄仁勋的计算终局判断

：Lex Fridman × ：Jensen Huang（NVIDIA CEO，在任 34 年，全球最长任职科技公司 CEO）

9min · 4,376字

AI 前沿

7M 参数 + 1000 样本击败 o3：YC 拆解为什么 Recursion 是下一代 AI scaling law

Y Combinator · Decoded × Francois（YC visiting partner，资深 ML 研究员）

13min · 6,403字

AI 前沿

当50年风险管理大师听到"等死几千万人再说"——Paul Tudor Jones 的 AI 恐惧

：Paul Tudor Jones（Tudor Investment 创始人，50年市场经验）

8min · 3,831字

AI 前沿

诺奖得主的 AGI 缺口清单：Demis Hassabis 认为我们还差什么

：Demis Hassabis（Google DeepMind CEO，2024 诺贝尔化学奖得主，AlphaFold / AlphaGo 创造者）

8min · 3,547字

← 浏览更多报告

AI 前沿

别再给AI交月费：Gemma 4本地部署零成本指南

来源九姨小课堂 × 无（单人教程）视频时长约10分钟报告字数3,837字阅读时间8min原始链接https://www.youtube.com/watch?v=zmETsyALUX8

本报告由 AI 深度分析生成，基于视频完整字幕。

📺 原视频约10分钟📖 本报告 3,837字⏱ 预计阅读 8min💡 5个核心观点

导读

这不只是一次模型更新，而是"个人技术主权"的一次集体迁移。

核心观点速览

Gemma 4 不是一个模型，是一整个全能家族。 从手机端的 E2B/E4B（口袋级），到消费级显卡的 26B MoE（效率王），再到工作站级的 31B Dense（智商天花板），覆盖了几乎所有使用场景。
Apache 2.0 协议才是最大的新闻。 以前 Google 的"开源"总让人觉得是"借给你用"，现在彻底放开——随便改、随便封装、甚至直接拿去卖钱，没有法律追溯风险。
12GB 显存就能跑 26B 大模型。 通过 MoE（混合专家）架构，26B 模型每次只激活 3.8B 参数，在 RTX 3060 级别的显卡上就能流畅运行。
部署只需要一条命令。 通过 Ollama，整个本地部署过程极其简单，加上浏览器插件就有了完整的聊天界面。
实测表现达到 GPT-4 级别。 逻辑推理、多模态图片理解、文案创作三个场景均表现出色。

一、Gemma 4 家族全景：从口袋到工作站的全线覆盖

九姨开篇就把 Gemma 4 定性为"不是一个模型，而是一整个全能家族"，然后逐一拆解了三个层级的产品。

E 系列（E2B / E4B）：口袋里的原子弹

这两个模型专为手机和树莓派设计，是真正的"口袋级 AI"。

模型	总参数	推理有效参数	上下文	模态
E2B	5.1B	2.3B	128K	文字+图像+音频
E4B	8B	4.5B	128K	文字+图像+音频

关键亮点：

闪电般的本地推理速度——参数虽多，但推理时只用一小部分
原生三模态输入（文字+图像+音频），不是后期拼接的能力
128K 超长上下文，对一个手机端模型来说非常慷慨

手机端怎么用？

Android：下载 MLC Chat（Google 亲儿子，已接入系统级 AI Core）
iOS：App Store 搜索 Pocketpal AI，下载模型即用

26B A4B（MoE）：消费级显卡的效率之王

这是九姨本期的主角模型，也是她实际部署和测试的那个。

指标	数值
总参数	25.2B
每次激活参数	3.8B
上下文窗口	256K
最低显卡要求	RTX 3060（12GB 显存）

速度翻倍——只算一小部分参数，自然快
显存减半——不需要把所有参数都载入显存

九姨用 RTX 4070 Ti（12GB 显存）实测，跑文字和图像解析都很流畅。她指出甚至更入门的显卡（如 RTX 3060）也能胜任。

31B Dense：智商天花板

实打实 30.7B 全量参数，没有 MoE 的取巧——就是为极限性能而生。

256K 上下文
适合高性能工作站
复杂代码重构、深度图像理解的首选
目前开源逻辑推理的王者

不过这个版本显存需求更高，不是每个人都能本地跑起来。九姨在本期视频中没有实际测试这个版本。

二、Apache 2.0——比模型本身更重要的事

九姨在视频中反复强调：所有参数的升级，都比不上协议的改变重要。

以前 Google 的开源模型用的是自己的 Gemma 使用条款，虽然名义上"开源"，但各种限制让企业不敢真心投入——条款模糊，总感觉是"借给你用"的。

现在 Gemma 4 彻底转向了 Apache 2.0 协议，这是业界公认的最宽松开源协议之一：

随便修改——你可以在 Gemma 4 基础上做任何定制
随便封装——打包成你自己的产品，完全合法
甚至可以直接拿去卖钱——没有法律追溯风险
数据不离港——所有计算在本地完成，没有任何数据上传

九姨把这称为"技术主权"：

从这一刻起，模型是你的，产生的价值也是你的。这才是真正让那些昂贵的闭源定制感到颤抖的地方。

三、手把手部署教程：Ollama + 浏览器插件

九姨用了视频一半的时间做实际的部署演示，步骤非常清晰。

方式一：在线体验（30秒上手）

最简单的方式：

打开 Google AI Studio
登录 Google 账号
在右侧模型选择框选择 Gemma 模型
直接开始对话

适合想先试试效果再决定要不要本地部署的人。

方式二：Ollama 本地部署（重点）

这是视频的核心教学内容。九姨的测试环境是 RTX 4070 Ti（12GB 显存） 。

第一步：设置模型存储路径（重要！）

默认情况下，Ollama 会把模型下载到 C 盘，模型文件动辄几十 GB，C 盘空间会迅速告急。

操作：

在其他盘创建一个文件夹（如 D:\OllamaModels）
搜索"环境变量" → 编辑系统环境变量
在系统变量中新建一个变量
变量名：OLLAMA_MODELS（一字不差）
变量值：浏览到刚才创建的文件夹
确认保存

第二步：安装 Ollama

从 Ollama 官网下载对应系统版本，双击安装即可。

第三步：下载并运行 Gemma 4

在 Ollama 首页搜索 "Gemma"
选择想要的版本（九姨选了 26B 参数版以平衡性能）
打开命令行，粘贴对应的运行命令
等待模型下载完成
出现对话提示界面 → 部署成功！

模型默认开启"思考模式"——会先进行思考过程，然后输出答案。

第四步：安装浏览器聊天界面

操作：

保持命令行在后台运行
打开浏览器，安装扩展插件
插件会自动连接到本地运行的 Ollama
在上方选择模型，开始对话

四、实战测试：三个场景验证 GPT-4 级智力

场景一：逻辑推理——棉花和铁的重量陷阱

九姨用了经典的"一斤棉花和一斤铁哪个重"的陷阱题来测试。

九姨的评价：逻辑推理已经达到 GPT-4 级别，并且能听懂比较精细化的指令。

场景二：多模态视觉——地缘局势地图分析

结果：

视觉解读——正确识别出地图上的具体地理位置和信息
局势分析——准确分析了冲突的核心
历史梳理——按要求整理了历史遗留问题

九姨评价"总体分析蛮精准的"。这说明 Gemma 4 的多模态能力不是花架子——它确实能看懂图片并进行有深度的推理分析。

场景三：生产力——视频标题和文案生成

九姨以自己正在录的这期视频为例，输入提示词：

"我正在录制这期本地部署 Gemma 4 的教程视频，请根据我现在的操作帮我写出三个极具点击欲望的标题，以及一段100字左右的视频简介，要突出12GB显存也能跑和保护隐私两个卖点。"

结果：Gemma 4 不仅完成了标题和简介的创作，还额外提供了封面设计提示、关键词标签、录制建议——甚至可以直接拿来使用。

五、为什么这件事很重要

九姨在视频开头和结尾反复强调的"技术主权"概念，值得展开说说。

数据安全：你的所有对话内容、文件、图片都经过了第三方服务器
成本不可控：用量越大账单越高，企业级使用动辄每月几千美元
依赖性：如果服务商涨价、限速、改条款，你毫无还手之力

Gemma 4 + Apache 2.0 + Ollama 的组合，从根本上翻转了这个模式：

数据不出门——所有计算在你的电脑上完成
零边际成本——只要显卡在跑，每次对话的边际成本趋近于零
完全自主——模型是你的，想怎么改就怎么改，想卖就卖

正如九姨所说："从这一刻起，模型是你的，产生的价值也是你的。"

总结

这期视频虽然只有 10 分钟，但信息密度很高。核心收获：

对想试试的人：用 Google AI Studio 在线体验，零门槛。

对想本地跑的人：Ollama 一条命令 + 环境变量设置 + 浏览器插件 = 完整的本地 AI 助手。12GB 显存的消费级显卡就够了。

对想做产品的人：Apache 2.0 协议意味着你可以在 Gemma 4 基础上构建商业产品，不用担心法律问题，不用交月费。

附录

Gemma 4 家族速查表

模型	总参数	激活参数	架构	上下文	适用设备	模态
E2B	5.1B	2.3B	Dense	128K	手机/树莓派	文字+图像+音频
E4B	8B	4.5B	Dense	128K	手机/树莓派	文字+图像+音频
26B A4B	25.2B	3.8B	MoE	256K	消费级显卡（12GB+）	文字+图像
31B Dense	30.7B	30.7B	Dense	256K	高性能工作站	文字+图像

本地部署快速步骤

创建模型存储文件夹（非 C 盘）
设置系统环境变量 OLLAMA_MODELS 指向该文件夹
下载安装 Ollama
命令行运行 ollama run gemma4:26b（或其他版本）
安装浏览器聊天插件
开始使用

手机端快速入口

系统	推荐App	备注
Android	MLC Chat	Google 官方接入系统级 AI Core
iOS	Pocketpal AI	App Store 直接搜索下载

时间线索引

时间	内容
[00:00]	Gemma 4 家族全景：E系列、26B MoE、31B Dense 三大产品线
[03:10]	Apache 2.0 协议的颠覆性意义——技术主权的真正回归
[03:51]	在线体验：Google AI Studio 快速上手
[04:28]	本地部署教学：Ollama 安装 + 环境变量设置 + 模型下载
[07:54]	实测场景一：逻辑推理（棉花vs铁的重量陷阱）——通过
[08:23]	实测场景二：多模态视觉（地缘局势地图分析）——精准
[09:01]	实测场景三：生产力（视频标题+文案生成）——可直接使用
[09:49]	总结：数据不离港，开启个人 AI 时代