我将 Gemma 4 部署在我的家庭实验室人工智能网关之后。这仅仅是个开始。

发布日期:2026-05-13 10:33:13   浏览量 :6
发布日期:2026-05-13 10:33:13  
6

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

大多数模型实验都始于一个笔记本、一个基准测试脚本,或是一次快速的 API 调用。

而这次实验始于一个面向生产环境的问题:

我能否通过实际运行的本地人工智能网关,替换掉当前服务于默认路径的整个模型家族?

这不是一个侧面演示。不是一次性的 curl 命令。也不是“看,它能运行”那种浅尝辄止的测试。

我指的是真实的路由:那些代理程序、后台任务、应用界面、基准测试框架以及我自己开发的工具已经在调用的网关。

这就是我用 Gemma 4 开始的实验。

本文是这一故事的开端,而非最终结论。我是在平台仍处于试用窗口期时撰写此文的。后续跟进内容将会更加有趣:哪些部分保持了稳定,哪些部分在真实负载下崩溃,哪些部分被回滚,以及在经过一两周的实际使用后,我会保留哪些部分。

目前,这是具体的设置情况:我改变了什么,为什么改变,以及哪些部分立即失败了。

替换前的平台状况

我的本地人工智能技术栈围绕着一个我称为“Forge”(熔炉)的网关构建。

Forge 为调用者提供一个类似 OpenAI 的 API 接口,并处理其背后繁杂的部分:

  • 哪种模型应该回答此类请求
  • 哪台机器正在托管该模型
  • 模型处于热启动、冷启动、已弃用还是按需加载状态
  • 请求类型是对话、视觉、嵌入、转录、代码生成、信息提取还是其他类型
  • 后端是否可用,或者是否应跳过

背后的机器是消费级硬件,而非数据中心设备:

主机名 角色
Furnace(熔炉) 主推理节点,搭载 AMD Strix Halo,96 GB 统一显存分配给集成显卡
Crucible(坩埚) 次要 AMD 节点,用于创意工作负载、宽松许可模型以及突发/批量任务
Anvil(铁砧) M4 Mac mini,适用于 MLX/Metal 路径和轻量级常驻服务

在此次实验之前,默认的本地文本路径主要由 Qwen(通义千问)家族模型承担。这并非偶然。Qwen 已成为操作基线,因为它对于平台而言足够可预测,而不仅仅是在孤立测试中表现令人印象深刻。

我也测试过其他模型。例如,Devstral2 足够有趣,值得正式接入并进行基准测试。较小的 240 亿参数变体在代码场景中具有竞争力,但并未成为默认路径。1230 亿参数的模型对于我所需的角色来说太慢了。这种区别很重要:

一个模型可能很优秀,但并不一定适合作为平台的默认模型。

这就是 Gemma 4 必须跨越的门槛。

为何进行原位替换

我本可以将 Gemma 4 作为另一个可选模型添加进去,然后就此作罢。

那样做会更安全。但那样我也学不到太多东西。

相反,我将其视为一次真正的迁移。在试用窗口期内,Gemma 4 接管了真实调用者已经使用的标准角色。

角色 之前的路由 试用路由
默认对话 qwen3.6-chat-35b-a3b gemma-4-chat-31b
优先对话 qwen3-8b gemma-4-chat-26b-a4b
视觉 / 多模态 qwen3-vl-30b-a3b gemma-4-multimodal-8b-e4b
提示词增强 qwen3-4b gemma-4-multimodal-2b-e2b

旧的 Qwen 路由并未被删除。它们被标记为已弃用,并计划了回滚窗口。

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部