Google Chrome 内置多模态模型(Gemini Nano)本地部署指南
Google Chrome 内置多模态模型(Gemini Nano)本地部署指南
本文将指导您如何在本地环境中下载、配置并调用 Google Chrome 内置的轻量级多模态模型 Gemini Nano,实现离线推理和图片识别功能。
1. 环境配置与实验性功能启用
1.1 检查模型组件状态
首先,访问 chrome://components 页面,查找关键词 “model” 以确认模型组件是否已启用:

1.2 启用 Prompt API 对话功能
导航至 chrome://flags,启用模型和 Prompt API 相关的实验性功能:

1.3 配置多模态访问权限
开启 Gemini Nano 模型的访问权限,并将其设置为多模态模式以支持图片解析:

提示:GLIC 是 “Google LLM In Chrome” 的内部代号

配置完成后,点击 Relaunch 按钮重启浏览器。
1.4 配置设备内部服务
访问 chrome://on-device-internals/ 页面。首次访问时需要修改访问许可:

点击连接并将状态修改为 Enable 后,页面将自动跳转至管理界面:

2. 模型下载与部署
2.1 检查模型状态
点击 Model Status 选项卡,查看设备硬件和内存是否满足要求。初始状态下,不会显示任何正在下载的模型:

2.2 强制更新并下载模型
点击 Reset 按钮强制更新,然后下载以下小型辅助模型(用于图片识别、文字提示等):

此时会出现一个模型事件记录。点击 Check 按钮,系统将自动调用后台服务下载本地 Gemini Nano v3 模型:

2.3 验证下载完成
下载完成后会显示以下提示。此时本地小型模型已准备就绪,可以在离线状态下使用:

您可以使用该模型执行简单操作,例如网页错误检查。以下演示在断网状态下依然能够进行错误提示:

3. 多模态功能测试
3.1 加载多模态界面
返回主页,在所有模型下载完成后,点击 Load Default 按钮。此时界面将支持上传图片和视频:

3.2 图片识别测试
上传测试图片后,模型能够准确识别图片内容。例如,上传一张”在夕阳下拿着摄像机拍照的人”的图片:

从测试结果来看,模型能够准确识别简单场景。
注意:音频识别功能因格式兼容性问题未进行测试,有兴趣的用户可以自行测试语音识别能力。


4. 模型文件存储位置
所有下载的模型文件存储在以下路径:
1 | %LocalAppData%\Google\Chrome SxS\User Data |
说明:由于使用的是 Google Chrome 开发版(Dev Channel),路径中包含 “Chrome SxS”。稳定版路径可能有所不同。您也可以手动将模型文件复制到该目录。

总结
通过以上步骤,您已成功在本地部署了 Google Chrome 内置的 Gemini Nano 多模态模型,并可以在离线状态下使用图片识别、文本分析等 AI 功能。这种客户端 AI 方案具有以下优势:
- 隐私保护:数据在本地处理,无需上传到服务器
- 低延迟:无需网络往返,响应速度更快
- 离线可用:即使断网也能使用 AI 功能
- 成本优化:减少服务器端推理费用



