Google Chrome 内置多模态模型(Gemini Nano)本地部署指南

本文将指导您如何在本地环境中下载、配置并调用 Google Chrome 内置的轻量级多模态模型 Gemini Nano,实现离线推理和图片识别功能。

开始使用内置 AI

1. 环境配置与实验性功能启用

1.1 检查模型组件状态

首先,访问 chrome://components 页面,查找关键词 “model” 以确认模型组件是否已启用:

Chrome 组件页面显示模型状态

1.2 启用 Prompt API 对话功能

导航至 chrome://flags,启用模型和 Prompt API 相关的实验性功能:

在 Chrome Flags 中启用 Prompt API

1.3 配置多模态访问权限

开启 Gemini Nano 模型的访问权限,并将其设置为多模态模式以支持图片解析:

配置 Gemini Nano 多模态权限

提示:GLIC 是 “Google LLM In Chrome” 的内部代号

GLIC 标识显示

配置完成后,点击 Relaunch 按钮重启浏览器。

1.4 配置设备内部服务

访问 chrome://on-device-internals/ 页面。首次访问时需要修改访问许可:

设备内部服务初始权限页面

点击连接并将状态修改为 Enable 后,页面将自动跳转至管理界面:

设备内部服务管理界面

2. 模型下载与部署

2.1 检查模型状态

点击 Model Status 选项卡,查看设备硬件和内存是否满足要求。初始状态下,不会显示任何正在下载的模型:

模型状态显示硬件兼容性

2.2 强制更新并下载模型

点击 Reset 按钮强制更新,然后下载以下小型辅助模型(用于图片识别、文字提示等):

重置并下载辅助模型

此时会出现一个模型事件记录。点击 Check 按钮,系统将自动调用后台服务下载本地 Gemini Nano v3 模型:

模型下载事件记录

2.3 验证下载完成

下载完成后会显示以下提示。此时本地小型模型已准备就绪,可以在离线状态下使用:

模型下载完成提示

您可以使用该模型执行简单操作,例如网页错误检查。以下演示在断网状态下依然能够进行错误提示:

离线状态下的错误检测功能

3. 多模态功能测试

3.1 加载多模态界面

返回主页,在所有模型下载完成后,点击 Load Default 按钮。此时界面将支持上传图片和视频:

多模态界面显示图片上传功能

3.2 图片识别测试

上传测试图片后,模型能够准确识别图片内容。例如,上传一张”在夕阳下拿着摄像机拍照的人”的图片:

图片识别结果示例

从测试结果来看,模型能够准确识别简单场景。

注意:音频识别功能因格式兼容性问题未进行测试,有兴趣的用户可以自行测试语音识别能力。

音频识别界面(未测试)

视频处理界面示例

4. 模型文件存储位置

所有下载的模型文件存储在以下路径:

1
%LocalAppData%\Google\Chrome SxS\User Data

说明:由于使用的是 Google Chrome 开发版(Dev Channel),路径中包含 “Chrome SxS”。稳定版路径可能有所不同。您也可以手动将模型文件复制到该目录。

模型文件存储位置


总结

通过以上步骤,您已成功在本地部署了 Google Chrome 内置的 Gemini Nano 多模态模型,并可以在离线状态下使用图片识别、文本分析等 AI 功能。这种客户端 AI 方案具有以下优势:

  • 隐私保护:数据在本地处理,无需上传到服务器
  • 低延迟:无需网络往返,响应速度更快
  • 离线可用:即使断网也能使用 AI 功能
  • 成本优化:减少服务器端推理费用