看下chrome的内置模型

之前听说chrome在你的电脑里塞了一个小模型,相比于说这个比较容易引起公愤的,可能是因为模型有4g大小,但是感觉也提供了挺大的想象空间
比如在浏览器内就可以直接调用模型进行对话处理,最简单的比如做个翻译啥的,
首先也有具体的硬件条件,

  1. 系统:Windows 10/11、macOS 13+、Linux、ChromeOS
  2. 显存:4GB 以上 VRAM,或者 16GB 内存加 4 核 CPU
  3. Chrome 版本:138 以上

然后可以用这个地址看下怎么来开启这个内置模型
https://prompt-api.com/

1
2
3
4
5
Open chrome://flags/#optimization-guide-on-device-model and set to Enabled BypassPerfRequirement
Open chrome://flags/#prompt-api-for-gemini-nano and set to Enabled
Open chrome://flags/#prompt-api-for-gemini-nano-multimodal-input and set to Enabled (for image/audio input)
Click Relaunch to restart Chrome
After relaunch, visit chrome://on-device-internals to check model status

主要是这些配置项,开启之后可以通过 chrome://on-device-internals当前的状态,比如硬件条件是否符合,我一开始是本地的磁盘空间不够,
默认需要有大概22g空间以上才可以下载使用,

PropertyValue
device capabletrue
disk space available18671 MiB available, 20480 MiB required
enabled by enterprise policytrue
enabled by featuretrue
enabled by user settingtrue
is already installingtrue
on device feature recently usedtrue
out of retentionfalse
Detected VRAM (MiB)12288
Minimum VRAM required (MiB)0

符合之后可以在console查看当前的状态,

1
2
3
4
await LanguageModel.availability({
expectedInputs: [{ type: 'text', languages: ['en'] }],
expectedOutputs: [{ type: 'text', languages: ['en'] }]
})

比如正在下载会显示
downloading,可以使用的话就是'available'
如果想对话尝试下可以在上面的 https://prompt-api.com/ 里进行对话体验
还有就是这个模型能用来干嘛呢
chrome其实提供了一系列的api

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Translator API
Translator API 可在 Chrome 138 稳定版中使用。根据要求翻译用户生成的内容和动态内容。

使用场景
用户可以使用自己的第一语言输入请求,您可以使用 Language Detector API 识别该语言。然后,使用 Translator API 将请求转换为您的业务运营语言,并将其发送给支持代理。
在社交网络应用中,当用户的时间轴上显示他们不熟悉的语言的帖子时,他们可以按需请求翻译。
Language Detector API
Language Detector API 自 Chrome 138 稳定版开始提供。您可以使用此 API 检测输入文本的语言。 这是翻译流程的关键部分,因为您可能并不总是知道翻译的输入语言。

使用场景
语言检测有多种应用场景:

确定未知源语言,以便将内容翻译为已知目标语言,这样用户就不必同时指定这两种语言。
标记文本,例如,为了改进在线社交网站中的屏幕阅读器发音。

比如翻译的,语言检测的等等
那比如我们可以自己做个翻译的扩展小工具,既不用联网,也不用科学上网,还是很方便的
感觉端侧的小模型还是挺有前景的,随着模型能力越来越强
顶尖的模型都很贵,但是很多活其实可以拆分着来
最复杂核心的架构分析重构设计需要最好的模型
但是常规的一些简单的重复性的工作,一般的小模型也能完成
这样就chrome本身这么大的一个入口,带上这么个模型
还是非常有想象力的
当然这个也是我作为一个软件开发从业者的角度
而不是商业思维上来看
因为这些看起来都是没啥商业空间
毕竟免费的好用的都已经一大堆了,没有啥必要再付费或者订阅啥的
只是对于自己使用来说,有时候还是比较方便的
就比如这个翻译的场景,能够有个不需要联网,不用科学上网的
不过还一点是它现在好像不支持中文
所以还可以在期待下后续的发展
一个是模型能力的再提升
另一个是支持的范围,可以由中文支持这种