看下chrome的内置模型
之前听说chrome在你的电脑里塞了一个小模型,相比于说这个比较容易引起公愤的,可能是因为模型有4g大小,但是感觉也提供了挺大的想象空间
比如在浏览器内就可以直接调用模型进行对话处理,最简单的比如做个翻译啥的,
首先也有具体的硬件条件,
- 系统:Windows 10/11、macOS 13+、Linux、ChromeOS
- 显存:4GB 以上 VRAM,或者 16GB 内存加 4 核 CPU
- Chrome 版本:138 以上
然后可以用这个地址看下怎么来开启这个内置模型https://prompt-api.com/1
2
3
4
5Open chrome://flags/#optimization-guide-on-device-model and set to Enabled BypassPerfRequirement
Open chrome://flags/#prompt-api-for-gemini-nano and set to Enabled
Open chrome://flags/#prompt-api-for-gemini-nano-multimodal-input and set to Enabled (for image/audio input)
Click Relaunch to restart Chrome
After relaunch, visit chrome://on-device-internals to check model status
主要是这些配置项,开启之后可以通过 chrome://on-device-internals当前的状态,比如硬件条件是否符合,我一开始是本地的磁盘空间不够,
默认需要有大概22g空间以上才可以下载使用,
| Property | Value |
|---|---|
| device capable | true |
| disk space available | 18671 MiB available, 20480 MiB required |
| enabled by enterprise policy | true |
| enabled by feature | true |
| enabled by user setting | true |
| is already installing | true |
| on device feature recently used | true |
| out of retention | false |
| Detected VRAM (MiB) | 12288 |
| Minimum VRAM required (MiB) | 0 |
符合之后可以在console查看当前的状态,1
2
3
4await LanguageModel.availability({
expectedInputs: [{ type: 'text', languages: ['en'] }],
expectedOutputs: [{ type: 'text', languages: ['en'] }]
})
比如正在下载会显示downloading,可以使用的话就是'available'
如果想对话尝试下可以在上面的 https://prompt-api.com/ 里进行对话体验
还有就是这个模型能用来干嘛呢
chrome其实提供了一系列的api1
2
3
4
5
6
7
8
9
10
11
12
13
14Translator API
Translator API 可在 Chrome 138 稳定版中使用。根据要求翻译用户生成的内容和动态内容。
使用场景
用户可以使用自己的第一语言输入请求,您可以使用 Language Detector API 识别该语言。然后,使用 Translator API 将请求转换为您的业务运营语言,并将其发送给支持代理。
在社交网络应用中,当用户的时间轴上显示他们不熟悉的语言的帖子时,他们可以按需请求翻译。
Language Detector API
Language Detector API 自 Chrome 138 稳定版开始提供。您可以使用此 API 检测输入文本的语言。 这是翻译流程的关键部分,因为您可能并不总是知道翻译的输入语言。
使用场景
语言检测有多种应用场景:
确定未知源语言,以便将内容翻译为已知目标语言,这样用户就不必同时指定这两种语言。
标记文本,例如,为了改进在线社交网站中的屏幕阅读器发音。
比如翻译的,语言检测的等等
那比如我们可以自己做个翻译的扩展小工具,既不用联网,也不用科学上网,还是很方便的
感觉端侧的小模型还是挺有前景的,随着模型能力越来越强
顶尖的模型都很贵,但是很多活其实可以拆分着来
最复杂核心的架构分析重构设计需要最好的模型
但是常规的一些简单的重复性的工作,一般的小模型也能完成
这样就chrome本身这么大的一个入口,带上这么个模型
还是非常有想象力的
当然这个也是我作为一个软件开发从业者的角度
而不是商业思维上来看
因为这些看起来都是没啥商业空间
毕竟免费的好用的都已经一大堆了,没有啥必要再付费或者订阅啥的
只是对于自己使用来说,有时候还是比较方便的
就比如这个翻译的场景,能够有个不需要联网,不用科学上网的
不过还一点是它现在好像不支持中文
所以还可以在期待下后续的发展
一个是模型能力的再提升
另一个是支持的范围,可以由中文支持这种