几个月前,苹果发布了FastVLM,这是一个视觉语言模型(VLM),能够提供近乎即时的高分辨率图像处理。现在,只要你拥有一台搭载Apple Silicon的Mac,就可以亲自尝试它。以下是具体方法。
当我们最初报道FastVLM时,我们解释说它利用了MLX(苹果自家专为Apple Silicon设计的开源机器学习框架),能够实现高达85倍的视频字幕生成速度,同时模型体积比同类模型小了3倍多。
自那以后,苹果继续推进了这个项目,现在它不仅可以在GitHub上找到,也出现在了Hugging Face上。在Hugging Face上,你可以直接在浏览器中加载其轻量版本FastVLM-0.5B,并亲自体验。
根据你的硬件配置,加载可能需要一些时间。在我的16GB M2 Pro MacBook Pro上花了几分钟。但一旦加载完成,模型就开始准确地描述我的外貌、我身后的房间、不同的表情以及我带入视野的物体。
在左下角,你可以调整提供给模型的提示词,这些提示词会在它实时更新字幕时被考虑进去,或者你也可以从几个建议中选择,例如:
- 用一句话描述你看到的内容。
- 我的衬衫是什么颜色?
- 识别任何可见的文本或书面内容。
- 描绘了怎样的情感或动作?
- 说出我手中拿着的物体名称。
如果你想进一步尝试,可以使用虚拟摄像头应用程序向工具提供视频流,观察它即时详细地描述多个场景,其详细程度甚至可能让人难以跟上节奏。当然,实际的应用场景会有所不同,但这确实凸显了该模型的速度和准确性。
这个实验特别有趣的一点是,它完全在浏览器本地运行,这意味着数据不会离开设备,甚至可以在离线状态下运行。这对于可穿戴设备和辅助技术来说无疑是一个极好的用例,在这些领域,轻量化和低延迟对于解锁更好的应用场景至关重要。
值得注意的是,当前演示运行的是较轻量的0.5B(5亿)参数模型,而FastVLM系列还包括更强大、参数量达15亿和70亿的更大变体。使用更大的模型,性能和速度可能会进一步提升,尽管直接在浏览器中运行它们可能不太现实。