麦克豌豆 MacPea.com
没有结果
查看所有结果
  • 登录
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
会员计划
现在订阅
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
没有结果
查看所有结果
麦克豌豆 MacPea.com
没有结果
查看所有结果
Home Mac软件推荐

苹果训练大型语言模型高效理解长视频内容

pony的头像 由 pony
2025年8月23日
在 Mac软件推荐
阅读时间:1 分钟阅读
A A
0

苹果研究人员开发了SlowFast-LLaVA模型的改进版本,在长视频分析与理解任务上超越更大规模模型。以下是具体解读。

你可能喜欢

Meta发布首款搭载屏幕的智能眼镜

摄影师 Tyler Stalman 评测 iPhone 17、iPhone Air 与 iPhone 17 Pro 相机表现

蒂姆·库克出席温莎城堡国宴 参与特朗普英国之行

技术原理

当大型语言模型被训练理解视频时,其基本流程包括:将视频分割为帧序列,运用计算机视觉提取视觉特征,分析这些特征的时序变化,并将所有信息与语言对齐,从而以文本形式描述或推理视频内容。

低效的处理方式是对每帧画面进行分析,这会产生海量冗余信息——因为相邻帧之间往往只有微小变化。当信息量超过模型的上下文窗口(即单次处理信息的极限容量)时,模型会逐步丢弃早期信息以容纳新内容。

当然存在更高效的视频语言模型训练方案(英伟达近期就相关主题发表了论文),但上述基础原理有助于理解苹果的研究。

苹果的研究突破

正如研究人员在论文《SlowFast-LLaVA-1.5:面向长视频理解的高效令牌视频大语言模型家族》中所述:

“视频大语言模型(Video LLMs)将视频感知能力整合至预训练LLM中,用以处理视频并响应指令。尽管取得显著进展,现有视频LLM仍存在明显局限性。”

主要局限体现在三方面:

  • 现有模型过度依赖长上下文窗口与大量帧采样,效率低下且难以迁移至小模型;
  • 多数方案需复杂多阶段训练流程(常使用私有数据集),难以复现;
  • 许多模型仅针对视频任务优化,限制了其作为通用多模态模型的图像理解能力。

为解决这些问题,苹果基于开源模型SlowFast-LLaVA进行改进。该模型通过双流架构结合时空信息:慢流通道以高细节解析关键帧捕捉场景内容,快流通道以低细节采样更多帧追踪运动变化。

研究团队首先对模型进行图像微调以构建通用视觉推理能力,随后使用公开数据集联合训练图像与视频任务,使其在掌握时序结构的同时保持图像理解能力。

最终成果SlowFast-LLaVA-1.5(SF-LLaVA-1.5)包含10亿、30亿和70亿参数版本,在多项视频任务中超越更大规模模型,研究人员称其优势有时“非常显著”。

在LongVideoBench和MLVU等长视频基准测试中,该模型所有尺寸版本均刷新最高纪录,包括最小的10亿参数模型。

更重要的是,该模型同时克服了前述三大局限之一,在图像任务(包括知识问答、数学推理、OCR和文本密集场景)中同样表现优异。

研究团队测试了多种视频压缩策略,最终方案在速度、精度与令牌数量间实现了最佳平衡。

现存局限性

SF-LLaVA-1.5设定了128帧的最大输入长度——无论处理几分钟还是几小时视频,始终从快流通道选取96帧均匀采样,慢流通道选取32帧均匀采样。

研究人员指出:

“这种方式可能遗漏长视频中的关键帧,并对视频播放速度产生误判。(…) 通过调优视觉编码器等全部参数可进一步提升性能,但长视频LLM的GPU内存消耗使得全参数调优极具挑战。未来研究可探索随机反向传播等内存优化技术。”

尽管存在局限,该模型仍凭借完全基于公开数据集训练的优势成为当前最优方案。SF-LLaVA-1.5已开源发布于GitHub和Hugging Face平台,完整论文可查阅arXiv。

以下为模型实际应用示例:




pony的头像

pony

有钱人终成眷属。

相关文章

Mac软件推荐

Meta发布首款搭载屏幕的智能眼镜

2025年9月18日
107
Mac软件推荐

摄影师 Tyler Stalman 评测 iPhone 17、iPhone Air 与 iPhone 17 Pro 相机表现

2025年9月18日
119
Mac软件推荐

蒂姆·库克出席温莎城堡国宴 参与特朗普英国之行

2025年9月18日
103
Mac软件推荐

iOS版WhatsApp新增消息提醒功能

2025年9月18日
104
Mac软件推荐

iPhone 17 Pro 均热板技术原理解密

2025年9月18日
107
Mac软件推荐

iPhone 17 系列电池续航测试表现优异

2025年9月18日
114
下一篇文章

苹果拟为企业设备扩展AI支持,不限于ChatGPT

iPadOS 26 让 iPad 成为真正的电脑了吗?[视频]

请登录 加入讨论

推荐文章

凭借一项优势,苹果开始显现AI赢家姿态

2025年11月12日
101

苹果举办特别开发者活动,为Vision Pro宣传沉浸式媒体体验

2025年10月24日
101

上诉法院倾向支持苹果论点,Epic Games案听证会最新进展

2025年10月23日
102

EazyDraw 12.2.2 for Mac:面向现代macOS的矢量图形设计专业工具

2025年10月24日
101

热门文章

  • 如何在 iOS 26 中为 iPhone 应用图标设置透明效果

    0 分享
    分享 0 Tweet 0
  • 全新 iPhone Air 与 iPhone 17 Pro 壁纸下载 [更新:iPhone 17]

    0 分享
    分享 0 Tweet 0
  • CorelDRAW 2025 26.1.0.143 for Mac 深度评测:专业设计的新标杆

    0 分享
    分享 0 Tweet 0
  • 如何在 watchOS 26 中使用 Apple Watch 的高血压监测功能

    0 分享
    分享 0 Tweet 0
  • AnyGo 7.8.0 for Mac:虚拟定位技术的全面解析与应用指南

    0 分享
    分享 0 Tweet 0

近期文章

  • iFixit深入探究iPhone Air的3D打印USB-C接口 2025年11月20日
  • iOS 26.2 在欧盟限制 iPhone 与 Apple Watch 的 Wi-Fi 共享,原因如下 2025年11月20日
  • 苹果2026年势头强劲,一项制胜关键可助其持续领跑 2025年11月20日

分类

  • Mac产品库
  • Mac游戏推荐
  • Mac软件推荐
  • 苹果新闻

订阅网站内容

订阅网站内容以便第一时间阅读你感兴趣的内容

订阅即表示同意我们的服务条款和隐私政策。

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录
没有结果
查看所有结果
  • 首页
  • 订阅
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
  • Mac教程
  • macOS下载
  • Mac产品库

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接