当前位置:首页百科>智源研究院开源轻量级解模型Vi超长视频了

智源研究院开源轻量级解模型Vi超长视频了

+关注

  近来,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机 。

  在技能架构方面 ,视频Video-XL-2首要由视觉编码器 、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成。智源该模型选用SigLIP-SO400M作为视觉编码器 ,研究院开源轻对输入视频进行逐帧处理,量级将每一帧编码为高维视觉特征 。超长随后 ,视频DTS模块对这些视觉特征进行交融紧缩,解模并建模其时序联系 ,智源以提取更具语义的研究院开源轻动态信息。处理后的量级视觉表征经过均匀池化与多层感知机(MLP)进一步映射到文本嵌入空间,完结模态对齐 。终究 ,对齐后的视觉信息输入至Qwen2.5-Instruct ,以完结对视觉内容的了解与推理  ,并完结相应的下流使命。

  在练习战略上 ,Video-XL-2选用了四阶段渐进式练习的规划 ,逐渐构建其强壮的长视频了解能力。前两个阶段首要运用图画/视频-文本对,完结DTS模块的初始化与跨模态对齐;第三阶段则引进更大规划 、更高质量的图画与视频描绘数据,开始奠定模型对视觉内容的了解能力;第四阶段 ,在大规划、高质量且多样化的图画与视频指令数据上进行微调,使Video-XL-2的视觉了解能力得到进一步提高与强化,然后能够更精确地了解和呼应杂乱的视觉指令。

  此外,Video-XL-2还系统性规划了功率优化战略 。它引进了分段式的预装填战略(Chunk-based Prefilling),将超长视频划分为若干接连的片段(chunk) ,在每个chunk内部运用稠密注意力机制进行编码 ,而不同chunk之间则经过时刻戳传递上下文信息,显着降低了预装填阶段的计算成本与显存开支。一起,Video-XL-2还规划了依据双粒度KV的解码机制(Bi-granularity KV Decoding),在推理过程中,模型会依据使命需求 ,挑选性地对要害片段加载完好的KVs(dense KVs) ,而对其他非必须片段仅加载降采样后的稀少的KVs(sparse KVs),有用缩短了推理窗口长度 ,然后大幅提高解码功率。得益于这些战略的协同优化 ,Video-XL-2完结了在单张显卡上对万帧级视频的高效推理,显着增强了其在实践使用场景中的实用性  。

  在试验作用方面  ,Video-XL-2在MLVU 、VideoMME和LVBench等干流长视频评测基准上全面逾越现有一切轻量级开源模型,达到当时最早进功能(SOTA),相较第一代Video-XL完结了显着提高 。特别值得重视的是,在MLVU和LVBench上,Video-XL-2的功能已挨近乃至逾越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规划高达720亿的大模型。此外 ,在时序定位(Temporal Grounding)使命中  ,Video-XL-2也在Charades-STA数据集上取得了抢先的成果 ,进一步验证了其在多模态视频了解场景中的广泛适用性与实践价值 。

  在视频长度方面 ,Video-XL-2展现出显着优势。在单张24GB消费级显卡(如RTX3090/4090)上,Video-XL-2可处理长达千帧的视频;而在单张80GB高功能显卡(如A100/***)上 ,模型更支撑万帧级视频输入,远超现有干流开源模型 。相较于VideoChat-Flash和初代Video-XL ,Video-XL-2显着拓宽了视频了解的长度并有用降低了资源需求,为处理杂乱的视频使命供给了有力的支撑。

  在速度上,Video-XL-2也展现出杰出功能。仅需12秒即可完结2048帧视频的预填充 ,其预填充时刻与输入帧数之间呈现出近似线性增加 ,表现了其超卓的可扩展性 。相比之下 ,Video-XL与VideoChat-Flash在输入长视频条件下的工作功率显着落后于Video-XL-2。

  得益于超卓的视频了解能力与对超长视频的高效处理功能 ,Video-XL-2在多种实践使用场景中展现出很高的使用潜力。例如 ,在影视内容剖析方面,它能够快速精确地了解电影情节,答复相关问题;在监控视频中 ,它能够检测反常行为并宣布安全预警;此外,它还能够用于影视作品的内容总结以及游戏直播内容的剖析等使命 ,为实践国际中的杂乱视频了解需求供给高效、精准的技能支撑 。

  现在,Video-XL-2的模型权重已全面向社区敞开,项目主页 、模型链接和库房链接均已发布 ,未来该模型有望在更多实践场景中发挥重要作用 ,推进长视频了解技能的进一步开展。

分享到

0个赞
钓友回复48337条
罗马仕陷运营窘境 :充电宝召回致罢工停产,高管层紧迫调整
82小时前举报回复

罗马仕陷运营窘境 :充电宝召回致罢工停产,高管层紧迫调整

反垄断被罚近四年后 ,腾讯音乐全资拟收买喜马拉雅
88947小时前举报回复

反垄断被罚近四年后 ,腾讯音乐全资拟收买喜马拉雅

哪吒轿车告诉职工今起居家工作 ,董事长方运舟已前往桐乡
9小时前举报回复

哪吒轿车告诉职工今起居家工作 ,董事长方运舟已前往桐乡

养老机器人进国家战略背面 :谁在“最难场景”里铸造AI机器人 ?
845小时前举报回复

养老机器人进国家战略背面 :谁在“最难场景”里铸造AI机器人 ?

苹果首家梅田门店行将开业 推出限制庆祝壁纸
8小时前举报回复

苹果首家梅田门店行将开业 推出限制庆祝壁纸

贸泽电子开售Qorvo Wi
49424小时前举报回复

贸泽电子开售Qorvo Wi

随时查看新帖子
安装安卓版钓鱼人安装iOS版钓鱼人
精彩渔获
8GB显卡销量遇冷,顾客更愿为高显存买单8GB显卡销量遇冷,顾客更愿为高显存买单
古装剧霸屏	,「武侠」却没了古装剧霸屏 ,「武侠」却没了
超以太网联盟发布 UEC 高速网络互联敞开规范首个正式版别 1.0超以太网联盟发布 UEC 高速网络互联敞开规范首个正式版别 1.0
鸿蒙公开课走进四川大学鸿蒙公开课走进四川大学
罗马仕已告诉全面罢工停产�,薪酬只发到6月份罗马仕已告诉全面罢工停产 ,薪酬只发到6月份
28.5亿美元“卖身”腾讯音乐	,喜马拉雅估值缩水30%28.5亿美元“卖身”腾讯音乐 ,喜马拉雅估值缩水30%
迪士尼和举世影业对AI公司提起版权诉讼迪士尼和举世影业对AI公司提起版权诉讼
28.5亿美元“卖身”腾讯音乐,喜马拉雅估值缩水30%28.5亿美元“卖身”腾讯音乐,喜马拉雅估值缩水30%
苹果首家梅田门店行将开业 推出限制庆祝壁纸苹果首家梅田门店行将开业 推出限制庆祝壁纸
2025
,科技圈“后浪兴起”之年?2025  ,科技圈“后浪兴起”之年 ?
阿里巴巴高德地图在日本上线打车功用阿里巴巴高德地图在日本上线打车功用
日本动漫创作者,正悄然用上我国AI日本动漫创作者,正悄然用上我国AI
报导称上海新增一家造车新势力:工厂下一年竣工,首款车2027年投产报导称上海新增一家造车新势力:工厂下一年竣工 ,首款车2027年投产
鸿蒙公开课走进四川大学鸿蒙公开课走进四川大学
618 怎么买到心仪好物?三星 Galaxy Tab S10 系列来帮助618 怎么买到心仪好物?三星 Galaxy Tab S10 系列来帮助
国产划片机兴起
:打破COB封装技能独占的破局之路国产划片机兴起  :打破COB封装技能独占的破局之路
三星Galaxy Z Fold7欧盟能效标签曝光	:续航40小时,IP48防护三星Galaxy Z Fold7欧盟能效标签曝光 :续航40小时,IP48防护
单月涨粉近百万,“高能量”老人硬控年轻人单月涨粉近百万 ,“高能量”老人硬控年轻人
台积电:日本 JASM 第二晶圆厂估计本年下半年开工台积电:日本 JASM 第二晶圆厂估计本年下半年开工
倒计时三天! 独家查询揭晓	!倒计时三天 ! 独家查询揭晓 !
SpaceX发动星舰测验渠道重建作业 应对上月爆破事端影响SpaceX发动星舰测验渠道重建作业 应对上月爆破事端影响
武汉蔚来动力公司增资至17.84亿元,增幅约128%武汉蔚来动力公司增资至17.84亿元,增幅约128%
AI赋能,智启未来丨昱能科技携全场景智慧光储解决方案重磅露脸SNEC
!AI赋能,智启未来丨昱能科技携全场景智慧光储解决方案重磅露脸SNEC !
夸克上线AI新功能
,可输出完好高考自愿陈述夸克上线AI新功能 ,可输出完好高考自愿陈述
赛格导航荣获2024年度轿车电子科学技术杰出立异产品奖赛格导航荣获2024年度轿车电子科学技术杰出立异产品奖
稀土暴升,现在没人再看轻这张主力了稀土暴升,现在没人再看轻这张主力了
NVIDIA GTC巴黎亮点:全新Cosmos PredictNVIDIA GTC巴黎亮点 :全新Cosmos Predict
鸿蒙公开课走进电子科技大学鸿蒙公开课走进电子科技大学
玩出愿望携手捕鱼电竞打造沉溺式文娱新场景玩出愿望携手捕鱼电竞打造沉溺式文娱新场景
【展会直击】安科瑞露脸2025世界太阳能光伏与才智动力展【展会直击】安科瑞露脸2025世界太阳能光伏与才智动力展
签到反馈意见向上