hg0088体育 | hg0088体育APP

hg0088体育官方APP下载

当前位置:主页 > 新闻资讯 > 公司新闻 >

天生越长越跑偏?浙大商汤新作StarGen让场景视频

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]本文先容了一篇由浙江年夜学章国锋教学跟商汤科技研讨团队结合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。针对庞杂场景的长间隔场景天生的时空分歧性成绩,该研讨团队翻新提出了一种处理计划 StarGen,其中心翻新在于经由过程引入空间与时光双重前提机制,将稀少视图的 3D 多少何信息与视频分散模子无机联合,缓解偏差累积。StarGen 实现了多视分歧的长视频天生,而且可能支撑稀少视图插值、图生视频以及规划驱动场景天生等多样化义务。试验成果标明,StarGen 在天生品质、分歧性坚持跟场景扩大才能等方面均明显优于现无方法。论文题目:StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation论文地点:https://arxiv.org/pdf/2501.05763名目主页:https://zju3dv.github.io/StarGen/配景比年来,跟着年夜范围模子的疾速开展,3D 重修与天生技巧获得了明显停顿,并逐步浮现出互补融会的趋向。在重修范畴,基于年夜范围重修模子的方式明显下降了对麋集多视角数据收罗的依附,同时天生模子被无效利用于稀少输入视角下弗成见地区的补全义务。在天生范畴,3D 重修技巧为 2D 天生模子向 3D 天生义务的迁徙供给了主要支持,详细表示为两种技巧门路:其一是经由过程将 2D 概率散布蒸馏为 3D 表现,其二是基于 2D 天生图像重修 3D 表现。但是,这些年夜范围重修与天生模子面对一个要害性挑衅:在无限盘算资本束缚下,单次推理进程仅能处置无限数目的 Token。只管现有一些研讨提出了时光自回归方式,经由过程将以后视频片断的初始帧与前毕生成片断的末端帧停止前提关系以实现长视频天生,但这类方式仅能在较短时光跨度内保持时序分歧性。跟着天生进程的推动,偏差累积成绩将招致空间分歧性难以无效坚持。相干任务现在与本文任务相干的新视角天生方式重要分为三类:重修模子跟天生模子,以及联合重修与天生的混杂方式。重修模子重修模子重要经由过程从多视角输入中重修场景的多少何构造跟表面信息来实现新视角天生。传统多少何重修方式,如 NeRF 跟 3D-GS,经由过程隐式或显式表现对场景停止建模,在天生高品质新视角方面表示优良,但其对麋集视角输入的依附限度了其实用性。基于前馈收集的重修方式,如 PixelNeRF 跟 PixelSplat,经由过程从稀少视图直接揣摸 3D 表现,下降了对麋集输入的需要,明显晋升了重修效力。但是,这类方式实质上仍范围于重修义务,缺少天生才能,依然须要输入图像笼罩充足才干取得完全的场景表白。天生模子天生模子经由过程进修输入数据的散布来天生图像或视频,重要包含天生抗衡收集(GAN)跟分散模子的两类方式。GAN 在晚期获得了必定胜利,但在跨帧或跨片断的全局分歧性方面表示缺乏。分散模子经由过程逆向分散进程天生高品质图像,并联合把持前提(如 ControlNet)实现对天生内容的准确束缚。只管分散模子在视频天生义务中表示杰出,经由过程全留神力机制(Full-Attention)可能实现单段视频内的多视图分歧性,但因为盘算资本的限度,现无方法难以实现长间隔、高品质且多视分歧的视频天生。联合重修与天生的混杂方式比年来,重修与天生方式的联合逐步遭到存眷,经由过程互补方法晋升天生品质跟分歧性。代表性方式如 ViewCrafter,应用 Dust3r 从稀少视图中天生点云,并将全部点云投影到以后片断作为空间束缚,从而实现多段天生视频的多少何分歧性。但是,这种以点云作为空间束缚的方式会跟着天生视频的增加而累积点云重修偏差,终极招致天生内容呈现明显偏向。别的,该方式须要练习视频天生模子自身,限度了其扩大性跟通用性。方式体系概述如图 1 所示,StarGen 框架重要包含三局部:时空自回归框架、时空前提视频天生跟卑鄙义务实现。时空自回归框架StarGen 经由过程滑动窗口的方法逐渐实现长间隔场景天生,每个窗口的天生既依附于上一窗口的时光前提图像,也依附于与以后窗口存在共视关联的空间相邻图像。详细而言,StarGen 早年一窗口天生的要害帧当选择图像作为时光前提,来保障以后天生成果跟上一段视频在时光上的持续性。同时,从汗青窗口中提取与以后窗口存在最年夜共视地区的图像聚集作为空间前提,保障长间隔天生进程中各个视频间的多视分歧。时空前提视频天生StarGen 经由过程引入年夜型重修模子(LRM)跟视频分散模子(VDM)实现高品质可控视频天生。详细流程如图 2 所示:1.空间前提处置:从空间前提图像中提取 3D 多少何信息,并经由过程基于多视多少何的衬着方式天生目的视角的特点图。这些特点图随后被紧缩到 VDM 的潜伏空间中。2.时光前提处置:将时光前提图像经由过程变分自编码器(VAE)编码为隐特点,并与空间前提特点融会,天生联合时空信息的综合特点。3.视频分散天生:将融会后的时空特点输入视频分散模子,经由过程 ControlNet 停止前提把持天生,天生以后窗口的高品质图像序列。卑鄙义务实现StarGen 框架支撑多种场景天生义务:稀少视图插值:经由过程联合时空前提,天生输入图像之间的旁边帧,同时支撑准确的姿势把持;图生视频:以单张输入图像为出发点,逐帧天生实现长间隔视角变更;基于规划的都会天生:联合深度图跟语义图,经由过程 ControlNet 对规划信息停止精准束缚,天生存在年夜范围场景分歧性的都会场景。丧失函数计划为了确保天生内容的分歧性跟品质,StarGen 框架计划了三种丧失函数:1.深度丧失:经由过程多视角束缚优化重修深度图的精度,从而晋升空间前提的多少何分歧性。2.潜伏丧失:监视空间前提天生的潜伏特点与实在视图特点之间的差别,确保特点空间的分歧性。3.分散丧失:优化分散模子天生的潜伏特点与噪声潜伏变量之间的差别,加强天生序列的品质。成果稀少视图插值在 RealEstate-10K 跟 ACID 数据集上,StarGen 在 PSNR 指标上优于其余基于重修跟天生的方式,同时在其余指标上到达了以后开始进的程度:特殊是在输入视图多少乎无堆叠的情形下,仍能天生公道的旁边内容:图 4. 稀少视角插值的定性对照图生视频1.短视频天生:在测试集上天生 25 帧视频,StarGen 在全部指标(PSNR、SSIM、LPIPS)上表示最好。2.长视频天生:与其余方式比拟,StarGen 天生的长视频在视觉保真度跟姿势精度上退化更少。基于规划的都会天生试验基于 OpenStreetMap 规划数据天生都会场景,与 CityDreamer 方式比拟,StarGen 天生的内容在规划分歧性跟细节保真度上更优:融化试验经由过程逐渐移除空间或时光前提等模块停止融化试验,成果标明这两种前提的联合对天生品质跟分歧性有明显奉献:
Copyright © 2024 hg0088体育官方APP下载 版权所有

网站地图

备案号:ICP备********号