阿里又整活儿：一张人脸一句话就能跳《擦玻璃》装束背景任意换！

时间：2023-12-12 21:04 点击次数：181

　　并且随着prompt的调换，人物配景和身上的衣服也会随之爆发更动。比方所有人们再换两句：

　　这就是阿里最新的一项商量DreaMoving，主打的就是让任何人、随时且到处地跳舞。

　　项目一出，也是鞭策了不少网友的重视，有人在看过效率之后直呼“Unbelievable”~

　　当然像Stable Video Diffusion和Gen2等文本到视频（text-to-video，T2V）模型的露出，在视频天分方面获得了争执性进步，但当前仍旧有诸多挑战必要面对。

　　譬喻在数据集方面，刹那亏损开源的人类舞蹈视频数据集以及难以获得相应的准确文本刻画，这就使得让模型们去禀赋各样性、帧一律性、时长更长的视频成为寻事。

　　探讨者们先导从互联网搜集了大要1000个高质料的人类舞蹈视频。然后，我们将这些视频分解成大要6000个短视频（每个视频8至10秒），以保障视频片段中没有转场和特别效果，如此有利于韶华模块的训练。

　　其它，为了天资视频的文本刻画，全班人应用了Minigpt-v2动作视频字幕器（video captioner），独特采取了“grounding”版本，指令是整个刻画这个帧。

　　基于严重帧要点帧天禀的字幕代表了统统视频片段的形容，紧要是切确描述焦点和布景内容。

　　其中，Video ControlNet是在每U-Net块之后注入举动块（Motion Block）的图像操纵搜集，将把握序列（样子或深度）料理为特意的时间残差。

　　而Content Guider则是将输入文本指引和概况样子（如人脸）传输到内容嵌入中。

　　在如此驾御之下，DreaMoving便能够在给定指使序列和简捷的内容形容（如文本和参考图像）行动输入的情状下天生高质料、高保真度的视频。

阿里又整活儿：一张人脸一句话就能跳《擦玻璃》 装束背景任意换！