九游体育(中国)Ninegame官方网站-登录入口

你的位置:九游体育(中国)Ninegame官方网站-登录入口 > 新闻 >
现金九游体育app平台只需上传服装和东说念主物像片-九游体育(中国)Ninegame官方网站-登录入口
发布日期:2025-03-13 18:00    点击次数:144

现金九游体育app平台只需上传服装和东说念主物像片-九游体育(中国)Ninegame官方网站-登录入口

视频生成模子当中还是不缺英雄了,但保持多主体一致性依然是一项紧要挑战。

字节智能创作团队特意针对这个问题,推出了主体一致性视频生成模子Phantom("幻影")。

Phantom 在主体一致性保持方面获得了浮松性进展,不仅复旧多主体,还能同期保持主体的完整性。

无论是东说念主物、物品、服装、动物,照旧充满魔幻颜色的杜撰脚色,它都能精确握取其要津特征,并当然地融入生成的视频中。

比如底下这段视频当中,"幻影"就琢磨了场景、服装、配饰等身分,原创出了"歌剧魅影"的片断:

精确握取要津特征,视频和会更当然身份保持视频生成

借助面部参考图像,Phantom 生成的视频不仅能严格锁定主体的身份特征,还能依据丰富各种的辅导词,演绎出各种精彩内容。

举例,上传一张东说念主物像片,模子会以此为原本,生成该东说念主物在不同场景下言语、步履的视频。

东说念主物的面部概括、五官细节以及特有的脸色感情,都能被高度收复,仿佛像片中的东说念主物"活"了过来,在屏幕上信得过地演绎着各种故事。

单参考主体视频生成

只需一张参考图像,无论是可人小动物的萌态瞬息,照旧先锋服装的特有魔力,亦或是奥妙杜撰脚色的魔幻冒险,Phantom 都能精确捕捉主体的细节,将其生动地呈现时视频中。

还有底下的小狗像片,Phantom 不错呈现它在温馨的房间里答应奔走的可人姿首,柔滑的毛发、灵动的目光和俏皮的感情,都被精细地描摹出来,让东说念主仿佛能感受到开朗与悦目。

多参考主体视频生成

Phantom 复旧同期上传多张参考图像,这一弘远功能使得复杂交互场景的视频生成成为可能。

在群体场景创作中,只需上传多个东说念主物的像片,就能让他们在视频中当然地聊天。

在一些居品展示的场景,琢磨居品图片和关联场景图片,Phantom 能生成相配具有眩惑力的居品展示视频,将居品的特色和上风竣工呈现,为居品实行注入弘远能源。

在杜撰试穿场景,只需上传服装和东说念主物像片,就能看到东说念主物身着该服装的动态后果,这有望为电商行业带来全新的营销模式,让破费者的购物体验愈加直不雅和真义。

总之,Phantom 在和一众当先的营业化器具对比中,从视频质地,文本反馈,主体一致性等多个维度处于上风,尤其在东说念主脸 ID 一致性方面的评估当先。

基于主体的 DiT 视频生成决议

现时,基础视频生成模子主要汇集在两个主要任务——文本生成视频(Text-to-Video,T2V)和图像生成视频(Image-to-Video,I2V)。

视频生成 T2V 应用语言模子来知道输入文本指示,并生成姿首预期脚色、行为和配景的视觉内容。

尽管它允许创造性和宽裕思象力的内容组合,但由于固有的立时性,常常难以生成一直相宜预期的收尾。

另一方面,I2V 时常是提供图像的首帧以及可选的文本姿首,以将静态图像转动为动态视频。

诚然更具可控性,但内容的丰富度常常受到首帧"复制粘贴"性质的放胆。通过从图像中捕捉主体并把柄文本辅导活泼生成视频。

Phantom 是一个基于 DiT 的视频生成框架,它的主要意图是结束主体到视频的生成 ( Subject-to-video,S2V ) 。

其本色在于均衡文本和图像这两种模式的辅导,条目模子同期对都文本指示和参考图像内容。

从而既知足 T2V 所弘扬创造性的上风,又不像 I2V 生成的视频放胆为输入图的延展。

具体来说,数据层面 Phantom 通过构建文本 - 图片 - 视频三元组数据,让模子学习不同模态之间的对都。

为了缓解访佛 I2V 生成视频"复制粘贴"输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉不异性的对象来构建交叉配对数据。

交叉配对数据不错来自归拢长视频的不同片断,也不错来自数据库中检索参考对象。这些主体元素主要包括东说念主、动物、物体、配景等等。

此外,多个元素之间的交互不错进一步对场景进行分类,举例多东说念主交互、东说念主与宠物交互、东说念主与物体交互。

模子层面,Phantom 领受自 MMDiT 的架构。

在输入头部分,视频编码器和文本编码器分离领受自基模权重,将输入视频和文本 prompt 分离编码得到相应的 latent feature。

为了不影响 MMDiT 自己的结构,参考图被特定视觉编码器编码,然后分离与视频特征和文本特征拼接,并分离输入到 MMDiT 的 vision branch 和 text branch 进行盘算。

团队简介

智能创作团队是字节逾越 AI& 多媒体时期中台,通过开辟当先的盘算机视觉、音视频剪辑、殊效处理等时期,复旧抖音、剪映、即梦等公司内繁密居品线;

同期通卓越山引擎为外部 ToB 协作伙伴提供业界最前沿的智能创作材过问行业解决决议。

文中示例仅为展示模子后果。如有侵权或冒犯,请干系论文作家,将实时删除。

E-mail:libingchuan@bytedance.com

论文贯穿:

https://arxiv.org/abs/2502.11079

面孔网站:

https://phantom-video.github.io/Phantom/

代码网址:

https://github.com/Phantom-video/Phantom

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 面孔主页贯穿,以及干系样子哦

咱们会(尽量)实时薪金你

一键宽恕 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「注意心」

宽恕在驳斥区留住你的思法!现金九游体育app平台