(资料图)
10月6日,Google宣布Imagen Video人工智能系统可以根据简短文本内容生成视频片段。
Google称,Imagen Video是朝着具有“高度可控性”和世界知识的系统迈出的一步,包括生成镜头的能力在一系列艺术风格中。
据介绍,Imagen Video奠基于Google的Imagen文本生成图像人工智能系统上,采用串联扩散模型来产生高分辨率的视频。先通过自然语言处理预训练模型T5嵌入用户所输入的文本后,由一个基本的视频扩散模型以每秒3帧的速度产生一个解度析为24×48的16帧图片,之后再利用多个TSR与SSR模型,最终产生每秒24帧,总长128帧且分辨率高达1280×768的5.3秒视频。