-
- 视频生成模型视频模型MovieGenMovie Gen 是一套基础模型,旨在生成具有同步音频的高质量视频。这项研究的重点是扩展基于 Transformer 的模型,并使用 Flow Matching 进行训练,在文本到视频合成、视频个性化、视频编辑、视频到
请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!
Movie Gen 是一套基础模型,旨在生成具有同步音频的高质量视频。这项研究的重点是扩展基于 Transformer 的模型,并使用 Flow Matching 进行训练,在文本到视频合成、视频个性化、视频编辑、视频到音频生成以及文本到音频生成方面取得了最先进的成果。这些模型展示了生成不同长宽比的 1080p 高清视频、基于指令的精确视频编辑以及基于用户图像的个性化视频生成的能力。
功能特点
1. MovieGen Video(视频生成模型)
- 功能:根据文本提示生成高达 1080p 高清分辨率的视频,最大时长为 16 秒(16 帧/秒)。
- 特点:
- 支持多种宽高比,能生成自然流畅的动作和高视觉保真度的内容。
- 可以通过上传用户图像实现视频个性化,生成以特定对象为主角的定制视频。
- 基于 300 亿参数的 Transformer 模型,使用了 73,000 个视频 token 的上下文长度,结合 Temporal Autoencoder(时间自编码器)进行视频压缩和生成。
2. MovieGen Audio(音频生成模型)
- 功能:生成与视频内容同步的音效和音乐,最长可达 45 秒。
- 特点:
- 基于 130 亿参数的模型,支持文本到音频生成以及视频到音频的扩展。
- 可以为视频添加背景音乐、环境音效等,提升沉浸感。
3. 个性化视频扩展
- 用户可上传照片,生成以自己或特定对象为主角的定制视频。
4. 视频编辑工具
- 通过文本指令对已有视频进行精确修改,如添加元素或更改背景。
技术特点
- 高质量生成:在文本到视频生成、动作自然性、视觉质量等方面超过了多个现有模型(如 Runway Gen3、OpenAI 的 Sora)。
- 多模态融合:能够从文本生成动态视频和精准音频,实现视听合一。
- 高效训练与推理:采用多种并行化技术(如张量并行、序列并行、上下文并行),支持大规模模型的高效训练。
如何使用
目前(截至 2025 年 4 月),MovieGen 仍处于研究阶段,尚未对公众完全开放。未来公开后,用户可能可以通过以下步骤使用:
- 访问平台:预计会整合到 Meta 的生态系统(如 Instagram 或 Facebook),或者以独立工具形式发布。
- 生成视频:输入描述性文字,选择视频时长、分辨率或宽高比,点击生成。
- 个性化视频:上传照片并输入描述,生成定制视频。
- 编辑视频:上传已有视频,输入编辑指令,应用修改。
- 添加音频:输入描述音效或音乐的提示,或上传视频自动生成匹配的音效。
- 导出与分享:生成的内容会带有 Meta 的水印,用户可以导出或分享到 Meta 平台。
特别声明&浏览提醒
本网站提供的「MovieGen」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-04-13]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!