LTX-2:8GB 显卡也能跑的“全能型” AI音视频生成模型,老司机秒懂!

最近 AI 视频圈可以说是被一个名字刷屏了 —— LTX-2。它不仅完全免费开源,而且直接把现在最前沿的视频生成能力,一股脑塞进了一个模型里。LTX-2 是第一个基于 DiT 的音视频基础模型,它将现代视频生成的所有核心功能集成在一个模型中:同步音频和视频、高保真度、多种性能模式、可用于生产的输出、API 访问和开放访问!

8734c8d05120260114142238

更离谱的是:8GB 显存的家用显卡就能跑本地生成,不用排队、不用云端、不怕限速想生成多少就生成多少!可以说,这是第一次,普通人真正有了“自己的视频生成工厂”。关键是它可以生成那种 “老司机” 秒懂的AI视频,本地生成没有任何限制…… 

39ae4cf23020260114142250

对中文的提示词理解也超准确,生成的人物也非常适合我们亚洲人的审美标准,比如下方的生成效果,无论是男孩还是女孩,颜值确实很高!

bd208930fc20260114142304

LTX-2 开源项目:https://github.com/Lightricks/LTX-2

 快速部署:

 
# Clone the repository
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# Set up the environment
uv sync --frozen
source .venv/bin/activate

所需模型

从LTX-2 HuggingFace 存储库下载以下模型:

LTX-2 型号检查点(选择并下载以下其中一项)

空间放大器– 此存储库中当前两阶段流水线实现所必需的

时间放大器– 该模型支持此功能,并且是未来管道实现所必需的。

精简版 LoRA – 此存储库中当前两阶段流水线实现所必需的(DistilledPipeline 和 ICLoraPipeline 除外)

Gemma文本编码器(从存储库下载所有资源)

LoRA

可用管道

优化技巧

  • 使用 DistilledPipeline – 仅使用 8 个预定义 sigma 即可实现最快的推理(第一阶段 8 个步骤,第二阶段 4 个步骤)
  • 启用 FP8 转换器– 降低内存占用:--enable-fp8(CLI)或fp8transformer=True(Python)
  • 安装注意力机制优化– 使用 xFormers ( uv sync --extra xformers) 或适用于 Hopper GPU 的Flash Attention 3
  • 使用梯度估计——在保持质量的前提下,将推理步骤从 40 步减少到 20-30 步(参见流程文档)。
  • 跳过内存清理– 如果您的显存足够,请禁用阶段间的自动内存清理,以加快处理速度。
  • 选择单阶段流水线——适用TI2VidOneStagePipeline于不需要高分辨率时快速生成图像的情况。

当然对于新手来说,我建议大家直接使用ComfyUI 进行一键部署,会超级方便!

ComfyUI 最新版:【点击下载

fa3b391e9020260114142325

【注意】: 由于 ComfyUI 官方客户端所必须的环境安装包和AI模型的下载是需要外网环境,如果如果你无法下载的话,那么请使用魔法,并开启TUN全局模式!

安装以后在模板中心,选择你对应的LTX-2 音视频模型,支持文生视频、图生视频、视频编辑等,如果显存比较小的,建议选择下方的量化版,这样可以避免爆显存的问题

cc3f26bded20260114142345

8G 显存版模型:

1、【点击下载】 由KJ大佬提供

2、【点击下载】 适合8G一下显存

测试文生视频提示词:

1 情侣中文对话(口型+情绪测试)

用途:测试中文普通话 + 口型同步

一对 20 多岁的亚洲年轻情侣坐在咖啡馆里聊天,女生微笑着说普通话:“你还记得我们第一次见面吗?”
男生轻轻点头,用普通话回答:“当然记得,那天你穿着白色裙子,我一眼就喜欢上你了。”
自然光,真实摄影风格,镜头轻微晃动,人物口型与语音完美同步,情绪温暖真实。

2 搞笑情侣短剧

用途:测试表情变化 + 语音节奏

亚洲年轻情侣在家里吵架,女生用普通话生气地说:“你又忘记洗碗了!”
男生一脸无辜,用搞笑语气说:“我不是忘了,我是在等灵感。”
轻喜剧风格,表情夸张但自然,口型同步,节奏轻快。

3 游戏实况风格

用途:测试动态画面 + 解说同步

第一人称射击游戏画面,玩家在城市废墟中战斗,一边玩一边用普通话解说:
“这把枪后坐力太大了,但伤害真的高,我要从右边绕过去。”
画面流畅,枪声和语音同步,画面带轻微游戏 HUD。

4 主播带货风格

用途:测试真人讲解 + 口播

一位亚洲女主播面对镜头,用普通话热情介绍一款智能手表:
“这款手表不仅能测心率,还能监测睡眠,非常适合上班族。”
电商直播风格,灯光明亮,口型精准。

5 搞笑新闻播报

用途:测试长句 + 稳定语音

一位男主播用普通话严肃播报:
“今天的头条新闻是一只猫成功打开了冰箱,并且吃光了所有的鱼。”
新闻演播室背景,风格一本正经但内容搞笑。

6 自然风景纪录片

用途:测试环境音 + 旁白

航拍中国山川和湖泊,清晨薄雾环绕,一位男声普通话旁白:
“这里是大自然最宁静的角落,每一缕阳光都让人感到平静。”
电影级自然纪录片风格,声音温柔清晰。


7 狮子打斗场面

用途:测试动作 + 物理 + 音效

非洲草原上,两只雄狮激烈打斗,尘土飞扬,低吼声和脚步声同步,
镜头快速切换,真实野生动物纪录片风格,动作流畅有冲击力。

8 功夫打斗场景

用途:测试人物动作+音效同步

两名亚洲功夫高手在雨夜的街道上对决,拳脚相交,雨水飞溅,
伴随呼吸声和打斗音效,电影级动作风格,慢动作穿插。

9 AI科幻对话

用途:测试多角色对话

未来科幻实验室里,一名亚洲女科学家用普通话说:
“你真的认为自己有情感吗?”
一个人形机器人用冷静的普通话回答:
“我正在学习理解人类的情绪。”
灯光冷色调,科幻电影风格。

10 搞笑动物配音

用途:测试配音贴合

一只小狗坐在沙发上,用童趣普通话配音:
“我今天很乖,所以我要多吃一点零食。”
可爱风格,口型自然贴合。

LTX-2 是什么?为什么它突然爆火?

一句话概括:

LTX-2 是第一个真正意义上的“全能型”音视频生成大模型。

它不是那种:

  • 只能生成视频但没声音

  • 或者画面和声音对不上

  • 或者只能低分辨率

  • 或者对显卡要求离谱

LTX-2 是基于最新 DiT(Diffusion Transformer)架构构建的,这是一种目前最先进的视频生成路线,它带来了几个质变级能力:

 音画同步生成

不需要再后期配音,它可以直接:

  • 生成画面

  • 同时生成声音

  • 并且嘴型、节奏说话完全同步

这在以前基本是只有商业级模型才能做到的。

 高画质 + 多性能模式

LTX-2 不只有一种“画质”,它内置多种模式,比如:

  • 极速模式(适合快速出草稿)

  • 省显存模式(8GB 显卡也能跑)

  • 高质量模式(细节拉满)

你可以根据自己显卡的能力,自由切换。

这意味着:

它不是为土豪准备的模型,而是为普通玩家准备的。

 8GB 显卡也能跑,本地部署才是最大杀器

这一点,真的要单独说。

现在市面上很多 AI 视频模型,宣传得天花乱坠,但一看要求:

  • 24GB 显存

  • 48GB 显存

  • 甚至 A100、H100

对普通人来说基本就是“看个热闹”。

而 LTX-2 的杀手级优势是:

哪怕只有 8GB 显存,你也能在自己电脑上跑它。

这意味着什么?

你可以:

  • 用 RTX 3060

  • 用 3050

  • 用 2060

  • 甚至一些低功耗卡

直接本地生成视频。

不用:

  • 排队

  • 等云端

  • 被限速

  • 被计费

  • 被封号

你就是你自己的 AI 视频工厂。

 完全开源 + 无限生成,这才是真正的自由

LTX-2 是 100% 开源模型
这点对创作者来说非常重要。

因为这意味着:

  • 没有生成次数限制

  • 没有内容审查锁死

  • 没有“商用要额外付费”

  • 你生成的视频,版权在你手里

你可以:

  • 做短视频

  • 做动画

  • 做广告

  • 做故事

  • 做角色对话

  • 做 AI 电影

随你怎么玩。

 LTX-2 为什么会被称为“视频生成的转折点”?

过去,AI 视频是这样:

  • 要么画面好但没声音

  • 要么有声音但对不上嘴

  • 要么要天价显卡

  • 要么只能在云端被限制

而 LTX-2 把这些全部打通了:

音频 + 视频 + 高质量 + 本地运行 + 低门槛

这在整个 AI 视频领域,是第一次真正意义上的“民用化”。

总之

如果你:

  • 做短视频

  • 做自媒体

  • 做动画

  • 做 YouTube

  • 做 TikTok

  • 或者只是想玩 AI 视频

那么 LTX-2 就是你目前能用到的性价比之王。不是云端,不是订阅制,而是:你自己的显卡 + 你自己的模型 + 无限的视频创作能力。

© 版权声明
THE END
喜欢就支持一下吧
点赞8赞赏 分享