wechat-share-icon

从7万字长文到9分钟视频

AI驱动的教育视频制作完整实践

一次关于"泛产品设计"思想在视频制作中的深度应用

70,000+
原文字数
9分39秒
最终视频时长
85分
最终质量评分
¥15
总成本
Claude + Remotion MiniMax TTS 程序化动画 六步工作流

视频规格与质量对比

视频技术规格

视频时长 9分39秒 (579秒)
分辨率 1920×1080 (Full HD)
帧率 30 FPS
总帧数 16,494帧
文件大小 31 MB (带字幕)
编码格式 H.264
字幕数量 326条 (中文)

质量对比分析

内容结构 20分 → 85分
视觉呈现 30分 → 80分
音频质量 40分 → 90分
整体体验 25分 → 85分

从20分到85分,这就是"泛产品设计"思想的威力

10个精心设计的场景结构

1

开场与范式转移

56.6秒

2

知识碎片化问题

42.8秒

3

缪斯模型与双三角

70.4秒

4

Feature思维

68.1秒

5

城市海报案例

56.2秒

6

Obsidian广场模型

56.2秒

7

时间管理案例

54.0秒

8

TCPR模型

55.1秒

9

三个基本判断

44.5秒

10

结语与长期主义

45.8秒

核心模型:双三角 × MUSE

双三角模型:人类 vs AI

人机协同的核心框架

人类

审美

定义什么是好的教育视频

体系

建立10个场景的内容架构

创造力

设计每个场景的视觉呈现

AI三角(高效执行)

持续使用AI更强

AI

场景识别

分析7万字文章,提取核心概念

基本功

生成语音、渲染视频、生成字幕

数据

处理音频时长、帧数计算、字幕同步

协同关系:人类定义 → AI执行 → 人类审核 → 迭代优化

这不是AI替代人,也不是人指挥AI,而是人机协同。

缪斯模型(MUSE Model)

一个四层架构,用于重构知识结构,解决知识碎片化问题

奇迹层

科幻、变革、伦理,那些改变世界的愿景

最顶层:变革性思维

实用层

工程化应用、降本增效,各种agent和工具

第三层:工具与应用

创业层

AI原生的新项目、新业务、新创新

第二层:创新与创业

模型层

原理、技术,这是基础设施,是AI的底座

最底层:基础原理

MUSE模型的价值

有了这个模型,所有的信息都有了归属。你看到一个新工具,马上知道它属于实用层;你看到一篇技术论文,知道它属于底层;你看到一个创业故事,知道它属于创业层。碎片变成了体系。

迭代优化:从20分到85分的路径

迭代轮次 改进点 分数提升 累计分数
第1版 基础脚本+纯文字展示 - 20分
第2版 添加场景结构,10个独立场景 +15分 35分
第3版 引入MiniMax语音克隆,音质提升 +20分 55分
第4版 添加动画效果(spring, interpolate) +15分 70分
第5版 统一配色方案,视觉一致性 +10分 80分
第6版 音画同步优化,字幕生成 +5分 85分

音频Feature

MiniMax TTS语音克隆 → 音质从机器音提升到自然人声

动画Feature

spring物理动画 → 元素入场更自然

结构Feature

场景化设计 → 内容层次清晰

Feature思维:每个Feature提升5-10分,逐步逼近完美

技术栈选择:三个核心原则

原则1:可编程性 > 可视化操作

程序化视频制作(Remotion)让视频成为代码,可以版本控制、自动化渲染

传统视频编辑软件适合单个视频
我需要可复用、可批量、可迭代的工作流

原则2:AI原生 > 传统工具

语音克隆、AI转录、深度理解等AI原生工具 > 传统配音、手动打字、人工阅读

语音合成:MiniMax TTS > 传统配音
字幕生成:Whisper > 手动打字

原则3:开源生态 > 封闭平台

Remotion、ffmpeg等开源工具可控性强,成本可预测,生态完善

Remotion(开源) > 商业视频平台
ffmpeg(开源) > 专有编码器

TTS方案对比与选择

对比项 MiniMax TTS Edge TTS Qwen3 TTS
音质
★★★★☆ 自然人声
★★★☆☆ 机器音
★★★★☆ 自然人声
语音克隆 支持 固定音色 支持
生成速度 1.77x实时 2x实时 0.5x实时
成本 约¥0.1/千字 免费 免费(需GPU)
硬件要求 需要GPU

结论:MiniMax的音质和语音克隆能力值得付费,1.77x实时处理速度满足快速迭代需求

完整技术栈协同关系

Claude分析

脚本撰写

MiniMax生成音频

Remotion渲染视频

Whisper生成字幕

ffmpeg烧录

这是一个完整的AI驱动工作流,每个环节都经过精心选择,实现高效人机协同

时间与成本分析

总时间:约16小时

内容分析
2小时 (12.5%)
脚本撰写
3小时 (18.8%)
音频生成
0.5小时 (3.1%)
视频组件开发
8小时 (50%)
视频渲染
0.25小时 (1.6%)
字幕生成
0.13小时 (0.8%)
审核与调整
2小时 (12.5%)

成本分析:总成本约¥15

MiniMax TTS 约¥5 (5000字 × ¥0.1/千字)
Claude API 约¥10 (内容分析和脚本生成)
硬件成本 ¥0 (使用个人电脑)
总成本 约¥15

对比传统方式

3-5天
传统视频制作时间
16小时
本项目时间
¥5000-10000
传统制作成本
¥15
本项目成本

核心启示

  • 审美决定上限: AI的输出质量,永远不会超过人类的审美标准
  • 人机协同是未来: 不是AI替代人,而是人和AI各司其职
  • 迭代优于完美: 从20分到85分,靠的是一轮轮打磨

先建立审美,再开始实践;先理解体系,再开始行动;先掌握方法,再追求效率

这是一个长期主义的过程,但只要你坚持,你就能拿到下一个时代的能力门票。现在,轮到你了。