口述视频，中国厂商参战

张书乐 2024-06-24

过去半年，AI生成视频一直被处于断断续续推进状态，口述视频也成为了中国厂商不断入局的一大赛道。

视频也能口述？这个正在奔现。

在OpenAI文生视频大模型Sora发布后，国内企业争相入局，国产文生视频大模型迈入加速阶段。

过去半年，AI 生成视频一直处在断断续续推进的状态。

号称国内首个自研视频大模型的 Vidu，以及后续字节、腾讯等多家国产厂商推出视频生成模型，都在时不时引发外界的关注。

近日，又一国产视频大模型加入战局，快手“可灵”视频生成大模型官网正式上线。

21日，快手可灵大模型发布重磅更新：正式开放图生视频功能，支持将静态图像转化为5秒钟视频，用户可通过提示词文本控制图像中物体的运动；同时推出视频续写功能，支持对生成视频一键续写和连续多次续写，最长可生成约3分钟视频。

相较此前各家放出的视频大模型以展示视频为主，本次亮相的可灵大模型不但效果对标Sora，且已在快手旗下的快影App开放邀测体验。

据快手方面介绍，可灵大模型为快手AI团队自研，采用Sora相似的技术路线，结合多项自研技术创新，其生成的视频分辨率达1080p，时长最高可达2分钟（帧率30fps），支持自由的宽高比。

此外，官方还宣称，可灵大模型能够生成大幅度的合理运动，并使其符合客观运动规律。

在官方给出的视频范例中，一位宇航员在月球上奔跑，随着镜头慢慢抬升，宇航员的步态和影子都能保持合理恰当。

几乎同时，美图宣布将在7月底上线新品MOKI，该产品基于美图奇想大模型的视频生成能力，可帮助用户生成AI短片。

然而，也有观点认为，相比一拥而上的大语言模式，视频大模型更慢热，且少了巨头的身影。

为什么会如此？

大厂们不感兴趣吗？

同时，在上一轮大语言模型竞争中，快手和美图的存在感较低。

而在视频大模型赛道，这两家企业最大的优势又是什么？

对此，北京商报记者魏蔚和书乐进行了一番交流，本猴以为：

还在冲刺“高考”的大厂，不会直接进击“博士后”。

做视频，不是一堆图组成PPT，大厂不急于这一块发力，且实用性不强，只是一个肌肉展示。

毕竟，视频生成不是将一堆AI绘图连在一起变成动画片。

除了考虑形象一致、符合描述、光影分割、分镜表现等更多细节外，还有对剧情的理解能力、再创造能力。

这些都需要对视频结构、内容解析、拍摄技巧和叙事手法等多个垂直领域进行深度学习。

其难度远不是聊天、绘画或专精于下棋之类靠数据堆积和用户纠错来完成的。

即使是影视领域的大师也常有败笔，让还处在“高考阶段”的人工智能出片，其难度可想而知。

但快手和美图，则需要秀肌肉，哪怕只是一个秀。

快手也好，美图也罢，在视频大模型赛道上，最大的优势只是他们拥有让人工智能深度学习的丰富“学习资料”。

依靠这些“学习资料”，可以规避一定的版权问题，并且通过多年在视频领域的内容积累、垂直细分和标签标注，都让大模型能够更好地“检索”知识，也让其在算法设计上多少有一定的视频专业素养。

但也仅此而已，在技术上依然缺少在人工智能算法上的原始积累。

此外，视频大模型即使成熟，也很难在影视领域有大的突破。

无论是短剧、广告还是长视频或电影，尽管都会内卷“大片特效”。

但受众最终被吸引的还是内容（从编剧到运镜，以及演员演技）。

这些才是大规模商业变现的关键。

愚以为，视频大模型或许更容易在动画领域找到一些商机。

本文由运营派作者【张书乐】，微信公众号：【张书乐】，原创/授权发布于运营派，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。

给作者一些鼓励吧！

等我一分钟我去找个夸你的句子

这世上美好的东西不多，牛起来要人命的你就是其一！

不要厉害的这么随意，不然我会觉得我又行了

这就很离谱了，老天爷追着喂饭的主儿～

我要是有这才华，我走路都得横着走！

对你的作品崇拜！

反手就是一个推荐，能量满满！

感谢分享

秋田最近回复

读过这个楼主很多文章，确实都还不错，感谢，加油。
麻麻我要吃雪糕最近回复

文章的结构也很清晰，是一篇不可多得的好文。
可乐最近回复

我刚进职场的时候，按照领导安排的任务完成，持续几个月后发现和同行差距很大，这个时候我意识到自己可能是青蛙效应的那只青蛙，把青蛙丢进油锅，青蛙是会跳出来的，而把青蛙放温水，青蛙是会被煮，所以我开始给自己寻求工作外的目标，尝试跳出舒适区，最终自己得到了积累。
竹蜻蜓最近回复

净说大实话干啥！！！