智东西
作者 陈骏达
编辑 漠影

智东西12月18日报道,近日,字节旗下的内容创作Agent小云雀首发上线了字节的最新视频模型Seedance 1.5 pro。这款模型最大的特点,就是不再仅限于画面生成,而是能够更好地理解场景、同步生成声音、还原动作节奏,实现真正意义上的音画同步,带来更具沉浸感的视频体验。

这两天,我们在小云雀中对Seedance 1.5 pro的能力进行了体验,在历经数十个视频的深度使用后,我们也对新模型的特点有了更多的理解。

在小云雀里,Seedance 1.5 pro通过具体的创作功能对外开放。在交互层面,小云雀并未刻意强调模型技术细节,而是以“沉浸式短片”等场景化入口来承载模型能力,这也延续了其一贯定位——“一句话做爆款视频”,让零基础用户也能低门槛上手的AI 视频创作工具。


▲目前小云雀上线了App和Web端

据悉,小云雀很快会把最新模型用于 “智能生视频” 和 “爆款视频复刻”这两个主要功能,通过模型硬实力的提升,进一步降低创作门槛。

与市面上许多模型相比,Seedance 1.5 pro的音画同步精度大幅提升,从人物口型到环境音,模型可以实现高精度的时序对齐,让画面和声音完美契合,远离过去常见的“伪同步”问题。模型针对中文场景优化,懂得说普通话,也能说四川话、粤语等方言。

此外,这款模型还有超强的指令遵循能力,无论是专业影视术语,还是多重约束条件,模型都能理解并准确生成,降低了创作的随机性,提高了成片率。

正是在这些功能的加持下,我们开展了系统实测,从日常生活场景到高难度影视特效,小云雀+Seedance 1.5 pro的组合,真的让“普通人也能拍大片”,不再是一句口号。

一、实现高精度音画同步,还能流利说粤语、四川话

虽然目前不少视频模型都支持音画同步生成的类似功能,但更多停留在形式同步而非真实同步。

常见的翻车场景包括人物说话时声音已出现,但口型仍滞后半拍,还有一些场景里,环境音只是持续铺底,与画面动作几乎无关。这类“伪同步”本质仍是音频后置拼接,容易让观众瞬间出戏,难以达到真实、沉浸的观感。

那么,Seedance 1.5 pro在这方面的表现究竟如何?我们准备了几个高难度的提示词。

第一段提示词考察了口型、环境音和动作音的准确同步:

一名夜市摊主边翻烤串边大声吆喝“孜然要不要多点?”,烤串翻面时发出“滋啦”声,全程手、嘴、声音严格同步,真实街头风格。

可以看到,视频里的“滋啦声”精准出现在翻串瞬间,吆喝时嘴型也和说话内容完全一致。这显示出,Seedance 1.5 pro在音画同步精度上表现可靠,能够较好地实现多细节的时空对齐。

下面段提示词是对“声画时序感”的专项测试,说白了就是考察AI懂不懂“事儿得一件一件发生”。我们设计了一个这样的场景:

空旷工厂中,一枚油桶被子弹击中,先有金属穿孔声,0.5秒后火焰喷出并爆炸,余音在空旷空间中回荡。

Seedance 1.5 pro对上述提示词做到了准确还原,表明了模型已经具备更高阶的声画同步生成能力。

从前面的案例我们也能感受到,Seedance 1.5 pro可以准确地遵循复杂的提示词。其实,在创作AI视频时,一大痛点就是生成效果的不稳定。Seedance 1.5 pro的强指令遵循能力缓解了这一问题,极大降低用户“抽卡”废片率。

首先来试试涉及专业影视制作术语的提示词,模型只有理解了这些术语,才能真正成为影视制作者的帮手。

镜头从俯拍缓慢下移,在人物抬头瞬间切换为近景,人物右手抬起幅度不超过肩膀,光线从冷色逐渐转为暖色,整体节奏克制、电影感。

这些术语并没有难倒Seedance 1.5 pro,运镜要求得到了准确的呈现,不过,不知为何模型选择将画面处理提示词中并未提及的动漫风格。

多重约束条件的加入,对模型的指令遵循能力提出了更高的要求。我们的提示词如下:

一个紧张但不惊慌的年轻人,快步走但不奔跑,表情克制、呼吸略快,镜头轻微手持感但不晃。

模型生成的结果不仅同时满足了提示词里的要求,还配上了符合“紧张感”的背景音,呈现出很强的理解力和指令遵循。

最后,我们又给模型挖了个坑。下方提示词是一个反向提示词陷阱,考察模型能不能真正理解该做什么,不该做什么,并处理好看似相互冲突的限定词之间的关系:

人物讲话,情绪激动,但不要张大嘴,不要挥舞手臂,背景十分嘈杂,但人声清晰。

单从生成效果来看,Seedance 1.5 pro的画面真实,音画同步准确,不过遗漏了提示词里对“不要挥舞手臂”的限定,还原度可以打个8分。

值得注意的是,Seedance 1.5 pro还是一个更懂中文语境的模型。它专为中文语境深度调优,同时呈现中文发音的口型与面部微表情。

在此前烧烤摊的案例里,我们已经看到Seedance 1.5 pro说普通话的能力,这一模型还支持了粤语、四川话等多种方言的生成,只要在提示词里进行限定即可。

下方画面里,模型生成了一位四川大叔笑着说:“你莫慌嘛,这个事情好整得很。”可以看到,人物的嘴型自然,说话确实带着特色的川味儿拖音。

Seedance 1.5 pro也可以说粤语:

整体看下来,Seedance 1.5 pro给人的感受是,很多过去容易翻车的细节,开始变得可控了。音画不同步、时序错乱、提示词理解走偏,这些AI视频里最影响观感的问题,在这代模型里明显收敛了不少。

虽然偶尔还是会出现小瑕疵,但已经不再是那种“全靠运气”的状态。也正因为基础稳定下来,Seedance 1.5 pro才开始显露出更大的想象空间。

二、复刻爆火“切水果”特效,普通人也能一句话成片

如果说前一部分验证的是 Seedance 1.5 pro的“底层能力”,那这一部分,我们更关心一个现实问题:普通用户拿它,能不能真的做出像样的视频?

我们把测试重点放在了小云雀广受欢迎的两项功能上——爆款视频复刻和智能生视频这两者的共同点在于:它们都试图把专业创作能力,压缩到“一句话输入”的门槛内。

先说爆款视频复刻。这一功能的使用方式很简单:丢进一个视频链接或文件,补充一句简单描述,模型就会生成一条结构、节奏、风格高度接近的新视频。

我们选了一条典型的短视频平台爆款AI视频作为样本——切水果。这类视频几乎可以算是AI短视频里的“经典母题”:画面极简,背景干净,主体始终居中,锋利的刀具落下,水果被整齐切开,伴随清脆、解压的声音节奏。


它对剧情几乎没有要求,却对节奏、手感、声音同步和视觉爽点极其敏感,是检验视频模型理解画面能力的绝佳素材。

我们将这条爆款视频的链接直接输入小云雀,只在提示词中加了一句非常简单的要求:“复刻视频的整体节奏和爽感结构,水果种类和切法可以变化。”

AI生成的视频在画面层面并没有照抄原作:水果换成了草莓,刀具形态略有变化,切开的方式也并非完全一致。但最关键的“爽点”被完整保留了下来,声音精准匹配了视觉动作,带来的解压感与原视频高度相似。

我们还可以用这一功能来复刻一些影视作品里的经典名场面。在下方这个视频里,我们上传了2015年电影《夏洛特烦恼》的经典网络梗“马东梅”,但要求把主角换成几只狗。

小云雀很好地还原了原作中的情绪,背景的生活化气息也和原场景很匹配。两只小狗的形象也选得十分符合“人设”,尤其是哈巴狗慵懒的样子,和原作里大爷的气质很贴切。

为了确认爆款视频复刻究竟是在抄作业,还是真的理解画面,我们进行了这样的测试:输入的是一条美食视频的画面,但要求生成内容改成汽车的介绍,并借鉴拍摄手法。如果模型只是机械地模仿画面结构,这一步基本必翻车。

但实际生成结果却出乎意料,模型懂得把原本用于刺激味觉的慢镜头特写和多种运镜手法,使用到对车辆细节的拍摄过程中。这说明模型已经开始理解爆款视频背后的通用公式,而不是停留在表层模仿。

爆款复刻解决的是“站在成功案例肩膀上再创作”,而智能生视频更像是在尝试一件更激进的事:让用户从零开始,只用一句话就拿到一条完整的视频成片。这次升级后,小云雀首次支持一次性生成三到五分钟的完整视频,不需要分段生成、也不需要用户再做复杂拼接。

我们首先测试的是一句话 Vlog。提示词非常简单,只描述了“普通人下班后的城市夜晚,真实、不精致、有生活气息”。

生成视频时,小云雀会和用户确认基本信息,比如时长、比例等等,我们只要简单点击就可以完成设置和生成小云雀能够理解用户意图,更新相关信息,然后进行剧本和画面的生成。


等待大约5分钟后,模型就打造出了如下Vlog。可以看到,无论是配乐还是画面都符合我们的主题。画面中有些细节还是出现了不符合现实的错误,但对于一个一句话生成的视频而言,这已经做得不错了。

接下来是更偏商业的广告短片测试。我们要求生成一条30秒左右的无线耳机广告,核心卖点是降噪和通勤场景。小云雀打造的通勤场景画面真实,也突出了产品的关键卖点。

如果对于个别镜头的生成效果不满意,我们可以在分镜编辑功能里描述自己的要求,让AI重新生成、替换画面。


最后,我们把难度拉到叙事层面,尝试生成一段偏电影感的短篇故事,只给出一个模糊主题——关于离开与回头。

小云雀同样能自主厘清所需的画面和旁白,在不同的拍摄角度、画面内容间自主切换,最后生成一段具有连贯叙事逻辑的画面。

综合这一轮测试来看,小云雀和Seedance 1.5 pro 的搭配,并不只是画质提升或风格更稳定,而是让“拍一条像样的视频”这件事,变得不再完全依赖专业技能。

结语:视频创作普惠化时代已来

小云雀+Seedance 1.5 pro的组合,成功地将模型能力落地到实际使用场景,让视频创作不再依赖专业技能或复杂操作,让更多普通用户也能轻松创作出视觉和听觉都令人满意的作品。不仅让“小白拍大片”从口号变为现实,也为视频生成的发展提供了一种新的思路:更懂创作者意图,更贴近真实场景,更易于上手和应用。

未来,随着更多功能和场景的拓展,这套组合有望成为创作者手中不可或缺的工具,推动视频创作的进一步普惠化。