将视频制作门槛降至新低。

作者|金光浩

编辑|靖宇

上周,我在测试第 17 个 AI 视频工具。

有点麻木了。

过去一年,我试过各种方案:

1、自己手动改:ChatGPT 写脚本,Nanobanana-pro 生成分镜图,即梦把图片变成视频,最后导入剪映配音配乐。一个 30 秒的短视频,折腾两三个小时。

2、AI 一键生成视频的 Agent:崩溃的是 Prompt 根本不知道怎么写,为了让 AI 理解我想要什么画面,我得像写论文一样描述每一个细节:镜头角度、光线方向、色调风格、人物表情……我从内容创作者,变成了提示词工程师。

直到上周,我在即刻看到「博主海辛」推荐了 Medeo,视频效果很丝滑。

于是,我找人要了一个邀请码注册,也想体验下。

当我第一次打开网页,看到界面非常简洁而克制,主界面就一个输入框,干净得像个搜索引擎。

medeo 首页|图片来源:medeo

我随手敲了一句:「一杯手冲咖啡的制作过程,温暖的木质桌面,阳光洒进来,治愈系风格,做一个 30 秒的慢生活短视频」。

点击 Generate。等了三分钟。屏幕上出现了一个完整的视频,配上轻缓的背景音乐,很治愈。

我愣了一下。不是一张图。不是没声音的片段。不用改。是一个完整的、可以直接发布的视频。

而我用了一年 AI 视频工具,从来没有这种体验:通常,「生成完的视频」还要我再改吧改吧。

有点上头。我决定用几个真实需求,测测它的底线在哪。

01

高光时刻:一句话做出商业级广告

我设计了三个不同难度的任务,来测试一下 Medeo 的能力边界。

第一个:简单创意视频

我输入一句话:「一只穿着迷你西装的柯基,在东京地铁里通勤上班,日系治愈风格,做一个模仿 vlog 的 30 秒视频。」

Medeo 的处理过程:先理解需求,自动写脚本,设计几个分镜(街道行走→刷卡进站→凝望窗外),调用生图模型生成画面,再用图生视频让画面动起来,最后配上 BGM。

给我的感受:简洁的界面,简单的交互,严格的指令遵循,一句话生成精美的画面。

medeo 生成柯基地铁的视频创作过程|图片来源:medeo

全程不到十分钟。成片效果出乎意料。

画面风格统一,柯基形象在不同镜头里保持一致,旁白语气温柔治愈,BGM 节奏卡得刚刚好。

用传统流程手工做这个视频?至少一个上午。

第二个:复杂工作流

我想测试它能不能处理更复杂的指令。输入:「我要做伊卡洛斯飞向太阳的希腊神话片段,先用图生图确保人物一致性生成分镜,最后用 sora2 图生视频,然后配英文的史诗感解说,做 30 秒视频」。

这个指令包含几个技术要求:人物一致性、指定模型(sora2)、指定语言和风格(英文史诗感)。

Medeo 没被难住。

它把整个任务拆分成几个子任务,然后逐个完成。

1、编写完整脚本:伊卡洛斯神话概念、分镜设计、英文解说词

2、生成伊卡洛斯角色参考图(蜡翼、希腊风格)

3、使用图生图生成所有分镜画面(确保人物一致性)

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo

4、生成英文史诗风格解说配音

5、使用 Sora2 图生视频转换所有分镜

6、组装时间线:视频片段+配音+BGM

30 秒的悲剧神话,从输入到成片,五分钟。

它先生成伊卡洛斯的角色形象——年轻的少年、蜡制的翅膀,用图生图确保他在每个分镜里长得一样,接着用 sora-2 把静态图变成动态视频:振翅、飞升、靠近烈日、羽翼融化,最后配上浑厚的英文旁白。

第三个:专业级广告分镜

我用 Gemini 设计了一个高难度的广告脚本:高端机械腕表广告「时间的心跳」。

15 秒,要求极致微距、机械美学的 3D 特写效果。提示词如下:

「这个高端机械腕表广告「时间的心跳」,帮我生成 15s 的详细分镜,直接输出结果即可。

要求极致微距、机械美学的 3D 特写效果。

示例分镜描述:「纯黑背景。一枚精钢机芯悬浮在画面中央。齿轮缓缓咬合转动,红宝石轴承折射出冷冽的光。镜头穿过游丝摆轮,捕捉每一次精准的震颤。灯光勾勒出工业之美的极致质感」。」

gemini3 生成分镜的过程|图片来源:lmarena

我把完整分镜表贴到 Medeo,点击生成。

medeo 的提示词交互界面|图片来源:medeo

出来的效果让我有点惊讶。

齿轮的金属质感、轴承的光影流转、摆轮的精密震动,都达到了接近专业广告的水准。虽然和真正的 TVC 还有差距,但考虑到这是一个 AI 工具用几分钟做出来的,性价比已经很高了。

02

发现的几个小问题

用了一周,我发现了这个产品几个需要迭代的问题。

第一个问题:生成速度受限于底层模型调用

因为 Medeo 需要串联文生图、图生视频、TTS 等多个模型,如果依赖的下游模型卡了,整体等待时间会比较长。

有个流程设计的问题:语音可能会重复生成,原因是依赖的视频生成模型也可能生成语音,会和自己单独生成的语音重复。

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo

还有一个问题,Sora2 出于版权,有些视频无法生成,导致多个分镜合并的时候有遗漏。

当然,这个问题也是有解的,根据我的经验,如果想彻底解决这个问题,同一个任务可能要测试不同家的模型 api,一家的慢了,马上切换到另一家,毕竟同时出问题的概率比较小。

我判断,Medeo 这个团队,技术功底很扎实。

因为当我给出反馈 Medeo 第二次生成时,已经用上了这个策略:当 Sora2 视频生成出现问题的时候,换用了标准的 12V 来重新生成视频,规避了审核问题。

同时,语音生成的问题,通过重新生成也得到解决。

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo

第二个问题:精细编辑能力有限

如果你是专业剪辑师,习惯了 Premiere 或 Final Cut,Medeo 的编辑界面可能会让你觉得不够灵活。

它支持拖拉拽编辑,但功能相对基础。复杂转场、精细音频调整、多轨道叠加,目前还做不到专业剪辑软件的水平。

当然,这可能本来就不是它的目标:它想解决的是「从 0 到 80 分」,不是「从 80 分到 100 分」

对于这个群体,这些限制其实不是问题,用户真正的问题是:它到底能否快速落地我的创意。

而 Medeo 真的在用「一句话 vibe 视频」的方式,把这个问题落地解决。

第三个问题:价格不透明

目前还在内测阶段,靠激活码使用。正式定价还不清楚,但从背后的模型调用成本来看,应该不会便宜。

但也许这也是他们的策略,这类视频生成 agent,可能想在内测期间,通过用户的反馈,确定一个市场可以接受的价格。

总的来说,上面的问题都不是大问题,现在是最好的尝试这类产品的时机:等到产品正式发布,我们就可以第一时间用工具创造价值,进而拿到结果。

在深度体验后,我大概知道谁最适合用这款产品:

1、内容创作者做短视频:一条文案 5 分钟生成专业视频,特别适合小红书、抖音、B 站的日更博主。

2、企业营销做宣传片:产品介绍、活动预告、招聘海报,省下 80% 外包费。

3、教育培训做课程视频:知识可视化,把枯燥讲解变成生动动画。

4、文字创作者做视频内容:擅长写作但不会剪辑?Medeo 帮你把文字变成视频。

适合用 Medeo 的人群和场景|图片来源:smart draw

03

它改变了我的创作状态:

从怎么做到做什么

用 Medeo 一周后,我发现自己的创作状态变了。

以前,每次想做视频,第一反应是:「太麻烦了,算了」。

因为我知道后面有多少坑:写脚本、找素材、调 Prompt、生成图片、图生视频、剪辑、配音、配乐……每一步都可能出问题,每一步都要花时间学。

现在,第一反应变成了:「这个想法有意思,试试看」。

从想法到成片,只需要几分钟。

效果不满意?调整几轮也能搞定。试错成本大幅降低。

说白了,它让我不用再纠结「怎么做」,而是直接想「做什么」。

在社媒看到 Medeo 团队有个观点,我很认同:

「创作者,应该和想法较劲,而不是和工具较劲」。

过去一年,AI 视频工具进步很快,但大多数在解决「单点能力」的问题:更逼真的画面、更流畅的动作、更自然的语音。

Medeo 解决的是「全流程」问题:怎么把这些单点能力串起来,让普通人也能用。

这让我想到一个关于 Notion 的类比。

十年前,想做网站,你要学 HTML、CSS、JavaScript,还要懂服务器部署。现在,用 Notion 拖拖拽拽就能搞定。

AI 视频创作可能正在经历类似的变化。

Medeo 想做的,有点像视频领域的「Notion」:让创作门槛降到最低。

04

为什么做「AI 导演」

而不是「更好的生成器」?

Medeo 的上述设计理念很有趣,但我还想往深了想一层:

为什么 Medeo 要选择这样做?

我试着从以下三个角度拆解:

第一层逻辑:生成能力正在被快速商品化。

两年前,能生成连贯视频的 AI 只有 Runway。现在呢?

可灵、即梦、Pika、Sora2、Veo、Seko、Flova……

每隔几个月就有新玩家入场。

生成质量的差距在快速缩小,单纯比「谁生成得更好」,护城河会越来越浅。

据我的观察,AI 视频类产品,只有集成越来越多「独特」的「专业」的「know how」(如本次推荐的 Medeo),或者切中一个细分的领域(如上次 AI 上新里介绍的 OiiOii),产品才有核心壁垒。

第二层逻辑:用户的真正痛点不在生成,而在「完成」。

这是我自己的血泪教训。

我用 AI 生成了上百条视频片段,真正剪成作品发布的,不到十条。

中间缺失的环节「脚本、分镜、剪辑、配音、调色」,这些才是真正吃时间的地方。

用户要的是 10 分钟做一个 80 分的视频,而不是 80 分钟做一个 100 分的视频。

第三层逻辑:对话式交互是降低门槛的关键。

传统的视频制作工具,不管是 Premiere 还是达芬奇,学习曲线都很陡峭。

就连剪映这种「轻量级」工具,很多人也只会用最基础的功能。

但聊天,每个人都会。

一个明显的趋势是,越来越多的智能语音输入法,如智谱输入法、豆包输入法、以及最近爆火的闪电说,都在试图让语音替代打字,成为人机交互的新入口。

毕竟,无论是语音还是文字,其核心都是人与机器的直接「对话」。

当 Medeo 把所有复杂操作都隐藏在对话背后,用户只需描述「我想要什么」,而不用关心「我该怎么做」。这样的设计,正是将使用门槛真正归零。

05

你的故事,值得被看见

如果从用户视角看这个产品有什么价值,Medeo 正试图解决 AI 视频生成的「最后一公里」问题。

过去,AI 视频工具能力已经很强。Sora2 能生成惊艳画面,即梦能创造精美图像,各种 TTS 工具能合成自然语音。但把这些能力串起来,变成完整视频,仍然需要大量人工操作和专业知识。

Medeo 做的事情,是把这些能力整合成一个「AI 导演」:你告诉它想要什么,它帮你完成剩下的所有事情。

出于好奇,我顺藤摸瓜查了一下背后的团队:One2X。

他们对产品的愿景和我的感受很一致:当 AI 赋予我们几乎无限的生成能力时,工具的使命是让创作者更专注于创作本身,而不是被工具所限制。

One2X 团队 8 月份即刻招人动态|图片来源:即刻

Medeo 还不完美,但作为内测产品,完成度已经让我有点意外。

对于大多数想做视频但不会剪辑不懂 AI 的人,Medeo 可能是目前最接近「开箱即用」的方案。

说到底,它回答的是一个很实际的问题:

当做视频变得像发微信一样简单,

我们要跟这个世界分享什么故事?

*头图来源:medeo

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO