

目下是2026年2月13日。
若是你还没能搞明晰目下的 AI 有多强,那请你坐窝去看下目下 B 站上最火的 AI 短片——《牌子》。(文末左下角点击阅读原文可不雅看)
7 分钟视频,上线一周,1000 多万次播放,80 多万点赞,30 多万投币。
《流浪地球》导演郭帆看到后转发点赞,YouTube 上亦然一堆老外被战栗,弹幕里寰球喊着封神,驳斥区有东说念主在逐帧分析剧情。差评裁剪部的后期们也在上班时期,征询到底是如何作念的。

视频一运转,一个东说念主戴着帽子走进丛林,在看到一个“禁戴帽子”的牌子后,他原地被“隐藏”了。镜头赶紧下拉,帽子滚到画眼前线。
接着音乐一皆,短片名《SIGN》出目下屏幕前。

再紧接着镜头一个丝滑转场,SIGN 成了汽车里的一个按钮,收音机正在播报新闻:
火星上发现了一块玄妙“?”警示牌,地球上也运转出现越来越多看不懂的牌子。这些晓示牌一出现,告诫的事情就会立即发生,即便它不合乎常理。

随着镜头触动着转向车窗外,路边片刻出现“奶牛从天而下”的告诫牌,下一秒奶牛真的从山坡上滑下来。
后视镜里映出司机的脸,奶牛摔下来的灰尘四溅,急刹车的惯性让司机来了一个大蹒跚。看到这些,差评君还是坐不住了,要知说念这些物理细节一直都是 AI 视频最容易穿帮的场地啊。
接下来更绝。
一个长达 20 秒傍边的十字街头镜头,简直是一镜到底的嗅觉。上一个牌子的后果还在触发,下一个牌子还是到来,滑倒的行东说念主、骑着自行车的熊、各式超当然事件一个接一个在画面里发生。

要知说念 AI 视频模子常常只可生成几秒钟片断,时期一长,场景、东说念主物都会漂移、变形。我真无法设想这个镜头是如何撑住的。
临了一张报纸飞过来挡住画面,当它被吹走后,咱们又被带到了下一个场景。转场丝滑到你根柢意志不到这是拼接出来的。

整支片子 7 分钟,简直每一帧都是这个密度。
剧情也不异塌实:
越来越多看不懂的晓示牌让寰宇堕入交集,一个宏大的“不言不视不闻”的告诫牌从月球砸向地球,东说念主类的翰墨运转被吞吃,无法调换交流,次序渐渐坍弛。

好在东说念主类发现了交流的内容在于脸色、手势。于是寰球愚弄 emoji 重建了调换式样。

临了咱们飞回火星踢翻了那块牌子,并插上新的牌子:

这条视频是 UP 主 DiDi_OK 插足 B 站首届 AI 创作大赛的参赛作品。 1 月 5 日,B 站面向全球创作家启动了这场比赛,第别称奖金 100 万,3 月 20 日截稿。比赛还没终结,这条片子还是提前炸场了。
看完这条视频,我的第一反馈即是,这哥们是谁?他究竟如何作念到的?我甚而想坐窝知说念他每个镜头、每一帧都用了哪些模子和指示词?
托一又友筹备上 DiDi_OK 之后,差评君坐窝就把语音拨往日了。
DiDi_OK 是河南郑州东说念主,在英国留学学的 3D 动画,毕业后进了伦敦 WPP 总部,全球最大的告白传播集团之一,干了快 4 年。
早在三年前,公司就要求全员战斗 AI,但那会儿的 AI 视频是什么水平呢?差评君估摸着也就威尔·史小姐第一次吃意面的水平吧。

但他其时铲除的,倒不是 AI 自己,仅仅以为没到 AI 够用的阿谁时期:我用 Blender 我方作念都比你快,不伺候。
客岁 4 月,Runway 推出了 Gen4,他发现画面运转有物理规章了,石头不错遍及地落地、弹开,心里想着“那一天终于如故来了”。
DiDi_OK 以为这个开始够了,就去插足了一个 AI 电影节。公司一看,行你小子,平直给他开了个 AI 导演新的岗亭。
是以目下他的糊口是这样的:白昼给大客户作念 AI 告白,晚高放工回家我方作念 AI 短片。有时好意思国客户的时差逼得他凌晨 1 点才放工,但他还想再作念一两个小时我方的东西。
DiDi_OK 职责中

《牌子》视频的灵感,来自于一回圣诞假期。
客岁圣诞节,DiDi_OK 跑去英国最西边的康沃尔。因为康沃尔有我方的方言和标志民俗,是以他一齐上遭受一堆看不懂的牌子,导致每次经由都会留心翼翼。
临了让他下定决心要作念这个选题的,是这边一又友家洗漱台足下竟然也贴着一张小纸条,米兰app官网上头也写了一转字,看不懂,但他总以为好像有什么不得了的东西。他没问,就让这个猜疑一直留着。
一又友家的陈赞号

圣诞节终结后 DiDi_OK 又去了土耳其,这里语言就更欠亨了。他跟出租车司机聊天都得两东说念主大开 ChatGPT,彼此翻译着对话。
这一齐上他拍了好多那种看不懂的标志牌,也履历了好多只可靠手势和浅笑交流的时刻。
土耳其牌子

冷静地他运转想一个问题:当语言欠亨的时候,东说念主和东说念主之间的调换会退化到什么景况?
手势、浅笑、emoji。
这即是《牌子》视频临了的设定:当东说念主类语言被吞吃后,寰球运转用 emoji 调换、最终杀青反击。

灵感有了,但从灵感到一个 7 分钟的圆善故事,中间还有他 2 个月的打磨。
DiDi_OK 的民俗是在 iPhone 备忘录里顺手记灵感,料想一句就记一句。这个视频的脚本,他前跋文了四五个不同的文档,才运转搭出一个好像的框架。因为对脚本的高要求,有时他一觉悟来会推翻我方写了半个月的东西。
灵感&脚本

在《牌子》的脚本定稿后,DiDi_OK 其实预判到了:比赛周期这样长,中间好像率会有新模子发布。其时他猜是 Google 的 Veo4,遏抑来的是 Seedance 2.0,后果比他意象的还猛。
但这在他盘算之内——写脚本的时候他就定了一个原则:故事要能扛住本领迭代。
他认为 AI 再如何发展,最佳的景况也不外是无穷接近实拍和传统 CG 的后果。既然如斯,那从古于今的规章就不会变,好故事永久是好故事。
固然在本领上,他也用功作念了亿点点模子超标。
比如十字街头阿谁镜头,DiDi_OK 明知说念其时的模子作念那种复杂场景很劳苦,但他专爱在阿谁点上死磕,把本领阐扬往前推。这样就算新模子出来了,不雅众回头看也不会以为逾期。

说到这,重点也来了,寰球一定特意思:
《牌子》到底是如何作念出来的?为什么 DiDi_OK 的 AI 这样听他话,能把视频一致性作念得这样强?
嗯,当先,你要失望了。DiDi_OK 的 AI 视频模子也不听话。
DiDi_OK 说他莫得作念分镜的民俗,不是他不想作念,是因为至少在其时的 AI 水平下,开云就算画了分镜它也不听你的。
是以他其后的计谋是靠“体感”。把安稳度区间设在 80 到 100 分之间,专科积存让他知说念什么是 80 分,而 AI 偶尔会暴击到 100 分以上。
但安稳亦然要代价的,代价即是无穷抽卡。
十字街头阿谁 15-20 秒的镜头,是通盘视频里资本最高的。
DiDi_OK 有一次闲着败兴数了一下生成纪录:他每次点 4 个一组批量生成,菜单里排了 1000 多组。也即是说,单算那一个镜头,他生成了三四千条视频。

水獭阿谁镜头也折磨东说念主。
因为画面里同期出现多数动物,AI 很难保证每一只都莫得 bug。数目一多,模子就顾不上别的了,有时候镜头会难受锁定在一个士兵的脸上。DiDi_OK 只可把还是安稳的构图和运镜保留住来,再用视频生视频的式样再行跑一遍细节。

传单和二维码的镜头也一样。
他但愿有一张传单刚好扑到镜头前边,好让上头二维码能被不雅众扫出来。这种事你没法跟 AI 接洽,只可一遍随地生成,指望老天爷给你一次契机。

DiDi_OK 其后总结出一套应酬挫败的看成。
他就承接闭着眼点生成,资本点够 1000 块钱的,然后就去看电影、打游戏,转头再一个一个看。归正别盯着进程条,否则看着从 99% 终于到 100%,点开一看很差劲,就会以为有内伤。
{jz:field.toptypename/}另外他不会遵从一个模子,每个镜头他会凭据需求选拔不同的器具:
Nana Banana 生图最佳,尤其能输出 4K;Veo 的嘴型同步和褂讪性最强,惟一波及东说念主物对话就用它,但运镜很拘束,扮装总是正对镜头站画面正中间谈话;可灵的运镜有张力,能作念很大的推拉,但画相貌易拉伸变形;Runway 的物理后果最牛,但不褂讪。

至于好多东说念主意思的,《牌子》如何作念到不同场景看起来作风结伙,如何保握一致性的。
其实 DiDi_OK 用了一个贤人的方针:他坚握写实作风、低富有度,并且大部分扮装只出现一次。

不雅众以为一致,不是因为统一个扮装伙同永久,而是因为全体好意思术调性永久在一个框架内。这个想路来自他作念游戏倡导遐想和 3D 动画时的积存。
固然了,并不是一切职责都能 100% 交给 AI。
比如贪馋蛇吃翰墨阿谁片断,蛇和翰墨都是 AI 生成的,但要作念到可控,就得先把它们转念成带透明通说念的素材,再通事后期合成叠在一皆。
贪馋蛇跟踪细节

《牌子》惊艳寰球的不仅仅画面。
它的配乐像一条隐形的神气线,前段压抑悬疑,中段交集加快,到临了 emoji 反攻的时候一下子奋斗起来,整段音乐是随着故事的心跳走的。
这段配乐,是 DiDi_OK 花了整整一周,用 Suno 生成了 1500 屡次磨出来的。最枢纽的是,他我方皆备不懂乐理,连五线谱都不相识。
他判断利害的方针很简便,让女一又友听。女一又友全程不知说念他在作念什么片子,莫得泡在创作环境里,即是一个纯正的第一次听众。DiDi_OK 说,一个没听过这首歌的脑子,对他来说极端难得。

通盘视频,DiDi_OK 前后打磨了两个月。脚本一个多月,AI 生成制作 23 天,也私费了不少钱。
聊到临了,差评君问了阿谁系数东说念主都想问的问题:AI 会取代导演吗?
DiDi_OK 的回话是,不会。
他说 AI 再如何发展,大前提不会变。它最佳的景况即是皆备等于实拍和传统 CG 的后果。那么,从古于今有一个事情是毋庸 AI 寰球都会的,即是写字。
“写演义谁都不错写,谁都不作恶,但并不是每个东说念主临了都去写演义了,也不是说会写字的东说念主临了都作念到了一个我方安稳的景况。”
贪馋蛇 AI 素材

DiDi_OK 认为 AI 最能匡助到的那类东说念主需要同期鼎沸两个条目:知说念我方想要什么,也知说念别东说念主想要什么。但这两个条目其实蛮刻毒,“好多东说念主包括我也就怕知说念我方到底想要什么,而知说念别东说念主想要什么就更难。”
DiDi_OK家里职责区

其实差评君以为,DiDi_OK 我方的履历即是最佳的样本。
他从小学画画,考上了伦敦艺术大学,作念过游戏倡导遐想师,作念过 3D 动画师,目下又酿成了 AI 导演。每一次转型,上一个妙技看起来都被“替代”了,他不再需要花几百个小时手动建模、手动上色、手动调遣画。
可是他之前积存的审好意思判断、叙事智商、对画面的认识,莫得一样被铺张。
甚而不错说,这些看不见的积存恰正是他能把 AI 用好的原因。
他之是以知说念哪种证据式样更诱惑东说念主,知说念如何用音乐调遣神气,知说念 80 分的画面和 60 分的辩别在哪,全靠那些“被替代”的年初里攒下来的东西。

包括《牌子》这个故事自己。
“警示牌带来交集,emoji 重建调换”这个灵感,不是 AI 从数据库里算出来的,是从康沃尔看不懂的路牌和土耳其出租车后座上迸发出来的。
AI 是能生成画面,但它莫得糊口。没看过晓示牌,没坐过那趟出租车,就写不出阿谁故事,更没法用神气弧线、记号叙事、镜头语言去组成了一个圆善的导演意图,去打动千千万万东说念主。

就像 DiDi_OK 说,他之是以心爱在 B 站发作品,是因为弹幕,“一个作品加入了寰球系数东说念主的想法之后,才算是负责完成”,寰球的想法亦然 AI 没法给到的东西。

是以 AI 确凿替代的东西是什么?
是那些你花在机械实行上的时期。建模、渲染、调参数、一帧一帧修动画,这些事 AI 如实越来越颖异。但你脑子里那套判断系统,不雅众在这个节点需要什么神气,AI 还作念不了。
软件行业也一样,AI 出来后,居品想维、认识意图、枢纽方案是成立者们的要点。
前两天差评君我方用 AI 写了两个 App,功能如实能跑,但交互逻辑稀碎。DiDi_OK 听完也说了一句:一个很顶尖的要领员,他是会比我多出极端多的软件想维、居品想维。
Node.js 之父 Ryan Dahl 本年 1 月也在 X 上写了句话:东说念主类写代码的期间还是终结了,不是说工程师没活干了,是“平直写语法”这件事不再是重点。

无论是作念视频、写代码、画画,AI 替掉的永久是统一样东西:手上那些相通的机械干事。留住来的亦然统一样东西:你脑子里那套审好意思、叙事、试吃、判断系统。
在采访中 DiDi_OK 说了一句话,我以为不错拿来当这篇著述的收尾——
AI 正在把创造的权益反璧给东说念主。
但我想补半句:还给那些有智商接住的东说念主。
撰文:刺猬
裁剪:莽山烙铁头 面线
好意思编:素描
图片、贵寓来源:DiDi_OK 提供

备案号: