查看原文
其他

北大人工智能艺术实验创作研究者用AI全流程又创作了一部科幻动画!

wuhu小精灵 wuhu动画人空间
2024-07-22


wuhu专题

文 | Eddy Chen(陈刘芳)

北京大学艺术学院

数字媒体艺术、动画、

人工智能艺术实验创作研究者




这次我将带来近期新的创作研究,主要分为三个部分:

第一部分:创造力需要探索的空间——从《Genesis 》内容创作角度详解制作要点和提示词模板;第二部分:经典科幻作品与AI多模态能力的结合——《遥远地球之歌》创作缘起和创作过程,在Genesis 基础上补充AI辅助生成脚本环节,并展示完整创作过程;

第三部分:未来的创作方式畅想——结合AI版《南方公园》和《流浪地球III》畅想未来的创作方式,讨论AGI如何引领电影工业化迈向 3.0


“创造力需要探索的空间”


前段时间,一部由Midjourney + Runway完成的电影预告《Genesis》,在推特上引起了轰动。作者Nicolas Neubert是一名来自大众集团的产品设计师,受到《星球大战》和乌托邦主题的启发,构建了一个人类从机器人手中夺回世界主权的故事,这类作品自成一类,既不是笑话也不是模仿。与以往我们看到的AI影片比较起来,被人诟病的抖动基本可以忽略不计,通过运用视听语言,给观众带来了更棒的沉浸感和观影体验。

GENESIS
受到网友们的鼓舞Neubert也发布了他的一些创作过程,这里给大家做先一下分享:
1. 从音乐开始入手音乐会极大影响观众如何感知视觉内容,并激发另一种浸入内容的感官体验。以音乐作为起点能够为预告片设置基调,并在剪辑时搭配画面和音乐的节拍。Neubert在选定音乐后开始一遍又一遍的聆听,甚至遛狗时也在听,这个动作能够帮助他整理清晰预告片中表达的思路和故事线,之后便开始了正式的画面创作。
2. 打造世界观和故事世界观打造和讲故事是是创作者应该学习的重要能力,随着技术的普及,每个人都能够生成高质量的内容,会讲故事能够把视听碎片组合起来的人才能创造奇迹。为了能够让故事逐步增加紧张感,预告片被分成了三个阶段,分别是设置场景、引入威胁和高潮行动。
3. 围绕故事主线生成画面:Neubert以“分享一切,承担后果,然后号召人类行动”作为总体基调,创作了大量的环境、军事和科幻主题的人物和画面,以便整合成一个故事,同时,加入了三个发光护符的孩子镜头,以暗示故事更深的层次。



这里,在Midjourney中采用了一组提示词模板来完成所有画面的创作。


___________ , star wars warfare, in the style of detailed crowd scenes, earthy naturalism, teal and yellow, frostpunk, interior scenes, cinestill 50d --ar 21:9 —style raw


为大家详细解读一下这个提示词模板

  • ____________: 空白部分用于填入所需的Prompt,以指定生成的图像内容

  • star wars warfare: 使用星球大战中的科幻战争风格

  • detailed crowd scenes: 包含大量的人群细节

  • earthy naturalism: 深褐色、赭色等接近土壤的色调,营造自然真实的视觉效果

  • teal and yellow: 青色系和黄色系的色调

  • frostpunk:游戏《寒霜朋克/冰汽时代Frostpunk》中的视觉风格

  • interior scenes: 建筑内部场景

  • cinestill 50d: 一种电影胶片,高动态范围和色彩还原,适合拍摄夜间和低光环境

  • --ar 21:9: 画面宽高比21:9,接近电影的2.35:1

  • --style raw: 减少Midjourney默认审美偏好的影响


通过这组提示词模板结合不同的前置Prompt提示,就能够控制Midjourney稳定的生成具有科幻战争题材和人群场景,自然的青黄色调,寒霜朋克风格的室内场景,模拟cinestill 50d胶片效果,生成21:9宽屏比例的图像。

这样生成的画面,能够最大程度保持主题、颜色和光照的一致性,可以通过对《Genesis》拉片后检验这点:


Genesi部分画面截图


另外用到的是Midjourney的“强变体”功能,能够方便的在保留画面色彩风格前提下,轻松创建不同的场景,例如一个女武士的场景就可以转换成普通公民、黑客或战斗场景,而不需要生成新的提示。


Midjourney 强变体功能效果


4. 把画面转换为视频

这个过程在Runway中,通过Gen-2功能进行,过程也非常简单,上传图片引导Gen-2生成视频即可。

Neubert提到了几个要点:

  • 常规画面,勾选Upscaled获取更好的画面效果

  • 画面中包含面部细节时,取消勾选来减少抖动

  • 使用图像引导反复生成,直到得到理想画面

本片中除去最后一个火焰镜头为文字引导,其他全部为图像引导模式完成。

5. 后期编辑

在Midjourney和Runway生成输出的同时,Neubert会先放置一些会发挥重要作用的关键场景,在开始正式剪辑之前,先根据音乐来定位文字,这样可以有一个额外的参考固定点来考虑还缺少哪些场景,能够为生成过程提供更多辅助信息。之后就像拼图游戏一样,一边生成视频一边将素材拖入剪辑软件,逐步完成故事。

这里可以分享的经验是:

根据色彩匹配2-3个镜头的组合,使它们看起来像一个更大的电影场景。

考虑剪辑的节拍同步,当音乐中有“BWAAA”(注:BWAAA 是一个电影预告片中常用的代表低沉响声的拟声词)时,要额外注意前后镜头的衔接和音乐的搭配,使整体效果更沉浸。


6. 添加运动 

来自网友们最常见问题可能是“如何使剪辑中出现那么多运动?

Neubert分享了几个技巧来增加画面运动:

思考AI如何解释图像。Runway获取一张图片,然后根据其模型计算出哪些部分应该被动画化。根据这一点逆向思考,在Midjourney中生成暗示运动方向的图像。

分析来自Runway的视频后会发现,在整个4秒的镜头中,场景通常会有很大变化,因此,在预告片中剪辑的镜头多在0.5 - 2秒之间,完整的4秒剪辑仅被采取两次。

将画面播放速度提高1.5-3倍。因为观众只能在很短的时间内看到这个剪辑,便会感知到场景中更多的运动,因为本质上是针对该部分进行了快进。例如机器人是缓缓的转头,经过加速后就在一瞬间完成了这个动作。

7. 工具栈与分析

关于工具栈、工作量和定价的数据和信息,这些数字对这些工具的定价有直接影响,具体来说:

制作时间:7小时

316个用于Midjourney的Prompt

128个在Midjourney中采用的图像

310个在Runway中生成的视频

1个视频是用文本生成的

44个视频在预告片中使用


创造力需要探索的空间。

Neubert用于创作《Genesis》视频剪辑工具CapCut和来自Pixabay网站的音乐则是免费使用的。目前的“AI视频技术栈”每月花费125美元,其中包括Midjourney每月30美元的计划和 Runway每月95美元的无限生成计划,作为创作者,他决定支付“无限的创造自由”。到现在为止,已通过Midjourney生成了超过20000张作品,我们可以看到他之前的分享。


Neubert通过Midjourney生成的画面


可以发现,他对画面构图和审美有着极强把握能力。此前,Neubert也转发了一条关于《How To Make A Blockbuster Movie Trailer》,在开始Genesis创作前做了大量的功课来完成这样一条高品质的AI短片。
Magic Leap 创始人 Rony Abovitz 评价“预告片非常棒”,他认为“电影和世界建设的未来将永远改变。许多新的、令人惊叹的电影和世界将被创造出来,新的声音将创造出通常需要数亿美元和数千人才能创造的东西。调整和完善需要几年的时间,但到 2030 年,电影世界将永远改变。”


遥远地球之歌

“经典科幻作品与AI多模态能力的结合”



从热闹的的ChinaJoy返回北京,几个朋友不约而同分享了Genesis,我开始着手根据作者分享的方法来完成这部《遥远地球之歌》AI预告版。
《遥远地球之歌》是20世纪科幻三巨头之一阿瑟•克拉生前尤为喜爱的作品,综合科幻和人文主义的浪漫气质。
故事内容讲的是:“公元3620年,地球迎来了末日,但人类仍未灭绝。人类通过两种太空移民方式,使种族得以延续。一种是用播种船将基因运送到外星,再在外星直接培养出本土人类。这种移民的历史短暂,却渐渐形成了独有的文化体系。而另一种,则是将最后一代地球人人体冷冻,用飞船送往外星。这种移民亲眼目睹了地球的毁灭,充满了沉重的使命感。这一天,在遥远的萨拉萨星,截然不同却又无比相似的他们终于相遇了……”
“百万光年的航道上,地球的末裔谱写着新生的赞歌。”
克拉克在前后三十年间不断打磨这个故事,灵感来源于他脑中不断循环的一段旋律,最早于1958年以短篇小说《The Songs of Distant Earth》的形式在IF杂志首发。


1958年 IF Worlds of Science Fiction杂志 


十年后,克拉克和库布里克合作,完成了科幻电影《2001太空漫游》剧本。在拍摄完毕《2001太空漫游》之后,斯坦利·库布里克(Stanley Kubrick)就一直在若有所思地说:“我们应该拍什么样的电影?”类似的话。


在观看《星球大战》、《第三类接触》、《星际迷航》等电影后,克拉克发现但它们都有一个共同点。从最严格的意义上讲,它们都不是科幻小说,而是幻想。尽管,他和喜欢科幻小说一样喜欢奇幻小说——它的文学标准通常也更高——一种类型之间的区别。幻想是在现实世界中不可能发生的事情(尽管你经常希望它会发生);科幻小说是真正可能发生的事情(尽管如果真的发生了,你通常会感到遗憾)。


克拉克自问,下一部科幻电影应该是什么样的?


这时,他想到了多年前写过的短篇小说《遥远地球之歌》,它的背景似乎很适合改编成电影。此外还汲取了其他故事如《发光体》中的一些点子,那里有赋予人性特征的大型鱿鱼外星人。到目前为止,所有关于星际旅行的电影都很空想。克拉克想看看是否可能构思出一个既具备必要的戏剧性又有大胆视觉效果的真实的星际史诗电影,于是他决定以电影大纲的形式来写《遥远地球之歌Mk II》。


这样做的好处是:第一,也是最重要的,是节省时间和精力。在一篇提纲将一部完整小说的所有基本要素——地点、人物、情节——压缩在几页纸里。第二个好处是,这会让库布里克至少在一段时间内保持沉默。结果,他冷冷地归还了提纲。于是克拉克把Mk Il寄给了经纪人,投稿给了Omni杂志,很快一个著名的电影制片人想买它——但前提是克拉克要写剧本,最终克拉克没有接受这份工作。到了1986年长篇小说《The Songs of Distant Earth》 正式出版,这就是《遥远地球之歌》的最终版本。
其也后续为刘慈欣《三体》等作品的提供了灵感来源,其对于世界科幻史的意义不言而喻。
此外,1994年 英国音乐家、词曲作者和制作人Mike Oldfield的第十六张录音室专辑,改编自《The Songs of Distant Earth》的概念专辑发行,这张专辑的CD具备游戏交互性,允许用户乘坐宇宙飞船穿越未来城市,前往中央控制系统,中央控制系统内部有一座音乐塔。用户必须回答一个音乐谜题,该谜题提供了一系列触发专辑中不同歌曲的选项。这么超前的概念,可以说是音乐结合交互叙事游戏的前身。
接下来我们来聊聊刚刚完成的这部《遥远地球之歌》,给大家结合一部作品详细拆解AI电影预告片的工作流。
▸ 前期脚本这部影片创作的起点是《遥远地球之歌Mk II》电影大纲,除了我自己重新阅读之外,邀请了Claude一起共读,快速梳理世界观、人物和关键情节。


Claude回答界面1


帮助索引故事中的独特元素。


Claude回答界面2


分解作为人类不忍下笔的场景。


Claude回答界面3


整理分镜头。


Claude回答界面4


详细描述场景,撰写Midjourney提示词。


Claude回答界面5


Genesis是从零开始构思的,而《遥远地球之歌》以原著为基础,LLM的能力可以帮助创作者快速展开前期工作, 以上方法,非常适用于有大量文字要处理的改编作品,这个步骤目前无论是ChatGPT还是Claude都可以完成的非常不错。


▸ 画面生成

目前从质量效率综合来看最好的选择仍然是Midjourney,这里参考Neubert的制作经验,先形成一个Prompt模板。

_____,expansive and intimate visual storytelling,epic sci-fi vision,Kodak Vision3 500T --ar 21:9 --style raw --v 5.2

模板每个部分含义如下:

  • expansive and intimate visual storytelling:宏大而细腻的视觉叙事风

  • epic sci-fi vision:科幻视觉风格

  • style of Interstellar movie cinematography:模拟电影《星际穿越》的摄影风格

  • Kodak Vision3 500T:模拟柯达Vision3 500T电影胶片的色调和质感

  • --ar 21:9:生成接近电影画面宽高比的图像

  • --style raw:原生风格,减少Midjourney默认处理的影响

  • --v 5.2:使用5.2版本的Midjourney模型



这组模板稳定的能够生成宏大而又包含细腻情感的科幻视觉叙事风格,符合《遥远地球之歌》原著故事特点,此外参考电影《星际穿越》的摄影风格,模拟柯达Vision3 500T电影胶片色彩,生成接近电影画幅的参考画面。



Midjourney生成的部分画面


▸ 视频生成

视频生成这一环节选择在Runway中完成,目前提供的了三种方式生成视频,分别是:

  • Gen1-通过视频生成视频

  • Gen2-通过文字/图像引导生成视频

  • FI-基于连续图像生成插帧视频


Midjourney生成的部分画面


这里我们通过Gen2来生成视频,方法很简单,拖入在Midjourney生成的图像,这里可以优先选择更有故事感,并暗含运动方向的画面,这样更有助于生成画面的运动效果。


Gen2图像引导模式


默认勾选Upscale可以将视频放大,但对有任务出现的镜头来说,会增面部抖动和变形的风险。


勾选Upscale操作


这里可以分批次处理,即点击Generate生成后,更换图片,继续生成,期间每10张-20张画面做一次可用镜头的筛选,这样能够节约等待生成的时间,将相同操作的步骤合并到一起。全部镜头生成完毕后,可批量从Assents>Gen-2下载。



需要注意的是,Gen-2 每秒生成视频花费 5 个积分,1 个积分 = 0.01 美元。使用 Gen2 每次可以连续生成4秒视频,默认分辨率为 768x448,通过Upscale设置,本片分辨率可达 2304x1034。


▸ 剪辑后期基于有分镜作为参考,在完成了大部分镜头的生产后进入到了后期剪辑工作,因为前期在Midjourney并未对色彩倾向进行严格限制,生成的色彩不完全统一,这里剪辑用到了DaVinci,完成简单的特效文字,也能够快速实现调色处理,统一影片的的整体色彩风格,把音乐结合画面节奏搭配起来,并根据视听语言进行镜头速度的调整和运动方向的组合。


最后,在After Effects快速完成了一个片尾标题镜头,并同步输出了视频封面。剪辑软件的选择可以根据平时习惯选用,Premiere,Final Cut Pro或者剪映都可以。
▸ 音乐音乐来自老牌的音乐素材网站AudioJungle,本片配乐来自Serjilio:Interstellar Cinematic Action Trailer,正好和对《星际穿越》画面风格的模仿致敬。如果需要AI作曲方案,开源可以选择来自Google的MusicLM、Meta的MusicGEN、独立开发者的Riffusion。另外也有包括SoundRaw、AIVA、Mubert、MusicStar等应用,可根据各自需要选用。
▸ 成片以上,用Midjourney+Gen2 实现了AI版《遥远地球之歌》的Trailer,604张图像,196个视频,共计20个小时完成,最后,让我们再来完整欣赏一下成片。


《遥远地球之歌》



如果有朝一日,不得不离开地球,

你会带走什么?

为了人类存续,我们别无选择

星河尽头,他乡有家



未来的创作方式畅想

AGI引领电影工业化迈向 3.0


本文撰稿期间,网友数字生命卡兹克在采用与《Genesis》相同的AI工作流制作了一只《流浪地球III》预告,并受到导演郭帆关注。
粉丝用AI自制《流浪地球3》引发热议!郭帆导演深夜急求作者联系方式!

此前,郭帆导演在WAIC世界人工智能大会上提到,在电影《流浪地球》中,演员的增龄和减龄,都是就是年轻和变老的过程,是通过人工智能运算,经过了几百代的迭代才最终生成。此外,一些演员声音的修复也是通过这种方式实现的,人工智能技术已经实际应用中被大量采用。
郭帆导演提到了电影工业化的三个阶段:1.0 阶段,从电影发明到胶片时代到数字时代的迭代,大概持续了 100 年。2.0 阶段,胶片时代逐渐淡出,数字时代逐渐崛起,可以理解为工业化阶段。3.0 阶段,通用人工智能 AGI,它将引领整个电影工业化迈向 3.0。
生产力决定生产关系,电影制作团队需要庞大的管理系统来支撑,AI能够辅助影视技术流程,产生不同的协作形态,让更多好的故事能够搬上大屏幕,未来电影的创作和拍摄,后期制作、宣传和发行,甚至放映端和影院的形态也可能发生变化。
说到这里,我想畅想一下未来的创作方式,灵感来源于FableStudio发布的多智能体模拟中 SHOW-1 和 Showrunner 完成创作的《南方公园》,基于IP世界观,AI Agents通过复杂的社交互动来推动自己的日常生活,每个人都有自己独特的背景故事、个性和动机。简单的说,这一版《南方公园》就是AI智能体们的真人秀。通过模拟创造性思维,由项目 、用户和GPT-4共同驱动完成故事。
如果把节目直接拆解成公式,那么创意特征和技术特征就是在真实世界中,限制制作过程的函数。在同一个IP世界观中,这个公式通常不会发生改变,孙悟空如此,哈利波特如此,马里奥也一直在救公主的路上。可以将其理解为“IP的指纹”,那么这些创意特征和技术特征,就可以用于训练AI模型,成为生成《南方公园》剧集的可变模板或公式。


剧集生成流程


可以将AI版《南方公园》定位为特定地点的一系列对话场景,这些对话场景加起来就是常规 22 分钟南方公园剧集的播放时长。通过高层次的想法来提示故事系统,通常为14 个场景中的每一个场景中看到的重大事件的概要形式。
由此,故事系统可以利用模拟数据(一天中的时间、区域、角色)自动生成场景作为提示链的一部分,该提示链首先生成合适的标题,第二步生成对话的场景。演出系统负责为每个场景生成角色。
最后,基于场景定义每个演员的位置、演员和对话。舞台系统和AI摄像系统完成初始设置后回放场景。每个角色的声音都已提前克隆,并且为每条新对话台词即时生成语音片段。画面方面,则通过Dream Booth方式训练了专门的扩散模型,用于基于IP世界观生成角色和背景。
通过这样的方式,AI Agents在约3个小时内可以完成一集《南方公园》,并避免了在以往通过AI短时间大量生成内容过程中面临的“老虎机效应。(老虎机效应是指AI内容的生成感觉更像是一场随机游戏,而不是一个深思熟虑的创作过程。)


Showrunner故事创作系统


当下,AI视频中画面闪动的问题正在被逐步解决,更近稳定的镜头已在《Genesis》和《遥远地球之歌》和AI版《流浪地球III》版中出现,并验证了 AI正在为观众逐步带来更好的观影体验,而科幻电影,一直以来都是人类想象力承载的优秀载体,甚至是某种未来科技的映射。
一直以来, “人工智能”一词因科幻小说和电影的流行而被赋予了丰富的含义,在这些作品中,具有自由思考、自主学习甚至能够体验情感能力的机器,以不同形式被重新想象,无论是像皮克斯动画《机器人总动员》中瓦力那样的勇敢温柔,还是像《2001太空漫游》中的HAL-9000那样的危险邪恶,便是我们今天所说AGI的一种形式。
未来,电影工业化的3.0阶段,可能会出现这样一种科幻电影的创作方式。一个大语言模型,我们就以科幻杂志为它命名,叫IFGPT吧。某一天,IFGPT在学习了大量优秀的科幻作品后,通过多模态能力的扩展,观看了大量经典的电影作品《2001:太空漫游》《黑客帝国》《星球大战》 《异形》《银翼杀手》 《星际穿越》《流浪地球》……
一家电影公司希望实践一部全AI完成的电影,于是IFGPT扮演了星球大战系列中的R2-D2出演了《星球大战:2030》。而IFGPT的分身们,成为了这部影片中的其他角色,他们学习科幻电影里面角色的生活方式,并并能够灵活的调用各类模型各位扩展工具,包括在AI电影预告片工作流中Midjourney和Gen2的模型和算法能力,如同今天的AI版《南方公园》一样,通过学习《星球大战》系列的IP世界观,结合经典科幻电影的创意特征和技术特征,进行故事系统、对话场景、定义演出和模拟音画生成,完成科幻电影的自动化创建。
又也许,这种生成方式是在类似Unreal Engine这样的引擎上,AI角色们仍以LLM能力作为底座,为自己构建了一个虚拟世界,并实时进行对话演出,所有的对话,表演都由AI自主生成,这样便不需要3小时生成20分钟内容,而是AI的实时对话演出。
在这种模式下,IFGPT及其分身们实际上已经超越了作为工具的角色,而更像是独立的创作主体,不仅完成机械化的生成,更进一步完成故事、角色、对白的创作。IFGPT们在模拟世界中像人类一样生活和社交,给屏幕另一侧的我们观察的机会。与此同时,它们仍然保留着算法基因,能实现快速进化,可以通过大规模采样、学习、迭代创作素材。比如IFGPT可以轻松生成数十种剧本大纲,并通过多个AI Agents的交互速迭代找到最优方案,也可以基于已有素材生成更多新画面。
“可以预见,在不远的将来,AI将不仅能完成预告片的生成,更能参与或主导完整科幻电影的构思、对白乃至出演。到那时,AI科幻电影的春天真正来临。我们有理由相信这个时间不会太遥远。”——Claude
当然,要实现这一目标还需技术突破。模拟世界的真实感和交互性需要进一步提升,IFGPT的自主思考与情感也待加强,缺乏具身体验的AI尚还难以创作出打动人心的作品。这种融合人工智能与人类深度协作的创作模式,或将革新许多创造性行业,开启电影工业化新阶段的序幕,也许会改变我们对“作者”这个概念的定义。



· END ·



想了解更多动画资讯与有趣内容?点个“星标”吧~


另外添加wuhu小精灵5号企业微信(17778021721) 发送“动画新势力”即可在不久后被邀请进群。

你一定还感兴趣:

wuhu和B站一起搞事!【2023全球动画高校毕业作品展】来啦!!
2023腾讯视频动漫大赏:东方幻想世界的想象力,无边无际



为什么动画和游戏圈都在玩“三渲二”?
教练!我想学动画!十余位行业一线动画大咖直播亲授实战经验!你想学的干货在这里!


想了解更多后续的介绍要锁定wuhu哦,微博的小伙伴可以关注我们的新浪微博:wuhu动画人空间,对了!如果你想看更多动画作品,去b站搜索wuhu动画人空间看看?
继续滑动看下一个
wuhu动画人空间
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存