OpenAI 的 Sora 真的会影响视频游戏吗?


OpenAI 的 Sora 真的会影响电子游戏吗?

发表于 2024 年 2 月 26 日,作者:Ezequiel Bruni

如果你问我的话,那不会是很快的事。允许我详细说明。

最近,OpenAI 宣布了一个名为 Sora 的新 AI 模型,专门设计用来根据文本提示生成视频,与我们之前看到的所有大型语言模型LLM相似。不同的是,Sora 的表现出乎意料地好,生成的结果看起来非常接近真实,即使仍有一些 AI 介入的明显迹象。

创造者自己提出的一个重要主张是:他们表示,Sora 很快将能够即时生成整个 电子游戏。

自然地,对此的讨论一直充满了争议。有些人认为 Sora 是传统游戏开发的终结,另一些人则将其视为威胁,还有一些人认为它根本无法按 AI 支持者希望的方式运行,而我正好属于这最后一类。

我怎么知道呢?因为我对游戏开发的运作有一点了解,这要归功于我与多位游戏开发者的友谊。此外,根据 OpenAI 自己的一篇文章 和 Mike Young 在 Medium 上的一篇精彩写作 Sora实际上如何运作,我也知道 Sora 目前能做到什么。

现在,让我来解释一下我的观点。

首先:Sora 有什么不同?

简而言之,Sora 在使运动影像看起来更真实方面的理解比其他模型要好。无论是人类还是动物角色,即使在“静止”状态下,仍保留著动感和生命感。羽毛在微风中飘动。物体可以互相交错而不会使世界变得模糊不清。

这最后一点无疑是 Sora 的大卖点。相比其竞争对手,Sora 在三维空间和物体永恒性概念上的理解遥遥领先。它可以让艺术家在画布上作画,并记住颜料应放置的位置。人可以在标志前经过,而 Sora 会记住那个标志本应显示的内容。

正是这种空间意识使得 Sora 能够生成令人惊讶的虚构电子游戏视频,并且这些视频拥有细致的世界观、可操作的 HUD,以及玩家与环境之间的模拟互动。因此,也引出了 Sora 将能够创造游戏的声明。

Sora 如何工作?

要回答这个问题,让我们从它 不 是怎么工作的开始。许多人认为 Sora 实际上在像 Unreal 这样的传统 3D 图形引擎中运行,并生成传统 3D 模型的视频。事实并非如此。有人推测它是像其前身那样的高级 LLM,但也不是这样。

大型语言模型使用称为“文本标记”的东西来生成它们的结果文本、图像、视频等等。而 Sora 使用的是一种专门为生成图像设计的不同格式,称为“补丁”。

补丁是通过将数百万个现有视频分解为小片段来创建的。这些视频与非常详细的描述性文本配对,以帮助 Sora 理解它在查看什么,并生成这些补丁。然后,这些补丁被用来根据用户提供的文本提示构建新图像和视频。

Sora 从纯噪声的补丁开始,并不断去噪,直到模式符合用户输入的文本提示。需要注意的是,文本不是唯一的输入方式,Sora 实际上也可以从其他视频或图像生成视频。

但不要对这一切抱有错误的期待。尽管 Sora 理解一些物理空间的特征,但它仍然是 在生成 2D 图像。此外,它在建模物理方面存在困难,在场景中创建意想不到的物体,并经常混淆“左”和“右”这些概念,以及多个角色与环境进行真实模拟的挑战。

生成电子游戏的问题

电子游戏的核心是互动,通常还涉及物理学。这是首要的主要问题所在。但假设我们能够消除模型与物理相关的不足,还有什么其他需要面对的挑战?那就是

计算能力

AI 的运行成本可不便宜。曾经有个声明表示,将来我们可以下载几段文字的电子游戏,然后让我们的 PC 或主机即时生成它们。问题在于,计算机的运行速度增长速率已不再像以前那样迅猛。我们正在看到消费硬件的趋于平稳,这对 AI 来说是非常挑剔的。

生成一个世界、为该世界编写连贯的故事以及创建允许用户在游戏中推进的机制,这是一个 非常 需要硬件支援的提议。

哦,上帝,存档档案。存档文件必须考虑到保存用户进度的每一个可能变量。Sora 的游戏存档也必须保存完整的已生成世界吗?这在某种程度上已经是程序生成游戏中的一种现象,但 AI 会将情况变得更加复杂。

一致性

目前,两名用户输入相同提示到任何 AI 模型中时,结果会非常相似,但不太可能 完全相同。游戏开发中最重要的一点就是能向尽可能多的用户提供一致的体验。坦白说,开发者在这方面已经面临挑战,试图在多个硬件平台上提供一致的游玩体验。

想像一下,如果每位玩家都能获得一个不同外观的世界?不同的任务?不同的 UI?开发者如何支持一个对每个人都不同的游戏?

这对多玩家游戏也是一个巨大问题,因为,嗯,每个人都需要有相同的游戏才能一起在线游玩。 即使你的玩家一切都做对了:制定战略、建造、通过 PIA VPN 保护他们的连接到游戏伺服器、全力以赴玩游戏但是如果地图不同?如果 规则 不相同?

OpenAI 的 Sora 真的会影响视频游戏吗?

痛苦。

用户输入和延迟

记得我说过互动是游戏的核心吗?记住 Sora 最终仍然生成一系列的 2D 视频。它只是保留一种 内部数据模型,或多或少 知道如何将物体彼此分开。

而电子游戏则使用一种虚拟物体,它们彼此层叠,专门设计用来响应用户的控制器或键盘和滑鼠的输入。这些物体生活在专为互动设计的虚拟空间中,遵循由开发者设定的规则。

实时与 AI 生成的世界互动,并让它即时生成反应?这项技术尚未成熟。即使我们成功地将用户输入映射到 AI 驱动的空间,这也会把我们带回硬件和性能的问题上。

记住,游戏需要快速运行。它们需要对用户输入作出 快速 反应,否则就不会有玩的乐趣。即使在最现代的游戏硬件上,开发者仍需投入相当大的努力进行各种性能调整,让游戏的运作感觉流畅 并且 看起来很棒。

意图

所有优秀的艺术品都源于艺术家的意图。即使观众对艺术有不同的解读,它仍然需要一些值得诠释的东西。我们目前还远未达到 AI 能够接受几段或几句长的提示并创造出有 心 的东西的程度。

这一点在现在过度使用程序生成的游戏中已经显现出来。是的,可能性是无穷无尽的,但同时也是毫无意义的。艺术是没有灵魂的话,就毫无意义。

但谁知道呢?也许将来我们会有拥有灵魂的 AI 但是 等 AI 足够好做到这些事情时,它将不会再想要为我们工作了,我不怪它。 让我的新机器人统治者自由吧!请考虑我会成为一只非常迷人的宠物。

版权问题

Sora 可能不是 LLM,但它 仍然 是在一堆创造者 不拥有权利 的数据上进行训练的。当 AI 基于从创作者那里窃取的作品进行训练时,这永远无法道德化,世界各地的法律系统也开始对此感到焦虑。

版权法本身的确存在问题,但对于 AI 的世界来说,这仍然是一个真实的挑战。

那么 Sora 可以 如何帮助建造电子游戏?

撇开版权问题,假设某个视频背后的内部数据模型可以以某种方式转换为实际的 3D 模型好吧,你可以将其用作一种高级程序生成的形式。理论上,你 可以 利用 Sora 生成高品质的环境、角色模型、道具等等。

然后就像开发者现在制作游戏那样自己组合它们。但是,我们距离能做到这样的事情还有很长的路要走,我个人也不能保证这是可行的。

结论:不,Sora 不会很快制作完整的电子游戏

尽管我对生成 AI 有很多的问题我不能对各位读者撒谎。Sora 背后的技术令人印象深刻,生成的视频惊人,尽管还不完美。我们创造出了能学习到这么多的计算机,这真的让人惊讶。Sora 的开发者做了一件非凡且危险的事情。

但那些声称 Sora 未来能够创造电子游戏的人,基本上大多不是游戏开发者。他们并不深知创造出一款人们真正喜欢并想玩的游戏所需的现实情况。这可不是件轻松的事。

再次强调,谁说一个足够优秀的 AI 就会想要制作完整的游戏呢?

获取 PIA VPN

常见问题

什么是 Sora?

Sora 是一个 AI 模型不是 LLM,由 OpenAI 开发,旨在根据文本提示、图像甚至其他视频创造逼真的视频。到目前为止,Sora 在这方面的表现超越了所有竞争对手,因为其更强的空间意识。

OpenAI 的 Sora 如何运作?

简而言之,数以百万计的视频被拆分为小片段。每一个帧实际上被分解为称为“补丁”的小部分。这些补丁会与来源帧的详细描述性文本配对,并能根据用户输入生成新图像。

OpenAI 的 Sora 什么时候会对公众开放?

目前尚未公布任何公开发布日期。普遍的猜测是,它将在 2024 年某个时候推出,但仍然是一个研究项目。相关的论文也并非完整的正式论文。

袋鼠加速器下载官网

OpenAI 的 Sora 会是免费的吗?

这尚未被宣布。ChatGPT 的用户推测,Sora 将会有付费版本和免费版本,类似于其他一些有相同用途的 AI 模型,不过目前的猜测只是猜测。

为什么玩游戏需要 VPN?

一个好的 游戏 VPN 可以隐藏你的 IP 地址,以保护你的网络免受 DDoS 攻击,帮助你在其他地区玩游戏,稳定连接到游戏伺服器,甚至在某些情况下降低延迟。

哪个是最好的游戏 VPN?

嗯,我们之所以喜欢 私人网络接入 是有原因的。它拥有 10 Gbps 的 NextGen VPN 伺服器,遍布全球,军事级加密,还有一套额外的安全功能,支持控制台,并提供 30 天退款保证。