易倍体育-易倍中国有限公司官网

生成对抗网络GANs及其在文旅演艺行业的潜在应用

发布时间：2022年05月24日来源：易倍体育-易倍中国有限公司官网浏览量：536

文中图片和部分资讯来自 © eduonix.com，packt editorial

Generative Adversarial Networks (GANs)是一种神经网络，可以生成新内容，而不是简单地分析或处理现有内容。我们一直在使用这些神经网络来创造风景、城市场景、建筑，甚至文艺复兴时期的绘画，这些数字图像从现有数据中生成、并呈现出来，其所带来的真实感或情境化程度令人难以置信。

生成性对抗网络（GANs）由伊恩·古德费罗和他的团队于2014年开发。GAN基本上是一种生成性建模方法，它基于训练数据生成一组新的数据，新的数据有点类似训练数据。GAN有两个主要模块（两个神经网络），它们相互竞争，能够捕获、复制和分析数据集中的变化。

这两个模型通常被称为生成器和鉴别器。

生成器捕获数据分布并生成新的数据样本。鉴别器估计数据样本来自训练数据而不是生成器的概率。想象一下，生成器是伪造者，鉴别器是警察。他们一开始都很糟糕。由于伪造者不断制造假币，警方不断试图识别假币或真币。在每次迭代之后，他们都会在各自的任务执行能力上有所提高。鉴别器（警察）正试图最大限度地提高识别假币的机会。当生成器（伪造者）试图最小化鉴别器正确的可能性时。这就是所谓的极小极大博弈。最终，伪造者制造出与真实货币一模一样的假币，由于假币看起来与真实货币一模一样，警方被迫猜测，只有50%的几率能正确。此时，GAN已经完成了训练，因为它现在可以生成与数据集中的图像完全相同的图像。

机器学习算法和神经网络很容易被欺骗，通过向数据中添加一些噪声来使系统错误分类。添加一定量的噪声后，图像错误分类的概率增加，实现神经网络可视化新模式（如样本序列数据）的变化。这种变化的结果便是生成了与原始结果类似的新结果。

下面介绍三种不同的GANs网络：

² SRGAN – Super Resolution GANs

当给定低分辨率图像时，SRGAN可以生成照片级真实感的高分辨率图像。SRGAN结构由三个神经网络组成：一个非常深的生成器网络、一个鉴别器网络和一个预训练VGG-16网络。

² CycleGAN

CycleGAN于2017年被提出，可执行图像翻译任务。一旦经过训练，你就可以将图像从一个场景转换到另一个场景。例如，通过马和斑马数据集训练后，如果你给它一个地面上有马的图像，CycleGAN可以将马转换成斑马。

² InfoGAN

到目前为止，我们所考虑的GAN架构对生成的图像几乎没有控制。InfoGAN改变了这一点；它提供对生成的图像的各种属性的控制。InfoGAN使用信息论的概念，将噪声项转化为潜在代码，从而对输出进行可预测和系统控制。

InfoGAN中的生成器接受两个输入：潜在空间Z和潜在代码c，因此生成器的输出是G（Z，c）。训练GAN，使其最大化潜在代码c和生成的图像G（Z，c）之间的互信息。下图显示了InfoGAN的体系结构：

下面是其应用示例：

张嘴控制

头部转动控制

下面，我们来看看生成性对抗网络（GAN）的一些应用，这些应用某种程度上，有机会转换为文旅项目中的一些艺术创作、互动展览、沉浸式演出、互动游戏等方面的创作；

² 从可用数据生成新数据，风格转换——这意味着从与真实样本不相似的可用样本生成新样本。

² 使用可变形的GANs基于原有影像生成新的人体姿态；

图中左侧模特为原有影像，右侧为AI生成的新姿态

此易倍体育-易倍中国有限公司官网的一般方法是分别处理人物和背景。首先，从图像中提取前景对象或人形，并将其转换为所需姿势。然后通过合成相关纹理来填补背景中的空白。然后将它们组合在一起形成目标图像。一种特殊类型的骨骼图用于执行此类任务。

² 内容的艺术化创新；

² 文本到图像生成（对象GAN和对象驱动GAN）

² 黑白图像上色

² 变幻草图为照片

² 真人照片的卡通化

² 照片的年龄变幻

下面是一些AI公共艺术及其应用案例：

------浙江易倍体育-易倍中国有限公司官网有限公司运用三维场景模拟，空间定位以及光学动捕，自动融合显示计算，特效合成编辑、特效逻辑编辑等技术，以专业文化娱乐行业为主要深耕方向，为客户提供动态投影映射、灯光以及视频内容追踪、视频内容互动、舞台创意集成在内的各类舞台创意视觉及音频易倍体育-易倍中国有限公司官网。