陈宝权课题组SIGGRAPH 2020入选论文解读：从视频到动画的无配对动作风格迁移-新闻动态-北京大学前沿计算研究中心

新闻动态

陈宝权课题组SIGGRAPH 2020入选论文解读：从视频到动画的无配对动作风格迁移

时间 : 2020-06-19 来源 : VCL Lab 作者 : 翁伊嘉

论文地址：https://arxiv.org/abs/2005.05751
项目主页：https://deepmotionediting.github.io/style_transfer
项目代码：https://github.com/DeepMotionEditing/deep-motion-editing

* 为共同第一作者

01 引言

　　“风格”是人类动作的重要组成部分。通过观察一个人走路时的动作细节，我们往往能推测出走路者的情绪、年龄乃至性格。在制作角色动画时，我们也希望生成具有多样风格的动作，从而增强真实感与表现力。传统的动作捕捉技术成本高昂，基于已有动作进行风格迁移——从动作片段 S 中提取风格信息，应用到动作片段 C 的内容上——是更加经济可行的做法。

　　已有的动作风格迁移方法 [1] 大多依赖于成对训练数据，即内容（如脚步、运动轨迹）完全相同，仅风格不同的动作；此外，它们往往不能迁移训练中从未出现的风格。为了突破这些限制，我们提出了一种新的动作风格迁移框架，直接从无配对、仅含风格标签的训练数据中学习，能在测试阶段迁移从未见过的新风格。进一步地，它能绕过三维重建，直接从二维视频中提取风格，迁移到三维动作上，大大拓展了动作风格迁移的应用范围。

02 方法简介

网络结构示意图

　　我们的网络由生成器和判别器组成，使用包含风格标签的动作训练。生成器以内容动作片段 c、风格为 a 的风格动作片段 s 为输入，输出具有风格 a、但内容与 c 一致的动作 c'。判别器以单个动作片段为输入，对于每个训练风格类，判断输入动作是否是属于该类的真实动作。训练阶段，除生成器-判别器的对抗损失函数外，我们还使用“内容一致性损失”防止生成器直接忽略内容输入：以风格为 a 的内容动作片段 c，风格同样为 a 的另一个风格动作片段 s 为输入，强制生成器重建内容输入 c。

　　生成器具体包含内容编码器、风格编码器与解码器。内容编码器使用时序卷积将动作编码为包含时序信息的内容向量，并用实例归一化（Instance Normalization）处理中间阶段的特征，破坏其中的风格信息。

　　风格编码器使用时序卷积和池化操作，将动作编码为不含时序信息的固定长度风格向量。我们为二维、三维输入各训练了一个编码器，在训练阶段，将三维训练数据与它的二维投影分别作为输入，惩罚输出编码之间的距离，从而使两个风格编码器能把二维/三维的输入映射到同一个风格向量空间。

分别编码自二维、三维动画的风格向量的t-SNE可视化

　　在解码阶段，我们对内容向量进行卷积与上采样，并采用自适应实例归一化（Adaptive Instance Normalization）注入风格向量的信息：我们将风格向量映射为每个特征的目标均值与标准差，以此为依据逐通道地调整特征。这一调整具有时序不变性，在保留动作时序信息的同时改变其风格信息。

每张图对应一个特征通道，展示了相同时序信号以8种不同的风格向量为输入，经自适应实例归一化后的输出

03 结果展示

　　我们的方法能够基于内容、风格动作片段给出高质量的迁移结果。输入片段无需具有相似的动作内容。

以三维动画为风格输入的迁移结果

　　对于视频输入，我们使用 OpenPose [2] 提取骨架信息，将得到的二维动作作为网络的风格动作输入。

以视频为风格输入的迁移结果

从左到右依次是内容动作输入、风格动作输入、[3] 的结果和我们的结果

更多细节请参考以下视频：

参考

[1] Shihong Xia, Congyi Wang, Jinxiang Chai, and Jessica Hodgins. 2015. Realtime style transfer for unlabeled heterogeneous human motion. ACM Transactions on Graphics (TOG) 34, 4 (2015), 119.
[2] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).
[3] Daniel Holden, Jun Saito, and Taku Komura. 2016. A deep learning framework for character motion synthesis and editing. ACM Transactions on Graphics (TOG) 35, 4 (2016), 138.

SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) 是计算机领域规模最大的顶级会议、CCF A类会议，参加人数达2万余人，每年收录百余篇图形学相关的优秀论文，是计算机图形领域集技术、艺术与展览于一体的盛会。因新冠疫情影响，SIGGRAPH 2020将首次以在线方式举行。