数据驱动方法利用深度学习AI进行照片到漫画的翻译
漫画肖像画是一种独特的艺术形式,艺术家以夸张的方式勾勒出一个人的脸,大多数时候都是为了引发幽默。自动化这种技术带来了挑战,因为所涉及的复杂细节和形状的数量以及将艺术家从现实生活自我转变为创造性夸大的人的专业技能水平。
来自香港城市大学和微软的计算机科学家团队开发了一种创新的基于深度学习的方法,可以自动生成给定肖像的漫画,并使用户能够高效,逼真地完成这一过程。
“与定义手工制作规则的传统图形方法相比,我们的新方法利用大数据和机器学习来综合专业艺术家绘制的数千个例子中的漫画,”目前是研究生的第一作者Kaidi Cao说。斯坦福大学计算机科学专业,但在微软实习期间开展了这项工作。“虽然现有的风格转移方法主要集中在外观风格上,但我们的技术实现了漫画画中涉及的几何夸张和外观风格。”该方法使用户能够自动化肖像的漫画,并且可以应用于诸如为社交媒体创建漫画化身以及设计卡通人物的任务。该技术在营销方面也有潜在的应用,
Cao与香港城市大学的Jing Liao和微软的Lu Yuan合作进行了研究,三人计划于12月4日至12月7日在东京的SIGGRAPH Asia 2018展会上展示他们的工作。年度会议展示了计算机图形学和互动技术领域最受尊敬的技术和创意成员,并展示了科学,艺术,游戏和动画等领域的前沿研究。
在这项工作中,研究人员转向机器学习中的一种众所周知的技术 - 生成对抗网络(GAN),用于不成对的照片到漫画的翻译,以生成保留肖像身份的漫画。被称为“CariGANs”的计算框架通过研究人员标记的两种算法CariGeoGAN和CariStyGAN精确地模拟照片中的几何夸张(面部形状,特定角度)和外观风格(外观,感觉,铅笔笔划,阴影)。
CariGeoGAN仅模拟从面部照片到漫画的几何到几何的映射,CariStyGAN将样式外观从漫画转移到面部照片,而不会对原始图像的几何形状造成任何变形。研究人员指出,这两个网络是针对每项任务分别进行培训的,因此学习过程更加强大。CariGANs框架使用户能够通过拖动幻灯片或给出示例漫画来控制几何和外观风格的夸张程度。
曹和合作者进行了感性研究,以评估他们的框架能够生成易于识别且不会在形状和外观风格上过度扭曲的肖像漫画。例如,一项研究评估了与现有的漫画艺术翻译方法相比,使用CariGANs方法保存图像的同一性。他们通过几个例子证明现有方法导致无法识别的漫画翻译。研究参与者发现将所得到的漫画与原始主题相匹配太困难,因为最终结果过于夸张或不清楚。研究人员的方法成功地为肖像照片创建了更清晰,更准确的漫画描绘,就好像它们是由专业艺术家手绘的。
目前,这项工作的重点是人物的漫画,主要是头像或肖像。在未来的工作中,研究人员打算探索超越面部漫画生成的全身或更复杂的场景。他们还对设计改进的人机交互(HCI)系统感兴趣,该系统可以为用户提供更多的自由和用户控制机器学习生成的结果。