奇亿平台-奇亿注册|奇亿官方代理网站首页

【奇亿注册平台】单块GPU实现4K分辨率每秒30帧,华盛顿大学实时视频抠图再升级,毛发细节到位

机械之心报道

[原创文章:www.pp00.com]

作者:魔王、杜伟、小舟

,

实时运行、使用单块英伟达 RTX 2080 TI GPU 即能够实现 HD 60fps 和 4K 30fps 的速度,谁人「让整个世界都酿成你的绿幕」的抠图方式 Background Matting 发布了 2.0 版本,为用户供应了更天然更快速的实时配景替代结果。

屏:家电智能化的重要支撑

家电,智能化,支撑【奇亿在线平台注册】【奇亿娱乐网址注册】 [原创文章:www.pp00.com]

,
,配景替代是片子特效中的要害一环,在 Zoom、Google Meet 和 Microsoft Teams 等视频会议对象中获得普遍应用。除了增加娱乐结果之外,配景替代能够增加隐私珍爱,稀奇是用户不肯在视频会议中向他人分享自身位置以及情况等细节时。而这面临着一项要害挑战:视频会议对象的用户平日无法获得片子特效配景替代所使用的绿幕或其他物理前提。,
,为了使用户更轻易地替代配景,研究人员陆续斥地了一系列抠图方式。本年 4 月份,华盛顿大学研究者提出了 background matting 方式,不在绿幕前拍摄也能完美转换视频配景,让整个世界都酿成你的绿幕。然则,这项研究无法实实际时运行,只能以低帧率处理低差别率下(512×512)的配景替代,有好多需要改善的处所。,
,八个月曩昔,这些研究者推出了 background matting 2.0 版本,并透露这是一种完全主动化、实时运行的高差别率抠图方式,离别以 30fps 的帧率在 4k(3840×2160)和 60fps 的帧率在 HD(1920×1080)图像上实现 SOTA 究竟。,
,先来看一些结果展示场景:,
,非常天然流通的配景替代。,
,这位小哥将本身乱糟糟的房间配景替代成了下雪场景。,
,不外该方式也有「翻车」的时候,鄙人图替代配景中都显现了显着的锐化暗影(sharp shadow)。,
,
,Background Matting 2.0 版本有哪些改善?,
,Background Matting 2.0 相较 1.0 版本有哪些手艺改善呢?我们都知道,设计一个对高差别率人物视频进行实时抠图的神经收集极具挑战性,稀奇是头发等细粒度细节稀奇主要的情形。1.0 版本只能以 8fps 的帧率实现 512×512 差别率下的配景替代。若要在 4K 和 HD 如许的大差别率图像上练习深度收集,则运行会非常慢,需要的内存也很大。此外,它还需要大量具备高质量前景蒙版(alpha matte)的图像以实现泛化,然而公开可用的数据集也很有限。,
,收集具有大量手动建造前景蒙版的高质量数据集难度很大,是以该研究想要经由一系列具有分歧特征的数据集来练习收集。为此,他们建立了两个数据集 VideoMatte240K 和 PhotoMatte13K/85,二者均包含高差别率前景蒙版以及行使色度键软件提取的前景层。研究者首先在这些包含显著多样化人体姿势的较大型前景蒙版数据集上练习收集以进修鲁棒性先验,然后在手动建造的公开可用数据集上持续练习以进修细粒度细节。,
,此外,为了设计出可以实时处理高差别率图像的收集,研究者视察发现图像中需要细粒度细化的区域相对很少。所以他们提出了一个 base 收集,用来展望低差别率下的前景蒙版和前景层,并获得误差展望图(以确定哪些图像区域需要高差别率细化)。然后 refinement 收集以低差别率究竟和原始图像作为输入,在选定区域生成高差别率输出。,
,究竟表明,Background Matting 2.0 版本在具有挑战性的真实视频和人物图像场景中取得了 SOTA 的实时配景抠图究竟。研究者还将发布 VideoMatte240K 和 PhotoMatte85 数据集以及模型实现代码。,
,
,数据集,
,该研究使用了多个数据集,包罗研究人员建立的新型数据集和民众数据集。,
,民众数据集
,
,Adobe Image Matting(AIM)数据集供应了 269 小我类练习样本和 11 个测试样本,平均差别率约为 1000×1000。该研究还使用了 Distinctions646 数据集的 humans-only 子集,包含 362 个练习样本和 11 个测试样本,平均差别率约为 1700×2000。这些数据集中蒙版均为手动建立,是以质量较高。但练习样本数量较少,无法进修多样化的人类姿势和高差别率图像的精美细节,于是研究人员建立了两个新的数据集。,
,新型数据集 VideoMatte240K 和 PhotoMatte13K/85
,
,VideoMatte240K 数据集:研究者收集了 484 个高差别率绿幕视频(个中 384 个视频为 4K 差别率,100 个 HD 差别率),并使用色度键对象 Adobe After Effects 生成 240709 个分歧的前景蒙版和前景帧。,
,PhotoMatte13K/85 数据集:研究人员收集了 13665 张图像,这些图像是用演播室质量的照明和相机在绿幕前拍摄的,并经由带有手动调整和误差修复的色度键算法提取蒙版。,
,下图展示了这两个数据集中的样本示例:,
,,
,方式,
,给定图像 I 和捕捉配景 B,该研究提出的方式可以展望前景蒙版 α 和前景 F。,
,具体而言,该方式经由 I’= αF + (1−α)B’ 基于新配景进行合成(B’ 为新配景)。该方式没有直接求解前景,而是求解前景残差 F^R = F − I。然后经由向输入图像 I 添加 F^R 来恢复 F:F = max(min(F^R + I, 1), 0)。研究人员发现该公式能够改善进修结果,并许可经由上采样将低差别率前景残差应用到高差别率输入图像上。,
,使用深层收集会直接导致大量较量和内存消费,是以高差别率图像抠图极具挑战性。如图 4 所示,人类蒙版平日非常稀少,个中大块像素区域属于配景(α=0)或前景(α=1),只有少数区域包含较精美的细节(如头发、眼镜、人体概况)。是以该研究没有设计在高差别率图像上直接运行的收集,而是提出了两个收集:一个基于较低差别率图像运行,另一个基于先前收集的误差展望图选择图像块(patch),仅在这些图像块上以原始差别率运行。,
,
,该架构包含 base 收集 G_base 和 refinement 收集 G_refine。,
,给出原始图像 I 和捕获配景图 B,该方式首先使用因子 c 对图像 I 和 B 执行下采样,获得 I_c 和 B_c。然后 base 收集 G_base 以 I_c 和 B_c 为输入,展望粗粒度前景蒙版 α_c、前景残差 F^R_c、误差展望图 E_c 和隐藏特征 H_c。紧接着 refinement 收集 G_refine 使用 H_c、I 和 B 在展望误差 E_c 较大的区域中细化 α_c 和 F^R_c,获得原始差别率的蒙版  α 和前景残差 F^R。,
,该模型为全卷积模型,能够处理随意巨细和长宽比的图像。,
,架构图。,
,base 收集
,
,该方式的 base 收集是一个受 DeepLabV3 和 DeepLabV3+ 开导的全卷积编码器 – 解码器收集,包含三个首要模块:
主干收集、ASPP 息争码器
,
,研究者采用 ResNet-50 作为编码器主干收集,它能够被替代为 ResNet-101 和 MobileNetV2 以实现速度和质量之间的衡量。,和 DeepLabV3 方式一般,该方式在主干收集之后采用了 ASPP(朴陋空间金字塔池化)模块,该模块包含多个朴陋卷积滤波器,扩张率离别为为 3、6、9。,
,解码器收集在每一步均使用了双线性上采样,连系来自主干收集的残差保持(skip connection),并使用 3×3 卷积、批归一化和 ReLU 激活函数(最后一层除外)。解码器收集输出粗粒度的前景蒙版 α_c、前景残差 F^R_c、误差展望图 E_c 和 32 通道的隐藏特征 H_c。H_c 包含的全局语境将用于 refinement 收集中。,
,refinement 收集
,
,refinement 收集的方针是削减冗余较量并恢复高差别率的抠图细节。base 收集在整个图像上运行,而 refinement 收集仅在基于误差展望图 E_c 选择的图像块上运行。refinement 收集包罗两个阶段:先以原始差别率的 1/2 进行细化,再用全差别率细化。在揣摩过程中,该方式细化 k 个图像块,k 能够提前设置,也能够基于衡量图像质量和较量时间的阈值进行设置。,
,实验,
,该研究将这一方式与基于 trimap 的两种方式 Deep Image Matting、FBA Matting (FBA) 和基于配景图像的方式 Background Matting (BGM) 进行对比。,
,在合成数据集上的评估究竟
,
,下表 1 展示了这些方式在分歧数据集上的量化评估究竟。从中能够看出,该研究提出的方式
在所稀有据集上均优于基于配景的 BGM 方式,但略逊于当前最优的 trimap 方式 FBA
,FBA 需要人工精心标注的 trimap 且速度比该研究提出的方式慢。,
,
,在实际数据上的评估究竟
,
,该研究还对比了这些方式在真实数据上的机能。从下图中能够看出,该研究方式的生成究竟在头发和边缘方面加倍清楚和具体。,
,

,该研究邀请 40 位介入者评估该方式与 BGM 的生成绩果,究竟拜见下表 2。从中能够看出该方式较 BGM 有显著提拔。59% 的介入者认为该算法更好,而认为 BGM 更好的介入者比例仅为 23%。在 4K 及更高差别率的样本中,认为该方式更好的介入者比例更是高达 75%。,
,,
,机能对比
,
,下表 3 和表 4 表明
该方式比 BGM 小但速度更快
,
,该方式的参数量仅为 BGM 的 55.7% 。但它在批巨细为 1 的情形下,使用
一块英伟达 RTX 2080 TI GPU
就可以实现 HD 60fps 和 4K 30fps 的速度,可用于好多实时应用。比拟之下,BGM 只能以 7.8fps 的速度处理 512×512 差别率图像。,
,将该方式的主干收集换成 MobileNetV2 后,其机能获得了进一步提拔,实现了 HD 100fps 和 4K 45fps。,
,,
,实际使用
,
,研究人员将此方式应用到了
Zoom 视频会议和抠图
这两种场景中。,
,在 Zoom 实现中,研究人员构建了阻挡摄像头输入的 Zoom 插件,收集一张无人的配景图,然后执行实时视频抠图和合成,在 Zoom 会议中展示究竟。研究人员使用 720p 摄像头在 Linux 中进行了测试,实际结果很好。,
,此外,研究人员对比了该方式和绿幕色度抠图的结果,发如今光照不平均的情况下,该方式的结果胜过专为绿幕设计的方式,如下图所示:,
,

,
,

本周日,在北京有一场属于斥地者的冬日狂欢。


  • 王海峰、朱军、李宏毅等AI大咖畅聊财富、人才与开源。

  • 30场手艺公开课干货满满。
  • 伴手礼人手一份,互动展区还有浩瀚礼品等你来拿。
  • DJ、乐队、街舞、脱口秀同台 AI 狂欢夜。
12月20日,798大罐等你。
点击
阅读原文
,立刻报名。
《【奇亿注册平台】单块GPU实现4K分辨率每秒30帧,华盛顿大学实时视频抠图再升级,毛发细节到位》

【奇亿在线平台怎么注册】【奇亿登录测速注册】

鞋内传感器和移动机器人 帮助老年人保持活跃

老年人,机器人,传感器,活跃

点赞