当前位置: 开发笔记 > 编程语言 > 正文

刷新纪录，揭秘漫画脸背后的AI技术

作者：mobiledu2502887867 | 来源：互联网 | 2023-09-25 16:15

Python实战社群Java实战社群长按识别下方二维码，按需求添加扫码关注添加客服进Python社群▲扫码关注添加客服进Java社群▲作者|贝爽，本文转

Python实战社群

Java实战社群

长按识别下方二维码&＃xff0c;按需求添加

640.webp (1).jpg

扫码关注添加客服

进Python社群▲

微信图片_20200223084351_副本.png

扫码关注添加客服

进Java社群▲

作者 | 贝爽&＃xff0c;本文转自雷锋网

昨晚做了一个梦&＃xff0c;梦里的我变成漫画里的人物&＃xff0c;正在为参与选秀苦练舞蹈&＃xff0c;期待着万众瞩目登上舞台的一天。

然而一觉醒来&＃xff0c;这个美梦竟然成“真”了&＃xff01;

大眼睛&＃xff0c;饱满苹果肌&＃xff0c;摆着离出道还有亿点点距离的律动~妥妥的漫画女主角既视感。

没错&＃xff0c;这项黑科技就是手机QQ相机里的热门AI玩法——漫画脸。从画面来看&＃xff0c;哪怕受拍摄人物大幅度动作&＃xff0c;融合感依旧满分。

类似的&＃xff0c;一经上线便备受用户们追捧的还有“童话脸”等多个AI特效玩法。

AI特效看似操作简单&＃xff0c;但要想一秒内达到如此效果&＃xff0c;其背后的技术支撑可并不简单。

细心的朋友可能会发现&＃xff0c;漫画脸的AI特效get了一项技能——实时抠图。在动态场景下&＃xff0c; 无论是人像的头部、面部&＃xff0c;还是半身像&＃xff0c;都能够被精准识别&＃xff0c;并转化为漫画版&＃xff0c;看不出一点破绽。

这项技能在学术上叫做语义分割技术。而这些特效背后使用的语义分割技术叫做GYSeg&＃xff0c;它是腾讯光影研究室&＃xff08;Tencent GYLab&＃xff09;在计算机视觉领域的自研算法。最近GYSeg算法刚刚参加完MIT Scene Parsing Benchmark 场景解析国际竞赛&＃xff0c;从多个参赛团队中脱颖而出&＃xff0c;以0.6140的成绩斩获了冠军。值得一提的是&＃xff0c;近两周团队持续优化算法&＃xff0c;并再次刷线最新成绩至0.6235&＃xff0c;仍处榜单第一名。

专业科普一下&＃xff0c;MIT Scene Parsing Benchmark 是全球公认的最具挑战性、权威性的场景解析、语义分割评测集。其发布的ADE20K数据集是计算机视觉三大顶会&＃xff08;CVPR、ICCV和ECCV&＃xff09;语义分割论文的权威基准数据集。

每年有众多国际顶尖企业、学术机构参加这项国际赛事&＃xff0c;比如本届参赛的团队还有商汤科技、亚马逊、复旦、北大、MIT等国内外研究机构和高校。

实时抠图神器&＃xff1a;GYSeg算法

简单理解&＃xff0c;语义分割技术就是让计算机能够识别出图像场景中每一个像素所代表的语义类别。

以人像图像为例&＃xff0c;人像的全身、半身、头部、头发、多人/单人以及多样化的背景都是其需要识别的目标。

而从更大范围来讲&＃xff0c;现实生活场景十分丰富、目标复杂、尺度范围大&＃xff0c;如本次比赛所使用的ADE20K数据集包含了150个类别&＃xff0c;涉及人类生活各个方面的场景。这对于AI语义识别本身提出了较高的挑战。

更重要的是&＃xff0c;同种类的物体在不同场景中很可能表现出不同的大小、比例和姿态&＃xff1b;不同物体之间可能存在相互遮挡问题&＃xff0c;由此会带来严重的语义混淆。

为了克服以上难点&＃xff0c;GYSeg算法在数据增强、网络设计、训练、推断方面进行了一系列创新&＃xff0c;并建立了一套通用的整体分割架构。

在网络设计方面&＃xff0c;GYSeg算法采用自研的GYNet作为backbone&＃xff0c;并接入ASPP模块进行特征的增强与融合&＃xff0c;获得了更多的Context以及感受野&＃xff0c;同时&＃xff0c;整体结构达到了很好的速度跟精度的平衡。
在分割head方面&＃xff0c;为提高不同尺度物体和小物体的分割精度&＃xff0c;采用基于Multi-scale Attention的方式使网络在不同尺度上自适应的学习。
在推断阶段&＃xff0c;GYSeg算法采用了多种不同尺度级联式推断融合。在此基础上&＃xff0c;使用ADE训练集数据搭建SegFix网络&＃xff0c;对Multi-scale Attention的输出结果进行精修&＃xff0c;以提升边缘分割的一致性。同时&＃xff0c;在训练过程&＃xff0c;加入OHEM提升困难样本学习能力&＃xff0c;在多物体分割中采用gradient loss对物体边缘进行约束来提升边缘的准确性。
在数据增强方面&＃xff0c;除了针对复杂场景使用随机缩放、crop、对比度、blur等常规操作外&＃xff0c;对于语义明确、数量较少的类别&＃xff0c;GYSeg算法还采用了“复制-粘贴”的方式进行扩充。如动物、摩托车、自行车等。
在loss约束方面&＃xff0c;借助OHEM进行在线困难样本挖掘&＃xff0c;GYSeg算法在validation集上Miou提升0.4%&＃xff0c;优于focalloss(提升0.26%)。

如上述案例所见&＃xff0c;在人像分割方面&＃xff0c;GYSeg算法凭借对人像半身、全身&＃xff0c;室内、室外&＃xff0c;单人/多人等多复杂场景的需求的不断的打磨和优化&＃xff0c;成功应用到了腾讯QQ、腾讯微视等多个产品中。其结合发布器技术中台强大的图形图像渲染引擎&＃xff0c;通过为前景人像和背景添加不同的滤镜特效或更酷的背景效果&＃xff0c;实现 “七夕卡通画“、“怪兽护体”等各种特效玩法。

全栈式AI&＃xff0c;落地泛娱乐场景

当然&＃xff0c;GYSeg自研算法只是腾讯光影研究室AI能力的局部体现。

伴随新技术的不断发展和进步&＃xff0c;AI在泛娱乐领域的应用场景变得更加丰富。在此基础上&＃xff0c;光影研究室围绕计算机视觉技术展开了全栈式布局。

从技术能力上来讲&＃xff0c;目前主要分为两大方面&＃xff1a;应用AI能力和基础AI能力。

值得一提的是&＃xff0c;依托腾讯庞大和丰富的内容产业&＃xff0c;以上几乎所有AI能力都在移动端找到了落地场景&＃xff0c;并成功覆盖到了手机QQ相机、手机QQ音视频通话、腾讯微视等20多条业务线中&＃xff0c;为用户带来了全新的数字化娱乐体验。

应用AI能力

应用AI能力隶属于"基础美"的范畴&＃xff0c;其主要目的是实现人像照片的系列美化功能&＃xff0c;包含人脸的各种美颜/美妆/捏脸&＃xff0c;不同场景的滤镜&＃xff0c;以及底层的拍摄质量提升等。

具体表现为GAN的生成&＃xff0c; 3D的重建&＃xff0c;以及AR/交互AI等技术。

很多朋友应该知道&＃xff0c;前段时间火爆全网的“童话脸”特效&＃xff0c;不仅有李雪琴亲传童话世界基本生存须知“公主病”&＃xff0c;更是受到辣目洋子、刘晓庆、王大陆等众多明星青睐。

童话脸特效背后依靠的便是GAN技术&＃xff0c;它是腾讯光影研究室首次将GAN与3D卡通风格相结合的应用尝试&＃xff0c;同时也是业内的第一次尝试。

据了解&＃xff0c;从算法研究到上线首发&＃xff0c;研究团队仅用了两周的时间&＃xff0c;并成功克服了用户ID生成&＃xff0c;StyleGAN稳定性&＃xff0c;移动端实时化三大落地挑战。而且&＃xff0c;基于自研的GYNet&＃xff0c;其在移动端的网络计算量降低了200倍。目前这项AI能力仍在持续积累和迭代中。

在3D重建方面&＃xff0c;光影研究室推出了3D捏脸能力&＃xff0c;它可以根据用户给定的照片自动化捏出一个3D的人脸效果。从脸部的shape&＃xff0c;五官的细节&＃xff0c;到头发的效果&＃xff0c;在最大限度保留用户ID的基础上&＃xff0c;提供了最佳体验效果。

同时&＃xff0c;在硬件适配方面&＃xff0c;研究室团队针对低端机多了大量优化工作&＃xff0c;包括底层使用TNN Inference框架&＃xff0c;模型结构的小型化&＃xff0c;模型的量化、裁剪&＃xff0c;工程Pipeline的设计等。最终按照机型进行分发&＃xff0c;保证了效果与速度的trade-off在高中低档机型的全面覆盖。

基础AI能力

这方面主要涉及检测&关键点、分割、分类三大类。上述语义分割算法GYSeg的研发属于这一范畴。值得一提的是&＃xff0c;关于分割技术&＃xff0c;光影研究室团队发表的论文《Context Prior for Scene Segmentation》&＃xff0c;还登上了计算机视觉顶会CVPR2020。

在落地方面&＃xff0c;除了泛娱乐场景外&＃xff0c;以上前沿技术在图像处理、自动驾驶&＃xff0c;自动医疗诊断等领域也有着极大地应用价值。比如语义分割算法GYSeg&＃xff0c;在自动驾驶领域可用于区分路面阴影和真正的障碍物&＃xff0c;以减少汽车误判率等。

据光影研究室介绍&＃xff0c;团队定位为PCG的发布器技术中台&＃xff0c;也承接了移动端的拍摄/相机/玩法类的AI能力&＃xff0c;旨在通过前沿的AI能力、先进的玩法引擎和3D渲染技术&＃xff0c;为腾讯的社交、短视频等产品用户提供服务。总体而言&＃xff0c;业务方向更偏向To C端&＃xff0c;更注重提升用户的娱乐体验。

透过光影研究室的技术布局和应用落地&＃xff0c;可见其身上有两个显著的标签&＃xff0c;一是聚焦“泛娱乐化场景”&＃xff0c;二是“移动端部署”&＃xff0c;后者从目前的落地成果来看&＃xff0c;在行业内已具备核心竞争力。在整个腾讯AI产业布局中&＃xff0c;这两个标签&＃xff0c;也是腾讯光影研究室区别于腾讯优图、腾讯AI Lab最显著的差异化特征。

免责声明&＃xff1a;本文内容来源于网络&＃xff0c;文章版权归原作者所有&＃xff0c;意在传播相关技术知识&行业趋势&＃xff0c;供大家学习交流&＃xff0c;若涉及作品版权问题&＃xff0c;请联系删除或授权事宜。

程序员专栏扫码关注填加客服长按识别下方二维码进群

近期精彩内容推荐&＃xff1a;

几句话&＃xff0c;离职了

中国男性的私密数据大赏&＃xff0c;女生勿入&＃xff01;

为什么很多人用“ji32k7au4a83”作密码&＃xff1f;

一个月薪 12000 的北京程序员的真实生活 &＃xff01;

在看点这里好文分享给更多人↓↓

推荐阅读

pip
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
pip
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
pip
基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类

本文介绍了基于事件驱动的并发编程中的消息通信机制，包括同步和异步的概念及其区别，阻塞和非阻塞的状态，以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 19:32:09
random
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
random
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
random
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
eval
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
function
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
function
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
function
2022年的风口：你看不起的行业，真的很挣钱！

本文介绍了2022年的风口，探讨了一份稳定的副业收入对于普通人增加收入的重要性，以及如何抓住风口来实现赚钱的目标。文章指出，拼命工作并不一定能让人有钱，而是需要顺应时代的方向。 ... [详细]

蜡笔小新 2023-12-11 18:31:31
function
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
install
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
install
未来五年的AI领域科技亮点，都在这里了

当AI正式成长为推动世界第四次工业革命的潜在力量之一，我们的生活也在悄然发生着变化，当AI渗透到人们的生活中，引爆着一场又一场的行业变革& ... [详细]

蜡笔小新 2023-10-17 20:21:50
get
图片添加二维码水印教程

本博客介绍一下用jdkawt实现图片加文字水印和图片水印的方法一、图片文字水印原来图片加上文字水印后图片二、图片加图片水印原来图片：水印图片：添加水印后的图片： ... [详细]

蜡笔小新 2023-10-17 18:04:23
get
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25

mobiledu2502887867

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章