分享热点新闻
打造优质自媒体!

Techo开发者大会 优图, 腾讯分享最新的研究成果和工业实践

12月19日至20日,由腾讯发起的2020年科技园区开发者大会在北京成功举行,主题为“人工智能算法和最佳实践”,人工智能专题会议为开发者、行业和生态合作伙伴展示云计算时代人工智能领域的最新前沿技术和最佳行业实践。

腾讯优图实验室的梁晨,王亚彪,姚达和杨博,研究员分别专注于AI视觉传感器、视觉算法在图像编辑与生成中的研究与应用、TNN跨平台推理优化、模块化量化训练部署与实践等。发表主题演讲,向业界展示优图的最新研究成果和工业实践。

自研AI视觉传感器VisionSeed算法多样支持二次开发

在论坛上,梁晨介绍了一款有趣的硬件——AI视觉传感器。什么是AI视觉传感器?它是由摄像头、NPU和算法组成的硬件模块。其基本工作原理是在NPU上运行深度学习算法,可以直接对摄像头拍摄的图片进行实时分析,并将分析结果通过数字信号传输给上位机。

据梁晨, 优图, 腾讯介绍,已经推出了自主研发的AI视觉传感器——VisionSeed,采用优图领先的视觉AI算法搭建,同时还提供了专业的支撑工具和整个平台的SDK作为支撑,方便开发者进行二次开发。

Techo开发者大会 优图, 腾讯分享最新的研究成果和工业实践 科学快报 第1张

优图,腾讯的专家研究员梁晨,

算法是AI视觉传感器的灵魂。VisionSeed具有很强的可扩展性,可以适应各种算法。首先,它可以适应开源的目标检测算法,如SSD和YOLO-V4。二是应用于自动驾驶汽车比赛领域的车道定位算法,在AGV车前安装VisionSeed,从第一人称视角获取车道画面,通过算法输出车道内汽车的横向偏差。该算法主要通过语义分割提取车道信息,然后通过回归模型直接得到定位结果来完成任务。通过将这两种交通标志检测和车道定位模型部署到AI视觉传感器中,可以指挥AGV汽车完成复杂的任务。三是OCR算法。VisionSeed采用基于PyTorch开源实现的CRNN算法。

VisionSeed将上述算法封装成一个模块,在客户端工具中一键下载即可,不仅方便用户下载,还可以训练分类任务。VisionSeed还支持UART和USB硬件接口。另外,通过VisionSeed提供的全平台SDK,开发者只需10行代码就可以获得AI分析后的结构化结果。

研发图像编辑生成技术,解锁图像和视频领域更多可能

什么是图像编辑生成?人脸融合、图像分割、动画、视频变脸、照片驱动.这些都是利用图像编辑制作技术完成的。在演讲中,来自优图高级, 腾讯,的研究员王亚彪,重点介绍了四项技术:视频人脸变换、面部属性编辑、视线编辑和图像质量编辑。他说,这些技术都将使用GAN代对抗网络和编解码框架。

视频人脸变化领域早期有一个Deepfake算法。该算法只能对两个特定的训练过的id进行人脸变换,不能用各种人脸来代替。针对这一不足,优图提出了SimSwap算法,不仅可以满足不同人脸替换的需要,还可以进行跨性别替换,还可以在正面和侧面之间进行替换。

Techo开发者大会 优图, 腾讯分享最新的研究成果和工业实践 科学快报 第2张

腾讯优图高级大学的研究员王亚彪,

在人脸属性编辑技术的研究中,发现模型不同层次的“风格”特征在某些层次上具有良好的可分性。为此,优图提出了SSCGAN算法,该算法采用多层次风格跳转连接和空间信息传递两个模块,实现对整体结构和局部面部属性的精确编辑。

在视线编辑方面,王亚彪指出,在疫情期间,在线视频交流越来越重要,但受到屏幕和摄像头之间物理布局的限制,导致交流过程中缺乏眼神交流。因此,优图提出了乌加泽算法的框架来校正视线方向。与以往基于三维变换的视图生成和基于生成模型的单目视线编辑相比,Ugaze算法有两个主要创新点:首先,提出了一种基于运动流场结合鉴别器的方案;二是大量使用合成数据,采用域偏移方法进一步提高模型校正精度。

对于图像质量编辑,优图提出了图像超分Realsr算法。过去,超分算法只在特定的数据集上有效,在真实世界的图像上很难做到超分。针对以往算法在构建高清晰和低清晰图像对时的不足,提出了一种新的图像退化框架,该框架可以估计各种模糊核和真实噪声分布。RealSR算法获得NTIRE 2020挑战赛冠军,吸引了众多社区开发者的关注。

推出统一推理框架TNN,解决产业落地难题

腾讯, 优图高级研究员姚达,在讲话中介绍说,优图视觉AI技术,如字符识别、图像识别、美容等核心技术,已经应用于零售、工业、支付等领域。然而,在落地工业解决方案的过程中,优图也遇到了一些困难,如不同的模型格式、众多的硬件架构、低性能和高功耗。

为了解决上述三个难题,优图和腾讯的几个部门在TNN推出了统一的推理框架,以满足算法模型跨平台、高性能和快速部署的要求。TNN通过ONNX作为中间结构支持PyTorch、TensorFlow等模型格式,TNN在底层采用各种芯片能力。目前,在腾讯,TNN已经登陆了手机Q、微视、微信支付一体机等多个APP终端,其稳定性和可靠性得到了广泛验证。

Techo开发者大会 优图, 腾讯分享最新的研究成果和工业实践 科学快报 第3张

腾讯优图高级大学的研究员姚达,

TNN推理框架是如何优化的?根据硬件架构基础和硬件演进,TNN提出了两个基本原则:一是减少计算量,减少内存读写,适配Cache使内存读写更快;二是扩展和适应异构计算设备。

基于以上两个原则,TNN提出了几种优化方案,如图优化、算子公式优化、算子手动调整、异构调度优化等。在图形优化中,采用常数折叠和算子融合,避免运行时的冗余计算,减少内存读写次数;在算子公式的优化中,采用了子图变换、公式等价和近似计算,减少了计算量和内存读写总量。在手动操作器调整中,对于占用70%以上时间的卷积操作器,根据硬件缓存特性设计了一种精细的卷积实现。在异构调度优化中,TNN提出异构单元应该相互专用,充分利用所有计算设备,根据计算设备的特点分配不同的计算任务,优化计算设备之间的流水线,从而减少计算设备之间的相互等待,改善计算重叠,降低整体延迟。

在硬件适配方面,针对端缘云的硬件架构不同、非通用性、适配工作量巨大等难点,TNN和硬件厂商共同进行了优化,优化后可以达到两个效果:一是界面统一,用户只需简单的参数设置就可以在CPU、GPU、NPU上运行。第二,模式统一。TNN通过IR中间件适应各硬件厂商自行开发的框架,如OpenVINO\TensorRT等。用户只需要转换TNN模型就可以在每个硬件平台上部署。

优图与英特尔合作,在TNN推理框架下完成了多尺度的GEMM优化,提高了计算效率

联合英伟达开发Int8方案,推动模型量化高效升级

来自优图高级,腾讯,的研究员杨博,在他的演讲中描述了模型量化的背景。他指出,NVIDIA后培训是行业内常用的模型量化解决方案。这种解决方案经过训练后对模型进行修正,使用的数据量较小,部署方便,但是有一个缺点就是会导致模型效果下降。另外还有一个以张量流QAT为代表的解。该方法在训练过程中模拟Int8计算,使用Minmax计算量化区间,Finetune补偿精度损失。但是培训周期长,工具链不完善。一些常用的模型不支持从培训到部署的转换。

由此可见,业界传统的求解算法都存在一些不足。为了解决这些问题,优图和英伟达共同制定了从训练到部署Int8的完善方案。该方案升级了图优化匹配模板,支持更多的模型QAT图转换。其次,增加了混合精度量化训练方法等其他量化模型精度维护方法。最后,推理框架(TensorRT,TNN)支持包含QUT节点的模型转换。

Techo开发者大会 优图, 腾讯分享最新的研究成果和工业实践 科学快报 第4张

腾讯优图高级大学的研究员杨博,

Int8模型科学机培训用什么工作方法?首先,我们将做一个BN层融合,然后子图搜索和匹配。匹配到子图,后,我们将自动插入量化节点。最后,我们将通过建立黑白列表、动态量化间隔统计和激活层增量量化的混合精度策略来保持模型效果。

Int8模型的前向部署主要分为两部分:一是将模型导出到onnx,完成QAT训练后,进行后处理检查点,导出包含量化op的onnx模型;其次,采用TensorRT显示精度模型完成fp32模型到int8模型的转换,并对相关的OPs进行融合,将onnx模型转换为tensorRT和TNN模型。

杨博表示,对于Int8标准模型,在完成校准和QAT部署相关工作后,一些数据是有效的,但会增加时间消耗。优图将继续优化技术,提高研究效率。未来,优图将继续与英伟达,开展更深入的合作,进一步完善优图QAT工具,加大对TensorRT后续版本的支持,提供更加易用高效的QAT模型培训和部署解决方案。

作为腾讯,旗下顶尖的人工智能实验室,优图一直专注于计算机视觉,专注于人脸识别、图像识别、OCR、机器学习、数据挖掘等领域进行技术研发和产业落地,未来还会在这里继续深度培养,让人工智能更好的帮助产业的数字化发展。