新闻中心

EEPW首页 > 智能计算 > 进阶指南 > OpenVINO™工具包公共模型概述

OpenVINO™工具包公共模型概述

作者: 时间:2021-06-17 来源:英特尔 收藏

  ™工具包提供了一组,您可以将其用于学习和演示目的,或者用于开发深度学习软件。

本文引用地址://www.cazqn.com/article/202106/426375.htm

  最新版本可在Github上的回购中找到。

  您可以下载模型并使用™模型下载器和其他自动化工具将它们转换为推理引擎格式(*.xml+*.bin)。

分类

1623913733175158.png

分割

  语义分割是目标检测问题的延伸。

  语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”表示某个类别。

  这些网络比各自的目标检测网络大得多,但它们提供了更好的(像素级)目标定位,并且它们可以检测到形状复杂的区域。

语义分割

1623915693621405.jpg

实例分割

  实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同,实例分割模型为所有实例输出像素级掩码。

1623915725857867.jpg

3D语义分割

1623915768793650.jpg

目标检测

  几个检测模型可以用来检测一组最流行的对象——例如,人脸、人、车辆。大多数网络都基于固态硬盘,并提供合理的精度/性能权衡。

1623915800298729.jpg

1623915800564775.jpg

1623915800974137.jpg

面部识别

1623915883238989.jpg

人体姿态估计

  人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:身体骨架,它由关键点和它们之间的联系组成。关键点是身体关节,即耳朵、眼睛、鼻子、肩膀、膝盖等。这种方法有两大类:自上而下和自下而上。首先在给定的帧中检测人,裁剪或重新缩放检测,然后为每个检测运行姿态估计网络。这些方法非常准确。第二个查找给定帧中的所有关键点,然后按个人实例对它们进行分组,这样比以前更快,因为网络只运行一次。

1623915905924790.jpg

单目深度估计

  单目深度估计的任务是基于单一输入图像预测深度(或逆深度)地图。由于这个任务在一般情况下包含一些模糊性,所以得到的深度图通常只定义一个未知的比例因子。

表8.JPG

图像修复

  图像修复的任务是估计合适的像素信息来填充图像中的空洞。

1623915956897181.jpg

风格转移

  风格转移任务是将一个图像的风格转移到另一个图像。

表10.JPG

动作识别

  动作识别的任务是预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。

1623915978520968.jpg

彩色化

  彩色化任务是从灰度图像中预测场景的颜色。

1623916000926760.jpg

声音分类

  声音分类的任务是预测音频片段中有哪些声音。

1623916028742272.jpg

语音识别

  语音识别的任务是识别口语并将其翻译成文本。

1623916045579807.jpg

图像翻译

  图像翻译的任务是基于样本生成输出。

1623916062232202.jpg

位置识别

  地点识别的任务是快速准确地识别给定查询照片的位置。

1623916077957722.jpg

使(模糊的图像)变清晰

  图像去模糊的任务。

1623916094423429.jpg




关键词: OpenVINO 公共模型

评论


相关推荐

技术专区

关闭