注意路况:自动驾驶汽车如何得知它们看到了什么

2022-08-30 12:33:16 gcs 21

对于未受过训练的人来说，它们是一堆各种颜色的方框、方块和数字。而对于训练有素的观察者而言，它们是从鱼眼摄像头、激光雷达和其他传感器读取到的数据。而对于自动驾驶汽车而言，这就是它们穿梭而过的复杂环境的细节。

在今年的拉斯维加斯国际消费电子展上，您将看到汽车制造商和研究人员所作的大量演示，他们从新一代自动驾驶系统的角度展示车辆未来发展趋势。

凭借全球最强大的车用人工智能引擎 NVIDIA DRIVE PX 2，我们引领自动驾驶汽车的研发。使用 DriveWorks 软件和 DRIVE PX 2，将帮助汽车开发人员将深度学习的动力用于新一代无人驾驶汽车上。

这些新系统所展现出的新技术令人惊叹不已 – 每秒可以处理 24 万亿次深度学习操作。新系统所取得的成绩需要作一下说明。

下面简单介绍一下在观看自动驾驶演示时，您会看到和不会看到的内容。

您会看到的内容

您将看到两大类的识别能力展示:

语意分割 – 这项能力可标示出属于特定类别物体的像素 (构成计算机图像的小点)。我们可以从下图中看到道路是蓝色的。人是橙色的。车辆是红色的。如果计算机识别图像内物体的精细程度能达到这种水平，那么我们就能对自动驾驶系统安全导航的能力怀有更大的信心。

物体检测 – 这项能力可以用方框标示出物体位置。您将在多个视频中看到我们同时检测多个类别物体的能力。在以下示例中，我们设计了一款能识别行人和车辆的探测器。使用方框比分割法更容易标示物体位置。

您不会看到的内容

在多数展示自动驾驶系统所看到的路况画面的演示中，您可以在屏幕上注意到语意分割和物体探测这两项技术。

但是您看不到推动这一切的重要幕后推手: 深度学习技术。深度学习技术让我们做到人类无法完成的事情。开发出能识别路上每个物体类别的软件并不具有实用性，因为路上的东西太多了。

因此，正确的解决方案应能教会机器进行自我学习。深度学习技术可让我们设定一个有难度的目标。如果使用对的方法或算法得出正确的公式，神经网络就能找出解决复杂问题的方法。

我们利用 NVIDIA GPU 的超强计算能力来训练这些神经网络。GPU 能一次平行处理许多任务，因而是深度学习的不二之选。

我们将以最近推出的 GoogLeNet 和 VGG 等先进深度学习网络为基础，使用单次检测和分割架构。单次意味着网络可以获得完整的图像，并输出检测或分割像素标识内容。

此举能让汽车制造商使用真实驾驶情境视频，快速训练系统在各种情况下识别物体。投入深度学习系统中的的数据越多，系统就会变得更智能。而且，这还可让他们将结果与由独立研究单位管理的真实图像识别基准 (如 KITTI 基准套件) 相比较，以便了解与同行产品相比，自己的产品表现如何。

如何判断您所看到的内容

下次再观看演示时，请提出三个问题。如何训练这些系统理解其从未见过的状况？它们是否实时运行？与计算机科学家用于测量这些计算机视觉系统精度的基准相比，这些结果的表现又是如何？