自动驾驶的眼睛——摄像头和雷达
自动驾驶是基于对路况和行驶中的车况做出判断进而让汽车自动做出决策,人在驾驶时主要是通过眼睛感知外界信息,通过大脑处理信息后做出操作决策;而摄像头和雷达就是自动驾驶的眼睛,车机芯片则是自动驾驶的大脑。
本文简要总结两种自动驾驶技术路线:
摄像头视觉算法和雷达算法要实现自动驾驶共分三步:1感知;2决策;3操控。具体来讲就是让汽车的自动驾驶模拟驾驶员,先观察周边环境,再判断和障碍物的距离,最后发出指令以操控汽车行驶。
目前用于感知的工具主要包括:1. 估算型的摄像头;2. 测量型的雷达。因此,目前的技术路线之争也主要分为视觉算法路线和激光雷达路线。
按理说自动驾驶是如此重要,其感知工具自然是多多益善,摄像头和雷达不分彼此一起上就完事;之所以还会产生技术路线之争,是因为之前激光雷达造价较高。
总体来说,激光雷达看得远看得清,但看不见近处,是个远视眼,拥有夜视能力,但对恶劣天气无能为力,同时只能看见三维结构,看不见二维平面结构;毫米波雷达是能看远也能看近,但越远越看不清楚,是个近视眼,不仅拥有夜视能力,且拥有恶劣天气条件下能看见的超能力,不过同样看不见二维平面结构;而摄像头仅凭自身能力很难准确判断距离,但有算法加持,可以发展出这项能力,且摄像头能看见更多的信息,包括车道线等二维结构、物体分类、颜色等,是个超级眼,但在光线不佳、有雨雪雾等恶劣环境下,能力存在短板。
先来看看这2大技术路线的本质。
1.视觉算法路线
通俗的解释是:让摄像头模拟眼睛进行观察、感知,让神经网络系统模拟大脑进行判断。底层逻辑是:驾驶员可以依靠人眼驾驶汽车,自动驾驶也可以依靠摄像头驾驶。
目前特斯拉采用这一纯视觉算法技术路线。
具体步骤如下:
- 在驾驶应用之前,通过摄像头将道路周边环境建模,把相片及相关数据添加到神经网络系统,先由人工告诉神经网络系统正确的指令;
- 指令不断累积形成规模之后,神经网络系统根据算法进行学习,进而产生自主判断能力,自行发出行进或避让的指令开启自动驾驶;
- 在不断的测试中试错,人工将神经网络系统误判情况下人为干预行为进行标注,神经网络系统基于标注不断学习,最终形成无限接近正确的反应模式。这就是所谓的通过“影子模式”不断优化算法。
这是视觉算法路线的大致逻辑。当然特斯拉的模式更复杂一些,其以路上跑的每一辆特斯拉采集真实数据组成标准数据池,通过巨量的算法帮助神经网络系统不断纠错和修正,形成闭环。
这种技术路线的优点是便宜,每套系统成本仅几百美元。
但缺点也很明显。摄像头是二维的,在感知三维物体或者复杂环境(比如糟糕的天气、能见度等)的时候会存在失真的情况。这也是为什么我们常常能看见特斯拉因识别偏差出现的各类事故。
因为从理论上讲,只要是特斯拉真实数据库中没有的情形,都存在误判的可能性。
2.激光雷达路线
激光雷达的优势很明显。激光雷达可每秒向外发射几百万个激光脉冲,并通过内部旋转方式对外界进行旋转扫描,每次扫描都可获取周边物体精确的三维数据,从而大大提高对于驾驶环境的识别准确度。
性能缺点是无法识别物体颜色,从而影响对红绿灯这一传统重要交通规则的判断。
目前,更多的厂商则采取视觉算法+激光雷达的“双保险”技术路线。用摄像头的高分辨率和激光雷达的精准测距互为补充。即在感知范围的设置重叠区域,用更多硬件来做安全沉余。
这种方法确实保险了,但最大的困难在造价高。不过2020年之后,随着激光雷达技术的完善及量产,这一困境有所改善。激光雷达技术路线的自动驾驶也走向了量产。
最后,用类比的方式总结一下
摄像头相当于眼睛,视觉判断
我们的眼睛:观察周围环境,由2个眼睛同时工作才能感知物体的三维结构,颜色及远近距离,且在阴雨雾天会模糊不清,也看不清太远的物体;
摄像头:拍摄周围环境,由2个及以上的摄像头同时工作,感知物体的三维结构,颜色及远近距离,但摄像头会对阴雨雾天的画面会进行算法优化,另外,摄像头的分辨率更高,比人看得更远更清晰。
雷达相当于触手,触觉判断我们的手:
假设闭上眼睛,把周围办公室摸个遍,我们可以大概在大脑中构建出办公室的模型,办公室每个物体的大小、形状、距离都可以通过触觉感知出来,但物体的颜色却无法感知;但用手摸可以忽略办公室的烟雾,而且,摸到窗帘的时候,还可以透过窗帘摸到外面的玻璃,有一定的“穿透”能力;
雷达:形象地说,就是通过向周围环境的四面八方不断地发送无数的“小触手”,去“抚摸”周围的物体,得到每个物体的大小、形状,并通过发送“触手”到回收“触手”的时间差来计算距离;同样也无法感知物体的颜色;但即使在阴雨云雾天,一些波段的“触手”依然可以不受影响地触摸到周围的所有物体,这是雷达优于摄像头的地方之一。
请先 登录 后再发表评论~