年会 | 打造合规数据闭环,加速智驾量产落地
Bella · 2024-08-23 990
在以“蓄势谋远•智电未来”为主题的第四届焉知汽车年会上,百度智能云汽车产品部研发负责人徐鹏分享了百度在构建合规数据闭环、加速智能驾驶技术量产化进程中的实践与思考。
在以“蓄势谋远•智电未来”为主题的第四届焉知汽车年会上,百度智能云汽车产品部研发负责人徐鹏分享了百度在构建合规数据闭环、加速智能驾驶技术量产化进程中的实践与思考。他表示,期待能够收获来自各方的宝贵建议,未来能有更多携手合作的机会,共同推动行业的繁荣发展。
1. 行业趋势与量产挑战
徐鹏介绍说,自2013年起,百度便前瞻性地投身于自动驾驶技术研发,成功打造了两款明星级产品:一是面向智能出行服务的“萝卜快跑”,它不仅在多个城市展开了运营服务,更在公众中引发了广泛讨论与热烈反响。尽管社会各界对此持有不同见解,但无可否认的是,萝卜快跑”为智能驾驶技术的演进提供了宝贵的实践机会,并激发了对未来技术发展的无限想象。二是面向消费者市场的智能驾驶力作——极越汽车,它已顺利实现量产,并正式面向市场发售。
在智能驾驶技术的持续迭代升级中,百度深刻认识到数据闭环对于技术发展的核心驱动作用。百度坚信,通过构建高效、合规的数据收集、处理与反馈机制,能够极大地加速智能驾驶技术的成熟与优化,为用户带来更加安全、便捷、智能的出行体验。
“百度每天通过部署在各地的智能驾驶车辆,实现了海量的数据采集工作,这些数据覆盖了驾驶行为的方方面面,随后经过高效的传输系统被迅速送达数据中心进行存储与处理。迄今为止,百度已经累计托管了接近百PB量级的智能驾驶相关数据,这些数据构成了技术迭代与产品创新的重要基石。”徐鹏讲到。
截至目前,百度L4+级别自动驾驶运营里程已累积突破1亿公里大关,同时自动驾驶领域已发布的专利数量超过5000项,彰显了百度在技术创新方面的领先地位。尤为值得一提的是,自2020年起,百度着手将这一领域的数据闭环工具链体系逐步产品化,并全面向行业合作伙伴开放。这一举措不仅促进了数据价值的最大化利用,也加速了智能驾驶技术的商业化进程。
在徐鹏看来,在高阶智能驾驶的量产过程中,高效数据闭环的建设显得尤为重要。作为这一领域的先行者,百度经过长时间的探索与实践,深刻认识到实现高效数据闭环所面临的三大核心挑战。
1)量产车数据回传满足合规要求
自然资源部2022年8月发布的一号文明确指出,智驾量产车上的数据回传被归类为测绘数据,必须严格遵守相应的合规管理要求。这一规定不仅提升了数据回传的法律门槛,也对车企提出了更高的合规性挑战。如何确保从智驾量产车采集的数据既满足合规要求,又能在控制成本的前提下实现高效利用,成为了建设合规数据闭环的首要任务。
2)低成本获得高价值数据
在智能驾驶技术的研发与量产化进程中,我们已迈过了初期数据匮乏的阶段。随着智驾量产车规模的显著增长,行业面临的新挑战在于如何从海量数据中精准筛选出高价值信息,以及如何去采集到哪些受季节、地理、交通状态等因素影响的、稀缺的“corner case”场景。
3)高效支持智驾上车及开城
在智能驾驶技术的快速迭代与演进过程中,不同技术流派如“轻图”或“无图”城市NOA、模块级智驾以及端到端智驾等并存,每种技术流派都有其独特的优势,同时它们也各自面临着挑战。
在构建合规的数据闭环解决方案时,需要面对如何适应并优化这些多样化技术方案的挑战,以确保测试验证的高效性与准确性。
2.百度智能云确保智驾数据合规
百度拥有地图领域长达20年的深厚经验,特别是在处理测绘数据方面的能力。百度深知,在云端处理这些数据时,必须严格遵守涉密信息的安全检测流程,确保每一步操作都符合最高标准。正是基于这些丰富的经验与专业的资质,自2022年起,百度携手20余家企业,通过不断的落地实践与迭代优化,成功打造了一套从车端数据到云端的数据合规方案。
百度采取了全面的合规管理策略,确保满足合规的管理要求。通过数据加密与脱敏处理,百度有效保护了敏感信息 —— 地理位置信息的偏转策略,避免了对精确位置的直接记录,维护了国家测绘地理信息安全;数据分类与采集区域控制,则确保了数据的合规使用;对车外视频中的人脸车牌进行模糊化处理,保护了个人隐私安全。百度深入理解政策法规要求,与主管部门保持密切沟通,通过审查与汇报,确保了技术实践的合规性。
1)车端 - 合规数据采集
在车端的合规数据采集方面,百度智能云提供合规管控SDK,对现有智驾系统进行安全合规改造,支持83%的车端芯片,比如,华为、英伟达、地平线、TI及高通等主流芯片厂商的车端芯片,具备资源占用低、性能高、满足量产要求的特点。
在技术层面,百度通过其云智一体能力有效降低了合规处理对车端芯片算力的消耗。百度与20多家车企紧密合作,将合规处理方案深度集成至智驾系统中,确保方案在主流智驾芯片供应商的平台上能够全面复用,实现“开箱即用”的便捷性。
2)云端 - 合规数据处理
在云端合规数据处理方面,百度部署了本地专属的计算集群,为智能驾驶数据的处理与分析提供了物理隔离的环境。百度还利用昆仑芯和百舸AI异构计算框架,对云端合规处理的计算过程进行了性能优化,大幅提升了合规处理的计算效率,将合规处理的成本降低了40%。
此外,百度的云端智驾数据处理方案,实现了分钟级的量产数据回传,满足了客户对高效数据处理的需求。考虑到不同客户在成本控制上的具体要求,百度还提供了数据分级回传的灵活选择,包括T+n小时或T+1天等,以适应多样化的业务场景与成本预算。
徐鹏强调,这一方案的优势在于其云智一体的模式,实现了开箱即用与按需付费,大幅降低了车企在落地合规数据处理方案时的门槛与成本。采用百度的方案,车企无需从零开始建设或改造机房,也无需面对复杂的合规安全检查,百度将负责整体的建设和安全合规管控,确保数据处理既高效又合规。
百度在智能驾驶领域的合规管理,始终将满足主管部门的管理要求置于首位。在这一过程中,百度与各主管部门保持了密切的沟通与合作,不仅定期汇报方案进展,更在每个关键阶段邀请主管部门进行合规成果检查。百度的努力与成果,已获得主管部门的广泛认可,彰显了百度方案的成熟度与合规性。
在车企构建数据闭环时,百度建议将合规作为核心考量,以避免合规问题成为未来数据闭环建设中的不可控风险。
3.百度智能云打造智驾数据平台
在智能驾驶研发过程中,面临着海量数据高效利用的挑战。为解决这一难题,百度构建了一套算法模型驱动的流程式数据挖掘体系,旨在从庞大的原始数据中精准筛选出高质量的智驾数据,以支持研发迭代。
徐鹏谈到,百度的数据平台首先对原始数据进行统一转换与质检,剔除不符合要求的数据。随后,利用挖掘产品对数据进行场景Tag挖掘,包括主车行为、道路拓扑等标签,以及基于逻辑表达式的事件组合挖掘,满足定制化挖掘需求。最终,形成可用于智驾场景的数据集,赋能感知训练与算法迭代验证。
这一流程式数据挖掘体系的构建,得益于百度10年来的积累和预置了500种挖掘算子,基于L4级别密集测试里程的数据沉淀。这些算子快速赋能行业伙伴,加速智驾技术迭代,且在实践中实现了高达90%的挖掘准确率,确保了场景数据的有效性与可用性。
在智能驾驶研发的各个阶段,百度充分利用云端技术的优势,不断优化产品运营资源,显著降低了运营成本。例如,百度基于云端技术挖掘出的两个典型场景:
- 一是非机动车绿灯抢行
- 二是非机动车占线驾驶
这些场景的精准挖掘,对于定向提升智驾能力、推动技术迭代具有重要意义。
自去年大模型技术兴起以来,百度积极探索其在智能驾驶数据挖掘领域的应用,旨在进一步提升挖掘效率与能力。基于多年积累的图片与视频数据,百度构建了图片数据特征库,将语义信息与数据紧密结合,形成了支持多模态搜索的创新体系。
这一体系支持以文搜图、以图搜图以及以文搜视频等多种搜索方式,极大地丰富了数据挖掘的手段。通过输入一段文本,即可快速实现数据挖掘,将原本可能耗时一周的挖掘流程缩短至瞬时完成,显著提升了效率。
百度的创新产品通过大模型技术实现了基于文本输入的智能图片与场景搜索功能。用户只需输入描述性文本,即可快速定位到包含道路裂纹、行人切入等典型场景的图片,极大地简化了搜索流程,提升了搜索的精准度与效率。
不仅如此,百度还利用大模型的能力,拓展了数据挖掘的广度与深度。在一些场景中,无论是道路裂纹、夜晚电动车行驶、隧道中汽车行进,还是装满货物的货车,百度的大模型都能够智能识别与搜索。这不仅丰富了数据挖掘的场景,更使得数据搜索过程更加智能、灵活。
最后,面对长尾数据的挑战,百度意识到单纯依赖数据采集与挖掘已难以满足智能驾驶研发迭代的需要。为解决这一难题,百度引入了NeRF与3DGS等前沿技术,实现了数据的自动化建模与泛化,极大地丰富了数据集的多样性与覆盖范围。
百度的实践包括:
1)消除原子图片中的动态元素,以创建更为通用的场景基础;
2)调节主车视角;
3)修改天气环境因素;
4)叠加虚拟元素,将这些元素动态叠加到同一场景中,形成新的数据组合。通过这一系列操作,百度能够将Corner case需求泛化,满足了智能驾驶研发的多样化需求。
百度内部的测试验证显示,基于NeRF与3DGS技术的数据泛化,在感知分割任务中的准确率达到了98%,目标检测误差小于12%,满足内部研发迭代的高标准要求。
4.百度智能云赋能智驾仿真平台
在智能驾驶研发初期,百度主要依赖于实际路测车辆进行测试验证。然而,随着测试需求的日益增长,传统路测已难以满足大规模、高效率的测试需求。为此,百度转向仿真平台,将其作为智驾研发的核心测试工具。目前,百度约90%至95%的测试需求通过仿真平台完成,标志着智驾研发测试方式的重大转型。
与行业早期的单机版仿真平台不同,百度的仿真平台采用云端部署模式,有效解决了高并发测试的难题。平台配置了3000多个节点,每天可并发处理大量测试任务。经过数年的持续优化与沉淀,百度的仿真平台已达到日行千万公里的仿真测试能力,展现了其在大规模云端测试领域的强大实力。
“在智能驾驶研发中,百度构建了千万级的场景库,涵盖了智能驾驶可能遇到的各种复杂环境与工况,为智能驾驶算法的训练与测试提供了丰富的数据支持。百度基于AI规则的评价系统提供了强大的场景挖掘能力,能够自动识别与提取有价值的测试场景,进一步丰富了场景库的内容,提升了测试的效率与针对性。”徐鹏补充说到。
百度的多元化测试模式包括WorldSim、LogSim、Log2World等,能够满足从模块级到端对端的全方位测试需求。这一模式的引入,不仅提升了测试的灵活性与覆盖范围,更确保了智能驾驶系统在不同层级与功能上的稳定性与可靠性。
另外,百度的仿真平台不仅在数据回放与场景构建上展现出了强大的功能,更在智驾算法的迭代验证中发挥了关键作用。通过平台,百度能够高效地进行算法迭代验证,加速智能驾驶技术的成熟与应用。
例如,在真实路测数据在仿真平台中,通过一系列的指标监控与分析,能够帮助研发团队快速定位路测中出现的核心问题,为问题的解决与算法的优化提供了直观的数据支持。在Log2World的能力方面,对比早期算法与迭代后算法在相同场景下的表现可以看到,早期算法在遇到障碍物时会停车,而迭代后的算法则能够顺利通过,这不仅验证了算法优化的有效性,更为智驾技术的持续改进提供了有力证明。
通过高效的数据回放、指标监控与场景对比,百度的仿真平台不仅加速了智驾算法的迭代验证过程,更为百度与合作车企提供了快速验证算法性能、优化智能驾驶系统的有力工具。
百度作为智能驾驶领域的先驱,最初坚持高精度地图驱动的智驾技术路线,随着行业趋势的发展,百度逐步转向多元化方案,包括无图、端到端等多种技术路径,以适应不同场景与需求,推动智驾技术的全面落地。
百度智驾工具链在这一转型中发挥了关键作用,不仅支持基于高精度地图的仿真场景引擎,还兼容开源与无图模式的仿真场景验证,全面支持从地图覆盖区域到自动化路网搭建,为车企提供了开箱即用的云端仿真测试服务,极大地简化了智驾算法的验证流程。
例如,在城市级仿真领域,百度在亦庄区域构建的城市交通流仿真模型,不仅融合了实时交通流数据,还将路侧采集的车辆行为信息纳入模型,实现了自动驾驶车辆与城市交通流的动态博弈,进一步验证了算法的鲁棒性与适应性,提升了场景覆盖与泛化能力。
5.百度智能云的合规数据闭环案例
1)案例一
百度在上海地区的智驾数据闭环解决方案为智驾技术的迭代与地图更新提供了创新路径。这一解决方案的核心是通过车主在日常驾驶过程中采集地图数据、道路数据,形成从车端到云端的数据闭环,实现地图数据的实时更新与智驾技术的持续优化。
徐鹏说:“目前,百度在上海地区已完成6万公里测试,覆盖多家车企,支持10+地图元素的变化更新,实现了T+1天的数据更新速度,展现了百度在智驾数据闭环解决方案上的技术实力与应用效果。”
在早期,智能驾驶车辆在遇到地图信息不全或路网变化时,往往需要切换至人工驾驶模式,这不仅影响了智能驾驶体验,也限制了智驾技术的应用范围。百度在上海的实践通过智驾地图数据的实时更新,有效解决了这一问题,开创了行业先河。
当车辆发现地图信息不全或路网变化时,百度智驾数据闭环解决方案能够实时将这些信息上传至云端。在云端通过快速处理与更新形成最新的地图数据,并通过OTA方式直接发送至车端,实现了地图信息的实时更新与智能驾驶状态的无缝切换,解决了原有地图采集与更新时效性不足的问题。
2)案例二
另外,徐鹏还强调到,与传统车企的合作展现了百度全栈数据闭环能力在智驾技术升级中的关键作用。通过这一能力,百度不仅帮助车企实现了从合规接入到数据平台纳管的全流程数据管理,更支持了数据测试与仿真的应用,为车企智驾技术的发展提供了全方位的数据支持。
在合作中,百度的数据平台对接了不同车型与智驾供应商,包括英伟达、地平线等,展现了百度方案的广泛适配性与灵活性。百度能够高效地处理与转换来自不同供应商的数据格式,统一纳入核心数据平台,为后续的数据挖掘与算法优化提供了统一的数据基础。
通过数据挖掘算子,百度进一步对这些数据进行深度分析与计算,将挖掘出的场景信息赋能于后续的智驾研发与仿真测试,加速了智驾技术的研发进程与测试效率。这一合作不仅推动了车企智驾技术的快速迭代,更有助于车企在L3级自动驾驶技术的运营准入中成为首批设计准入者。
3)案例三
在与某家新势力公司的合作中,百度展示了其在智能云智驾工具链方面的强大能力。通过构建和完善合规的数据闭环,不仅复用了该公司的现有私有云环境,还与专属云环境相结合,实现了资源的高效利用和快速改造。
这确保该公司每天能够获得6000万帧的合规数据供应。另外,百度还提供仿真测试服务,从最初的公有云环境扩展到专属云环境,确保客户能够进行大量的仿真测试,可支持每天100万+公里仿真测试,每年700+版本的算法迭代。
请先 登录 后再发表评论~