大模型如火如荼 智驾ChatGPT时刻即将到来
近期,笔者在在合肥参加了百人会全球智能汽车大会GIV2023,大模型、城区NOA、重感知轻地图、BEV+Transformer、存储一体芯片等热点话题备受关注,很多专家对比表达了自己的观点和探讨,本篇文章来聊聊目前炙手可热的大模型。
系统来看,整个自动驾驶技术路径分成1.0、2.0、3.0。1.0时代硬件驱动,需要堆大量硬件,特别是雷达传感器,其数量越多、性能越强,但是成本高居不下,动辄上百万;2.0时代逐渐进入软件驱动,用很多小模型解决这样的问题,大幅度降低成本的同时自动驾驶里程也由100公里逐步增加到了千万公里;在3.0时代是数据驱动,AI对数据的要求发生了质变,大模型应运而生,大数据、大模型、大算力成为了最核心的标志。
今年以来大模型在业界一直热火朝天,4月毫末自动驾驶生成式大模型雪湖·海若率先发布,7月创维汽车发布了小维GPT,8月广汽AI大模型平台横空出世,9月华为正式发布盘古汽车大模型。昨晚,毫末在发布DriverGPT200天之际,一次性发布了三款千元级无图NOH产品,全面满足高中低价位的智能汽车量产需求。
大模型赋能智能驾驶跨越式发展
在毫末看来,车端未来的演进路线一方面是会逐步全链路模型化,另一方面是逐步大模型化,即小模型逐渐统一到大模型内,大模型也可以逐步提升车端的感知能力,在通讯环境较好的地方,大模型甚至可以通过车云协同的方式实现远程控车。最终,在未来车端、云端都是端到端的大模型。
本次GIV2023,毫末智行数据智能科学家贺翔先生对DriverGPT进行了分享,他讲到今年毫末把两个大模型合到一起做端到端的训练,分为两个阶段,第一个阶段空间的计算或者多模态的通用感知大模型DriveGPT,这个大模型通过对输入的视频、雷达,包括文本的信号进行统一建模的结果,理解车周围的空间环境、空间的三维结构、图片的纹理、深度信息、语义信息等等,把这些信息作为输出的结果输入到认知大模型中,基于这个海量的司机驾驶行为再结合感知结果,训练认知决策大模型到底应该怎么去做出好的驾驶决策。
目前在蓝山、新摩卡、小魔驼应用,不管成本还是效果都取得非常好的成果。小魔驼整车成本从四五十万降到了几万块,且是模块化配置。
大模型有效提升座舱交互能力
大模型通过深度学习和自然语言处理等技术构建的庞大的语言模型,具备对话理解和生成能力。通过训练大量的数据,大模型可以学习到丰富的语言知识和语境,并能够根据用户的输入进行智能的回复和交互。在座舱交互领域,大模型的应用可以使得人机理解和解析复杂的指令、问题和意图,并给出相应的回答和建议,更好地理解乘客的需求,同时还能够根据上下文进行智能推断和判断,对话更加自然流畅、准确高效。
此外,大模型还可以通过机器学习和个性化推荐等技术,对乘客的偏好和需求进行分析和学习,从而为每一位乘客提供个性化的服务和建议。这种增强的座舱交互能力可以提升乘客的舒适感和满意度,改善用户体验。
本次GIV2023,科大讯飞智能汽车智驾产品线副总经理冉旭分享了星火大模型在座舱中的实践。8月份星火大模型发布了2.8版本,在人机交互上有了非常大的进展,提高了多轮对话的贯穿理解能力、认知知识应用的逻辑,提升了感情逻辑共性对话能力、自主引导的回复能力,同时在新知识的快速学习能力和海量用户修改意见的进阶能力上也有相关的突破。
腾讯智慧出行智能座舱产品总经理孙珏也分享了大模型带来的座舱交互革命思考,他重点分享了大模型Agent的能力,感知层面把指令转化为大模型可以理解的表示,把视觉通过编码或者视觉转化成文本,听觉通过识别、通过频谱图,其他的像车辆上的激光雷达、惯导、GPS等感知信号,都可以转化为大模型文本或者多模态的输入,进而在这个比较好的基础上做信息的检索、行动的规划,以及控制执行。腾讯依托一些底层的通用平台,搭建了一个行业或一个垂域的大模型,在应用层上可以进行智能会话管理,不再仅是语音和语音,可能是语音和触控形成上下文,也可以是语音和记忆形成上下文等。
智能驾驶下半场进入到了竞争加速期,城市NOA边落地边进化,自动驾驶的“ChatGPT时刻”即将到来。随着大模型技术随着大模型技术的不断发展和应用,期待将来会有更多创新和应用场景涌现,为智能汽车领域带来更多的可能性和突破。
热门文章
更多精华美文扫码阅读

焉知汽车

希骥电池与储能
请先 登录 后再发表评论~