返回旧版

一文读懂自动驾驶数据闭环:从概念到实践

解决方案

解决方案

在自动驾驶领域,“数据闭环”是一个被反复提及的概念,但许多人并不清楚它究竟解决了什么问题。

根本原因在于:自动驾驶系统不可能在初次设计时就覆盖真实世界的全部情况。

现实道路环境高度开放,场景几乎无法穷举。系统的能力只能通过持续运行、不断修正来逐步完善。而这一持续修正的机制,就是所谓的数据闭环


一、什么是自动驾驶中的数据闭环?

从工程实现角度看,数据闭环通常包含以下环节:

车辆运行 → 场景识别 → 数据采集 → 数据处理 → 模型训练 → 验证 → 再部署

数据只是手段,真正需要修正的是系统在现实世界中暴露出的能力盲区——包括场景覆盖的缺失、模型能力的不足,以及工程假设与现实之间的偏差。


二、自动驾驶的数据从哪里来?

1. 真实行驶数据仍是核心来源

目前行业内,超过80%的训练数据仍来自真实道路行驶(注:该数据为行业估算,非官方统计)。主要包括:测试车队采集的数据、量产车辆在限定条件下回传的数据,以及针对问题场景触发的定向采集数据。

真实数据的优势在于:包含真实的噪声与环境不确定性,能够暴露系统在实际运行中的失败模式。但缺点同样明显——采集成本高、长尾场景出现概率低、数据分布不可控。

2. 仿真与AI合成数据正快速增长

为弥补真实数据的不足,行业普遍引入仿真环境生成数据,或通过AI合成极端、罕见的场景。目前的主流做法是:真实数据用于发现问题,合成数据用于放大问题、补齐覆盖。但合成数据无法完全替代真实数据,仅作为补充。

根据佐思汽研《2025年中国智能辅助驾驶数据闭环研究报告》,2023年至2025年,合成数据在训练数据中的占比已从20%–30%提升至50%以上,成为填补长尾场景的关键手段。

案例:理想汽车的成本变化

2023年,理想汽车全年实车有效测试里程约157万公里,每公里成本约18元。到2025年上半年,总测试里程达4000万公里,其中实车仅2万公里,合成数据占3800万公里,平均每公里成本降至约0.5元,且测试场景可实现举一反三、完全复测。

数据来源:理想汽车郎咸朋公开介绍


三、为什么“有数据”不等于“有闭环”?

在实践中,不少团队积累了PB级的数据,系统能力却难以持续提升。根本原因在于:数据采集缺乏问题导向,无法精准定位模型的失败场景;数据、算法与工程流程彼此割裂;模型更新也缺少有效的验证机制。

真正有效的闭环,应当从问题出发去采集数据,而不是先堆积数据再反推问题所在。

自动数据闭环


四、行业目前的数据闭环实践现状

从行业整体来看,头部自动驾驶公司已形成相对完整的数据闭环体系。数据采集越来越精细化和事件化,回传数据比例逐步降低,但有效数据密度提高,仿真与真实数据协同使用成为主流。

以小鹏汽车为例,其自建的云端模型工厂在2025年算力储备达到10 EFLOPS,全链路迭代周期缩短至平均5天,支持从云端预训练到车端模型部署的快速闭环。

数据来源:小鹏汽车公开信息

对大多数企业而言,数据闭环仍是能力差距的主要来源之一。


五、数据闭环真正解决了什么?

数据闭环并不意味着系统不会出错。但它赋予了系统持续发现自身盲区的能力,使能力提升在工程上变得可控,也让自动驾驶从“版本迭代”逐步走向“能力演进”。


四信自动驾驶通信产品推荐

四信FTV300 是一款专为智能车联网领域开发的5G车载网关,集成了新一代车联网通信、定位与边缘计算能力,为车辆提供稳定可靠的网络连接服务。该产品通过5G蜂窝网络和双频WiFi构建高速数据传输通道,提供高速、不间断、安全的网络接入,为车辆管理构建可靠且易于扩展的车联网系统,全面提升管理与运营效率。产品采用抗震设计、M12接口及宽电压输入,满足各类车载应用场景的需求。

更多详情案例,请联系我们的专家团队