ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析

近年来,自动驾驶技术飞速进展,萝卜快跑已经无缝融入武汉的交通系统,同时,众多汽车制造商的智能驾驶系统也已在道路上投入使用。
但在复杂的交通环境中,对事故的理解及预防仍然是重大挑战。例如,特斯拉的FSD系统近期终于进入中国市场,然而其中国版FSD似乎存在适应性不足的问题,频繁出现闯红灯、驶入人行道和逆向行驶等行为,甚至被网友调侃为“美国司机直接来中国开车”。
此外,现有的事故分析方法通常难以准确解释事故发生的原因,并且缺乏有效的预防策略。由于事故数据相对稀缺,自动驾驶系统在面对突发情况时常常缺乏合理的决策能力。
为了解决上述问题,光轮智能(Lightwheel)联合来自清华大学、香港科技大学、吉林大学、南京理工大学、北京理工大学及复旦大学等多所高等院校的研究团队,提出了AVD2(Accident Video Diffusion for Accident Video Description)框架,以提升行业在自动驾驶事故场景下的安全性。
AVD2是一个创新的事故视频生成与描述框架,旨在增强自动驾驶系统对事故场景的理解能力。通过生成与自然语言描述高度一致的事故视频,AVD2显著提升了对事故情境的建模能力。
同时,该团队还为事故分析和预防研究贡献了EMM-AU(Enhanced Multi-Modal Accident Video Understanding)数据集,以推动相关研究的深入发展。ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析

  • 项目主页链接:https://an-answer-tree.github.io/
  • 论文链接:https://arxiv.org/abs/2502.14801
  • EMM-AU数据集链接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
  • 代码链接:https://github.com/An-Answer-tree/AVD2

ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析模型架构
AVD2框架由视频生成与事故分析两个主要部分构成。通过生成与事故描述一致的高质量视频,并结合基于自然语言的解释,AVD2能够更深入地理解事故场景。
视频生成
AVD2的视频生成部分旨在生成具有现实感的交通事故视频,其基于输入的事故描述进行创作。此部分采用了Open-Sora 1.2模型,并通过两个阶段的微调来优化模型的性能:
1. 第一阶段微调:利用MM-AU数据集对Open-Sora 1.2模型进行预训练,以生成与事故场景相关的视频。
2. 第二阶段微调:通过选取的2000个详细事故场景视频进一步微调模型,以确保生成的视频与真实事故场景高度一致。
通过这样的训练过程,AVD2可以根据给定描述生成多个高保真的事故视频,从而便于后续的事故理解与分析。

  • 生成视频的质量提升

为了提高生成视频的质量,AVD2框架使用RRDBNet模型,在Real-ESRGAN框架下进行超分辨率处理。每个生成的低分辨率视频帧都被提升至更高的分辨率,增强细节并减少伪影,为后续分析提供更高质量的视频数据。
事故分析
AVD2的事故分析部分结合了视频理解与自然语言处理技术,主要包括两个核心任务:

  • 车辆行为描述和原因分析(如何规避)

AVD2能够生成两个自然语言描述:
1. 车辆行为描述:依据输入的视频生成有关车辆动作的描述句子(例如:“车辆右转”)。
2. 原因解释:解释车辆为何执行该动作(例如:“因为前方交通信号灯变绿”),并进一步提供规避策略(例如:“转弯前应环顾四周注意直行车辆”)。
这两个任务通过Vision-Language Transformer(视觉-语言Transformer)进行协同学习。模型同时训练描述生成与推理任务,从而加强两者之间的联系,提高整体性能。

  • 多任务学习与文本生成

多任务学习技术使得AVD2得以联合训练行为描述任务、事故原因理解任务以及事故预防措施任务。
通过这一策略,AVD2在生成的事故视频基础上,结合视觉特征与文本特征进行分析,既能够描述事故的发生过程,也能为事故的预防提供有益建议。随后被传送至不同的任务模块,以进行预测与描述生成。此外,采用自我批判序列训练(SCST)机制,以优化生成文本的质量。

生成与分析模块的协同工作
在 AVD2 框架中,生成模块与分析模块紧密协作。生成的事故视频不仅为自动驾驶系统提供了训练数据,同时也为系统提供了关于事故行为的详细解释和原因分析。两者的结合显著提升了系统的透明度和可解释性。
实验结果
该研究团队通过多种机器评测指标(例如 BLEU、METEOR、CIDEr 等)对 AVD2 进行了全面评估,并与当前先进的方法进行了对比。
以下是 AVD2 与 ADAPT 框架(Jin et al., 2023)在描述任务及解释和预防任务方面的比较结果:(MM-AU 指的是原始数据集(Fang et al., 2024),而 EMM-AU 为该团队结合生成的事故数据集所新提出的数据集,SR 则指经过超分处理后的数据集)ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析如图所示,AVD2 在所有评测指标上优于 ADAPT,特别是在 CIDEr 指标方面,AVD2 在动作描述和原因解释(预防措施)两个维度上均表现出更优越的性能。
可视化结果
以下是 AVD2 对事故场景的可视化结果,展示了两个不同的事故视频及其分析:ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析第一幅图示例:车辆变道时未打转向灯且未给优先通行车辆让路,导致潜在碰撞风险的情况。ICRA 2025|清华X光轮:实现自驾世界模型的生成与事故场景解析 第二幅图示例:由于追驶速度过快,造成刹车距离不足,形成跟车过近的危险情况。
展望未来,该团队将继续优化 AVD2 框架,并计划通过光轮智能的端到端自动驾驶解决方案,将此新技术应用于客户的上车训练评测中,以推动自动驾驶技术在工业界的安全落地。
参考文献:[Atakishiyev et al., 2023](https://doi.org/10.1109/IT)[Jin et al., 2023](https://doi.org/10.1109/ICRA.2023.654567)[Fang et al., 2024](https://arxiv.org/abs/2403.00436)

文章中提到的AI工具

Sora
Sora

OpenAI 开发的文本到视频生成模型

© 版权声明

相关AI热点

没有相关内容!

暂无评论

none
暂无评论...