你的位置:意昂体育 > 意昂体育介绍 >
意昂体育介绍
发布日期:2025-10-10 04:21 点击次数:95

港科提出新范式,教会AI像人类一样思考,端到端模型迎来突破

近年来,自动驾驶技术的发展日新月异,我们时常能在新闻里看到各种智能汽车展示其高超的避障和巡航能力。

然而,许多人在实际体验或考虑购买时,心里总会存有一个疑问:这机器真的靠谱吗?

它能像一个经验丰富的老司机那样,应对现实道路上千变万化的复杂情况吗?

这个问题的核心,其实并不在于车辆的摄像头看得够不够清,雷达测得够不够准,而在于它是否具备真正的“理解”能力。

当前的自动驾驶系统,更像一个反应神速但缺乏思考的“新手”,它能精确地识别出前方是一个行人,距离五米,速度为每小时三公里,但它很难理解这个行人接下来可能会有什么意图,比如他是不是在路边犹豫不决,或者一个孩子会不会突然冲向马路去捡滚落的皮球。

这种对场景深层含义和潜在风险的预判,正是人类驾驶员宝贵的“路感”或“驾驶直觉”,也是机器难以逾越的一道鸿沟。

为了解决这个根本性的难题,来自香港科技大学、理想汽车以及清华大学的科研团队携手合作,提出了一种名为“OmniScene”的全新技术框架,旨在为自动驾驶系统注入一种近似于人类的思考和注意力机制。

这项研究成果,不只是对现有技术的修修补补,而是尝试从根本上改变自动驾驶汽车“看待”世界的方式。

它不再仅仅满足于“看见”,更追求“看懂”。

那么,如何才能让冰冷的机器学会“看懂”复杂的交通环境呢?

研究团队找到了一个巧妙的切入点:语言。

人类之所以能够高效地理解世界,很大程度上是因为我们拥有语言这个强大的工具,能够用简洁的词汇和句子来概括、推理和交流复杂的视觉信息。

比如,我们看到前方路口红灯亮起,大脑中形成的不是一堆像素数据,而是一个明确的指令:“红灯,该停车了”。

OmniScene框架的核心,就是建立了一套名为“OmniVLM”的视觉-语言模型,教汽车学会用人类的语言来“思考”。

这个教学过程非常有趣,研究人员设计了一种“师徒传授”的模式。

首先,他们请出了一位“宗师级”的教师模型。

这个教师模型是一个规模巨大、知识渊博的人工智能,它学习了海量的驾驶视频、交通规则和人类驾驶员的标注数据。

它的任务,就是像一位顶级的驾驶教练,观看一段段真实的行车录像,然后用精准的语言,把场景中的关键点和需要注意的事项描述出来。

例如,当视频中车辆行驶到一个没有信号灯的路口,旁边有车辆想要汇入时,这个教师模型会生成这样的文字描述:“注意右侧车辆有汇入意图,需减速观察,做好避让准备。” 这段话包含了对环境的观察、对其他车辆意图的判断,以及最关键的、基于安全考量的驾驶建议。

这些由教师模型生成的成千上万条“驾驶心得”,就构成了一本极其珍贵的“武功秘籍”。

然而,这位“宗师”体型过于庞大,计算量惊人,无法直接安装到量产汽车里。

这就需要一位“关门弟子”登场了。

这个弟子模型是一个轻量化、高效率的版本,它的任务就是专心学习师傅传授的“秘籍”。

通过将行车视频和师傅生成的文字描述一一对应进行训练,这个弟子模型逐渐学会了师傅的“真传”。

它开始理解,当看到某种特定的视觉画面时,背后代表着什么样的驾驶含义。

这个过程,在专业领域被称为“知识蒸馏”,通俗地讲,就是把庞大模型中的智慧和能力,浓缩并迁移到一个小巧实用的模型中。

经过这番训练,弟子模型虽然计算资源占用小,却具备了师傅那样的“火眼金睛”和“七窍玲珑心”,能够在实际行驶中,实时地在内部生成关键的文字提示,从而将注意力聚焦在最重要的交通元素上。

仅仅让汽车学会“自言自语”还不够,如何将这种新获得的语言理解能力,与传统的视觉感知、三维空间感知能力完美地结合起来,才是成功的关键。

这就引出了OmniScene框架的另一个核心创新:分层融合策略。

过去的技术,在融合多种传感器信息时,往往像是在做一锅“大杂烩”,简单地把所有信息堆砌在一起,效果并不理想,有时甚至会因为信息冲突而产生误判。

而OmniScene的融合策略则像一位经验丰富的指挥家,它懂得在不同的乐章中,让不同的乐器扮演主角。

具体来说,当车辆需要精确判断自身与障碍物的空间位置关系时,系统会更多地依赖于激光雷达和摄像头提供的三维几何信息;而当需要预测一位行人的下一步动向,或者理解一个交通标志的含义时,由视觉-语言模型生成的语义文本信息就会发挥更重要的作用。

这种融合策略是动态且可学习的,系统会根据当前驾驶场景的实际需求,自动调整不同信息来源的权重,确保最终做出的决策是基于对所有信息的全面、深刻且合理的理解。

这样一来,几何层面的“看得准”和语义层面的“想得对”就实现了高效协同,共同为车辆的下一步行动提供最可靠的依据。

这项技术的实际效果如何,最终还是要通过严格的测试来检验。

研究团队在国际公认的自动驾驶权威数据集nuScenes上对OmniScene进行了全面的评估。

结果令人振奋,在感知、预测、规划等传统自动驾驶任务上,OmniScene的表现全面超越了目前主流的十多种顶尖模型。

尤其是在一项名为“视觉问答”的测试中,它的性能提升了惊人的21.40%。

这项测试很能说明问题,它要求模型回答关于驾驶场景的具体问题,比如“为什么车辆此时需要减速?”。

OmniScene能够准确回答“因为前方路口有行人在等待过马路”,这充分证明了它强大的场景理解和推理能力。

在更关乎安全的规划性能上,其规划出的行车轨迹误差更小,在模拟测试中发生的碰撞率也显著低于其他模型。

这些数据有力地说明,通过注入类人思考的能力,自动驾驶汽车不仅变得更“聪明”,也变得更“稳重”和“可靠”。

这项源自中国顶尖科研力量的创新,正推动着自动驾驶技术向着更安全、更智能,也更富“人情味”的未来迈出坚实的一步。

推荐资讯
友情链接: