自动驾驶“进阶之路”数据迭代是最核心要素

2021-08-18 15:39:48

在人工智能(AI)时代,真正的智能驾驶汽车应该是什么样的?中国工程院院士、中国人工智能学会理事长李德毅给出了答案:“必须像人一样具备学习能力,能处理各种工况。”要得到这样的结果,需要汽车自身的算法能处理更多、更复杂的场景,而这需要有海量、准确、高质的场景数据,进而对其进行标注。

作为AI技术的底层支撑,高质量的训练数据越来越受到业界的重视,成为智能驾驶真正落地的“幕后英雄”。

对此,Testin云测CTO陈冠诚深有体会。《中国科学报》记者从日前举办的2021世界人工智能大会上获悉,该公司旗下的云测数据发布了新一代自动驾驶数据解决方案,一站式解决自动驾驶从算法预研到项目落地全流程的训练数据需求。

数据迭代是最核心要素

数据与算法、算力被看成是人工智能行业“三驾马车”。“数据是其中的土壤。”陈冠诚告诉《中国科学报》。在他看来,数据标注存在的意义便是让机器理解、认识世界。

虽然目前学术界尚未对数据标注的概念达成共识,但普遍认为标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。数据标注主要是根据用户或企业的需求,对图像、声音、文字等对象进行不同方式的标注,从而为人工智能算法提供大量的训练数据以供机器学习使用。

那么,智能驾驶需要哪些数据标注?

除了疲劳监测、动作识别、场景光线等车内场景外,还有车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标以及闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等,这些场景数据都需要对应的标注方式。

由于对安全的严苛要求,智能驾驶的数据需求正向着多模态的方向发展。而所谓多模态,是指多维时间、空间、环境数据的感知与融合。

但上述场景只是涉及到摄像头数据,仅仅是数据标注冰山一角。在智能驾驶汽车上,除了摄像头外,还有激光雷达、毫米波雷达、超声波雷达等多种方式,而这些感知方式都需要对应的数据标注。

即使一辆智能驾驶汽车到了消费者的手中,数据标注工作仍未停止。

陈冠诚认为,随着落地场景越来越多,数据还要不断解锁新的场景。“只有通过各个场景的数据迭代,智能驾驶才可能真正落地,才能更好地解决消费者的痛点。”

“一言以蔽之,数据迭代其实就是最核心要素。”陈冠诚说。

记者了解到,云测数据新一代自动驾驶数据解决方案正是为满足面向智能驾驶领域不同落地场景下的高质量AI训练数据需求而设计的。据介绍,该解决方案在提供大规模感知数据的能力的同时,可减少数据采集周期、提升数据标注效率,并大幅降低AI模型训练成本,助力算法模型训练综合效率提升200%、标注精准度最高可达99.99%,节省大量研发时间和成本。

注重长尾场景数据覆盖

事实上,现实交通场景复杂、安全威胁多,特别是国内路况的复杂性和国内智能驾驶起步相对较晚,更需要高质、精准的数据来进行算法训练。从宏观角度来看,现有算法、算力无法准确处理复杂环境下无限可能的长尾场景,这时候AI数据的覆盖就显得更加重要。云南大学软件学院副教授蔡莉等人认为,数据标注不仅需要系统的方法、技术和工具,还需要质量保障体系。

为了进一步攻克长尾场景化数据这一难题,云测数据开创“数据场景实验室”,成为行业内第一个规范化进行场景化数据生产的训练数据服务商。例如,在音频领域,为保证智能驾驶舱内音频数据采集的质量,云测数据开发了音频检测功能,通过对音频的底噪和能量值进行检测,来保证底噪和能量值在阈值范围之内。据悉,这种预处理方式可大幅提升数据的采集质量,并切实提升数据采集的效率,从而实现高效高质的数据标注。

前不久,eNet研究院、德本咨询等联合发布《2021数据标注公司排行》,云测数据再次凭借超高的数据标注精度和强大的技术实力,赢得“数据标注公司排行榜NO.1”。

这并非云测数据首次摘得桂冠,在去年颁布的榜单中,云测数据便一举夺魁。

陈冠诚介绍,为了给智能驾驶行业提供高质量数据标注服务,云测数据基于场景实验室的数据采集能力、自建标准体系的数据标注能力和完善的质量管控体系这三个维度持续发力。

去年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,将数据纳入新型生产要素,并上升到国家战略层面,提出“加快培育数据要素市场”。

“受政策利好、人工智能发展迅猛、场景需求剧增等影响,AI训练数据服务行业发展利好。”陈冠诚表示,云测数据将持续发挥高质量场景化的独特优势,深耕数据采集标注产业,持续提升数据采集及标注能力,打造更为高品质、高标准的 AI 训练数据服务,释放数据要素价值。

关闭
新闻速递