香港《南华早报》网站报道称,中国构建全球规模最大的卫星图像数据集,以加强训练人工智能。 中国科学院近日表示,中国发布了包含100多万个目标详细信息的卫星图像数据集,用以帮助减少人工智能从太空识别物体时所犯错误。 中科院称,遥感图像细粒度目标识别数据集(FAIR1M)比其他国家使用的类似数据集要大几十倍甚至上百倍。 中国科学院空天信息创新研究院FAIR1M项目首席科学家付锟教授说,人工智能卫星图像识别训练中,数据库相对较小,影响了实际应用的准确性。 FAIR1M目标场景示例图(来源:中国科学院空天信息创新研究院网站) 他和同事们今年3月在阿奇夫论文预印本网站上发表了关于这项工作的论文,并指出:一套恢宏而优秀的数据集可加快该领域的发展。 报道称,从上世纪60年代起,各国军队就利用侦察卫星来研究他们感兴趣的物体。评估工作最初由训练有素的专业人员手动操作完成,后来计算机帮助加快了这一过程。军用图像识别技术大多是保密的,通常局限于范围很小的敏感目标。 近年来,人工智能技术的迅速发展,使平民能够从商业卫星图像中获取有价值的信息。 例如,清点一座城市乃至一个国家公路上的货车数量,就能了解其经济活动、交通运输和基础设施。 中国的一些研究人员利用这项技术追踪城市扩张速度、青藏高原的野生动物行踪以及一带一路倡议下的全球基础设施建设。 然而,现有的人工智能算法有时难以识别卫星图像中的物体,因为大多数民用工具都是使用日常生活中拍摄的照片进行训练的。但比如说,游客拍摄的埃菲尔铁塔照片,与卫星从300公里高空拍摄的照片有着天壤之别。 报道认为,训练用的数据库越大,人工智能就会变得越聪明。但是,由于卫星图像、尤其是高清图像的数量相对有限,有时还相当昂贵,民用人工智能设备的准确度一直很低。 在中国国家自然科学基金的资助下,借助全新的高分观测卫星,付锟和同事们构建了一个包含超过1。5万幅图像、覆盖100万个带标注场景的高清卫星图像数据集。法国的VEDAI数据库只覆盖约3600个场景。 中科院网站宣布,中国的整个数据集将于今年6月向国际社会开放,总部设在德国的国际摄影测量和遥控技术学会已将它作为评估物体识别算法好坏的标准数据集。 报道介绍,FAIR1M提供了更多关于图像的信息。例如,其他数据库仅仅将客机简单描述为飞机,而中国的这个新数据库可以教人工智能识别飞机的准确型号,比如波音777,或者让它区分军舰与客轮。 并未参与FAIR1M项目的武汉大学遥感教授夏桂松说:建立一个大型数据库非常有挑战性。物体需要经过核实,并手工予以正确标注。 报道称,FAIR1M并不是中国唯一用于人工智能的大型卫星图像数据库。夏桂松团队开发的DOTA数据集也有100万个场景,但使用的卫星图像和做出的标注较少。夏教授说,DOTA和FAIR1M彼此并不冲突。 他说:我们侧重卫星从不同角度观察到的物体,他们更侧重高分辨率的细节。这两个数据集针对的是不同的技术挑战,它们相辅相成。 据信,军用目标识别技术优于民用识别技术,但后者正迎头赶上,这得益于人工智能技术的迅速发展和训练数据的改善。 此前,中国人工智能图像识别技术的发展主要依靠其他国家的数据库。现在,中国拥有了世界上最大的2个卫星图像数据集,在该领域取得或保持领先地位的几率更大了。 夏教授说:数据集是一个平台。在这个平台上,按照一定规则,任何国家的任何研究团队都可以开发不同的算法来相互竞争,这将加快整体的技术发展步伐。 过去,收集卫星图像的大多是西方国家。近来,中国搭建了全球最大的地球观测网络之一,其高分系列等卫星搭载了尖端摄像头和传感器。 付锟团队说,FAIR1M数据集80以上的图像来自中国卫星,其余的来自谷歌地球。这些图像包括车辆、挖掘机等机械以及桥梁、环岛和棒球场等建筑物。 中国科学院表示,今年5月,来自许多国家的人工智能研究人员将在北京使用FAIR1M数据集参加全球高分遥感图像智能解译大赛。 中科院还表示,这场大赛将推动我国高清卫星图像数据成果与技术成果在国际领域的发展与应用。(编译何金娥)