齐晓娟教授在香港大学电机电子工程系工作,同时也是Deep Vision实验室的成员。她的研究涵盖深度学习、计算机视觉和人工智能。在这次与我们的科学主编 Pavel Toropov博士的访谈中,齐教授谈到了自动驾驶汽车和构建虚拟世界。
Q:您的主要研究方向是什么?
计算机视觉和人工智能。简单来说,计算机视觉是赋予机器看见的能力。人类可以看到三维世界——物体的形状、它们之间的关系以及许多语义。然后这些信息为会帮助我们在三维世界中做出决策。
为了让一个机器人、一个机器在这个世界上穿梭,它也必须能够看见。它必须识别不同的物体,估计它们的几何形状。这有很多应用,其中之一就是自动驾驶汽车。为了让车辆能够自动驾驶,它必须具备看见前方物体、障碍物、预测其他代理的行为并制定安全驾驶计划的能力。
另一个应用是医疗。我们开发的人工智慧能自动分析医学影像,以便做出更精确的诊断,减少误诊的可能性。
另一个令人兴奋的领域是AI服务于基础学科的发展。我与化学系有一些合作,我们开发了一种人工智能算法来提高电子显微镜图像的清晰度和分辨率。这可以帮助生物学家进行发现。
Q:自动驾驶和人工智慧不是新事物,您的研究对这个领域有何贡献?您的优势是什么?
为了测试自动驾驶车辆是否能够安全驾驶,我们需要一个模拟平台。我们目前正在做的是构建一个模拟环境,以便我们可以帮助训练模型并评估车辆在真实环境中的安全性。你知道(非常受欢迎的电脑游戏)《黑神话悟空》吗?
这个游戏中的场景看起来非常真实,原因是开发者使用激光雷达扫描了物体,特别是山西省的历史建筑。他们对它们进行了重建并导入虚拟环境,即电脑游戏中。
这与我正在做的非常相似——使用这些扫描,但不依赖昂贵的激光雷达扫描技术,我们使用数码相机拍摄的图像,在虚拟空间中重建世界。我们创造了一个全新的现实。
另一个优势是我们正在努力使算法能够在随意捕捉的数据上运行。例如,在《黑神话悟空》中,他们需要专家来扫描物体并进行重建,但我们正在做的是让任何人,不仅仅是专家,都可以用手机来扫描。然后我们可以制作算法来重建场景。
Q:所以您重建或构建了一个新的现实,一个虚拟世界,用来测试自动车辆和机器人?
是的。我们可以使用激光雷达或数码相机扫描的城市,并使用算法将现实世界转化为数码空间。此外,我们还创建了可以生成三维物体的模型,例如桌子和椅子,类似于现实中的。在这个重建或重新创建的数码世界中,我们可以训练和测试我们的算法,看它是否会犯错。
Q:在虚拟世界中训练和评估算法的优势是什么?
我们可以从交互中获取数据——例如,清洁机器人必须移动桌子,在虚拟世界中,这可以用来训练机器人,与真实的物理世界互动。在现实世界中训练是昂贵的,而且不安全——机器人可能会破坏物体,伤害人类。但在虚拟世界中,我们可以产生无限量的数据和交互。
此外,我们可以创建所谓的极端情况并提高安全性。这些是现实中很少发生但很关键的情况,例如两辆车相撞。我们可以创建这些场景,让车辆学习该怎么做。
Q:您有与业界的合作吗?
我们与香港汽车科技研发中心(由香港特别行政区政府设立)合作,我们有一个自动驾驶的合作项目。还有滴滴出行。我们与谷歌、腾讯和字节跳动也有很多沟通交流。
Q:机器在尝试看世界时的主要困难是什么?
环境中数据的多样性和多变性。例如,我们在这个房间裡,现在很亮,但当光线变暗或天气不同时,这会给模型带来很多挑战,使机器难以识别相同的物体。
(汽车的)摄像头会捕捉不同的视频点,加上不同的光照条件……所有这些变化使这个问题对机器来说非常复杂,尽管对人类来说在不同条件下解释物体很容易。
因此,为了让机器正确识别物体,我们必须将这个物体纳入其训练数据中,并且为了强化模型,我们必须有大量的训练数据来涵盖所有潜在情景。如果有一种情景没有被涵盖,在部署阶段会出现很多错误。
例如,在美国和欧洲,车辆的尺寸不同。这也会造成麻烦。如果模型是在美国收集的数据上训练的,然后应用于欧洲,它可能会出错。这也就是为什么公司会有基础模型,设计来处理大量数据,假设这些数据可以涵盖现实世界的多样性。Chat GPT是一个拥有数千亿参数的巨大模型。它是在几乎整个互联网数据上训练的,但它也会犯错。
Q:无人驾驶汽车已经在中国大陆上路了,对吗?
是的。这种汽车已经上路了。百度在中国已经有无人驾驶汽车——我与百度有合作。在武汉市,百度有一个叫做萝卜快跑的汽车服务。没有人工驾驶员,但有一个人类远程控制员可以在遇到挑战性情景时接管。一个人类控制员可以控制很多辆车。
Q: 您认为无人驾驶汽车会在什么时候像“普通”汽车一样普遍?
这即将到来。我认为在未来几年内会实现。主要问题是人类不能容忍AI模型的任何错误。如果无人驾驶汽车出错,这是一个大新闻,但人类也会犯错。我们需要接受机器也会犯错。人类会,而且他们犯很多错误!问题是——如何让人们信任机器?我们需要人机合作。
本文转载自“香港大学”公众号