当你开着车行驶在马路上,看到一位老人正要过马路,你点了点刹车稳稳停在了斑马线前;继续上路,有块路面正在维修,你轻轻转了把方向,绕过施工警示牌……也许对这些操作,你已经驾轻就熟。
但如果这是一辆无人驾驶的汽车呢?如何让汽车能“看见”面前的这一些信息迅速做出一定的反应?这就是机器视觉研究的一个重要应用方向。
前不久回国全职加盟浙江大学计算机科学与技术学院的沈春华教授,正是这一领域的世界顶级学者。深耕机器视觉研究多年的他,此前曾是澳大利亚阿德莱德大学计算机科学学院的终身教授,同时任职澳大利亚机器学习研究院、澳大利亚机器人视觉卓越研究中心,不仅带领团队做出过FCOS、RefineNet等知名的视觉算法,还贡献了不少开源工具。
给机器一张图片或者一段视频,如何把目标信息找出来?现在常用的是基于锚定框(anchorbox)的目标检测算法,预先设计好不同的模板,让算法在经过“训练”之后利用最匹配的模板检测并识别出目标。
“业界之前一致认为,去掉锚定框会大幅度的降低识别效果。缺点是算法设计很复杂,锚定框数量非常多,比如小汽车是矮矮胖胖的矩形框,路灯杆是细细长长的矩形框,每种常见事物都得考虑进去。”沈春华说,这样一些问题影响了视觉识别的效率。于是他带领团队开始研究新的算法。
2019年,沈春华和他的博士生发表论文,提出了FCOS(Fully Convolutional One-Stage Object Detection)目标检测算法。这是一个基于FCN算法的无锚点的目标检测模型,显著地简化了目标检测算法的复杂性,提高识别效率。实践证明,这个新算法提供了可与基于锚定框的方法媲美的目标检测效果,目前论文单篇引用量超过2100,成果大范围的应用到了无人驾驶等诸多CV领域中。
“这相当于用逐像素的方法来识别物体。比如对于一辆小汽车,只要能定位出挡风玻璃的几个关键点,就能提取出有效特征,最终定位出这辆车。就像我们只要识别出鼻子,就能大概知道整个脸的轮廓了。”
这个比喻,颇有点牵牛要牵牛鼻子的意味。研究工作也是如此,认准方向,抓住矛盾,然后使出全力。在多年的研究中,沈春华聚焦目标检测、图像分割等方向,在NeurIPS、CVPR、ICCV等顶会上发表论文150余篇,除了提出RefineNet、FCOS算法、实例分割新方法SOLO外,还贡献了AdelaiDet、AdelaiDepth等开源工具,好评如潮。
苹果手机的Siri系统软件,相信我们大家已经不陌生了,手机通过强大的语音识别功能,可以轻轻松松实现与人对话交流。
可是你能想象,20年前的功能手机,就可以初步实现语音识别了吗?本世纪初,摩托罗拉手机就率先推出了“念号码打电话”的功能,用户对手机说出一串手机号或者通讯录里的姓名,手机就能拨打出去。
而当时的开发团队中就有沈春华。“刚好我当时南大的导师和摩托罗拉有项目合作,我就去了摩托罗拉中国研究中心实习,参与了这一个项目,也由此开始接触人工智能相关研究,”沈春华说,那时他常常去图书馆找纸质的美国电子工程学会的最新期刊来看,自学了一些基础算法,“人工智能那时候才刚刚兴起,做的人不多,但我还是对它着了迷。”
赴澳大利亚留学后,沈春华将研究锁定在了计算机视觉领域。从二维的语音到三维的图像,这又是全新的挑战,他从头开始学起,不知疲倦。
博士毕业后,在澳大利亚国家通讯信息研究院工作时,团队带头人是计算机视觉研究先驱之一的理查德·哈特利 (Richard Hartley)。“他们在上世纪80年代开始做计算机视觉时,还没有数码相机,他们就是靠着一支笔、一把尺去做图像数字化,研究条件跟今天天壤之别。”
沿着前辈的足迹,沈春华从跟踪学习到创新探索,终于在未知的世界里大步踏出自己的路。“别过度设计”,这是沈春华从始至终坚持的,在他看来,简单有效的算法才是好算法,“不能为了复杂而复杂,算法的最终目的还是处理问题。”
凭着“大道至简”的设计思路,过去几年,沈春华团队跟产业界合作的一些算法被装在手机里、电脑里,供上亿用户使用。
在澳大利亚学习工作近20年,沈春华似乎触摸到了天花板,他想创造更多社会价值的想法与浙江大学不谋而合。
“目前人工智能的发展,中国已超越了大部分西方国家,仅次于美国。浙大计算机学科很强,我入职的计算机辅助设计与图形学国家重点实验室是图形学、图像领域唯一的国家重点实验室。站在这样的高平台上,身处人才济济的团队中,相信我能和同事们做出一番事业!”
加盟浙大的半年来,沈春华在学校、学院以及国家重点实验室的全力支持下建立了自己的研究团队,拥有了宽敞的实验用地。“团队之间都是非常开放的,我很感激这里自由的科研氛围。”
沈春华门下不仅有浙大的本科生、硕士生和博士生,其他一些国内著名高校的学生也慕名而来。他会花很多时间跟学生交流,有时候甚至会争得面红耳赤。在他看来,天赋与勤奋这两者都是不可或缺的,而能提出创新想法很重要,哪怕花了两个月时间证明是错了也是值得的。
目前,沈春华正带领团队在计算机视觉领域继续深耕,期待通过加强与工业界的合作,给社会带来更多价值。同时他还希望能与医学、生物等学科开展交叉研究,让人工智能的研究工作在更广阔的土地上开花结果。