近日,MIT-IBM 沃森人工智能实验室的研究人员在计算机视觉识别算法相关研究中取得突破,他们使用的训练视频识别模型的新技术,不仅比目前最先进的方法快三倍,还成功缩小了最先进的计算机视觉模型,这就意味着,人们已经可以在处理能力非常有限的手机或其他设备上运行视频识别模型。
深度学习(deeplearning)是机器学习的一个分支,它帮助电脑在某些定义明确的视觉任务上超越人类。而视觉识别是深度学习的最广泛应用之一。计算机视觉算法目前可以分析医学图像、赋能自动驾驶汽车和人脸识别。但随着这项技术扩展到识别视频和真实世界的事物时,训练模型就变得越来越大,计算量也越来越大。
据估计,训练一个视频识别模型比训练一个图像分类模型需要多 50 倍的数据和 8 倍的处理能力。随着对训练深度学习模型处理能力的需求呈指数级增长,以及人们对人工智能的巨大碳排放的担忧与日俱增,这已经成为了重要的问题。另外,在低功耗移动设备上运行大型视频识别模型仍然是一个挑战,许多人工智能应用程序正朝着这个方向发展。
麻省理工学院电子工程与计算机科学系(EECS)助理教授韩松所带领的团队,正通过设计更高效的深度学习模型来解决这个问题。