人工智能算法探秘:地平线技术三剑客解读

智东西推荐语:

地平线机器人公司是前百度深度学习研究院(IDL)常务副院长余凯博士的创业项目,目前专攻汽车汽车、机器人智能领域。

人工智能被认为将是横切360行的新技术革命中间力量,但似乎还是很抽象。余凯博士麾下,地平线机器人公司有一批技术牛人;透过三位技术大牛对AI算法的解读,可以一窥人工智能到底是神马,以及这些研究者是通过哪些算法来实现智能化的。

本文已授权智东西发布:

黄畅:做真正能解决实际问题的算法 

黄畅博士,地平线机器人技术( Horizon Robotics )联合创始人&算法副总裁。本科、硕士以及博士毕业于清华大学计算机科学与技术系,曾经在美国南加州大学和 NEC 美国研究院担任研究员。2012年加入百度美国研发中心,2013年参与组建百度深度学习研究院( IDL ),任高级科学家、主任研发架构师。长期从事计算机视觉、机器学习、模式识别和信息检索方面的研究,作为相关学术界和工业界的知名专家,发表的论文被引用超过3350次,拥有多项国际专利。他开发的人脸检测技术,创造了世界上首次计算机视觉技术被大规模应用的成功范例,占领80%数码相机市场,并且被苹果 iPhoto 等诸多图像管理软件所采用。他带领百度 IDL 图像技术团队负责公司内各种图像核心技术的研发,推出了全网人脸图像搜索、PK大咖、全网相似图像搜索、自然场景文字识别、百度移动图像搜索、图片凤巢等重要产品。在校期间获得2006年度微软学者奖学金,2007年清华大学优秀博士毕业论文、2007年北京市优秀博士毕业论文等荣誉,“可视媒体几何计算的理论与方法”项目获得2012年高等学校科学研究优秀成果奖一等奖,参与国家973计划项目“面向三元空间的互联网中文信息处理理论与方法”。

初识人工智能应用研究

黄畅参加的第一个学术项目,就和解决实际问题相关。

大三那年,人工智能还处在一个低谷中。但一个偶然的机会,让黄畅跟随恩师艾海舟一起,加入到清华与日本欧姆龙公司的技术合作项目,研究图像识别领域中非常重要的人脸检测问题。当时的他还不知道,后来的研究成果成为了早期计算机视觉技术被大规模商业应用的成功范例,诞生了世界上第一款人脸检测专用芯片。

时至今日,这项技术以“芯片+软件”的模式已广泛服务于生活中的各个角落,从数码相机、智能手机,再到诸如苹果iphoto这样的软件系统,占据了大量的市场份额。

这项技术实现了我们如今随处可见的镜头自动人脸对焦和曝光肤色的智能调整功能,完全改变了自相机诞生以来的人物拍照方式。

当时,人工智能方面的大多数技术还很难在工业界找到适合的发展方向,因为技术还不成熟,大多数都还停留在实验室阶段。甚至到黄畅博士毕业的时候,人工智能行业形成规模仍然是遥遥无期。很多从业者都觉得这行“不靠谱”,纷纷转到互联网或者金融行业了。

而那次项目的成功,则代表着人工智能在实际应用中迈出的重要一步。这个成功的范例向世人证明了人工智能在应用方面可开发的巨大潜力,让人工智能开始受到相关人士的重视,并得到越来越多的投入。对黄畅个人而言,也让他对人工智能未来的乐观态度更加坚定,并一路走下去。

十年轮回,持续深耕

此后十年,黄畅用了比别人更少的时间读完硕博,并受邀去美国南加州大学跟随Prof. Ramakant Nevatia读了两年博士后,随后加入地处硅谷的NEC美国研究院。这段工作里黄畅收获了两个“生命之重”——真正以工业界的视角对人工智能进行深入思考研究,以及结识了亦师亦友的余凯。

回国后他加入百度IDL,带出一支优秀的图像技术团队,做出了全网人脸图像搜索、PK大咖、全网相似图像搜索、自然场景文字识别、百度移动图像搜索、图片凤巢等重要产品。鉴于这些优秀的工作成果,他和他的团队获得了百万美金的“百度最高奖”。而在实际应用中,这些产品也展现出了巨大“威力”,比如图片凤巢的技术成果,就使百度的广告收入提高了5%-6%。

2007年他离开清华前夕,和其他同学谈论未来行业发展趋势时,曾说过,“这个行业在5-10年的时间里一定能取得重大突破、得到广泛应用。”这句预言也在今天得到了很好的印证——从2012年开始,以深度学习为代表的一大批人工智能得以复兴,甚至这一年被称为“人工智能普及年”。

深度学习中,被大规模用于图像识别的卷积神经网络2015年,他加入地平线后,又做起了“算法+芯片”方面的研究工作。只不过十年的经历和思考,让他对 “算法+芯片”有了前所未有的深刻思考和清晰认识。

算法要用来解决实际问题

在加入地平线时,黄畅就已经形成了一套自己的AI算法研究价值观,那就是:算法是用来解决实际问题的,它是工具,而非目的。这也是整个地平线算法团队所坚持的理念,故而在很多公司很多团队还在算法数据集里争着“刷第一”时,地平线的算法研究方向已经在奔向下一个目标了。

具体来说,他认为,如果想让算法能真正的解决实际问题,在考虑算法之前,必须对这些复杂的实际问题进行正确的建模(formulation),选择甚至定制合适的系统(system),基于大量数据(data)驱动,结合模型(model)和知识(knowledge)的表达来解决这一实际问题。脱离开这条轴线,我们做的算法将不具有现实意义。

现在许多人讨论算法,往往忽视了要解决的问题的本质,没有正确的抽象和建模,也缺乏一个坚实的系统去承载并做可持续的积累。这样过于强调算法自身的结果,通常会形成过分简化的建模(即采用单一的算法和系统,去解决实际上非常复杂的问题),结果导致算法难有实质性的突破,更无法应用于真正的产品中。

譬如说,在自动驾驶领域,有些公司号称在使用深度学习做端到端的训练,直接学习从传感器的输入到控制器(刹车、油门、转向等)的输出的函数映射。我们无法对这种黑盒模型进行有效的分析,在使用中出了故障很难搞清楚究竟是什么原因造成的。而自动驾驶是一个对可靠性要求极高的领域,需要考虑许多长尾条件下的corner cases。这种建模方式没有对自动驾驶这个问题做出正确的形式化描述,而在此基础上构建系统并研究算法,效率十分低下甚至是徒劳无功。

基于这些思考,在黄畅带领下,地平线算法团队在许多重要的算法研究方向上持续努力尝试,包括向基于贝叶斯网络的推理系统和面向感知-决策-控制的增强学习系统等,努力把地平线的算法技术水平推向一个新台阶。

基于深度神经网络增强学习的理性决策

除此之外,在全智能万物互联的时代背景下,人工智能技术越来越多的从云走向端,诞生了“端上AI”这个巨大的市场。这也意味着在地平线的算法研究中,还要增加一个新的思考维度——和芯片更好地结合,实现高精度、高效率、高吞吐量、低功耗、低成本的特点,以此代替原来动辄成本上千美元,能耗几百瓦的GPU架构。依靠算法、硬件等团队的努力,地平线已奠定了嵌入式人工智能全球领导者的地位。

罗恒:忽视Trick,将难以解决实际问题

罗恒,地平线机器人技术资深算法研究员,负责深度学习模型压缩与加速。2011年博士毕业于上海交通大学,后随Yoshua Bengio从事博士后研究,2014年加入百度深度学习实验室,参与深度学习在搜索中应用、PaddlePaddle研发等工作。2016年8月加入地平线机器人公司。

罗恒有些微胖,时常自嘲“要减肥”,藏在方框眼镜之后的一双眼睛睿智有神。

作为一名算法工程师,他的生活常常处于高速的脑力运转之中,这让他的每一秒时间都显得宝贵,走路疾步带风。

2011年,罗恒在上海交通大学博士毕业后,跟随Yoshua Bengio从事博士后研究。回忆起自己走上深度学习的历程,罗恒抚了抚眼镜,“那是段很有趣的经历”,似是做好了讲故事的准备。

师从AI大师Yoshua Bengio

研究生时,计算机专业的罗恒偶然了解到机器学习的知识,惊觉十分有趣,由此开始持续关注机器学习方面的学术动态。博士期间,罗恒看到了Yoshua Bengio教授关于深度学习的技术报告,尽管当时还不太懂深度学习,但罗恒依然强烈地感受到,这可能机器学习接下来最大的突破。

“看Vapnik的书,觉得我自己没赶上这波(研究热潮),我就想,下一波是什么?当时就觉得深度学习,应该是下一波学术上的热潮,我就这样开始走上深度学习的研究之路。”

罗恒的博士后导师:Yoshua Bengio

Yoshua Bengio教授是蒙特利尔学习算法研究所主任,CIFAR计划CIFAR神经计算和自适应感知计划联席主任,加拿大统计学习算法研究主席,和Geoffrey Hinton、 Yann LeCun并称为当今人工智能“三巨头”,他们一同缔造了2006年开始的深度学习复兴,实现了人工智能的第三次研究热潮。他带领一批研究生和博士后开展机器学习,在整个学术领域有着极大影响力(Google Scholar在2016年中期发现超过40000篇引文,H指数为84)。

同时YoshuaBengio也在不断指挥他的团队去研究深度学习语言,包括近来取得令人激动的成就的神经机器翻译系统,比如最新版谷歌翻译,其翻译水平甚至可以和专业的人工翻译媲美。

那时候这位AI大师刚好在招收博士后,虽然罗恒只发表了两篇论文,但这两篇文章却受到了Yoshua Bengio的极大认可,在和罗恒面谈之后,Yoshua Bengio将他收入自己门下。就这样,罗恒飞往加拿大,开始攻读深度学习博士后,踏上了研究深度学习的学术旅程。

压缩和加速模型,实现嵌入式AI

当罗恒学成归国,已是2014年。回国后他发现,工业界已经开始有深度学习研究了,“研究工作能够开始实用,这是很难得的,我发现自己不但赶上了研究上的一波热潮,还赶上了实用的一波的热潮。正好那时候余凯老师在百度创办IDL,于是我就选择了加入。”

加入百度IDL,罗恒和他的团队主要在做的事是,如何把深度学习用在搜索排序上。但是他发现,近年来为了隐私、安全、避免对网络的依赖,越来越多的深度学习算法模型开始在端上运行,这对模型的大小、速度、能耗、性能都提出了现实的要求。罗恒逐渐感觉到,深度学习下一波发展是从云走向端,使得各种智能模型在我们的身边唾手可得。于是,2016年他加入了余凯创办的地平线,专攻神经网络模型的压缩和加速。

地平线要做的是,高性能低功耗的IP开发,提供端到端、软硬结合的人工智能结合方案,推进嵌入式人工智能产业生态链的搭建。在这个过程中,算法的模型压缩和加速是技术实现的必要一环。

乐为人师,重视Trick素养

在地平线,大家都称罗恒为“罗老师”,这或许也是受到他的恩师Yoshua Bengio的影响。Yoshua Bengio是人工智能三巨头当中唯一一个依然坚持在学术岗位的深度学习大师,他全身心投入在学术界,进行纯粹的学术研究,带头培养成千上万个科学家和工程师们。

罗恒从恩师那里传承了为人师表的精神,除了致力于应用研究,他对于人才培养也十分看重,尤其注重他们Trick素养的提高。

刚开始进入人工智能行业的同学往往觉得研究无从下手,虽然有很多理论的文章,但似乎对实际用处不大,常常感到迷惑。和其他人埋头理论不一样,罗恒擅长带着他们转换思路,从Trick入手,利用这些Trick,更好地带领新人解决实际问题,比如利用训练好的神经网络对数据做采样,更快发现数据中的问题。

“机器学习的很多研究都是从理论出发,但实际上这样很难去描述一些现实的问题。而trick是一种实用主义的方法,这从研究的角度看上去可能显得不那么优雅,但在很多实际问题上,忽视trick都是不明智的。”Trick对于所有人来说,都是一种解决实际问题的好方法,对于刚入行的同学来说,更是如此。

招纳新人,学术应用两手抓

在人工智能研究的大潮中,算法人才从来都是紧缺资源,罗恒一直期盼着有志同道合的人能够成为自己的伙伴,而他也会像自己的老师一样,带领着新生力量,投入到深度学习的研究当中。

这次的绝地武士实习生计划,模型的压缩和加速方向招收3名实习生,罗恒是mentor。他感到这是一种奇妙的转换,在六个月的时间里,他将带领实习生们共同追求学术上和应用上的目标。“实习生来到这里,和我们一起写代码,做实验,验证各种想法,有比较好的结果就写论文,同一个课题下,我们也会带领实习生尝试多种解决方法,在试错中获得进步。”

罗恒一直在等待着。

黄李超:让算法成为一种生活方式

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。