我是h1

 

地址: 深圳湾科技生态园5栋D座1302室
客服电话:
4008400488
邮箱: bd@rainxn.com

墨客星球

友情链接

© 2019 深圳雨本信息技术有限公司 | 粤ICP备17123203号 网站建设:中企动力 深圳

联系我们

最新文章

华为发布全新超高端品牌“非凡大师” ,刘德华担任品牌大使;OpenAI将在ChatGPT推出新的语音和图像功能
华为发布全新超高端品牌“非凡大师”
中兴通讯副总裁王欣晖:一个半月后会看到关于“3GPP”和6G的好消息;OpenAI宣布公开招募“红队”网络成员
中兴通讯副总裁王欣晖:一个半月后会看到关于“3GPP”和6G的好消息;OpenAI宣布公开招募“红队”网络成员
微软的首席产品官或跳槽亚马逊;波兰一公司聘请人工智能CEO:24小时待命,全年无休,决策无偏见
微软的首席产品官或跳槽亚马逊;波兰一公司聘请人工智能CEO:24小时待命,全年无休,决策无偏见
华为和小米宣布达成全球专利交叉许可协议;iPhone 15 Pro可拍摄空间视频
华为和小米宣布达成全球专利交叉许可协议;iPhone
腾讯加入千模大战!微信已上线“腾讯混元助手”小程序;微软扩大和阿联酋G42集团合作关系
腾讯加入千模大战!微信已上线“腾讯混元助手”小程序;微软扩大和阿联酋G42集团合作关系
DeepMind 联合创始人:GPT-5 正在秘密训练中;百度智能云发布11款面向企业通用场景的AI原生应用
DeepMind

香港科技大学杨强:人工智能的小数据难题,这有2份解决方案 | 院士论坛

人工智能
阳光
2018年12月18日
浏览量
【摘要】:
人工智能其实已经大起大落好几次了,而这一次的重新崛起虽然有深度学习算法的作用,但大数据的累积也起到了不可替代的作用。然而,随着大数据的“耗尽”,人工智能的下一步再也不能等待大数据的聚齐了,如何利用小数据进行人工智能研究已经成为行业关注的焦点,并将成为人工智能进一步往前走的必要条件。然而,利用小数据真能训练出好的人工智能模型吗?12月17日,在深圳新一代人工智能院士高峰论坛上,香港科技大学教授、香港

人工智能其实已经大起大落好几次了,而这一次的重新崛起虽然有深度学习算法的作用,但大数据的累积也起到了不可替代的作用。然而,随着大数据的“耗尽”,人工智能的下一步再也不能等待大数据的聚齐了,如何利用小数据进行人工智能研究已经成为行业关注的焦点,并将成为人工智能进一步往前走的必要条件。

然而,利用小数据真能训练出好的人工智能模型吗?

12月17日,在深圳新一代人工智能院士高峰论坛上,香港科技大学教授、香港人工智能机器人学会的理事长杨强教授为我们做了一场关于迁移学习和联邦迁移学习的演讲,为小数据人工智能的发展指明了道路——迁移学习和联邦迁移学习。

香港科技大学杨强:人工智能的小数据难题,这有2份解决方案 | 院士论坛

 

以下为张正友的演讲原文(有在不改变原意基础上的删改)

杨强:大家好!我今天要讲的题目是跟数据有关的。

人工智能大潮下的数据窘迫

 

首先我们看一下我们的理想和现实,我们的理想是说我们处在一个大数据的时代,我们不断地有数据流从不同的数据源流向一个中心的数据库,但是现实是我们看到的数据往往都是割裂的,数据形成了一个一个的孤岛,甚至在某些大公司内部,不同的部门数据也不能互相沟通,这是我们熟知的一些困境。

这个困境就会导致很多人工智能非常优秀的算法很难加以应用,就像巧妇难为无米之炊,没有米、没有水,怎么做这个事情。

我们可以把数据缺乏的事情分成两部分,比如说我们看到两部门(A部门和B部门),这两个部门各自有一些图象数据,有一些是有行为数据(用X表达),有些可能既有X又有Y,Y就是标注数据,在有部门墙这种情况下,就会形成两种现象,一种是在一个地方数据的量特别大,在另外一个地方数据的量特别小,这个现象如果持续下去,数据寡头这种现象就会急剧增加,很多长尾的企业反而得不到数据,他们的数据量就会越来越小。另外一种就是大家都小,也没有办法形成一个生态的效应,大家都小的话,最后大家都变成没有数据。

然而,方法总比问题多,在这里我要结合我和我团队的研究来讲两个解决方案:迁移学习和联邦迁移学习

迁移学习

 

第一个方案叫做迁移学习。我们知道人是可以很自如地把一个领域学到的知识应用到另外一个领域,这里有一个例子就是我们学会了骑车,然后我们就会把这个骑车的技能应用在别的方面。深究一下,为什么我们会有这样一种能力呢?其原因就是因为我们能够找到不同的数据和模型之间的关系,人是有这种能力的,因为有这种能力,我们也不是特别怕小数据,因为我们在一个领域已经取得了非常好的模型,遇到一个小数据的地方,我们就把前面那个模型迁移过来就好,人特别能够做这种举一反三的事情。

迁移学习用在机器学习上却是一个新课题,我们看到机器学习的一些领先者也提出,迁移学习可能是下一个机器学习的热点,Andrew Ng在2016年就提出了这样的说法,特别是他最近在推特上表达了Facebook的一个突破,如果是在一个领域里面有足够多的数据,随着数据量的增长,比如说这个数据是从千万级到上亿级、十亿级这个层级的时候,它的迁移能力就会大幅的提高,到了一个新的领域,几乎就不用做很多数据的工作、训练的工作,就可以把模型训练得相当不错。

这个现象最近在NLP领域,谷歌的系统又得到了再一次的印证,这就告诉我们,如果迁移学习能够成功,有可能形成一种新的AI的使用模式。我们看到迁移学习的能力也是在逐年增长的。

下面我们仔细看一下迁移学习的好处。首先就是可以在小数据上能够达到举一反三的效果,第二是使得我们建立的模型能够特别可靠,鲁棒性特别好,一个模型能够让它在外界有干扰的情况下也能够平稳地运行,这在人工智能落地的应用上是非常重要的一个特性。迁移学习通过迁移的能力,能够使一个模型变得鲁棒。第三就是隐私,如果每个端上面都有用户在使用,用户不希望每一次在更新模型的时候,都把个人数据上传到云端,这样就会增大暴露隐私的可能性。那怎么办呢?我们希望在云端的一个模型能够把它迁移到一个个性化的端上,能够把这个模型适配到一个用户的个人行为上面来,这种单向的传播就能够防止隐私的暴露。

我们看一下现在迁移学习的主要模式,主要是从左边这个源领域迁移到右边的目标领域。在源领域假如说我们有很好的数据已经训练好一个模型,我们把数据、模型和任务都可以迁移到这个新的领域,叫做目标领域,也就是说我们可以得到一个新的模型,在达到这个新的模型训练的同时,我们就可以来完成一个新的任务。

这里我想举一个例子,我们现在处在湾区,大湾区包括有香港、深圳,在深圳我们开汽车,司机是坐在车的左边,我们在香港的司机是坐在车的右边,但是我们看到跨境的司机,他也可以持续开车,因为他掌握了迁移学习的技术,司机的位置都是靠路的中线最近的位置,这就是迁移学习算法需要找出来的不变量,在两个领域当中找到这个不变量,就可以把一个模型适配到不同的领域。

最近深度学习发展突飞猛进,深度学习对于迁移学习也是有了巨大的促进。假设上面这个红的模型从左到右是一个源领域的模型,下面绿色的部分是一个目标领域的模型,我们在这两个领域的迁移,就会发现在不同层做迁移的时候,它的迁移能力是不同的。

有学者做过研究,对图象来说,比较浅层的都是比较公共性,可以共享的这些知识,它可以比较容易地来进行迁移,这个知识可以帮助我们建立更好的迁移学习模型,在一个小数据上可以举一反三,达到这样的效果。

利用上面的这些理论分析,我们也可以延展做出不同的迁移学习的算法。比如说一个源领域和目标领域相差太远了,我们一步跨不过去,我们往往会找一些中间的数据集,能够帮助这个模型一步一步迁移过去,我们利用深度学习的变种也实现了这个算法,这个算法叫做传递式的迁移学习,就是多步的迁移学习,就像过河的时候,我们在中间垒一些石头,能让我们一步一步跨过去。

传递式的迁移学习最近在斯坦福的一个工作上尤为瞩目,它是用视觉图象识别非洲大陆的贫困区域,帮助它打分,这个打分可以帮助联合国、世界银行进行救援的决策,利用传递式的迁移学习也达到了过去需要人手工到这些危险的地区去收集数据的同样的效果。

在工业上,迁移学习也有大量的应用,这是第四范式公司的一个例子,利用在大量的小额贷款的数据上训练出来的模型,迁移到大额贷款,但是是小数据,找到两个数据集之间的相同点,最后使得这个迁移在营销领域取得成功。

还有一个例子就是信息流的推荐,现在很多人在手机上看短视频,在手机上看新闻,我们从一个新闻领域迁移到另外一个新闻领域,从一个看文字版的新闻领域,可以迁移到看短视频的领域,能不能做到呢?是可以做到的。这种迁移是在迁移什么模型呢?是在迁移强化学习的策略模型。所以我们做了一个实验,利用手机上面取得的数据,也成功地取得了这样的迁移,这个里面是利用博弈论加上强化学习取得的一个效果。这个效果具体我就不说了,效果是非常好的。

另外一个例子,就是在自然语言领域,如果我们在一个领域已经取得了很好的舆情分析模型(舆情分析是什么呢?就是用户对产品打分,比方说在电商,用户有一些留言,然后我们把这些留言翻译成是赞还是踩),如果我们在一个领域已经做了一个非常好的分类器,也可以把它迁移到一个不太类似的领域,比如说电影,从电子产品到电影,听起来好像这两个不是很相似,但是我们却可以在当中利用迁移学习找到很多桥接的词汇,最后形成一个对抗深度学习网络,最后取得很好的效果。

刚刚讲的是我们的第一个方案,它的特点是我们在一个领域有大数据,在第二个领域有小数据。

联邦迁移学习

 

现在我们介绍第二个方案,联邦迁移学习。当我们两个领域都有小数据怎么办?我没有办法从一个领域迁移到第二个领域,假设我们有一堆数据,一堆公司、企业、学校、医院,每一个数据都不大,但是大家都有意向来做一个联盟,这个时候我们能不能在保护安全、隐私的前提下,甚至不交换数据的前提下,让他们共同把这个模型建起来,这个我们叫联邦迁移学习。

假设我们有两方的数据(A方和B方),A方是样本和产品的维度,它们有一部分样本是重叠的,有一小部分是产品的维度重叠,但是大部分都不重叠,在这种情况下我们就可以分为两部分,对于重叠的样本的这一部分,或者重叠的功能的部分,我们引入一个概念叫做Federated Learning(联邦学习),我一会儿会介绍,没有重叠的部分,我们仍然可以用迁移学习来解决。

我们来看一下什么叫联邦学习,这是今年以来在国际上突然热起来的一个题目,很多公司包括欧洲、美国和中国的一些金融公司对这个突然感兴趣,为什么呢?因为它的要求就是各个企业数据不出本地,数据不出库,模型的效果和直接合并是一样的,我们管这个叫做“无损失”(Lossless),在这个过程中我们取得了什么样的效果呢?是可以让学习模型的过程中不用交换用户的数据,也就不侵犯隐私安全。这非常重要。

这里有两个做法,第一个做法是看到A方和B方这两个数据集,它们可能有一些特征是重叠的,但是大部分特征是不重叠的,这个时候我们需要建立模型的时候,A方和B方需要共同持有整个模型的一部分,模型A和模型B加起来,才是一个完整的模型。现在我们有各种算法来实现这一点,其中很重要的一个叫做同态加密技术,是在两边传递一些关键参数的时候,能够保证这个参数是被加密的,而且不泄露给对方。

第二种做法是在用户这个维度我们在联邦合作。假设每个手机都是一个计算中心,然后又不想把这个数据直接上传到云端的时候,我们可以在每个手机上对模型加密,然后把加密的模型上传,在云端可以有一种算法,也是利用同态加密的算法,可以对所有到来的加密的模型进行计算。但是在这个过程中,云端并不知道自己在算什么,所以这个保护就是起到了这样一个效果,手机终端的模型最后就得到了很好的更新。谷歌现在就在考虑利用这样一个算法来更新他们的安卓的系统,以后每个人的手机上面的更新都不需要把数据直接上传。

有了这样一个纵向和横向的联邦学习的算法,然后再加入迁移学习的效果,我们就可以设想以后的社会、企业都可以形成一个一个的联盟,包括行业联盟和跨行业的联盟,比方说有不同的数据平台,还有不同的业务平台,大家可以形成一个联盟,来共同建模,共同使用。这个联盟里面很重要的一点就是保护安全,第二个重点就是每一个企业、每一个团队都觉得自己在里面是受益的,这就需要研究博弈论、研究经济学的同事进来设计鼓励机制,让大家都能受益。

我就介绍这些,谢谢大家。

香港科技大学杨强:人工智能的小数据难题,这有2份解决方案 | 院士论坛