首页 慕课课程正文

详解:迁移学习在大数据领域的重要意义

  导读:今天和大家分享一下笔者关于两个热点“学习迁移”和“迁移学习”的认识,以及迁移学习在大数据领域的重要意义。本文部分文字内容来源自其它专家或网络,在此声明感谢。

——

关于学习迁移

——

  我们先来看一下网络上比较通用的一种表达:“学习迁移即一种学习对另一种学习的影响,它广泛地存在于知识、技能、态度和行为规范的学习中。任何一种学习都要受到学习者已有知识经验、技能、态度等的影响,只要有学习,就有迁移。迁移是学习的继续和巩固,又是提高和深化学习的条件,学习与迁移不可分割。”

  以上这段话是不是太绕了?通俗的说,学习迁移就是把学习一种知识的经验运用在学习另一种知识中,从而快速建立起新领域的知识和能力。古语所说的“举一反三”、“触类旁通”就是典型的学习迁移。举一反三来自《论语·述而》,孔子曾对他的学生说:“举一隅,不以三隅反,则不复也。”意思是说“我举出一个方面,你们应该要能灵活的推想到另外几个方面,如果不能的话,我也不会再教你们了。”后来就把孔子说的这段话变成了“举一反三”这句成语,意思是说学一件东西,要可以灵活地思考,运用到其他相类似的东西上。

  那么学习的迁移是不是一定可行呢,其实不然,学习的迁移有一定的影响因素和理论基础。

  主要影响因素:

  学习迁移的效果在一定程度上取决于学习材料之间的共同因素。由于材料之间存在着共同的因素,就会产生相同的反映,因而在学习中就会产生不同程度的迁移。

  对学习材料的概括水平,苏联著名心理学家鲁宾斯坦(C.Л.Pyбцнusтеǔн)强调,概括是迁移的基础。

  知识的组织结构和受众的认知结构,知识教材是学习的基本材料,其科学的基本结构有助于学习的迁移。

  学习的指导和训练,形式训练说假定,人类大脑的许多区域代表了许多不同的官能。人的心智是由许多不同的官能组成的,不同的官能活动相互配合就构成各种各样的心理活动。各种官能可以像训练肌肉一样通过练习增加力量(能力)。

「学习的迁移(顺向、逆向作用)」

   主要理论基础与分类(7类):

  (1)正负零:正迁移,一种学习对另一种学习起到积极的促进作用,例如:学习数学有利于学习物理,学习珠算有利于学习心算;负迁移,两种学习之间互相干扰、阻碍,例如:方言影响普通话的学习;零迁移,两种学习间不存在直接的互相影响。

  (2)顺向逆向:顺向迁移,先前的学习对后来学习的影响,例如:举一反三;逆向迁移,后来的学习对先前学习的影响。

  (3)一般具体(也称非特殊迁移与特殊迁移):一般迁移,一种习得的一般原理、方法、策略或态度迁移到另一种学习中去,例如:获得基本的运算技能、阅读技能以后,运用到各种具体的学科学习中;具体迁移,一种学习中的具体特殊性经验直接运用到另一种学习中。

  (4)近远自动:自迁移,个体所学的经验影响着相同情景中的任务操作;近迁移,把所学的经验迁移到与原初学习情景相似的情境中;远迁移,把所学的经验迁移到与原初学习情景极不相似的情境中,例如:课堂知识运用到社会实践。

  (5)水平垂直:水平迁移,处于同一抽象和概括水平的经验之间相互影响;垂直迁移,先前学习内容与后续学习内容是不同水平的学习活动之间的迁移。

  (6)低通高通:低通路迁移,反复练习的技能自动化地迁移,例如:开过自家车的人可以轻松的开从朋友那儿借来的车;高通路迁移,有意识地将习得的抽象知识运用到新的情境中,例如:学习教育学时想到这些原理将会在之后的教育教学实践中应用。

  (7)同化性、顺应性、重组性迁移(根据迁移过程中所需要的内在心理机制不同):同化性迁移,直接将原有的认知经验应用到本质特征相同的一类事物中去;顺应性迁移,将原有认知经验运用于新情境中时,需要调整原有的经验或对新经验加以概括,形成一种能包容新旧经验的更高一层的认知结构,以适应外界变化;重组性迁移,重新组合原有认知结构中某些构成要素或或成分,调整各成分间的关系或建立新的关系,从而应用于新情境。

  以上,使大家简单地了解了学习的迁移,下面我们来谈一谈迁移学习。

——

关于迁移学习

——

  我们先来看一下网络上一种比较通用的说法,又说该说法来自香港科技大学杨强教授:“迁移学习即在源领域已经拥有大量数据,并且在源领域能对数据进行很好的应用建立了模型后,我们换一个领域也能让它使用,这样既节省了资源,又打到时间和效果的好处,就叫做迁移学习。这就很想人的举一反三的学习能力,比如我们学会骑自行车以后,我们又去学摩托车,发现很简单,我们打球、学语言、学物理化学也有很多这样的例子。

  实现迁移学习的方法有四种:1)样本迁移;2)特征迁移;3)基于模型的迁移学习;4)通过关系进行迁移,比如社交网络。”

  杨强教授在研究过程中,详细阐述了机器学习领域:深度学习(DeepLearning)、强化学习(Reinforcement Learning)、迁移学习(Transfer Learning)的差异,如图:

「深度学习、强化学习、迁移学习的差异」

  深度学习主要强调的是特征,强化学习主要强调的是反馈,而迁移学习主要强调的是适应。

  深度学习、强化学习,在大样本数据、数据总量丰富的情景下具有重要的意义,但在小样本数据下却很难发挥应应有的价值。

  迁移学习则在小样本数据情况下,具有特别重要意义。

——

迁移学习在大数据领域的重要意义

——

  制约行业大数据快速发展和应用的一个特别严重的问题,就是在某些领域的既有数据量不足,如历史数据没有留存,又如缺乏有效的数据整理等等,总之由于数据量的不足就导致了无法根据已有的样本数据快速的进行机器学习和建模。

  迁移学习可以有效解决上述难题,笔者从事和研究大数据应用在行业领域如何落地已有多年,深有感触。

  数据量不足的问题:比如客户刚刚构建了一个电商平台,针对某款产品售卖,没有任何的数据,就无法建立模型对用户行为进行分析以及进行个性化推荐。一般来说,用户买一种货品还会买另一种货品,但如果知道客户在另外一个领域已经构建了很好的模型,这个模型又与新的业务比较类似,就可以通过迁移学习将模型迁移到新电商平台中,达到快速应用的目的。总体来说,就是有两个领域,一个领域已经有很多的数据,能成功地建一个模型,有一个领域数据不多,但是和前面那个领域是关联的,就可以把那个模型给迁移过来。

  行业个性化的问题:比如金融领域的客户,他们都希望在通用的大数据高级分析模型的基础上,构建属于自己独有的模型,这个模型来源于共知模型又区别于共知模型,还需要快速进行构建和应用,对于此就可以通过迁移学习来有效解决这类问题。

  对于迁移学习来说,大数据分析模型如何有效管理并快速应用在其他领域是迁移学习最为关键的问题,而选择一款有效的工具则是解决问题的关键所在。

  这里为大家介绍一款工具,东软依托在25年的行业解决方案开发经验的基础上,对各个行业深入理解,融合了当前最领先的大数据相关技术,推出了一款产品:SaCa RealRec数据科学平台,这款平台产品也是以笔者所在BU为核心来研发和交付的,它可以有效的解决迁移学习的问题。

「SaCa RealRec数据科学平台产品组成」

  SaCa RealRec数据科学平台软件:

  SaCa RealRec数据科学平台是聚焦大数据智能战略的分析挖掘平台及服务。整个系统基于分布式批处理框架、分布式内存处理框架、分布式流数据实时框架以及大规模机器学习算法库等大数据科学相关技术,提高企业构建智能应用的能力及效率,简化复杂机器学习算法的使用成本,从而帮助企业实现数据驱动的商业模式。可以将大数据分析模型沉淀为企业的知识资产进行有效的管理,从而可以进行快速的迁移学习和训练,应用到其它相关的领域。

  作为数据科学平台,产品系统提供了标准的数据挖掘流程,包括数据采集、特征抽取、模型训练、评估评测以及部署应用五大关键功能。

「SaCa RealRec数据科学平台」

  以上,笔者与大家分享了关于两个热点“学习迁移”和“迁移学习”的认识,以及迁移学习在大数据领域的重要意义。期望本文能为大家带来帮助。

  作者简介

  田军,大连理工大学硕士,现任东软集团先行产品研发事业部咨询总监,在平台产品及企业信息化领域从业十多年,曾在东软集团基础软件事业部、东软云科技有限公司任职,目前专注于数据科学、人工智能等领域的研究,主要研究大数据项目如何在行业进行落地,服务过数百家行业领导者客户,在大数据、云计算、数据中心、企业应用平台、业务流程管理、企业信息化集成等领域具有多年实战经验。

  注:本文系「数据科学浅谈」投稿授权数据观发布,作者:田军,版权著作权属原创者所有,禁止二次转载,如需转载务必申请授权。编辑: Fynlch(王培),数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。

责任编辑:王培

分享: