集成学习
ensemble learning
定义:通过结合多个学习器来解决问题的一种机器学习范式。其常见形式是利用一个基学习算法从训练集产生多个基学习器,然后通过投票等机制将基学习器进行结合。代表性方法包括Boosting、Bagging等。
学科:计算机科学技术_人工智能_机器学习
相关名词:机器学习 决策树 图像识别
图片来源:视觉中国
【延伸阅读】
集成学习是一种机器学习方法,它通过将多个基本的学习模型(也被称为基学习器)组合成一个强大的学习系统来提高模型的性能。集成学习的基本思想可以概括为“多样性和投票”,即通过构建多个基学习器,并让它们对输入数据进行独立的预测,然后通过某种方式将各个基学习器的预测结果结合起来,产生一个最终的预测结果。这样做的好处是,各个基学习器可以各自在不同的特征子集或者在不同的模型空间进行学习,从而降低模型的泛化误差。
集成学习的概念可以追溯到20世纪90年代初期,但真正引起人们关注是在2000年以后。根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类:一类是个体学习器间存在强依赖关系、必须串行生成的序列化方法,如Boosting(自适应提升);另一类是个体学习器间不存在强依赖关系、可同时生成的并行化方法,如Bagging(自助投票)和随机森林。其中,Boosting是一族可将弱学习器提升为强学习器的算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器;Bagging是一种基于数据随机重抽样的集成学习方法,它通过从原始数据集中有放回地抽取样本来训练多个基分类器,并对所有基分类器的预测结果进行平均或投票来产生最终的预测结果;随机森林是Bagging的一个扩展变体,它在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
集成学习的应用非常广泛,例如图像识别、文本分类、金融风险评估、生物信息提取、医疗诊断等。在图像识别方面,可以用于目标检测、语义分割等任务;在文本分类方面,可以用于情感分析、垃圾邮件过滤等任务;在金融风险评估方面,可以用于信用评分、欺诈检测等任务;在生物信息学中,可从海量基因组数据中提取有用信息;在医疗诊断方面,可用来提高疾病诊断的准确度。
(延伸阅读作者:西华师范大学数学与信息学院 李斌斌博士)
责任编辑:张鹏辉