# 第 6 章 集成分类器(组合分类器)

# 基本思想

  • 将多个性能不太好的分类器(弱分类器),组合成一个性能更好的分类器(强分类器)
  • 可节省大量用于训练的时间和资源
  • 前提条件:弱分类器需稍微训练一下,使其正确率高于 0.5
  • 将一组弱分类器集成为一个强分类器,故又称 “集成学习”
  • 每个基分类器(弱分类器)的训练集要有差异
  • 组合分类器需同时考虑如何保证方差和偏差都能取较小的结果

# Weighted Majority(加权多数法)

  • 定义:将每个分类器赋予一定的权重,以组合结果作为分类依据。分类过程中,对分错的分类器进行惩罚,减少其权重。

# Stacking

  • 定义:把基本分类器的输出作为下一级分类器的输入,再进行学习。

# Bagging(Bootstrap Aggregating 自助聚集)

  • 定义:通过对原始样本集的有放回抽样来取得一个子样本集,多次重复这样的抽样,得到很多规模相同的子样本集。每个子样本集的某个相同统计量的值的分布,就可以作为样本整体的该统计量的近似分布。

# 强可学习,弱可学习

  • 强可学习:对于一个模型,如果存在一种算法能在多项式时间内以很大的概率学到一个很高的精度,则称这个模型是强可学习的。
  • 弱可学习:对于一个模型,如果存在一种算法能在多项式时间内以很大的概率学到一个比随机猜好一点的精度,则称这个模型是强可学习的。

# Adaboost(自适应提升算法)

  • 核心概念:PAC 可学习(强可学习)
  • 思想:串行地训练一组分类器,使他们逐渐地 “聚焦于” 比较困难的样本上。

# 出题

# 题目 1

以下对近邻分类器的描述,错误的是()

A. 最近邻法的决策规则是,按照未知样本离哪个已知样本更近,来确定应该划分到哪一类中。
B. 最近邻分类器的错误率不可能低于最小错误率贝叶斯分类器。
C. 快速 KNN 算法通过改进原始样本数量,来大幅度减少分类器计算量。
D. 压缩近邻法可以同时提升最近邻算法在速度和存储量两方面的性能。

# 题目 2

以下对多分类问题的描述,错误的是()

A. 可通过设计多个线性判别函数来解决多分类问题。
B. 绝对可分下的线性判别函数相比于两两可分的线性判别函数,其不可识别区域会更少。
C. 最大值可分情况下,判别函数的数量与样本集中的类别数量一样。
D. 若想把一些非线性问题转换为线性问题,可以通过把模式识别问题从低维特征空间映射到高维特征空间的方法来解决。

# 答案

题目 1:C
题目 2:B