算法:随机森林算法
原理
随机森林是一种集成算法。它的基本单元是决策树。通俗的说,当我们需要根据输入向量对新对象进行分类时,决策树算法依靠的是单个决策树结果,而随机森林是将输入向量放在森林中的每棵树上。每棵树都有一个分类结果,随机森林算法会选择投票最多的类别(在森林中的所有树木上)。
随机森林算法流程
- 从数据集中随机选择 k 个特征,共 m 个特征(k <= m)。然后根据 k 个特征建立决策树;
- 重复 n 次,k 个特性经过不同随机组合建立 n 棵决策树;
- 对每个决策树都传递随机变量来预测结果。存储所有预测的结果,从 n 棵决策树中得到 n 种结果;
- 将得到高票数的预测目标作为随机森林算法的最终预测结果(scikit-learn 库的实现是取每个分类器预测概率的平均,而不是让每个分类器对类别进行投票)。
和 CART 算法一样,除了做分类预测,随机森林算法也可以用来做回归预测。
注意在随机森林算法流程中,对训练集的选择,是随机有放回地进行抽样。因为如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的。这样的话就没必要用到随机森林。而如果不是“有放回”地抽样,会造成每棵树的训练集数量不一致,以及训练结果“过于片面”。
案例
使用 sklearn 库自带的红酒数据集,分别使用决策树和随机森林进行分类预测。
1 | from sklearn.tree import DecisionTreeClassifier |
1 | .. _wine_dataset: |
1 | print(wine.data) |
1 | [[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03] |
1 | from sklearn.model_selection import train_test_split |
1 | Single Tree:0.8703703703703703 Random Forest:0.9259259259259259 |
具体参数说明
**
- n_estimators:随机森林里树的数量,也就是基评估器的数量。通常数量越大,效果越好,但是计算时间也会随之增加。另外,当树的数量超过一个临界值之后,算法的效果并不会很显著地变好;
max_features:是分割节点时考虑的特征的随机子集的大小。 这个值越低,方差减小得越多,但是偏差的增大也越多。 根据经验,回归问题中使用max_features = n_features, 分类问题使用 max_features = sqrt(n_features(其中n_features是特征的个数)是比较好的默认值。 max_depth = None和min_samples_split = 2结合通常会有不错的效果(即生成完全的树)。 这些(默认)值通常不是最佳的,同时还可能消耗大量的内存,最佳参数值应由交叉验证获得;
random_state:控制生成森林的模式。当random_state固定时,随机森林中生成是一组固定的树,但每棵树都不一样。并且可以证明,当这种随机性越大的时候,袋装法的效果一般会越来越好。但这种做法的局限性是很强的,当我们需要成千上万棵树的时候,数据不一定能够提供成千上万的特征来让我们构筑尽量多尽量不同的树。因此,除了random_state,我们还需要其他的随机性;
- bootstrap:bootstrap 参数默认 True,代表采用这种有放回的随机抽样技术。要让基分类器尽量都不一样,一种很容易理解的方法是使用不同的训练集来进行训练,而袋装法正是通过有放回的。 随机抽样技术来形成不同的训练数据,bootstrap就是用来控制抽样技术的参数。