第 37 章 梯度提升机

关于决策树和梯度提升的扩展包/库,近年来层出不穷。2001 年 Jerome H. Friedman 提出梯度提升机后 [95], 2003 年 Greg Ridgeway 开发了 gbm 包,目前 Brandon Greenwell 在维护。gbm 实现了 Freund and Schapire’s AdaBoost 算法和 Friedman 的梯度提升机。h2o 是基于 Java 平台的机器学习平台,学习材料 h2o-tutorials。基于决策树的分类和回归方法 caret 和基于模型的提升方法 https://github.com/boost-R 偏向统计学习,侧重各类统计模型,仅提供 R 语言接口。xgboost 目前已然成为做梯度提升的决策树的工业标准,使用案例丰富,中文帮助文档 https://xgboost.apachecn.org/cn/latest/,也提供多种语言接口。类似的还有 compboost,其它比较小众的提升库还有 xLearncatboost 开源的基于决策树的梯度提升库,支持分类特征,提供 R 和 Python 接口,详见官网 https://catboost.aiLightGBM 提供了 R 包,微软的工具主要支持 Windows 平台和 VS 编译工具。 Python 接口的中文文档 https://lightgbm.apachecn.org/, 顺便一提,袁进辉 等人开发的LightLDA 是大规模主题建模的框架。

37.1 XGBoost

参考文献

[95]
J. H. Friedman, “Greedy function approximation: A gradient boosting machine.” Annals of Statistics, vol. 29, no. 5, pp. 1189–1232, 2001,Available: https://projecteuclid.org/euclid.aos/1013203451