统计学:辛普森悖论

辛普森悖论(Simpson’s Paradox)是英国统计学家E.H.辛普森(E.H.Simpson)于 1951 年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论

特征工程:数据标准化之Max-Min标准化

数据标准化是处理不同规模和量纲数据的方式,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。比如:员工数量的值是 50 - 2000 人,销售额的值是 1000000 - 5000000 万。单位尺度不同,使用梯度下降算法,就需要很多次迭代。

为提升网点业务员效率,我们做的事情

2017 年到 2019 年间,我们都在谈论网点的各种经营问题和未来方向。并且各种末端解决方案层出不穷。大家都在迷茫,希望,反思中度过。作为在快递行业多年的三方软件服务方,我们感同身受。以下先对各种问题作简单回顾。

集成学习Bagging和Boosting简述

集成学习是时下非常火爆的一款机器学习方法,是将多个弱分类器按照某种方式组合起来,形成一个强分类器,以此来获得比单个模型更好的回归和分类表现,其常用的方法有 Bagging 和 Boosting。