5  数据处理

5.1 缺失值处理

缺失是一种非常常见的数据问题。

5.1.1 查找

缺失值在数据框中的位置

5.1.2 汇总

缺失值的占比、分布情况,可视化获得缺失的结构 VIM

5.1.3 替换

替换数据框中的缺失值

5.1.4 插补

mice Multivariate Imputation by Chained Equations 缺失值插补

5.2 异常值处理

提及异常,一般会联想到数据本身出问题了,比如数据错误。比较常见的情况是业务有异动,导致数据异常波动,需要及时捕捉到这种异常波动,找到异常的原因,进而采取措施。

5.2.1 检测

5.2.2 识别

5.2.3 处理

5.3 离群值处理

离群,并不是数据本身出问题,而是数据隐藏着特殊信息,与平时不一样的情况,与大家伙不一样的情况。比如情人节鲜花和蛋糕的需求量激增,端午节粽子的需求激增,这和平时很不一样。需求数据本身没有问题,如实反应了现实情况。因此,需要根据现实情况,调整预测模型,做出更加准确的需求预测,提前安排供给。

5.3.1 检测

5.3.2 识别

5.3.3 处理