数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
建模工作内容主要包括:样本准备、模型设计、数据准备、特征工程、模型的建立与评估、模型监控等工作。
要想实现好的风控,前提是保证数据的质量,而数据就是较为关键的一步。但是模型的输入是受限的,如果数据有缺陷、没做好清洗工作,那模型就不可能精准。因此,当建模得不到一个准确结果时,第一时间要怀疑的不是用错模型,而是用错了数据。
数据清洗工作包括:用户唯一性检查,Missing值检查,异常值检查,Zero-rate等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI、平均值/方差,IV等。
具体的数据清洗流程包括:
1、缺失值判断:了解缺失值产生的原因。数据缺失引起的原因多种多样,大致可以概括为IT系统原因、前端录入原因和接入征信公司原因。
2、缺失值处理:缺失值处理的方法有替代、删除、保留这三种方式。
-
替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值;离散型的变量可以用众数来填充缺失值;也可以根据样本其他的已知信息利用回归技术逐个计算出缺失处的值:了解异常值出现的原因,根据实际情况决定是否保留异常值。
-
删除法是选择直接删除包含缺失值的样本。这种做法的前提是需要样本量足够大,而且缺失值是随机的且少量的;另外也可以选择删除缺失值过多的变量,不纳入到分析的样本中。
-
保留法可以先使用一些数理统计的方法,比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性,就可以采用保留法,作为某个特殊类别的样本组处理。
如果该变量与目标变量的相关性较弱或者无关,可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法;样本量小的可采用替代法来处理。
3、常变量/同值化处理:对同值较高或者方差较低的变量作剔除。
4、分类变量降基处理:分类变量可以根据bad_rate编码后再做分箱,也可以将少数类合并成一类,确保每一类中都有好坏样本。
看似流程简单,但需要注意:数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,根据数据不同可以给出相应的数据清理方法。