KS值(Kolmogorov-Smirnov)是衡量模型对正负样本区分能力的指标,取值范围为[0,1]。KS值越大,表明模型的区分能力越强。在风控场景中,KS值用于评估模型识别风险的能力。
一、什么是KS亲密值?
KS(Kolmogorov-Smirnov)评价指标,通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力,好坏样本的累计差异越大,模型的风险区分能力越强,KS指标越大。
二、KS值的计算步骤是什么?
1、训练模型:用样本数据训练一个分类模型(如逻辑回归、GBDT等),得到每个样本预测为某一类别的概率。
2、排序分组:将样本根据预测概率从高到低排序,然后均分成若干组(如10组或20组等,最多每个样本是一组)。
3、统计比例:计算每个组别中逾期客户数量占总逾期客户数的比例,以及正常客户数量占总正常客户数的比例。
4、计算累计占比:分别计算每个组别中逾期客户和正常客户的累计占比。
5、计算差值并找最大值:计算每个组别中累计逾期客户占比和累计正常客户占比的差值绝对值,找到这些差值中的最大值,即为所求的KS值。
三、KS值的意义是什么?
1、评估模型性能:KS值越大,表明模型对好坏样本的区分能力越强,能更好地将正负样本分开,KS大于0.2的模型被认为是可用的,但具体阈值还需根据业务场景和需求来确定。
2、辅助决策依据:在实际应用中,可根据KS值的大小来判断是否采用该模型进行风险评估或决策,如果KS值较低,可能需要考虑重新训练模型或调整模型参数以提高其性能。
四、KS值的优缺点有哪些?
1、优点:
- 直观易懂,能够清晰地反映模型对不同类别样本的区分能力。
- 计算相对简单,不需要复杂的数学推导和大量的计算资源。
2、缺点:
- 对样本不均衡较为敏感,当正负样本比例差异较大时,KS值可能会受到影响。
- 只考虑了累计分布的差异,没有考虑到不同阈值下的具体分类效果,可能会忽略一些重要的信息。
五、KS值与其他相关指标的关系是怎样的?
1、与AUC的关系:AUC(Area Under the Curve)是ROC曲线下的面积,用于衡量模型的整体分类性能,KS值和AUC都可以用来评估模型的区分能力,但KS值更侧重于衡量在某个特定阈值下的分类效果,而AUC则综合考虑了所有可能阈值下的分类性能,KS值较大的模型,其AUC值也相对较大,但两者并不完全等价。
2、与Gini系数的关系:Gini系数也是一种常用的评估模型风险区分能力的指标,它衡量的是坏账户数在好账户数上的累积分布与随机分布曲线之间的面积,KS值和Gini系数都可以用来评估模型对好坏样本的区分能力,但它们的计算方法和侧重点有所不同,在一些情况下,可以通过KS值来计算Gini系数。