Menu
您的位置:中国房产新闻网 > 数据研究 > >

数据挖掘模型房产新闻中的IV和WOE详解

新闻来源:网络整理  2018-03-11 20:45

我们这里给出两个原因。IV和WOE的差别在于IV在WOE基础上乘以的那个

数据挖掘模型房产新闻中的IV和WOE详解

关于WOE编码所表示的意义,大家可以自己再好好体会一下。

3.IV的计算




是否是公司VIP客户;

对这个公式做一个简单变换,可以得到:

此时对应的IVi为+∞。

IV的全称是Information Value,中文意思是信息价值,或者信息量。

挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

更主要的原因,也就是第二个原因是,乘以pyn后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。怎么理解这句话呢?我们还是举个例子。


我们已经计算了四个变量中其中一个的WOE和IV值。另外三个的计算过程我们不再详细的说明,直接给出IV结果。


那么我们为什么不直接用这个WOE绝对值的加和来衡量一个变量整体预测能力的好坏,而是要用WOE处理后的IV呢。

数据挖掘模型房产新闻中的IV和WOE详解

(2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

(4) 是否是公司VIP客户:

好,回到正题,计算完WOE,我们分别计算四个分组的IV值:

数据挖掘模型房产新闻中的IV和WOE详解


3.3.1 实例



数据挖掘模型房产新闻中的IV和WOE详解


数据挖掘模型房产新闻中的IV和WOE详解

其中,n为变量分组个数。

(1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

最近一笔购买的商品类别;


OK,再次回到正题。最后,我们计算变量总IV值:

从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

(1) 最近一个月是否有过购买:

IVi无论等于负无穷还是正无穷,都是没有意义的。

第一个原因,当我们衡量一个变量的预测能力时,我们所使用的指标值不应该是负数,否则,说一个变量的预测能力的指标是-2.3,听起来很别扭。从这个角度讲,乘以pyn这个系数,保证了变量每个分组的结果都是非负数,你可以验证一下,当一个分组的WOE是正数时,pyn也是正数,当一个分组的WOE是负数时,pyn也是负数,而当一个分组的WOE=0时,pyn也是0。


数据挖掘模型房产新闻中的IV和WOE详解

数据挖掘模型房产新闻中的IV和WOE详解

我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?

前面我们已经计算过,最近一次购买金额的IV为0.49270645

4.关于IV和WOE的进一步思考



此时的IVi为+∞。

3.3.2 计算WOE和IV


2.对IV的直观理解




这个指标也可以完全避免负数的出现。

我们以其中的一个变量“最近一次购买金额”变量为例:

是否是公司VIP客户:1.56550367

(2) 最近一次购买金额:

最近一个月是否有购买;

数据挖掘模型房产新闻中的IV和WOE详解


数据挖掘模型房产新闻中的IV和WOE详解

4.2 IV的极端情况以及处理方式


数据挖掘模型房产新闻中的IV和WOE详解

3.3 用实例介绍IV的计算和使用


数据挖掘模型房产新闻中的IV和WOE详解

数据挖掘模型房产新闻中的IV和WOE详解

我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

从上面的内容来看,变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢?

(3) 最近一笔购买的商品类别:

当前分组中,响应的比例越大,WOE值越大;

数据挖掘模型房产新闻中的IV和WOE详解

数据挖掘模型房产新闻中的IV和WOE详解

3.3.3 IV值的比较和变量预测能力的排序


有了前面的介绍,我们可以正式给出IV的计算公式。对于一个分组后的变量,第i 组的WOE前面已经介绍过,是这样计算的:

最近一个月是否有过购买:0.250224725

变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。

下面我们通过一个实例来讲解一下IV的使用方式。

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多