information value를 사용하고 있는 논문을 먼저 참고한다. 줄여서 IV다.
공식은 이렇다.
.
.
.
파워값으로 이렇다고 한다.
발췌하면,
Information Value | Predictive Power |
---|---|
< 0.02 | useless for prediction |
0.02 to 0.1 | Weak predictor |
0.1 to 0.3 | Medium predictor |
0.3 to 0.5 | Strong predictor |
>0.5 | Suspicious or too good to be true |
즉, 무엇을 의미하느냐 대충 뚜드려 해석해보면, 라벨 1에서 피쳐 1이 발생할 확률이 라벨 0에서 피쳐 1이 발생할 확률의 상대적인 크기 정도로 해석하면 될 것 같다.
즉슨, 오버핏을 제외하면 해당 피쳐가 라벨을 결정하는 가중치로 써먹을 수 있다는 것이다. 모든 피쳐가 동등한 가중치로 동작하는 경우, 쓸만한 피쳐를 걸러낼 수도 있고, 벡터 곱으로 피쳐 가중치를 반영하여 학습을 시킬 수 있다.
정확히 그렇다는 뜻은 아니고, 통밥으로.