Conteúdo

WoE e IV em Regressão Logística: Interpretação e Seleção de Variáveis

   8 Mai, 2023     19 min leitura

Aprenda a interpretar Weight of Evidence (WoE) e Information Value (IV) para seleção de variáveis, análise preditiva e construção de modelos de regressão logística.

Construir um bom modelo de classificação não significa apenas escolher algoritmos: é fundamental compreender o comportamento das variáveis e sua relação com o evento de interesse.

É nesse contexto que surgem o Weight of Evidence (WoE) e o Information Value (IV), duas métricas amplamente utilizadas em credit scoring, seleção de variáveis e modelagem preditiva.

Essas técnicas ajudam a medir o poder discriminatório de uma variável, além de fornecer insights sobre a direção e a intensidade da relação entre os atributos e a variável alvo.

Neste artigo, você aprenderá:

  • como interpretar WoE e IV na prática;
  • como essas métricas auxiliam na construção de modelos de regressão logística;
  • como utilizar WoE e IV no agrupamento de categorias (binning);
  • como transformar variáveis em atributos mais interpretáveis e preditivos.

Para tornar os conceitos mais intuitivos, utilizaremos exemplos práticos com o conjunto de dados da competição Titanic do Kaggle.

Apresentação das Métricas

No post anterior sobre como calcular WoE e IV em Python, vimos como construir as funções responsáveis pelo cálculo dessas métricas. Agora, vamos entender como interpretar os resultados e extrair insights para modelos de regressão logística.

Essas métricas ajudam a avaliar como cada variável explicativa se relaciona com a variável resposta.

As principais métricas são:


Proporção das classes (0 e 1)

Representa a distribuição da variável resposta dentro de cada segmento da variável analisada. Essa métrica ajuda a entender como os eventos estão distribuídos entre as categorias.


Weight of Evidence (WoE)

Mede o poder discriminatório de cada categoria. Quanto mais distante de zero for o valor de WoE, maior tende a ser a capacidade discriminatória do segmento.

Em geral:

WoEInterpretação
WoE > 0maior concentração relativa de não eventos (target₀)
WoE ≈ 0distribuição semelhante entre as classes
WoE < 0maior concentração relativa de eventos (target₁)

Information Value (IV)

Mede a capacidade preditiva da variável como um todo. O IV total é obtido pela soma das contribuições de cada segmento.

A tabela abaixo apresenta uma classificação frequentemente utilizada para interpretação do poder preditivo de uma variável:

IVInterpretação
IV ≤ 0.02Variável sem poder preditivo
0.02 < IV ≤ 0.10Poder preditivo fraco
0.10 < IV ≤ 0.30Poder preditivo médio
0.30 < IV ≤ 0.50Poder preditivo forte
IV > 0.50Poder preditivo muito forte (possível data leakage)

Valores excessivamente altos de IV podem indicar vazamento de informação (data leakage), especialmente quando a variável possui relação direta com o evento alvo.


É importante observar que categorias raras podem apresentar WoE extremos, mas ainda assim contribuírem pouco para o IV total devido à baixa representatividade populacional.

Essas métricas são extremamente úteis em etapas de de modelagem, destacando-se na análise exploratória, no feature engineering, no próprio agrupamento de categorias (binning) e na seleção de variáveis. No fim das contas, ao interpretar corretamente o WoE e o IV, torna-se possível facilitar a interpretação de modelos de regressão logística e construir modelos mais robustos e alinhados ao comportamento dos dados.

Criação de Variáveis por Agrupamento (Binning)

O agrupamento de categorias (binning) é uma estratégia amplamente utilizada na criação de variáveis para modelos preditivos, especialmente em problemas de regressão logística e credit scoring.

A ideia consiste em combinar categorias ou intervalos que apresentem comportamento semelhante em relação à variável resposta, utilizando métricas como Weight of Evidence (WoE) e Information Value (IV) como apoio na análise.

Ao adotar essa abordagem, o modelo ganha em robustez. Esse processo simplifica as variáveis e reduz a dimensionalidade dos dados, o que consequentemente diminui o risco de overfitting e traz maior estabilidade estatística. Além disso, o binning melhora a interpretabilidade do modelo e ajuda a estabelecer relações mais lineares entre as variáveis explicativas e o logit da regressão logística.

Entretanto, alguns cuidados são importantes durante o agrupamento:

  • categorias agrupadas devem possuir comportamentos semelhantes;
  • segmentos com WoE muito diferentes não devem ser combinados;
  • agrupamentos excessivos podem reduzir significativamente o poder preditivo da variável;
  • categorias muito raras podem gerar WoE instáveis.

Essa manipulação traz um dilema conhecido: ao agrupar categorias, ocorre uma redução natural do Information Value (IV), já que parte da capacidade discriminatória original da variável é suavizada. Por isso, o grande desafio do binning é encontrar o ponto de equilíbrio entre a simplificação do modelo, a estabilidade estatística e a manutenção da informação relevante. Quando realizado corretamente, o agrupamento de categorias pode melhorar significativamente a robustez e a capacidade de generalização do modelo preditivo.

Aplicação Prática

Agora vamos aplicar, na prática, os conceitos de Weight of Evidence (WoE) e Information Value (IV) utilizando o dataset da competição Titanic - Machine Learning from Disaster.

Nosso objetivo será interpretar as métricas, identificar variáveis preditivas e entender como utilizar WoE e IV na criação de novas variáveis para modelos de regressão logística.


Exemplo com Variável Discreta

Ao aplicarmos a função Woe_IV_Discrete na variável Sex, obtemos a seguinte tabela:

Sextarget₀target₁DistrWoEIVIV_total
female0.1475410.6812870.216562-1.5298770.8165651.341681
male0.8524590.3187132.6746880.9838330.5251161.341681

A interpretação dos resultados é bastante intuitiva:

  • o valor negativo de WoE para female indica maior associação com sobrevivência (target₁);
  • o valor positivo de WoE para male indica maior associação com não sobrevivência (target₀);
  • o IV_total = 1.34 indica altíssimo poder discriminatório da variável Sex.

Em problemas de credit scoring, variáveis com IV muito elevado costumam exigir atenção adicional, pois podem indicar separação excessiva entre as classes ou possível vazamento de informação.


Exemplo com Variável Contínua

Além de variáveis categóricas, WoE e IV também podem ser aplicados em variáveis contínuas após o processo de discretização (binning).

VariávelIntervalotarget₀target₁DistrWoEIV
Fare<= 7.550.1438980.0380123.7856241.3312110.14
Fare7.55 – 7.85420.1111110.0760231.4615380.3794900.01
Fare7.8542 – 8.050.1584700.0555562.8524591.0481810.11
Fare8.05 – 10.50.1092900.0526322.0765030.7306850.04
Fare10.5 – 14.45420.0874320.1052630.830601-0.1856060.00
Fare14.4542 – 21.67920.0928960.1081870.858662-0.1523800.00
Fare21.6792 – 270.0783240.1345030.582324-0.5407290.03
Fare27 – 39.68750.1038250.0994151.0443590.0434030.00
Fare39.6875 – 77.95830.0765030.1374270.556679-0.5857660.04
Total1.0000001.0000001.0000000.0000000.37

A variável Fare também apresenta forte capacidade preditiva (IV = 0.37).

Além disso, a análise do WoE permite identificar faixas com comportamentos semelhantes, possibilitando o agrupamento de categorias (binning).

Observe que:

  • faixas com WoE > 0 tendem a estar mais associadas à não sobrevivência;
  • faixas com WoE < 0 apresentam maior associação com sobrevivência;
  • valores de WoE próximos de zero indicam comportamento neutro.

Com base nesses resultados, podemos criar uma variável binária indicando, por exemplo, se a tarifa é menor ou igual a 10.5.


Criação de Novas Variáveis

A partir da análise de WoE e IV, podemos construir variáveis derivadas que tornam o modelo mais simples e interpretável.

Exemplo:

PassengerIdSurvivedSexFareFLG_femaleFLG_Fare_leq_10.5
10male7.250001
21female71.283310
31female7.925011
8910male7.750001

Nesse cenário, criamos variáveis binárias (flags) para simplificar a informação:

  • FLG_female identifica passageiros do sexo feminino;
  • FLG_Fare_leq_10.5 identifica tarifas menores ou iguais a 10.5.

Esse tipo de transformação potencializa a interpretabilidade do modelo e garante maior estabilidade estatística. Além disso, ao reduzir o ruído dos dados originais, a abordagem melhora a generalização e o desempenho preditivo final do algoritmo.


Conclusão

As métricas Weight of Evidence (WoE) e Information Value (IV) são ferramentas extremamente úteis para seleção de variáveis, análise exploratória, agrupamento de categorias (binning), criação de variáveis derivadas e interpretação de modelos de regressão logística.

Além de contribuírem para modelos mais interpretáveis e robustos, WoE e IV permitem compreender o comportamento das variáveis ao longo dos diferentes segmentos da população, auxiliando tanto na seleção de atributos quanto na engenharia de variáveis para problemas de classificação binária.


Recursos Complementares

Referências:

  • Anderson, Raymond. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, 2007.

  • Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Wiley, 2006.

  • Sudarson Mothilal Thoppay (2015). woe: Computes Weight of Evidence and Information Values. R package version 0.2. https://CRAN.R-project.org/package=woe

  • Thilo Eichenberg (2018). woeBinning: Supervised Weight of Evidence Binning of Numeric Variables and Factors. R package version 0.1.6. https://CRAN.R-project.org/package=woeBinning