Conteúdo

Dominando a Regressão Logística: Um Guia Abrangente para o Cálculo de WoE e IV.

   12 Jun, 2023     16 min leitura

Um Guia Abrangente para o Cálculo de WoE e IV.

Essas métricas são amplamente reconhecidas por sua capacidade de distinguir entre indivíduos dignos de crédito e não dignos de crédito. Ao longo de nossa jornada para entender esses cálculos, frequentemente nos deparamos com os familiares rótulos de “bons” e “maus”. Nesse contexto, os “maus clientes” são aqueles que não pagaram suas dívidas, enquanto os “bons clientes” são aqueles que cumpriram suas obrigações e quitaram o empréstimo.

Para clarificar esses conceitos, vamos extrair insights do conjunto de dados da competição Titanic do Kaggle, examinando especificamente as informações de sobrevivência segregadas por gênero. Nosso objetivo é desmistificar os cálculos de IV e WoE, tornando-os mais acessíveis e tangíveis. Utilizaremos os dados fornecidos na tabela abaixo como base.

Segmento# #
female81233
male468109
Total549342

Percentual do rótulo no segmento de estudo:

O que é comumente chamado de ‘bom’ é o .

Vamos considerar o setor escolhido como feminino.

Para este problema:

O que é tipicamente descrito como ‘mau’ é o .

Para este problema, no segmento feminino:

Segmento# # % %
female81233
male468109
Total54934211

Percentual da população no segmento de estudo:

O Percentual da População no segmento de estudo é uma medida que indica a proporção da população total representada por um setor específico:

Vamos calcular o percentual da população para o segmento escolhido, que é o feminino neste caso:

Agora, vamos à tabela que apresenta as estatísticas:

Segmento# # % % % População
female812330.150.68
male4681090.850.32
Total54934211 

Essa medida nos fornece informações valiosas sobre a representação do setor de estudo dentro da população geral. Compreender essa distribuição é crucial para realizar uma análise abrangente dos resultados e tirar conclusões significativas a partir dos dados.

Distribuição dos rótulos dentro de cada segmento (Distr):

A distribuição para o setor ‘i’ pode ser calculada como a proporção do segmento em estudo com rótulo de não ocorrências em relação à proporção do setor ‘i’ nos com rótulo de ocorrências:

Da mesma forma, a divisão das distribuições para a categoria feminina pode ser calculada como a porcentagem de mulheres entre os falecidos em comparação com a porcentagem de mulheres entre os sobreviventes:

Segmento# # % % % PopulationDistr
female812330.150.680.35
male4681090.850.320.65
Total549342111 

Peso da Evidência (WoE):

Ele pode ser calculado usando o logaritmo natural da ‘Distr’ para cada setor:

Vamos considerar o segmento feminino como exemplo:

Agora, vamos examinar a tabela que apresenta as estatísticas:

Segmento# # % % % PopulationDistrWoE
female812330.150.680.350.22ln(0.22)
male4681090.850.320.652.67ln(2.67)
Total549342111  

Ao analisar os valores de WoE, podemos obter insights sobre a natureza discriminante das variáveis na previsão do resultado desejado.

Valor da Informação (IV):

Ele pode ser calculado usando a seguinte fórmula:

Vamos considerar o segmento feminino como exemplo:

Segmento# # % % % PopulationDistrWoEIV 
female812330.150.680.350.22-1.53 
male4681090.850.320.652.670.98 
Total549342111    

Se você tiver interesse em verificar a classificação dos valores de IV, você pode encontrá-la neste link.

A tabela com todas as métricas calculadas é a seguinte:

Sector# # % % % PopulationDistrWoEIV
female812330.150.680.350.22-1.530.82
male4681090.850.320.652.670.980.53
Total549342111  1.35

Para facilitar o entendimento de WoE e IV, eu preparei um artigo informativo que explica esses conceitos de forma detalhada. Você pode acessá-lo aqui. O objetivo desse post é fornecer uma explicação completa e esclarecer as nuances dessas métricas.

Além disso, se você precisa fazer esses cálculos usando Python, criei outro post com as fórmulas correspondentes. Você pode conferir esse recurso neste link. Com ele, você poderá realizar os cálculos de forma eficiente.

Para obter suporte adicional, compilei diversos materiais complementares no meu GitHub sobre esse tema. Esses recursos estão disponíveis no repositório de materiais de suporte e foram criados para ajudar você a entender melhor e aplicar na prática os cálculos de IV e WoE.

Se tiver mais alguma dúvida ou precisar de mais informações, estou aqui para ajudar!

Referências:

  • Anderson, Raymond. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, 2007.

  • Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Wiley, 2006.

  • Sudarson Mothilal Thoppay (2015). woe: Computes Weight of Evidence and Information Values. R package version 0.2. https://CRAN.R-project.org/package=woe

  • Thilo Eichenberg (2018). woeBinning: Supervised Weight of Evidence Binning of Numeric Variables and Factors. R package version 0.1.6. https://CRAN.R-project.org/package=woeBinning