Conteúdo

Dominando a Regressão Logística: Desvendando as Métricas WoE e IV para Seleção e Interpretação de Variáveis.

   8 Mai, 2023     16 min leitura

WoE e IV para Seleção e Interpretação de Variáveis.

Você já ouviu falar em WoE e IV? Essas siglas significam Valor de Informação e Peso de Evidência, respectivamente, e são muito importantes na hora de construir, selecionar e interpretar variáveis para modelos de regressão logística.

Essas métricas ajudam a ter insights sobre a eficácia de uma variável em prever a resposta desejada, além de descobrir a direção em que essa variável está inclinando a resposta.

Ao final deste post, você será capaz de interpretar essas métricas e criar variáveis por agrupamento, tudo com a ajuda de exemplos práticos baseados nos dados da competição Titanic do Kaggle. Vamos juntos nessa jornada?

Apresentação das métricas

Lembra do post anterior sobre como criar as funções WoE e IV em Python? Agora eu vou te mostrar como interpretar a tabela e extrair ainda mais insights!

Abaixo são explicadas as diversas métricas apresentadas na tabela que são úteis para avaliar a relação entre a variável estudada e a ocorrência de resultados negativos ou positivos.

  • Proporção 0 ou 1 na variável resposta para cada setor da variável estudada, o que ajuda a entender a distribuição da variável em relação aos resultados.
  • WoE, uma métrica útil para avaliar a discriminação da variável. Quanto mais longe de 0 o WoE estiver, mais discriminatória será a variável. Um WoE negativo indica que a variável favorece a ocorrência da variável resposta, enquanto um WoE positivo indica que a variável não favorece a ocorrência.
  • IV, o Valor de Informação que ajuda a avaliar a capacidade preditiva das variáveis. É importante destacar que se um setor da variável indicar uma forte associação com a variável resposta, mas aparecer com pouca frequência na população, seu IV não será alto. O Valor de Informação Total de uma variável é a soma dos IVs para cada setor estudado.

Além disso, temos uma tabela que indica a classificação dos valores de IV:

IVClassificação
≤ 0.02Não é útil para prever
0.02 -0.1Poder de previsão fraco
0.1 - 0.3Poder de previsão moderado
0.3 - 0.5Poder de previsão forte
> 0.5Poder de previsão suspeito

Essa tabela é importante para avaliar a qualidade da capacidade preditiva da variável, de acordo com o valor do IV. É interessante ficar atento à classificação de cada valor e utilizá-la como referência para a interpretação dos resultados.

Essas métricas permitem que você tenha uma visão ainda mais clara dos seus dados! Com elas, você pode compreender melhor a relação entre as variáveis estudadas e o resultado que você está buscando prever. Não deixe de utilizá-las para melhorar a qualidade da sua análise e tomar decisões mais embasadas!

Criação de variáveis por agrupamento

Agrupar categorias é uma alternativa na criação de variáveis para modelos preditivos. Isso envolve analisar a similaridade na discriminação das variáveis resposta e avaliar casos representativos em cada atributo, resultando em categorias agrupadas de uma forma que faça sentido. O agrupamento de categorias com base na análise de IV e WoE apresenta várias vantagens, como simplificar a equação, reduzir o risco de overfitting e tornar as variáveis mais adequadas para o modelo. No entanto, é importante lembrar que o valor de informação sempre diminui quando as categorias são agrupadas, e apenas categorias com WoE semelhantes devem ser combinadas para evitar a perda de informações importantes. Portanto, ao realizar essa etapa, é fundamental buscar um equilíbrio entre a simplificação e a manutenção da coerência das informações.

Mão na massa

Vamos colocar em prática tudo o que aprendemos e ir além na análise dos dados.

Ao aplicarmos a função Woe_IV_Discrete na variável “Sex” dos dados da competição Titanic - Machine Learning from Disaster do Kaggle, encontramos alguns insights interessantes.

Survived01DistrWoEIVIV_total
Sex      
female0.1475410.6812870.216562-1.5298770.8165651.341681
male0.8524590.3187132.6746880.9838330.5251161.341681

A métrica WoE confirma que ser do sexo feminino favorece a sobrevivência. A métrica IV indica que a variável sexo está fortemente relacionada à variável resposta, o que sugere um alto poder preditivo.

Vamos dar uma olhada na tabela gerada pela função Woe_IV_Continuous para a variável “Fare”.

variablelimit01DistrWoEIV
Fare<=[7.55]0.1438980.0380123.7856241.3312110.14
Fare[7.55] a [7.8542]0.1111110.0760231.4615380.3794900.01
Fare[7.8542] a [8.05]0.1584700.0555562.8524591.0481810.11
Fare[8.05] a [10.5]0.1092900.0526322.0765030.7306850.04
Fare[10.5] a [14.4542]0.0874320.1052630.830601-0.1856060.00
Fare[14.4542] a [21.6792]0.0928960.1081870.858662-0.1523800.00
Fare[21.6792] a [27.]0.0783240.1345030.582324-0.5407290.03
Fare[27.] a [39.6875]0.1038250.0994151.0443590.0434030.00
Fare[39.6875] a [77.9583]0.0765030.1374270.556679-0.5857660.04
Fare 1.0000001.0000001.0000000.0000000.37

Essa variável também tem um IV alto, indicando forte poder preditivo. Para melhorar o modelo, é recomendável criar uma variável binária indicando se o valor é menor ou igual a 10,5. Ao agrupar categorias, é importante lembrar que o valor da informação tende a diminuir. Outro ponto necessário se atentar, é indicado agrupar apenas categorias com WoE semelhantes. No caso da variável “Fare”, a linha 7 tem um WoE positivo próximo de zero, o que sugere uma faixa neutra em relação à sobrevivência. Assim, incluí-la no grupo que favorece a sobrevivência é seguro.

Com base nesta análise rápida, pudemos criar duas variáveis (FLG_Fare_leq_10.5 e FLG_female) que serão úteis na construção do modelo de regressão logística. Os detalhes podem ser vistos na tabela abaixo.

PassengerIdSurvivedPclassSexFareCabinEmbarkedFLG_femaleFLG_Fare_leq_10.5
103male7.2500NaNS01
211female71.2833C85C10
313female7.9250NaNS11
88903female23.4500NaNS10
89011male30.0000C148C00
89103male7.7500NaNQ01

Em resumo, analisar as métricas WoE, IV e outras é crucial para identificar variáveis preditivas e agrupar categorias de forma eficaz para melhorar o desempenho do modelo. Espero que a explicação sobre como interpretar as métricas na tabela tenha fornecido o conhecimento necessário para criar, interpretar e selecionar variáveis para o modelo de regressão logística.

Você pode encontrar todos os materiais de suporte na minha página do Github. E caso você tenha perdido, meu post anterior apresentou a função para calcular WoE e IV em Python. Mas adivinhe só? Estou planejando ir ainda mais a fundo em um post futuro e explicar como essas métricas são calculadas. Então fique ligado! E se você tiver alguma dúvida, não hesite em me perguntar.

Referências:

  • Anderson, Raymond. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, 2007.

  • Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Wiley, 2006.

  • Sudarson Mothilal Thoppay (2015). woe: Computes Weight of Evidence and Information Values. R package version 0.2. https://CRAN.R-project.org/package=woe

  • Thilo Eichenberg (2018). woeBinning: Supervised Weight of Evidence Binning of Numeric Variables and Factors. R package version 0.1.6. https://CRAN.R-project.org/package=woeBinning