Dominando a Regressão Logística: Desvendando as Métricas WoE e IV para Seleção e Interpretação de Variáveis.
WoE e IV para Seleção e Interpretação de Variáveis.
Você já ouviu falar em WoE e IV? Essas siglas significam Valor de Informação e Peso de Evidência, respectivamente, e são muito importantes na hora de construir, selecionar e interpretar variáveis para modelos de regressão logística.
Essas métricas ajudam a ter insights sobre a eficácia de uma variável em prever a resposta desejada, além de descobrir a direção em que essa variável está inclinando a resposta.
Ao final deste post, você será capaz de interpretar essas métricas e criar variáveis por agrupamento, tudo com a ajuda de exemplos práticos baseados nos dados da competição Titanic do Kaggle. Vamos juntos nessa jornada?
Apresentação das métricas
Lembra do post anterior sobre como criar as funções WoE e IV em Python? Agora eu vou te mostrar como interpretar a tabela e extrair ainda mais insights!
Abaixo são explicadas as diversas métricas apresentadas na tabela que são úteis para avaliar a relação entre a variável estudada e a ocorrência de resultados negativos ou positivos.
- Proporção 0 ou 1 na variável resposta para cada setor da variável estudada, o que ajuda a entender a distribuição da variável em relação aos resultados.
- WoE, uma métrica útil para avaliar a discriminação da variável. Quanto mais longe de 0 o WoE estiver, mais discriminatória será a variável. Um WoE negativo indica que a variável favorece a ocorrência da variável resposta, enquanto um WoE positivo indica que a variável não favorece a ocorrência.
- IV, o Valor de Informação que ajuda a avaliar a capacidade preditiva das variáveis. É importante destacar que se um setor da variável indicar uma forte associação com a variável resposta, mas aparecer com pouca frequência na população, seu IV não será alto. O Valor de Informação Total de uma variável é a soma dos IVs para cada setor estudado.
Além disso, temos uma tabela que indica a classificação dos valores de IV:
IV | Classificação |
---|---|
≤ 0.02 | Não é útil para prever |
0.02 -0.1 | Poder de previsão fraco |
0.1 - 0.3 | Poder de previsão moderado |
0.3 - 0.5 | Poder de previsão forte |
> 0.5 | Poder de previsão suspeito |
Essa tabela é importante para avaliar a qualidade da capacidade preditiva da variável, de acordo com o valor do IV. É interessante ficar atento à classificação de cada valor e utilizá-la como referência para a interpretação dos resultados.
Essas métricas permitem que você tenha uma visão ainda mais clara dos seus dados! Com elas, você pode compreender melhor a relação entre as variáveis estudadas e o resultado que você está buscando prever. Não deixe de utilizá-las para melhorar a qualidade da sua análise e tomar decisões mais embasadas!
Criação de variáveis por agrupamento
Agrupar categorias é uma alternativa na criação de variáveis para modelos preditivos. Isso envolve analisar a similaridade na discriminação das variáveis resposta e avaliar casos representativos em cada atributo, resultando em categorias agrupadas de uma forma que faça sentido. O agrupamento de categorias com base na análise de IV e WoE apresenta várias vantagens, como simplificar a equação, reduzir o risco de overfitting e tornar as variáveis mais adequadas para o modelo. No entanto, é importante lembrar que o valor de informação sempre diminui quando as categorias são agrupadas, e apenas categorias com WoE semelhantes devem ser combinadas para evitar a perda de informações importantes. Portanto, ao realizar essa etapa, é fundamental buscar um equilíbrio entre a simplificação e a manutenção da coerência das informações.
Mão na massa
Vamos colocar em prática tudo o que aprendemos e ir além na análise dos dados.
Ao aplicarmos a função Woe_IV_Discrete na variável “Sex” dos dados da competição Titanic - Machine Learning from Disaster do Kaggle, encontramos alguns insights interessantes.
Survived | 0 | 1 | Distr | WoE | IV | IV_total |
---|---|---|---|---|---|---|
Sex | ||||||
female | 0.147541 | 0.681287 | 0.216562 | -1.529877 | 0.816565 | 1.341681 |
male | 0.852459 | 0.318713 | 2.674688 | 0.983833 | 0.525116 | 1.341681 |
A métrica WoE confirma que ser do sexo feminino favorece a sobrevivência. A métrica IV indica que a variável sexo está fortemente relacionada à variável resposta, o que sugere um alto poder preditivo.
Vamos dar uma olhada na tabela gerada pela função Woe_IV_Continuous para a variável “Fare”.
variable | limit | 0 | 1 | Distr | WoE | IV |
---|---|---|---|---|---|---|
Fare | <=[7.55] | 0.143898 | 0.038012 | 3.785624 | 1.331211 | 0.14 |
Fare | [7.55] a [7.8542] | 0.111111 | 0.076023 | 1.461538 | 0.379490 | 0.01 |
Fare | [7.8542] a [8.05] | 0.158470 | 0.055556 | 2.852459 | 1.048181 | 0.11 |
Fare | [8.05] a [10.5] | 0.109290 | 0.052632 | 2.076503 | 0.730685 | 0.04 |
Fare | [10.5] a [14.4542] | 0.087432 | 0.105263 | 0.830601 | -0.185606 | 0.00 |
Fare | [14.4542] a [21.6792] | 0.092896 | 0.108187 | 0.858662 | -0.152380 | 0.00 |
Fare | [21.6792] a [27.] | 0.078324 | 0.134503 | 0.582324 | -0.540729 | 0.03 |
Fare | [27.] a [39.6875] | 0.103825 | 0.099415 | 1.044359 | 0.043403 | 0.00 |
Fare | [39.6875] a [77.9583] | 0.076503 | 0.137427 | 0.556679 | -0.585766 | 0.04 |
Fare | 1.000000 | 1.000000 | 1.000000 | 0.000000 | 0.37 |
Essa variável também tem um IV alto, indicando forte poder preditivo. Para melhorar o modelo, é recomendável criar uma variável binária indicando se o valor é menor ou igual a 10,5. Ao agrupar categorias, é importante lembrar que o valor da informação tende a diminuir. Outro ponto necessário se atentar, é indicado agrupar apenas categorias com WoE semelhantes. No caso da variável “Fare”, a linha 7 tem um WoE positivo próximo de zero, o que sugere uma faixa neutra em relação à sobrevivência. Assim, incluí-la no grupo que favorece a sobrevivência é seguro.
Com base nesta análise rápida, pudemos criar duas variáveis (FLG_Fare_leq_10.5 e FLG_female) que serão úteis na construção do modelo de regressão logística. Os detalhes podem ser vistos na tabela abaixo.
PassengerId | Survived | Pclass | Sex | … | Fare | Cabin | Embarked | FLG_female | FLG_Fare_leq_10.5 |
---|---|---|---|---|---|---|---|---|---|
1 | 0 | 3 | male | … | 7.2500 | NaN | S | 0 | 1 |
2 | 1 | 1 | female | … | 71.2833 | C85 | C | 1 | 0 |
3 | 1 | 3 | female | … | 7.9250 | NaN | S | 1 | 1 |
… | … | … | … | … | … | … | … | … | … |
889 | 0 | 3 | female | … | 23.4500 | NaN | S | 1 | 0 |
890 | 1 | 1 | male | … | 30.0000 | C148 | C | 0 | 0 |
891 | 0 | 3 | male | … | 7.7500 | NaN | Q | 0 | 1 |
Em resumo, analisar as métricas WoE, IV e outras é crucial para identificar variáveis preditivas e agrupar categorias de forma eficaz para melhorar o desempenho do modelo. Espero que a explicação sobre como interpretar as métricas na tabela tenha fornecido o conhecimento necessário para criar, interpretar e selecionar variáveis para o modelo de regressão logística.
Você pode encontrar todos os materiais de suporte na minha página do Github. E caso você tenha perdido, meu post anterior apresentou a função para calcular WoE e IV em Python. Mas adivinhe só? Estou planejando ir ainda mais a fundo em um post futuro e explicar como essas métricas são calculadas. Então fique ligado! E se você tiver alguma dúvida, não hesite em me perguntar.
Referências:
Anderson, Raymond. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, 2007.
Siddiqi, Naeem. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Wiley, 2006.
Sudarson Mothilal Thoppay (2015). woe: Computes Weight of Evidence and Information Values. R package version 0.2. https://CRAN.R-project.org/package=woe
Thilo Eichenberg (2018). woeBinning: Supervised Weight of Evidence Binning of Numeric Variables and Factors. R package version 0.1.6. https://CRAN.R-project.org/package=woeBinning