Optimización de Datos: Técnicas de Preprocesamiento para Modelos Predictivos

Técnicas de Preprocesamiento de Datos

Técnicas de preprocesamiento

1. Análisis Exploratorio de Datos (AED)

Examinar los datos, entenderlos y comprender las relaciones existentes entre ellos.

  • Univariado: Analiza las variables explicativas de forma independiente e identifica errores en los datos, como datos perdidos e inconsistencias (VP/I). Se utiliza estadística descriptiva.
  • Bivariado: Compara una variable explicativa con la variable explicada. Identifica los primeros patrones y entiende el comportamiento de las variables. Se utilizan gráficos.

2. Limpieza de Datos

  • ¿Hay un patrón en las inconsistencias? Si: reemplazo ad-hoc NMAR; No: reemplazo estadístico MCAR.
  • Porcentaje de VP/I, en caso de MCAR:
    • =10-30%: Imputación múltiple
    • >50%: Eliminar variable

3. Transformación de Datos

Objetivos:

  • Dar sentido matemático a las columnas.
  • Mejorar la capacidad de discriminación de una variable.
  • Igualar pesos relativos (normalización/escalamiento).

4. Selección de Atributos

Ventajas:

  • Interpretabilidad.
  • Mejor predicción.
  • Modelos más rápidos.
  • Reduce costos de recolección de variables.

Preguntas de Repaso

  1. ¿Cuál de los siguientes argumentos NO es un objetivo de la etapa de transformación (KDD)?

    b) Descartar variables redundantes

  2. Si tiene una variable del tipo NMAR, nominal, con un porcentaje de valores perdidos de un 50%, ¿qué haría usted?

    e) Crear una categoría adicional para los valores perdidos

  3. Si tiene una variable del tipo MCAR, nominal, con un porcentaje de valores perdidos de un 0.2%, ¿qué haría usted?

    c) Reemplazar con la moda

  4. ¿Cuál de los siguientes argumentos NO es un objetivo de selección de atributos?

    e) Mejorar el acierto en los datos de entrenamiento

  5. ¿Cuál de los siguientes argumentos NO es un objetivo del Análisis Exploratorio de Datos (AED)?

    a) Corregir inconsistencias y valores fuera de rango

  6. Sobre la discusión en el taller sobre las variables Age y Address, estas variables tuvieron un estadígrafo chi-cuadrado de 103.3 y 100.66, respectivamente. Además, tenían una correlación de Pearson de 0.92. Sobre esto, se concluyó que:

    e) Ninguna de las anteriores

  7. ¿Cuál de los siguientes argumentos es un objetivo de la etapa de selección de variables KDD?

    b) Descartar variables redundantes.

  8. En el ejemplo de Bankloan, se eliminó la variable Educación por ser:

    d) Estar sesgada a causa de la naturaleza del proceso de obtención de datos.

  9. Considere una variable continua que tiene un comportamiento no lineal, la transformación apropiada para este tipo de variables es:

    b) Discretización.

Desarrollo

Histograma x1: Criterios y Transformaciones

Transformación:

  1. Box-Cox: Para poder corregir el sesgo existente, mejorar la varianza y ajustar esta distribución a una distribución normal.
  2. Escalar: Este tratamiento se puede realizar o no, no es obligatorio, consiste en agrupar los datos entre valores (0,1).

Criterios:

No ser constante o inútil, es decir, no estar concentrada en un solo valor, tampoco ser irrelevante, es decir, que aporte al modelo (ideal que sea una variable que ayude en la explicación), no representar sesgos en relación a la distribución y no ser redundante.

Objetivo del Modelo Predictivo para INDAP

¿Cuál es el objetivo principal del modelo predictivo en relación con la problemática de INDAP? Describa los criterios y variables utilizadas para definir los segmentos de clientes ¿Cuál fue la razón de esta segmentación?:

El modelo predictivo desarrollado para INDAP tiene como objetivo principal apoyar el proceso de evaluación del riesgo crediticio, mejorando la toma de decisiones y maximizando el beneficio social mediante una asignación más eficiente de los recursos públicos. Dado que INDAP es el principal organismo estatal que apoya a la pequeña agricultura en Chile, contar con una herramienta predictiva resulta esencial para optimizar la entrega de créditos.

Para construir el modelo, se diferenciaron los créditos según su plazo (corto o largo) y la antigüedad del cliente (nuevo o antiguo), ya que estas condiciones implican distintos niveles de riesgo y disponibilidad de información histórica. En particular, los créditos de largo plazo con duración superior a seis años recibieron un tratamiento especial. A partir de esta segmentación, se generaron cinco grupos distintos, para los cuales se desarrolló un modelo de regresión logística específico.

Los modelos se basaron en variables relacionadas con el cliente (edad, estado civil, número de predios, etc.), el crédito (plazo, monto, rubro, etc.) y su comportamiento crediticio pasado con INDAP (moras, condonaciones, renegociaciones, entre otros). Para el caso de créditos de corto plazo a clientes antiguos, se destacan como variables clave el monto solicitado y el historial de morosidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *