Limpieza y transformación de datos

Bases de Datos: De Cero a Experto

🎯 Objetivo:

Entender la importancia de limpiar y transformar datos antes de analizarlos, y aprender técnicas comunes para hacerlo.

🌟 ¿Por qué limpiar y transformar datos?

Los datos reales suelen tener errores, valores faltantes o inconsistentes.
Datos limpios y bien estructurados garantizan análisis más confiables y precisos.
La transformación adapta los datos para que los modelos de análisis o machine learning los puedan usar.

🧹 Pasos comunes de limpieza

Acción	Descripción	Ejemplo práctico
Eliminar duplicados	Remover registros repetidos	`df.drop_duplicates()` en pandas
Manejar valores nulos	Completar, eliminar o imputar datos faltantes	`df.fillna(0)` o eliminación
Corregir tipos de datos	Convertir columnas al tipo correcto (fecha, numérico)	`df['fecha'] = pd.to_datetime(df['fecha'])`
Detectar outliers	Identificar y tratar valores fuera de rango	Usar estadísticas o boxplots

🔄 Técnicas de transformación

Normalización y estandarización: ajustar escala de variables numéricas.
Creación de variables nuevas: por ejemplo, extraer año o mes de una fecha.
Codificación de variables categóricas: convertir texto en números (one-hot encoding).
Agrupación y resumen: resumir datos con agregaciones (sumas, promedios).

⚙️ Ejemplo práctico con pandas

📝 Actividad práctica

Consigue un dataset con datos faltantes o inconsistentes.
Realiza limpieza básica: elimina duplicados, maneja nulos y corrige tipos.
Aplica al menos una transformación (normalización, creación de variables, codificación).
Explica cómo mejoraste el dataset para análisis.

✅ Revisión rápida

¿Por qué es importante manejar valores nulos?
¿Qué hace pd.get_dummies() en pandas?
¿Qué es un outlier y por qué puede ser un problema?