Contenido del curso
Bases de Datos: De Cero a Experto

🎯 Objetivo:

Entender la importancia de limpiar y transformar datos antes de analizarlos, y aprender técnicas comunes para hacerlo.


🌟 ¿Por qué limpiar y transformar datos?

  • Los datos reales suelen tener errores, valores faltantes o inconsistentes.

  • Datos limpios y bien estructurados garantizan análisis más confiables y precisos.

  • La transformación adapta los datos para que los modelos de análisis o machine learning los puedan usar.


🧹 Pasos comunes de limpieza

Acción Descripción Ejemplo práctico
Eliminar duplicados Remover registros repetidos df.drop_duplicates() en pandas
Manejar valores nulos Completar, eliminar o imputar datos faltantes df.fillna(0) o eliminación
Corregir tipos de datos Convertir columnas al tipo correcto (fecha, numérico) df['fecha'] = pd.to_datetime(df['fecha'])
Detectar outliers Identificar y tratar valores fuera de rango Usar estadísticas o boxplots

🔄 Técnicas de transformación

  • Normalización y estandarización: ajustar escala de variables numéricas.

  • Creación de variables nuevas: por ejemplo, extraer año o mes de una fecha.

  • Codificación de variables categóricas: convertir texto en números (one-hot encoding).

  • Agrupación y resumen: resumir datos con agregaciones (sumas, promedios).


⚙️ Ejemplo práctico con pandas

python
import pandas as pd

# Cargar datos
df = pd.read_csv('datos.csv')

# Eliminar duplicados
df = df.drop_duplicates()

# Manejar valores nulos
df['edad'] = df['edad'].fillna(df['edad'].median())

# Convertir fecha a datetime
df['fecha'] = pd.to_datetime(df['fecha'])

# Crear columna año
df['año'] = df['fecha'].dt.year

# Codificar variable categórica
df = pd.get_dummies(df, columns=['categoria'])

print(df.head())


📝 Actividad práctica

  1. Consigue un dataset con datos faltantes o inconsistentes.

  2. Realiza limpieza básica: elimina duplicados, maneja nulos y corrige tipos.

  3. Aplica al menos una transformación (normalización, creación de variables, codificación).

  4. Explica cómo mejoraste el dataset para análisis.


✅ Revisión rápida

  • ¿Por qué es importante manejar valores nulos?

  • ¿Qué hace pd.get_dummies() en pandas?

  • ¿Qué es un outlier y por qué puede ser un problema?

Scroll al inicio