Imagen destacada del tutorial: Limpieza y Depuración de Datos con Pandas: Guía Completa para Ciencia de Datos
Análisis de Datos con Pandas

Limpieza y Depuración de Datos con Pandas: Guía Completa para Ciencia de Datos

José Elías Romero Guanipa
02 Sep 2025

Aprende a limpiar y depurar datos en Pandas. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

pandas python ciencia de datos limpieza de datos depuracion +2 más

¡Da tus primeros pasos en la limpieza de datos con Pandas! En este tutorial completo te guiaré paso a paso para que aprendas a limpiar y depurar datos en Pandas, transformando datos desordenados en conjuntos listos para analizar.

Objetivo: Aprender a usar las funciones de Pandas para limpiar y depurar datos, manejando valores nulos, duplicados, tipos de datos y outliers.

Paso 1: Instalación e Importación

Instala pandas si aún no lo tienes. Abre tu terminal o prompt de comandos y escribe:

pip install pandas numpy

Una vez instalado, puedes importarlo en tu código Python:

import pandas as pd
import numpy as np

Paso 2: Exploración Inicial de los Datos

Antes de limpiar, conoce tus datos. Carga tu DataFrame y explóralo.

# Carga tu DataFrame (df) aquí. Por ejemplo:
# df = pd.read_csv('datos_sucios.csv')

# Mira las primeras filas
print("Primeras filas:")
print(df.head())

# Obtén información general sobre la estructura y los tipos de datos
print("\nInformación del DataFrame:")
print(df.info())

# Estadísticas descriptivas rápidas para columnas numéricas
print("\nEstadísticas descriptivas:")
print(df.describe())

Paso 3: Manejo de Valores Nulos

Los valores faltantes son comunes. Identifícalos y decide cómo manejarlos.

# Identifica los nulos
print("Valores nulos por columna:")
print(df.isnull().sum())

# Opción A: Eliminar filas o columnas con nulos
df_limpio = df.dropna()  # Elimina filas con algún nulo
df_limpio = df.dropna(axis=1)  # Elimina columnas con algún nulo
df_limpio = df.dropna(subset=['columna_importante'])  # Elimina filas donde una columna específica es nula

# Opción B: Rellenar nulos (imputación)
# Para números: usa mediana
df['columna_numerica'].fillna(df['columna_numerica'].median(), inplace=True)

# Para texto: usa un valor personalizado
df['columna_texto'].fillna('Desconocido', inplace=True)

# Rellenar con el valor anterior o siguiente
df['columna'].fillna(method='ffill', inplace=True)  # forward fill

Paso 4: Eliminar Duplicados

Los datos repetidos pueden sesgar el análisis. Elimínalos.

# Elimina filas duplicadas exactas
df = df.drop_duplicates()

# Elimina duplicados basados en columnas clave
df = df.drop_duplicates(subset=['columna_id'])

Paso 5: Corregir Tipos de Datos

Asegúrate de que los tipos de datos sean correctos.

# Conversión a numérico
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

# Conversión a datetime
df['fecha'] = pd.to_datetime(df['fecha'], format='%d/%m/%Y', errors='coerce')

# Conversión a categoría
df['categoria'] = df['categoria'].astype('category')

# Verifica los cambios
print(df.dtypes)

Paso 6: Manejo de Valores Atípicos (Outliers)

Los outliers pueden afectar el análisis. Identifícalos y manéjalos.

# Usa el rango intercuartílico (IQR) para una columna numérica
Q1 = df['columna'].quantile(0.25)
Q3 = df['columna'].quantile(0.75)
IQR = Q3 - Q1

# Define los límites
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtra para excluir outliers
df_sin_outliers = df[(df['columna'] >= limite_inferior) & (df['columna'] <= limite_superior)]

# O marca los outliers
df['es_outlier'] = np.where((df['columna'] < limite_inferior) | (df['columna'] > limite_superior), 1, 0)

Paso 7: Estandarizar Texto

Unifica formatos en columnas de texto.

# Minúsculas y eliminar espacios extra
df['columna_texto'] = df['columna_texto'].str.strip().str.lower()

# Corregir palabras comunes
df['pais'] = df['pais'].replace({'eeuu': 'estados unidos', 'usa': 'estados unidos'})

Paso 8: Verificación Final y Exportación

Revisa tu trabajo y guarda los datos limpios.

# Un último vistazo
print(df.info())
print(df.head())

# Exporta a un nuevo archivo
df.to_csv('datos_limpios.csv', index=False)

print("¡Limpieza completada!")

Conclusión

¡Felicidades! Ahora dominas los fundamentos para limpiar y depurar datos en Pandas. Practica con tus propios datasets y explora más funciones avanzadas. Si tienes preguntas, déjalas en los comentarios.

Para más tutoriales sobre ciencia de datos y Python, visita nuestra sección de tutoriales.


¡Con estos conocimientos ya puedes trabajar con datos limpios en Python usando Pandas!


💡 Tip Importante

🔍 Valida y Depura tu Proceso de Limpieza

Para asegurar que tu limpieza sea efectiva y evitar errores, sigue estos consejos:

  • Haz una copia de respaldo antes de modificar tus datos:

    df_original = df.copy()
  • Usa aserciones para verificar integridad después de cada paso:

    assert df.isnull().sum().sum() == 0, "Aún hay valores nulos"
    assert df.duplicated().sum() == 0, "Hay duplicados restantes"
  • Prueba en una muestra pequeña primero para detectar problemas:

    df_sample = df.head(100).copy()
    # Aplica tus pasos de limpieza en df_sample
  • Documenta cada cambio para reproducibilidad:

    # Paso 1: Eliminé duplicados - redujo filas de 1000 a 950

📚 Documentación: Lee más sobre validación de datos en pandas aquí

¡Estos consejos te ayudarán a limpiar datos de manera confiable y sin errores!

Comentarios

Comentarios

Inicia sesión para dejar un comentario.

No hay comentarios aún

Sé el primero en comentar este tutorial.

Tutoriales Relacionados

Descubre más tutoriales relacionados que podrían ser de tu interés

Imagen destacada del tutorial relacionado: Manipulación de Datos con Pandas: Guía Completa para Ciencia de Datos
Análisis de Datos con Pandas

Manipulación de Datos con Pandas: Guía Completa para Ciencia de Datos

Aprende a manipular datos en Pandas. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

José Elías Romero Guanipa
02 Sep 2025
Imagen destacada del tutorial relacionado: Análisis Estadístico con Pandas: Guía Completa para Ciencia de Datos
Análisis de Datos con Pandas

Análisis Estadístico con Pandas: Guía Completa para Ciencia de Datos

Aprende análisis estadístico con Pandas. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

José Elías Romero Guanipa
01 Sep 2025
Imagen destacada del tutorial relacionado: Cómo Leer y Manipular Archivos en Pandas: Guía Completa para Ciencia de Datos
Análisis de Datos con Pandas

Cómo Leer y Manipular Archivos en Pandas: Guía Completa para Ciencia de Datos

Aprende a leer archivos CSV, Excel, JSON y más en Pandas. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

José Elías Romero Guanipa
01 Sep 2025
Imagen destacada del tutorial relacionado: Visualización de Datos con Matplotlib, Seaborn y Pandas: Guía Completa para Ciencia de Datos
Análisis de Datos con Pandas

Visualización de Datos con Matplotlib, Seaborn y Pandas: Guía Completa para Ciencia de Datos

Aprende a visualizar datos en Pandas con Matplotlib y Seaborn. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

José Elías Romero Guanipa
01 Sep 2025
Foto de perfil del autor José Elías Romero Guanipa
José Elías Romero Guanipa
Autor

🌟 Nube de Etiquetas

Descubre temas populares en nuestros tutoriales

python
python 12 tutoriales
ciencia de datos
ciencia de datos 8 tutoriales
pandas
pandas 5 tutoriales
bases de datos
bases de datos 4 tutoriales
dataframe
dataframe 4 tutoriales
poo
poo 3 tutoriales
machine learning
machine learning 3 tutoriales
rendimiento
rendimiento 3 tutoriales
mysql
mysql 3 tutoriales
postgresql
postgresql 3 tutoriales
analisis de datos
analisis de datos 3 tutoriales
algoritmos
algoritmos 2 tutoriales
estructuras datos
estructuras datos 2 tutoriales
principiante
principiante 2 tutoriales
patrones diseño
patrones diseño 2 tutoriales
arquitectura software
arquitectura software 2 tutoriales
solid
solid 2 tutoriales
principios
principios 2 tutoriales
colaboracion
colaboracion 2 tutoriales
sql
sql 2 tutoriales
sqlite
sqlite 2 tutoriales
consultas
consultas 2 tutoriales
sql geoespacial
sql geoespacial 2 tutoriales
postgis
postgis 2 tutoriales
location intelligence
location intelligence 2 tutoriales

Las etiquetas más grandes y brillantes aparecen en más tutoriales

logo logo

©2024 ViveBTC