Análisis de Datos con Pandas

Cómo Leer y Manipular Archivos en Pandas: Guía Completa para Ciencia de Datos

José Elías Romero Guanipa

01 Sep 2025

Aprende a leer archivos CSV, Excel, JSON y más en Pandas. Guía paso a paso para principiantes en ciencia de datos con ejemplos prácticos en Python.

pandas python ciencia de datos lectura de archivos csv +4 más

¡Da tus primeros pasos en la ciencia de datos con Pandas! Todo comienza por saber importar y manipular datos desde archivos. En este tutorial completo te guiaré paso a paso para que aprendas a leer distintos tipos de archivos en Pandas, incluyendo CSV, Excel y JSON.

Objetivo: Aprender a usar las funciones de Pandas para importar y manipular datos desde distintos formatos de archivo hacia un DataFrame, la estructura fundamental para el análisis de datos en ciencia de datos.

Paso 1: Instalación e Importación

Instala pandas si aún no lo tienes. Abre tu terminal o prompt de comandos y escribe:

pip install pandas

Una vez instalado, puedes importarlo en tu código Python:

import pandas as pd

Tipos de archivos que puedes leer con Pandas

Pandas es una herramienta poderosa que te permite leer datos desde múltiples formatos:

CSV: Archivos de valores separados por comas
Excel: Archivos .xlsx o .xls
JSON: Archivos de notación de objetos JavaScript
SQL: Bases de datos SQL
HTML: Tablas desde páginas web
Parquet: Formato columnar eficiente
HDF5: Formato para grandes datasets

Paso 2: Leer un Archivo CSV (.csv)

Es el formato más común. Usa la función read_csv().

Ejemplo básico:
```
df = pd.read_csv('mi_archivo.csv')
```

Con opciones útiles (para archivos con peculiaridades):

df = pd.read_csv('mi_archivo.csv', sep=';', encoding='latin-1', header=0)
# sep=';' para archivos separados por punto y coma
# encoding='latin-1' para resolver problemas de acentos y caracteres especiales
# header=0 para indicar que la primera fila contiene los nombres de las columnas

Paso 3: Leer un Archivo de Excel (.xlsx o .xls)

Necesitarás instalar la librería openpyxl para archivos .xlsx

pip install openpyxl

Usa la función read_excel().

Ejemplo:

df = pd.read_excel('mi_archivo.xlsx', sheet_name='Hoja1')
# sheet_name puede ser el nombre de la hoja o su índice (ej: 0 para la primera hoja)

Paso 4: Leer un Archivo JSON (.json)

Muy común para datos web y APIs. Usa la función read_json().

Ejemplo:
```
df = pd.read_json('mi_archivo.json')
```
Tip: Si la estructura del JSON es compleja, puede que necesites usar el parámetro orient para especificar su formato.

Paso 5: Leer un Archivo de Texto Plano (.txt)

Similar a un CSV. Si tiene un formato regular (valores separados por tabuladores, comas, etc.), puedes usar read_csv() especificando el separador.

Ejemplo para un archivo separado por tabuladores:
```
df = pd.read_csv('mi_archivo.txt', sep='\t')
```

Paso 6: Verificar que la Importación fue Exitosa

¡Siempre comprueba tus datos! Usa estos comandos para visualizar las primeras filas y la estructura de tu nuevo DataFrame:

    df.head()  # Muestra las primeras 5 filas
    df.info()  # Muestra el tipo de datos de cada columna y si hay valores nulos
    df.shape   # Muestra el número de filas y columnas

Paso 7: (Opcional) Explorar Otras Fuentes

Pandas puede leer datos de muchas otras fuentes directamente, como:

URLs: pd.read_csv('https://url.com/archivo.csv')
Bases de datos SQL: Usando pd.read_sql()
Clipboard: pd.read_clipboard() para copiar y pegar datos de una tabla.

Conclusión

¡Felicidades! Ahora dominas los fundamentos para leer archivos en Pandas. Practica con tus propios datasets y explora más funciones avanzadas de Pandas para el análisis de datos en ciencia de datos. Si tienes preguntas, déjalas en los comentarios.

Para más tutoriales sobre ciencia de datos y Python, visita nuestra sección de tutoriales.

¡Con estos conocimientos básicos ya puedes comenzar a trabajar con datos en Python usando Pandas!

💡 Tip Importante

🚀 Mejora el Rendimiento con Archivos Grandes

Cuando trabajes con archivos muy grandes, considera estas estrategias para optimizar el rendimiento:
Usa chunksize en read_csv() para procesar el archivo en partes:
for chunk in pd.read_csv('archivo_grande.csv', chunksize=10000):
  # Procesa cada chunk
  procesar_datos(chunk)
Especifica tipos de datos para reducir el uso de memoria:
tipos = {'columna1': 'int32', 'columna2': 'category'}
df = pd.read_csv('archivo.csv', dtype=tipos)
Lee solo las columnas necesarias:
df = pd.read_csv('archivo.csv', usecols=['col1', 'col2', 'col5'])
📚 Documentación: Puedes revisar la documentación completa de pandas para lectura de archivos aquí

¡Estos consejos te ayudarán a manejar datasets de cualquier tamaño de manera eficiente!

Cómo Leer y Manipular Archivos en Pandas: Guía Completa para Ciencia de Datos

Paso 1: Instalación e Importación

Tipos de archivos que puedes leer con Pandas

Paso 2: Leer un Archivo CSV (.csv)

Paso 3: Leer un Archivo de Excel (.xlsx o .xls)

Paso 4: Leer un Archivo JSON (.json)

Paso 5: Leer un Archivo de Texto Plano (.txt)

Paso 6: Verificar que la Importación fue Exitosa

Paso 7: (Opcional) Explorar Otras Fuentes

Conclusión

💡 Tip Importante

🚀 Mejora el Rendimiento con Archivos Grandes

Comentarios

Comentarios

No hay comentarios aún

Tutoriales Relacionados

Análisis Estadístico con Pandas: Guía Completa para Ciencia de Datos

Visualización de Datos con Matplotlib, Seaborn y Pandas: Guía Completa para Ciencia de Datos

Limpieza y Depuración de Datos con Pandas: Guía Completa para Ciencia de Datos

Manipulación de Datos con Pandas: Guía Completa para Ciencia de Datos

José Elías Romero Guanipa

Tutoriales Recientes

Domina Archivos en Python: Lectura, Escritura y Bu...

Código a Prueba de Fallos: Manejo de Errores en Py...

Piensa como Programador: Algoritmos y Lógica en Ac...

Compiladores e Intérpretes: Del Código al Ejecutab...

NumPy para Data Science: Análisis de Datos en la P...

Tutoriales Más Populares

Subplots y Múltiples Figuras con Matplotlib: Layou...

Estructuras de Datos y Algoritmos: Código Rápido y...

SQL para Datos Geoespaciales: Dominando Location I...

Git en Equipo: Colaboración y Resolución de Confli...

Visualización de Datos con Matplotlib, Seaborn y P...

🌟 Nube de Etiquetas