Ciencia de Datos

Diagrama de Cajas en Python

25 ENE., 2025

//

6 min. de Lectura

Un diagrama de caja, también conocido como boxplot, es una representación gráfica utilizada en estadísticas para mostrar la distribución de un conjunto de datos. Este tipo de diagrama proporciona información sobre la mediana, los cuartiles y los valores atípicos (outliers) de los datos.

Componentes de un Diagrama de Caja

  • Caja: Representa el rango intercuartílico (IQR), que abarca desde el primer cuartil (Q1) hasta el tercer cuartil (Q3).
  • Línea Central: Muestra la mediana (Q2) de los datos.
  • "Bigotes": Se extienden desde los cuartiles hasta el valor mínimo y máximo dentro de 1.5 veces el IQR.
  • Puntos Fuera de la Caja: Representan los valores atípicos que caen fuera de los bigotes.

Pasos:

1. Importación de las bibliotecas necesarias:

  1. pandas pandas para la manipulación de datos.
  2. matplotlib para realizar los gráficos.
  3. Path de pathlib para manejar rutas de archivos.

2. Leyendo la data

Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame.

2. Leyendo la data

Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame.

3. Creación del diagrama de cajas:

Se crea un diagrama de cajas utilizando la columna Population del DataFrame diagrama-cajas.py ). Los pasos son los siguientes: divide los valores de la columna Population por 1,000,000 para convertir la población a millones. Se crea un diagrama de cajas con un tamaño de figura de 3x4 pulgadas. Establece la etiqueta del eje y como "Population (millions)".

4. Ajuste del diseño y visualización del gráfico:

Ajusta el diseño del gráfico para que los elementos no se superpongan.

Código completo:


## diagrama de cajas en R

# 1. Importación de las bibliotecas necesarias:

from pathlib import Path
import pandas as pd
import matplotlib.pylab as plt

# 2. Leyendo la data
DATA = Path().resolve() / 'data'

STATE_CSV = DATA / 'state.csv'
state = pd.read_csv(STATE_CSV)

# 3. Creación del diagrama de cajas:
ax = (state['Population']/1_000_000).plot.box(figsize=(3, 4))
ax.set_ylabel('Population (millions)')

# 4. Ajuste del diseño y visualización del gráfico:

plt.tight_layout()
plt.show()

Mira el código completo aquí

El diagrama de caja es una herramienta visual valiosa para resumir y analizar la distribución de datos. Usando matplotlib y pandas, puedes crear fácilmente un boxplot en Python, lo que te permite identificar la mediana, los cuartiles y los valores atípicos de tus datos. Esta representación gráfica es especialmente útil para comparar múltiples conjuntos de datos y entender sus características estadísticas.

diagrama de cajas
Share:

Comentarios (0)

Accede para comentar

Sin comentarios

También te puede interesar

26 NOV., 2024 Conceptos Básicos de Data Science

Principales conceptos de ciencia de datos

4 DIC., 2024 Estructuras de Datos en Python

Descripción de las principales estructuras de datos explicadas usando el lenguaje de programación python

Bonnie image
José Elías Romero Guanipa
Autor
logo

©2024 ViveBTC