Ciencia de Datos

Diagrama de Cajas en Python

25 ENE., 2025

//

6 min. de Lectura

Un diagrama de caja, tambi茅n conocido como boxplot, es una representaci贸n gr谩fica utilizada en estad铆sticas para mostrar la distribuci贸n de un conjunto de datos. Este tipo de diagrama proporciona informaci贸n sobre la mediana, los cuartiles y los valores at铆picos (outliers) de los datos.

Componentes de un Diagrama de Caja

  • Caja: Representa el rango intercuart铆lico (IQR), que abarca desde el primer cuartil (Q1) hasta el tercer cuartil (Q3).
  • L铆nea Central: Muestra la mediana (Q2) de los datos.
  • "Bigotes": Se extienden desde los cuartiles hasta el valor m铆nimo y m谩ximo dentro de 1.5 veces el IQR.
  • Puntos Fuera de la Caja: Representan los valores at铆picos que caen fuera de los bigotes.

Pasos:

1. Importaci贸n de las bibliotecas necesarias:

  1. pandas pandas para la manipulaci贸n de datos.
  2. matplotlib para realizar los gr谩ficos.
  3. Path de pathlib para manejar rutas de archivos.

2. Leyendo la data

Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame.

2. Leyendo la data

Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame.

3. Creaci贸n del diagrama de cajas:

Se crea un diagrama de cajas utilizando la columna Population del DataFrame diagrama-cajas.py ). Los pasos son los siguientes: divide los valores de la columna Population por 1,000,000 para convertir la poblaci贸n a millones. Se crea un diagrama de cajas con un tama帽o de figura de 3x4 pulgadas. Establece la etiqueta del eje y como "Population (millions)".

4. Ajuste del dise帽o y visualizaci贸n del gr谩fico:

Ajusta el dise帽o del gr谩fico para que los elementos no se superpongan.

C贸digo completo:


## diagrama de cajas en R

# 1. Importaci贸n de las bibliotecas necesarias:

from pathlib import Path
import pandas as pd
import matplotlib.pylab as plt

# 2. Leyendo la data
DATA = Path().resolve() / 'data'

STATE_CSV = DATA / 'state.csv'
state = pd.read_csv(STATE_CSV)

# 3. Creaci贸n del diagrama de cajas:
ax = (state['Population']/1_000_000).plot.box(figsize=(3, 4))
ax.set_ylabel('Population (millions)')

# 4. Ajuste del dise帽o y visualizaci贸n del gr谩fico:

plt.tight_layout()
plt.show()

Mira el c贸digo completo aqu铆

El diagrama de caja es una herramienta visual valiosa para resumir y analizar la distribuci贸n de datos. Usando matplotlib y pandas, puedes crear f谩cilmente un boxplot en Python, lo que te permite identificar la mediana, los cuartiles y los valores at铆picos de tus datos. Esta representaci贸n gr谩fica es especialmente 煤til para comparar m煤ltiples conjuntos de datos y entender sus caracter铆sticas estad铆sticas.

diagrama de cajas
Inicia sesi贸n para dar like
隆Like agregado!
Share:

Comentarios

0
M铆nimo 10 caracteres /

Sin comentarios

S茅 el primero en compartir tu opini贸n.

Tambi茅n te puede interesar

24 FEB., 2025 La Funci贸n de Costo: La Clave para Entrenar Modelos de IA Eficaces

exploraremos en profundidad qu茅 es la funci贸n de costo, su importancia, c贸mo se calcula y los diferentes tipos que existen

9 JUN., 2025 Gradient Boosted Trees desde Cero: Matem谩ticas y C贸digo Python

desglosaremos capa por capa la maquinaria de los GBT, desde los fundamentos matem谩ticos hasta una implementaci贸n en Python desde cero

Bonnie image
Jos茅 El铆as Romero Guanipa
Autor
logo

漏2024 ViveBTC