
Un histograma es una representación gráfica de la distribución de un conjunto de datos. Se utiliza para ilustrar la frecuencia de los valores en diferentes intervalos, conocidos como "bins" o "clases". Los histogramas son herramientas valiosas en estadística y análisis de datos, ya que permiten visualizar la forma y la dispersión de los datos de manera efectiva.
Componentes de un Histograma
- Eje X: Representa los intervalos de los datos. Cada intervalo se denomina "bin" y puede tener diferentes anchos.
- Eje Y: Representa la frecuencia o el número de observaciones dentro de cada intervalo.
- Barras: Cada barra del histograma indica la frecuencia de los datos que caen dentro de un intervalo específico. La altura de la barra corresponde al número de observaciones en ese intervalo.
Pasos:
1. Importación de las bibliotecas necesarias:
- pandas pandas para la manipulación de datos.
- matplotlib para realizar los gráficos.
- Path de pathlib para manejar rutas de archivos.
2. Leyendo la data
Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame state.
3. Creación del histograma
Se crea un histograma utilizando la columna Murder.Rate. Con las siguientes opciones:
- density=True: Normaliza el histograma para que el área total sea 1.
- xlim=[0, 12]: Establece los límites del eje x de 0 a 12.
- bins=range(1, 12): Define los límites de los contenedores (bins) del histograma.
- figsize=(4, 4): Establece el tamaño de la figura en 4x4 pulgadas.
4. Añadir la densidad de Kernel al histograma:
Se añade una curva de densidad de Kernel al histograma utilizando la misma columna Murder.Rate del DataFrame. La curva de densidad de Kernel es una estimación suave de la distribución de los datos.
Código completo:
## Histograma de Python
# Paso 1. Importación de bibliotecasnecesarias
from pathlib import Path
import pandas as pd
import matplotlib.pylab as plt
# Paso 2. leyendo data
DATA = Path().resolve() / 'data'
STATE_CSV = DATA / 'state.csv'
state = pd.read_csv(STATE_CSV)
# Paso 3. Histograma
ax = state['Murder.Rate'].plot.hist(density=True, xlim=[0, 12],
bins=range(1,12), figsize=(4, 4))
# Paso 4. Añadir la densidad de Kernel al histograma
state['Murder.Rate'].plot.density(ax=ax)
# Paso 5. Etiquetar el eje x
ax.set_xlabel('Murder Rate (per 100,000)')
# Paso 6. Ajuste del diseño y visualización del gráfico:
plt.tight_layout()
plt.show()
Mira el código completo aquí
Los histogramas son herramientas esenciales en estadística para visualizar y analizar la distribución de datos. Proporcionan una forma clara y efectiva de entender la frecuencia y la variabilidad de los datos, lo que resulta fundamental para la exploración y el análisis de datos en diversas disciplinas.

Accede para darle LIKE
Comentarios (0)
Sin comentarios