Ciencia de Datos

Histograma en Python

11 FEB., 2025

//

5 min. de Lectura

Un histograma es una representación gráfica de la distribución de un conjunto de datos. Se utiliza para ilustrar la frecuencia de los valores en diferentes intervalos, conocidos como "bins" o "clases". Los histogramas son herramientas valiosas en estadística y análisis de datos, ya que permiten visualizar la forma y la dispersión de los datos de manera efectiva.

Componentes de un Histograma

  • Eje X: Representa los intervalos de los datos. Cada intervalo se denomina "bin" y puede tener diferentes anchos.
  • Eje Y: Representa la frecuencia o el número de observaciones dentro de cada intervalo.
  • Barras: Cada barra del histograma indica la frecuencia de los datos que caen dentro de un intervalo específico. La altura de la barra corresponde al número de observaciones en ese intervalo.

Pasos:

1. Importación de las bibliotecas necesarias:

  1. pandas pandas para la manipulación de datos.
  2. matplotlib para realizar los gráficos.
  3. Path de pathlib para manejar rutas de archivos.

2. Leyendo la data

Se lee el archivo CSV utilizando pandas.read_csv y se almacena en el DataFrame state.

3. Creación del histograma

Se crea un histograma utilizando la columna Murder.Rate. Con las siguientes opciones:

  1. density=True: Normaliza el histograma para que el área total sea 1.
  2. xlim=[0, 12]: Establece los límites del eje x de 0 a 12.
  3. bins=range(1, 12): Define los límites de los contenedores (bins) del histograma.
  4. figsize=(4, 4): Establece el tamaño de la figura en 4x4 pulgadas.

4. Añadir la densidad de Kernel al histograma:

Se añade una curva de densidad de Kernel al histograma utilizando la misma columna Murder.Rate del DataFrame. La curva de densidad de Kernel es una estimación suave de la distribución de los datos.

Código completo:


## Histograma de Python

# Paso 1. Importación de bibliotecasnecesarias

from pathlib import Path
import pandas as pd
import matplotlib.pylab as plt

# Paso 2. leyendo data
DATA = Path().resolve() / 'data'

STATE_CSV = DATA / 'state.csv'
state = pd.read_csv(STATE_CSV)

# Paso 3. Histograma

ax = state['Murder.Rate'].plot.hist(density=True, xlim=[0, 12],
                                    bins=range(1,12), figsize=(4, 4))

# Paso 4. Añadir la densidad de Kernel al histograma
state['Murder.Rate'].plot.density(ax=ax)

# Paso 5. Etiquetar el eje x
ax.set_xlabel('Murder Rate (per 100,000)')

# Paso 6. Ajuste del diseño y visualización del gráfico:

plt.tight_layout()
plt.show()

Mira el código completo aquí

Los histogramas son herramientas esenciales en estadística para visualizar y analizar la distribución de datos. Proporcionan una forma clara y efectiva de entender la frecuencia y la variabilidad de los datos, lo que resulta fundamental para la exploración y el análisis de datos en diversas disciplinas.

histograma
Share:

Comentarios (0)

Accede para comentar

Sin comentarios

También te puede interesar

26 NOV., 2024 Conceptos Básicos de Data Science

Principales conceptos de ciencia de datos

3 DIC., 2024 Comandos Básicos de Git

Lista de los principales comando de git

Bonnie image
José Elías Romero Guanipa
Autor
logo

©2024 ViveBTC