Ciencia de Datos

Medidas de Dispersión en Python

13 ENE., 2025

//

1 min. de Lectura

Las medidas de dispersión son estadísticas que describen la variabilidad o dispersión de un conjunto de datos. Estas medidas son fundamentales en el análisis de datos, ya que proporcionan un resumen conciso de la información y ayuda a construcción de modelos y la interpretación de resultados en la ciencia de datos

Bibliotecas necesarias para trabajar las medidas de tendencia central en python:

  1. pandas pandas para la manipulación de datos.
  2. numpy para operaciones numéricas.
  3. statsmodels.robust.scale.mad para calcular la desviación absoluta mediana.

1. Desviación estandar

Es una medida estadística que cuantifica la cantidad de variación o dispersión de un conjunto de datos con respecto a su media. Para esto python utiliza la función de pandas std

2. IQR

El rango intercuartil (IQR, por sus siglas en inglés) es una medida de dispersión que describe el rango en el que se encuentra el 50% central de un conjunto de datos. Se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), y es útil para identificar la variabilidad y detectar outliers. Para calcular el cuartil se utiliiza la función de pandas quantile

3. MAD

La desviación absoluta mediana (MAD, por sus siglas en inglés) es una medida de dispersión que indica la variabilidad de un conjunto de datos en relación con su mediana. Se calcula como la mediana de las desviaciones absolutas de cada valor respecto a la mediana del conjunto. Se utiliza la función statsmodels.robust.scale.mad

Código completo:


# importación de las bibliotecas necesarias:
from pathlib import Path
import pandas as pd
import numpy as np
from statsmodels import robust

DATA = Path().resolve() / 'data'
# se define la ruta del archivo CSV que contiene los datos.
STATE_CSV = DATA / 'state.csv' # leer la fuente de los datos

# se lee el archivo CSV utilizando pandas
state = pd.read_csv(STATE_CSV)

# 1. Desviacion estandar
print(state['Population'].std())
# 6848235.347401142

# 2. IQR rango intercuartílico es calculado con la diferencia entre el 75 y el
# 25 cuartil

print(state['Population'].quantile(0.75) - state['Population'].quantile(0.25))
# 4847308.0

# desviacion absoluta mediana de la mediana  se calcula
# con un metodo de statmodels
print(robust.scale.mad(state['Population']))
# 3849876.1459979336

# calculo manual de la desviacion absoluta mediana de la mediana
print(abs(state['Population'] -
          state['Population'].median()).median() / 0.6744897501960817)
# 3849876.1459979336

Mira el código completo aquí

Resumen:

las medidas de tendencia central son herramientas esenciales en el análisis de datos que ayudan a resumir, interpretar y comunicar información de manera efectiva. Su elección depende del contexto y las características de los datos que se están analizando.

Share:

Comentarios (0)

Accede para comentar

Sin comentarios

También te puede interesar

26 NOV., 2024 Conceptos Básicos de Data Science

Principales conceptos de ciencia de datos

10 DIC., 2024 Principales Gráficos en R

Resumen de los principales gráficos que se pueden realizar con el lenguaje R

Bonnie image
José Elías Romero Guanipa
Autor
logo

©2024 ViveBTC