Las medidas de dispersión son estadísticas que describen la variabilidad o dispersión de un conjunto de datos. Estas medidas son fundamentales en el análisis de datos, ya que proporcionan un resumen conciso de la información y ayuda a construcción de modelos y la interpretación de resultados en la ciencia de datos
Bibliotecas necesarias para trabajar las medidas de tendencia central en python:
- pandas pandas para la manipulación de datos.
- numpy para operaciones numéricas.
- statsmodels.robust.scale.mad para calcular la desviación absoluta mediana.
1. Desviación estandar
Es una medida estadística que cuantifica la cantidad de variación o dispersión de un conjunto de datos con respecto a su media. Para esto python utiliza la función de pandas std
2. IQR
El rango intercuartil (IQR, por sus siglas en inglés) es una medida de dispersión que describe el rango en el que se encuentra el 50% central de un conjunto de datos. Se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), y es útil para identificar la variabilidad y detectar outliers. Para calcular el cuartil se utiliiza la función de pandas quantile
3. MAD
La desviación absoluta mediana (MAD, por sus siglas en inglés) es una medida de dispersión que indica la variabilidad de un conjunto de datos en relación con su mediana. Se calcula como la mediana de las desviaciones absolutas de cada valor respecto a la mediana del conjunto. Se utiliza la función statsmodels.robust.scale.mad
Código completo:
# importación de las bibliotecas necesarias:
from pathlib import Path
import pandas as pd
import numpy as np
from statsmodels import robust
DATA = Path().resolve() / 'data'
# se define la ruta del archivo CSV que contiene los datos.
STATE_CSV = DATA / 'state.csv' # leer la fuente de los datos
# se lee el archivo CSV utilizando pandas
state = pd.read_csv(STATE_CSV)
# 1. Desviacion estandar
print(state['Population'].std())
# 6848235.347401142
# 2. IQR rango intercuartílico es calculado con la diferencia entre el 75 y el
# 25 cuartil
print(state['Population'].quantile(0.75) - state['Population'].quantile(0.25))
# 4847308.0
# desviacion absoluta mediana de la mediana se calcula
# con un metodo de statmodels
print(robust.scale.mad(state['Population']))
# 3849876.1459979336
# calculo manual de la desviacion absoluta mediana de la mediana
print(abs(state['Population'] -
state['Population'].median()).median() / 0.6744897501960817)
# 3849876.1459979336
Mira el código completo aquí
Resumen:
las medidas de tendencia central son herramientas esenciales en el análisis de datos que ayudan a resumir, interpretar y comunicar información de manera efectiva. Su elección depende del contexto y las características de los datos que se están analizando.
Accede para darle LIKE
Comentarios (0)
Sin comentarios
También te puede interesar
Resumen de los principales gráficos que se pueden realizar con el lenguaje R