
Las medidas de tendencia central son estad铆sticas que describen un conjunto de datos mediante un valor representativo que refleja el centro o la ubicaci贸n t铆pica de la distribuci贸n. Estas medidas son fundamentales en el an谩lisis de datos, ya que proporcionan un resumen conciso de la informaci贸n y ayudan a entender el comportamiento general de un conjunto de datos
Bibliotecas necesarias para trabajar las medidas de tendencia central en python:
- pandas pandas para la manipulaci贸n de datos.
- numpy para operaciones num茅ricas.
- trim_mean de scipy.stats para calcular la media truncada.
- wquantiles para calcular la mediana ponderada.
1. Media
La media es el promedio de todos los valores en un conjunto de datos. Se utiliza la funci贸n de pandas mean
2. Media Truncada
La media truncada es una medida de tendencia central que se calcula eliminando un porcentaje de los valores m谩s altos y m谩s bajos de un conjunto de datos antes de calcular la media aritm茅tica. Este enfoque ayuda a mitigar el impacto de los valores at铆picos (outliers) y proporciona una representaci贸n m谩s robusta del centro de los datos. Se utiliza la funci贸n de scipy.statstrim_mean
3. Media Truncada
La media ponderada es una medida de tendencia central que se utiliza para calcular el promedio de un conjunto de datos, teniendo en cuenta que algunos valores tienen m谩s importancia o peso que otros. A diferencia de la media aritm茅tica, donde todos los valores contribuyen de manera igual al resultado final, en la media ponderada cada valor se multiplica por un peso espec铆fico que refleja su importancia relativa. Se utiliza la funci贸n de numpy average
4. Mediana
La mediana es el valor que divide un conjunto de datos ordenado en dos mitades iguales. La mediana es menos sensible a los valores at铆picos, lo que la hace una medida 煤til en distribuciones sesgadas. Se utiliza la funci贸n de pandas
5. Mediana ponderada
La mediana ponderada es una extensi贸n del concepto de mediana que considera la importancia o el peso de cada valor al calcular el punto medio de un conjunto de datos. A diferencia de la mediana simple, que simplemente identifica el valor central en un conjunto ordenado, la mediana ponderada toma en cuenta los pesos asignados a cada valor, lo que permite una representaci贸n m谩s precisa de la tendencia central cuando ciertos valores son m谩s relevantes. Se utiliza el paquete wquatiles
C贸digo completo:
# Importaci贸n de las bibliotecas necesarias:
import pandas as pd
import numpy as np
from scipy.stats import trim_mean
import wquantiles
# Definici贸n de la ruta del archivo CSV:
STATE_CSV = 'state.csv' # leer la fuente de los datos
# Se lee el archivo CSV utilizando pandas y se almacena en el DataFrame state.
state = pd.read_csv(STATE_CSV)
# 1. Media
# Se calcula la media de la columna Population del DataFrame state.
mean = state['Population'].mean()
# 2. Media Truncada
# Se calcula la media truncada de la columna Population del DataFrame state, eliminando el 10% de los valores m谩s altos y m谩s bajos.
trim_mean(state['Population'], 0.1)
# 3. Media ponderada
# Se calcula la media ponderada de la columna Murder.Rate del DataFrame state, utilizando los valores de la columna Population como peso
np.average(state['Murder.Rate'], weights=state['Population'])
# 4. Mediana
# Se calcula la mediana de la columna Population del DataFrame state.
state['Population'].median()
# 5. Mediana ponderada
# Se calcula la mediana ponderada de la columna Murder.Rate del DataFrame state, utilizando los valores de la columna Population como peso.
wquantiles.median(state['Murder.Rate'], weights=state['Population'])
Mira el c贸digo completo aqu铆
Resumen:
Las medidas de tendencia central son herramientas esenciales en el an谩lisis de datos que ayudan a resumir, interpretar y comunicar informaci贸n de manera efectiva. Su elecci贸n depende del contexto y las caracter铆sticas de los datos que se est谩n analizando.
Comentarios
0Sin comentarios
S茅 el primero en compartir tu opini贸n.
Tambi茅n te puede interesar
desglosaremos capa por capa la maquinaria de los GBT, desde los fundamentos matem谩ticos hasta una implementaci贸n en Python desde cero
Las medidas de dispersi贸n son estad铆sticas que describen la variabilidad o dispersi贸n de un conjunto de datos