Ciencia de Datos

Medidas de Tendencia Central en Python

7 ENE., 2025

//

5 min. de Lectura

Las medidas de tendencia central son estadísticas que describen un conjunto de datos mediante un valor representativo que refleja el centro o la ubicación típica de la distribución. Estas medidas son fundamentales en el análisis de datos, ya que proporcionan un resumen conciso de la información y ayudan a entender el comportamiento general de un conjunto de datos

Bibliotecas necesarias para trabajar las medidas de tendencia central en python:

  1. pandas pandas para la manipulación de datos.
  2. numpy para operaciones numéricas.
  3. trim_mean de scipy.stats para calcular la media truncada.
  4. wquantiles para calcular la mediana ponderada.

1. Media

La media es el promedio de todos los valores en un conjunto de datos. Se utiliza la función de pandas mean

2. Media Truncada

La media truncada es una medida de tendencia central que se calcula eliminando un porcentaje de los valores más altos y más bajos de un conjunto de datos antes de calcular la media aritmética. Este enfoque ayuda a mitigar el impacto de los valores atípicos (outliers) y proporciona una representación más robusta del centro de los datos. Se utiliza la función de scipy.statstrim_mean

3. Media Truncada

La media ponderada es una medida de tendencia central que se utiliza para calcular el promedio de un conjunto de datos, teniendo en cuenta que algunos valores tienen más importancia o peso que otros. A diferencia de la media aritmética, donde todos los valores contribuyen de manera igual al resultado final, en la media ponderada cada valor se multiplica por un peso específico que refleja su importancia relativa. Se utiliza la función de numpy average

4. Mediana

La mediana es el valor que divide un conjunto de datos ordenado en dos mitades iguales. La mediana es menos sensible a los valores atípicos, lo que la hace una medida útil en distribuciones sesgadas. Se utiliza la función de pandas

5. Mediana ponderada

La mediana ponderada es una extensión del concepto de mediana que considera la importancia o el peso de cada valor al calcular el punto medio de un conjunto de datos. A diferencia de la mediana simple, que simplemente identifica el valor central en un conjunto ordenado, la mediana ponderada toma en cuenta los pesos asignados a cada valor, lo que permite una representación más precisa de la tendencia central cuando ciertos valores son más relevantes. Se utiliza el paquete wquatiles

Código completo:


# Importación de las bibliotecas necesarias:
import pandas as pd
import numpy as np
from scipy.stats import trim_mean
import wquantiles

# Definición de la ruta del archivo CSV:
STATE_CSV = 'state.csv' # leer la fuente de los datos

# Se lee el archivo CSV utilizando pandas y se almacena en el DataFrame state.
state = pd.read_csv(STATE_CSV)

# 1. Media
# Se calcula la media de la columna Population del DataFrame state.
mean = state['Population'].mean()

# 2. Media Truncada
# Se calcula la media truncada de la columna Population del DataFrame state, eliminando el 10% de los valores más altos y más bajos.
trim_mean(state['Population'], 0.1)

# 3. Media ponderada
# Se calcula la media ponderada de la columna Murder.Rate del DataFrame state, utilizando los valores de la columna Population como peso
np.average(state['Murder.Rate'], weights=state['Population'])

# 4. Mediana
# Se calcula la mediana de la columna Population del DataFrame state.
state['Population'].median()

# 5. Mediana ponderada
# Se calcula la mediana ponderada de la columna Murder.Rate del DataFrame state, utilizando los valores de la columna Population como peso.
wquantiles.median(state['Murder.Rate'], weights=state['Population'])

Mira el código completo aquí

Resumen:

Las medidas de tendencia central son herramientas esenciales en el análisis de datos que ayudan a resumir, interpretar y comunicar información de manera efectiva. Su elección depende del contexto y las características de los datos que se están analizando.

Share:

Comentarios (0)

Accede para comentar

Sin comentarios

También te puede interesar

26 NOV., 2024 Conceptos Básicos de Data Science

Principales conceptos de ciencia de datos

3 DIC., 2024 Comandos Básicos de Git

Lista de los principales comando de git

Bonnie image
José Elías Romero Guanipa
Autor
logo

©2024 ViveBTC