Medidas de tendencia central en R: media, mediana y moda
En esta lección aprenderás a calcular, interpretar y aplicar las medidas de tendencia central —media, mediana y moda— utilizando el lenguaje R, analizando su utilidad práctica y limitaciones en diferentes contextos de datos.
Objetivos de Aprendizaje
Al finalizar esta clase, el estudiante será capaz de:
- Explicar los conceptos de media, mediana y moda, destacando sus diferencias.
- Calcular cada medida en R con datos reales o simulados.
- Analizar cómo afectan los valores atípicos a la media y la mediana.
- Comparar las ventajas y limitaciones de cada medida según el tipo de datos.
- Diseñar un análisis social usando medidas de tendencia central.
ÍNDICE DE CONTENIDOS:
Introducción conceptual
Cálculo de media, mediana y moda en R
Análisis de valores atípicos
Comparación de medidas
Caso aplicado: fenómeno social
Actividad integradora
¿Qué representan las medidas de tendencia central?
Las medidas de tendencia central son estadísticas que resumen un conjunto de datos en un único valor que representa el «centro» o valor típico del conjunto. Estas medidas permiten obtener una idea rápida y precisa del comportamiento general de los datos.
- Media: Es el promedio aritmético y se obtiene sumando todos los valores y dividiendo entre la cantidad total de datos. Es sensible a valores extremos o atípicos, lo que puede afectar significativamente su representatividad en ciertos contextos.
- Mediana: Es el valor que ocupa la posición central cuando los datos están ordenados de menor a mayor. La mediana es robusta frente a valores extremos, lo que la hace especialmente útil cuando el conjunto de datos incluye valores atípicos o sesgados.
- Moda: Es el valor que aparece con mayor frecuencia en un conjunto de datos. Puede ser inexistente o múltiple (cuando dos o más valores aparecen con la misma frecuencia máxima). La moda es particularmente útil para describir datos categóricos o discretos.
La elección adecuada de una medida de tendencia central depende del tipo de datos que se analizan y del objetivo del estudio. Por ejemplo, en análisis financieros con valores atípicos es preferible usar la mediana, mientras que en estudios sobre preferencias o categorías suele preferirse la moda.
En las siguientes secciones, profundizaremos cómo calcular cada una de estas medidas utilizando el lenguaje de programación R, analizaremos su sensibilidad ante valores atípicos y compararemos sus ventajas y desventajas en contextos prácticos reales.
Cálculo de media, mediana y moda en R
Funciones básicas de R
Para calcular las medidas de tendencia central en R, utilizaremos principalmente tres funciones: mean(), median() y una función personalizada para calcular la moda, ya que R no incluye una función predeterminada para ello.
Ejemplo práctico con datos simulados
Considera un conjunto de datos simulados que representan los ingresos mensuales (en dólares) de un grupo pequeño de personas:
# Creación de un conjunto de datos simulados
ingresos <- c(450, 480, 490, 500, 510, 515, 10000)
# Cálculo de la media
media_ingresos <- mean(ingresos)
print(paste("La media de ingresos es:", media_ingresos))
# Cálculo de la mediana
mediana_ingresos <- median(ingresos)
print(paste("La mediana de ingresos es:", mediana_ingresos))
# Definición y cálculo de la moda (función personalizada)
moda <- function(x) {
valores_unicos <- unique(x)
frecuencias <- tabulate(match(x, valores_unicos))
valores_unicos[frecuencias == max(frecuencias)]
}
moda_ingresos <- moda(ingresos)
print(paste("La moda de ingresos es:", paste(moda_ingresos, collapse=", ")))
Interpretación rápida de resultados
- Media: Sensible a valores extremos, observamos cómo el valor atípico (10,000) eleva considerablemente el promedio, alejándolo del ingreso típico del grupo.
- Mediana: Robustez frente a valores extremos, ofrece una mejor representación del ingreso típico del grupo.
- Moda: Muestra cuál valor específico es más frecuente, aunque puede no ser representativa si no hay repetición significativa de valores.
En la siguiente sección analizaremos más detalladamente cómo afecta un valor extremo o atípico a estas medidas y cuándo es recomendable usar cada una según el contexto.
Análisis de valores atípicos
Impacto en media vs. mediana
Los valores atípicos (o extremos) pueden alterar significativamente las medidas estadísticas, especialmente la media. La mediana, en cambio, suele resistir mejor estos efectos debido a que solo considera la posición relativa de los valores ordenados y no su magnitud específica.
Ejemplo práctico: influencia de valores atípicos
Consideremos nuevamente nuestro conjunto original de ingresos y añadamos un valor extremadamente alto:
# Datos originales sin valor extremo
ingresos_normales <- c(450, 480, 490, 500, 510, 515)
# Datos con valor extremo añadido
ingresos_atipico <- c(ingresos_normales, 10000)
# Cálculo de media y mediana sin valor atípico
media_normal <- mean(ingresos_normales)
mediana_normal <- median(ingresos_normales)
# Cálculo de media y mediana con valor atípico
media_atipico <- mean(ingresos_atipico)
mediana_atipico <- median(ingresos_atipico)
# Resultados
print(paste("Media sin valor atípico:", media_normal))
print(paste("Mediana sin valor atípico:", mediana_normal))
print(paste("Media con valor atípico:", media_atipico))
print(paste("Mediana con valor atípico:", mediana_atipico))
Interpretación de resultados
- Media: Sin el valor extremo, refleja adecuadamente el ingreso típico del grupo. Al añadir un valor extremadamente alto (10,000), la media se incrementa considerablemente, mostrando una imagen distorsionada de la realidad económica del grupo.
- Mediana: Con y sin el valor extremo, la mediana permanece relativamente estable, ofreciendo una representación más realista del ingreso \»típico\» de los individuos.
Conclusión sobre robustez estadística
Este ejemplo demuestra claramente que la mediana es más robusta frente a la presencia de valores atípicos, convirtiéndose en una mejor opción para representar el centro de conjuntos de datos sesgados o con posibles errores extremos. Por lo tanto, es crucial considerar el contexto y evaluar la distribución de los datos antes de elegir qué medida de tendencia central usar.
Comparación de medidas
Ventajas, limitaciones y usos recomendados
Las tres medidas de tendencia central —media, mediana y moda— ofrecen distintas perspectivas sobre los datos. La elección entre ellas depende del tipo de variable, la distribución de los datos y el propósito del análisis. A continuación se comparan sus principales características:
Media
- Ventajas: Utiliza toda la información disponible del conjunto de datos; es útil para cálculos posteriores como varianza o desviación estándar.
- Limitaciones: Extremadamente sensible a valores atípicos; puede no representar adecuadamente el “centro” cuando los datos están sesgados.
- Uso recomendado: En distribuciones simétricas y cuando los datos están completos y libres de valores extremos. Común en economía, ingeniería, y ciencias exactas.
Mediana
- Ventajas: Robusta ante valores extremos y sesgos; representa mejor el valor central cuando la distribución es asimétrica.
- Limitaciones: No aprovecha toda la información del conjunto de datos; no es adecuada para operaciones algebraicas más complejas.
- Uso recomendado: En distribuciones sesgadas, o cuando existen outliers. Frecuente en estudios de ingresos, precios inmobiliarios o tiempos de espera.
Moda
- Ventajas: Sencilla de interpretar; útil para variables cualitativas o categóricas. Puede aplicarse incluso cuando los datos no son numéricos.
- Limitaciones: Puede haber más de una moda o ninguna; no tiene sentido calcularla en muchos tipos de datos continuos sin repeticiones.
- Uso recomendado: En análisis de datos cualitativos, encuestas de opinión, marketing, y estudios sociales donde se quiere identificar la preferencia más frecuente.
En resumen, no existe una única “mejor” medida de tendencia central. Su elección debe basarse en un análisis previo de los datos y en el objetivo del estudio. Una práctica profesional robusta suele incluir más de una medida para obtener una visión más completa y contrastada de los datos.
Caso aplicado: fenómeno social
Interpretación de datos reales
En esta sección, analizaremos un conjunto de datos simulados representando los ingresos mensuales de una comunidad. El objetivo es decidir qué medida de tendencia central —media, mediana o moda— refleja mejor la realidad socioeconómica del grupo observado, considerando tanto aspectos técnicos como implicancias sociales.
Datos simulados
# Simulación de ingresos mensuales en una comunidad
ingresos_comunidad <- c(400, 420, 430, 450, 460, 470, 490, 510, 520, 540,
600, 650, 700, 1500, 1800, 2000, 2500, 3000, 4000, 10000)
# Cálculo de medidas de tendencia central
media_c <- mean(ingresos_comunidad)
mediana_c <- median(ingresos_comunidad)
moda <- function(x) {
ux <- unique(x)
frec <- tabulate(match(x, ux))
ux[frec == max(frec)]
}
moda_c <- moda(ingresos_comunidad)
# Mostrar resultados
print(paste("Media:", media_c))
print(paste("Mediana:", mediana_c))
print(paste("Moda:", paste(moda_c, collapse = ", ")))
Resultados esperados
- Media: Se verá fuertemente influenciada por los ingresos más altos (especialmente el valor de 10.000), dando una impresión de ingreso promedio superior a lo que experimenta la mayoría.
- Mediana: Representa el ingreso central más típico del conjunto, ignorando la distorsión causada por los valores extremos.
- Moda: Es poco útil en este caso, ya que los ingresos individuales son muy variados y no se repite ningún valor.
Análisis interpretativo
Desde el punto de vista técnico, la mediana es la medida que mejor refleja la situación real de la mayoría de los miembros de la comunidad, ya que no es alterada por los ingresos extraordinariamente altos que afectan a una minoría. La media, aunque útil para ciertos cálculos, puede resultar engañosa en contextos sociales con fuerte desigualdad.
Desde una perspectiva social, el uso exclusivo de la media podría generar una narrativa falsa de progreso o bienestar general, invisibilizando a los sectores más vulnerables. En cambio, la mediana permite visibilizar la situación de la mayoría, lo que la convierte en una herramienta más justa y representativa para el análisis y la formulación de políticas públicas.
Reflexión final
Este caso ilustra por qué la elección de una medida de tendencia central no es solo una decisión matemática, sino también ética y contextual. Comprender el alcance y las limitaciones de cada medida permite tomar decisiones más informadas y responsables en el análisis de fenómenos sociales.
Actividad integradora
Análisis completo con R Markdown
En esta actividad final, pondrás en práctica los conocimientos adquiridos sobre medidas de tendencia central, su cálculo en R y su interpretación crítica frente a valores atípicos. Elaborarás un informe utilizando R Markdown que documente el proceso y las conclusiones.
Objetivo de la actividad
Simular un conjunto de datos, aplicar técnicas estadísticas con R, reflexionar sobre los resultados y presentar un informe claro, ordenado y reproducible.
Pasos a seguir
- 1. Simulación de datos: Crea una variable numérica simulada que represente una característica social como ingresos, edad o puntuaciones en una prueba. El conjunto debe tener entre 20 y 30 valores numéricos enteros.
# Simular una variable de edad set.seed(123) datos <- sample(25:60, size = 25, replace = TRUE)
- 2. Cálculo de medidas de tendencia central: Aplica las funciones
mean(),median()y una función personalizada demoda()para obtener las tres medidas principales.# Media y mediana mean(datos) median(datos) # Función para la moda moda <- function(x) { ux <- unique(x) tab <- tabulate(match(x, ux)) ux[tab == max(tab)] } moda(datos) - 3. Inclusión de un valor atípico: Añade un valor extremo (por ejemplo, 99 o 1000) al conjunto y vuelve a calcular las medidas para observar los cambios.
# Agregar valor atípico datos_atipico <- c(datos, 1000) # Nuevas medidas mean(datos_atipico) median(datos_atipico) moda(datos_atipico)
- 4. Análisis comparativo: Compara los resultados antes y después del valor atípico. Comenta cuál medida se ve más afectada y cuál se mantiene más estable. Reflexiona sobre qué medida resulta más útil para describir los datos simulados y por qué.
- 5. Elaboración de informe en R Markdown: Redacta un mini informe con los siguientes apartados:
- Introducción: Objetivo del análisis.
- Datos y simulación: Código y resumen del conjunto de datos generado.
- Cálculo de medidas: Resultados con y sin valor atípico.
- Discusión: Análisis del efecto del valor atípico y elección justificada de la medida más representativa.
- Conclusión: Reflexión general sobre el uso práctico de estas herramientas en el análisis de fenómenos reales.
Recomendación
Utiliza encabezados (##) y listas para estructurar el documento en R Markdown. Recuerda que puedes compilar tu archivo como HTML o PDF para entregar el informe con formato profesional.
Entrega esperada
Un documento generado en R Markdown (.Rmd) con todo el código, gráficos (si se desea), y comentarios interpretativos. Asegúrate de que el análisis sea comprensible, bien redactado y técnicamente correcto.
