[go: up one dir, main page]

Mediana (estadística)

valor numérico en estadística

En el ámbito de la estadística, la mediana (del latín mediānus 'del medio'[1]​) representa el valor de la variable de posición central en un conjunto de datos ordenados. Se le denota mediana.

Visualización geométrica de la moda, la mediana y de la media de una función arbitraria de densidad de probabilidad.

Si la serie tiene un número par de puntuaciones, la mediana es la media entre las dos puntuaciones centrales.

Conjunto finito de números

editar

La mediana de una lista finita de números es el número "medio", cuando esos números se enumeran en orden de menor a mayor.

Si el conjunto de datos tiene un número impar de observaciones, se selecciona la del medio. Por ejemplo, la siguiente lista de siete números,

1, 3, 3, 6, 7, 8, 9

tiene como mediana 6, que es el cuarto valor.

Si el conjunto de datos tiene un número par de observaciones, no hay un valor medio distinto y la mediana suele definirse como la media aritmética de los dos valores medios.[2][3]​ Por ejemplo, este conjunto de datos de 8 números

1, 2, 3, 4, 5, 6, 8, 9

tiene un valor mediano de 4.5, es decir  . (En términos más técnicos, esto interpreta la mediana como el estimador completamente recortado rango medio).

En general, con esta convención, la mediana puede definirse como sigue: Para un conjunto de datos   de   elementos, ordenados de menor a mayor,

si   es impar,  
si   es par  
Comparación de medias comunes de valores [ 1, 2, 2, 3, 4, 7, 9 ]
Tipo Descripción Ejemplo Resultado
Rango medio Punto medio entre el mínimo y el máximo de un conjunto de datos 1, 2, 2, 3, 4, 7, 9 5
Media aritmética Suma de los valores de un conjunto de datos dividida por el número de valores:   (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Mediana Valor intermedio que separa la mitad de los valores mayores y la mitad de los valores menores de un conjunto de datos. 1, 2, 2, 3, 4, 7, 9 3
Rango Diferencia entre el valor máximo y el mínimo 1, 2, 2, 3, 4, 7, 9 8
Moda Valor más frecuente en un conjunto de datos 1, 2, 2, 3, 4, 7, 9 2

Conceptos generales

editar
 
Gráfica de moda, mediana y media.

En teoría de la probabilidad, se define la mediana de una variable aleatoria como un número tal que la variable tiene igual probabilidad de tomar valores menores o mayores que él. Finalmente, en inferencia estadística se estudia la mediana poblacional y la mediana muestral.

La mediana se utiliza normalmente para dar un valor "típico" que caracteriza un conjunto de datos. En comparación con la media, la propiedad esencial de la mediana es que no se ve afectada si hay un grupo de datos mucho más pequeño o mucho más grandes que las otras, mientras que la media sí que puede quedar distorsionada. Un ejemplo de esta situación se da al analizar el tiempo que los estudiantes universitarios tardan en acabar una carrera, el hecho que haya algunos estudiantes que estén muchos años para acabar la carrera (porque se ponen a trabajar y retardan los estudios, u otros motivos) hace que la media no refleje bien los datos; al contrario, la mediana no es sensible a estos valores extremos, y proporciona un mejor valor representativo de la duración de los estudios.

Definición formal

editar

Formalmente, una mediana de una población es cualquier valor tal que al menos la mitad de la población es menor o igual que la mediana propuesta y al menos la mitad es mayor o igual que la mediana propuesta. Como se ha visto anteriormente, las medianas pueden no ser únicas. Si cada conjunto contiene más de la mitad de la población, entonces parte de la población es exactamente igual a la mediana única.

La mediana está bien definida para cualquier dato ordenado (unidimensional), y es independiente de cualquier espacio métrico. Por tanto, la mediana puede aplicarse a clases ordenadas pero no numéricas (por ejemplo, calcular la mediana de una nota cuando los alumnos se califican de A a F), aunque el resultado podría estar a medio camino entre las clases si hay un número par de casos.

Una mediana geométrica, en cambio, se define en cualquier número de dimensiones. Un concepto relacionado, en el que se fuerza a que el resultado corresponda a un miembro de la muestra, es el medoide.

No existe una notación estándar ampliamente aceptada para la mediana, pero algunos autores representan la mediana de una variable x bien como o como μ1/2[2]​ a veces también M.[4][5]​ En cualquiera de estos casos, el uso de estos u otros símbolos para la mediana debe definirse explícitamente cuando se introducen.

La mediana es un caso especial de otras formas de resumir los valores típicos asociados a una distribución estadística: es el 2º cuartil, el 5º decil y el 50.º percentil.

La mediana se puede utilizar como una medida de localización cuando uno concede poca importancia a los valores extremos, normalmente porque una distribución es skewed, los valores extremos no son conocidos, o outliers son poco fiables, es decir, pueden ser errores de medición/transcripción.

Por ejemplo, consideremos el multiconjunto

1, 2, 2, 2, 3, 14.

La mediana es 2 en este caso, al igual que la moda, y podría verse como una mejor indicación de la centro que la media aritmética de 4, que es mayor que todos los valores menos uno. Sin embargo, la relación empírica ampliamente citada de que la media se desplaza "más hacia la cola" de una distribución que la mediana no suele ser cierta. Como mucho, se puede decir que las dos estadísticas no pueden estar "demasiado lejos".[6]

Como la mediana se basa en los datos medios de un conjunto, no es necesario conocer el valor de los resultados extremos para calcularla. Por ejemplo, en una prueba de psicología en la que se investiga el tiempo necesario para resolver un problema, si un pequeño número de personas no consigue resolver el problema en absoluto en el tiempo dado, se puede calcular la mediana.[7]

Debido a que la mediana es sencilla de entender y fácil de calcular, a la vez que una aproximación robusta a la media, la mediana es una estadística de resumen popular en estadística descriptiva. En este contexto, hay varias opciones para una medida de variabilidad: el rango, el rango intercuartílico, la desviación media y la desviación absoluta mediana.

A efectos prácticos, las distintas medidas de localización y dispersión suelen compararse en función de lo bien que pueden estimarse los valores poblacionales correspondientes a partir de una muestra de datos. La mediana, estimada a partir de la mediana muestral, tiene buenas propiedades en este sentido. Aunque no suele ser óptima si se supone una distribución poblacional determinada, sus propiedades son siempre razonablemente buenas. Por ejemplo, una comparación de la eficiencia de los estimadores candidatos muestra que la media muestral es más eficiente estadísticamente cuando y sólo cuando- los datos no están contaminados por datos de distribuciones de colas pesadas o de mezclas de distribuciones. Incluso entonces, la mediana tiene una eficiencia del 64% en comparación con la media de varianza mínima (para muestras normales grandes), lo que equivale a decir que la varianza de la mediana será ~50% mayor que la varianza de la media.[8][9]

Métodos de cálculo

editar

Existen dos métodos para el cálculo de la mediana:

  1. Considerando los datos en forma individual, sin agruparlos.
  2. Utilizando los datos agrupados en intervalos de clase.

Datos no agrupados

editar

Sean   los datos de una muestra ordenada en orden creciente y designando la mediana como  , distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición   una vez que los datos han sido ordenados (en orden creciente o decreciente), porque este es el valor central. Es decir:  .

Por ejemplo, si tenemos 5 datos, que ordenados son:  ,  ,  ,  ,   => El valor central es el tercero:  . Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo ( ,  ) y otros dos por encima de él ( ,  ).

b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando   es par, los dos datos que están en el centro de la muestra ocupan las posiciones   y  . Es decir:  .

Por ejemplo, si tenemos 6 datos, que ordenados son:  ,  ,  ,  ,  ,  . Hay dos valores que están por debajo del   y otros dos que quedan por encima del siguiente dato  . Por tanto, la mediana de este grupo de datos es la media aritmética de estos dos datos:  .

Datos agrupados

editar

Al tratar con datos agrupados en intervalos, si   coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abscisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:

 

Donde   y   son las frecuencias absolutas acumuladas tales que  ,   y   son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y   es la abscisa a calcular, la mediana. Se observa que   es la amplitud de los intervalos seleccionados para el diagrama.

Ejemplos para datos agrupados

editar

Ejemplo 1: cantidad (N) impar de datos

editar

 

Las calificaciones en la asignatura de Matemáticas de   alumnos de una clase viene dada por la siguiente tabla:

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 8 9 3 4 2
Frecuencia absoluta

acumulada

2 4 8 13 21 30 33 37 39

Primero se hallan las frecuencias absolutas acumuladas  . Así, aplicando la fórmula asociada a la mediana para n impar, se obtiene  .

 

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En este ejemplo,   (frecuencia absoluta acumulada para  )   con lo que   puntos, la mitad de la clase ha obtenido un   o menos, y la otra mitad un   o más.

Ejemplo 2: cantidad (N) par de datos

editar

 

Las calificaciones en la asignatura de Matemáticas de   alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9
Número de alumnos 2 2 4 5 6 9 4 4 2
Frecuencia absoluta

acumulada

2 4 8 13 19 28 32 36 38

Primero se hallan las frecuencias absolutas acumuladas  . Así, aplicando la fórmula asociada a la mediana para   par, se obtiene la siguiente fórmula:   (Donde   alumnos divididos entre dos).

 

Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En el ejemplo el lugar decimonoveno lo ocupa el   y el vigésimo el   con lo que   puntos, la mitad de la clase ha obtenido un   o menos y la otra mitad un   o más.

Método de cálculo general

editar
xi fi Ni
[x11-x12] f1 N1
. . .
. . .
. . N(i-2)
[x(i-1)1-x(i-1)2] f(i-1) f(i-1)+N(i-2)= 
[xi1-xi2]   fi+Ni-1=Ni
[x(i+1)1-x(i+1)2] f(i+1) f(i+1)+Ni=N(i+1)
. . .
. . .
. .
[xM1-xM2] fM fM+N(M-1)=NM

Consideramos:

- x11 valor mínimo< Entonces:

 

donde:

  = es el límite inferior de la clase de la mediana.
  = es la posición de la mediana.
  = es la frecuencia acumulada de la clase premediana.
  = es la frecuencia absoluta de la clase de la mediana.
  =   = Amplitud del intervalo de la clase de la mediana.

Véase también

editar

Enlaces externos

editar

Referencias

editar
  1. Real Academia Española. «median». Diccionario de la lengua española (23.ª edición). 
  2. a b Weisstein, Eric W. «Mediana estadística». En Weisstein, Eric W, ed. MathWorld (en inglés). Wolfram Research. 
  3. Simon, Laura J.; "Descriptive statistics" Archivado el 30 de julio de 2010 en Wayback Machine., Statistical Education Resource Kit, Pennsylvania State Department of Statistics
  4. David J. Sheskin (27 de agosto de 2003). id=bmwhcJqq01cC&pg=PA7 Handbook of Parametric and Nonparametric Statistical Procedures (Third edición). CRC Press. pp. 7-. ISBN 978-1-4200-3626-8. Consultado el 25 de febrero de 2013. 
  5. Derek Bissell (1994). com/books?id=cTwwtyBX7PAC&pg=PA26 Statistical Methods for Spc and Tqm. CRC Press. pp. 26-. ISBN 978-0-412-39440-9. Consultado el 25 de febrero de 2013. 
  6. Paul T. von Hippel (2005). «Media, mediana y asimetría: Correcting a Textbook Rule». Journal of Statistics Education 13 (2). Archivado desde el original el 14 de octubre de 2008. Consultado el 18 de junio de 2015. 
  7. Robson, Colin (1994). Experimento, diseño y estadística en psicología. Penguin. pp. 42-45. ISBN 0-14-017648-9. 
  8. Williams, D. (2001). Weighing the Odds. Cambridge University Press. p. 165. ISBN 052100618X. 
  9. Maindonald, John; Braun, W. John (6 de mayo de 2010). Data Analysis and Graphics Using R: An Example-Based Approach (en inglés). Cambridge University Press. p. 104. ISBN 978-1-139-48667-5. 

Bibliografía adicional

editar
  • Weisstein, Eric W., «Statistical Median» a MathWorld (en ingles).
  • Sheskin, David (27 de agosto de 2003). Handbook of parametric and nonparametric statistical procedures (en inglés) (3rd edición). Boca Raton: Chapman & Hall/CRC. pp. 7-. ISBN 978-1-4200-3626-8. 
  • Bissell, Derek (1994). Statistical methods for SPC and TQM (en inglés) (1st edición). London: Chapman & Hall. pp. 26-. ISBN 978-0-412-39440-9. 
  • Lobez Urquia, J., Casa Aruta, E.. Estadística intermedia. Segunda edición. Barcelona: Vicens-Vives, 1975, p. 43.
  • Moore, David S. (1995). Estadística aplicada básica. Barcelona: Antonio Bosch. ISBN 8485855809. 
  • Loeve, Michel. Teoría de la probabilidad. Madrid: Tecnos. p. 238. ISBN 8430906630. 
  • Serfling, Robert J. (2009). Approximation theorems of mathematical statistics (en inglés). New York: Wiley. pp. 74-77. ISBN 1282307479. 
  • DeGroot, Morris H. (1931, 1988). Probabilidad y estadística (2a. edición). Wilmington, Delawere, E.U.A.: Addison-Wesley Iberoamericaca. ISBN 0201644053.