El problema de la estimación de la media de la población

Parámetros de la muestra

Consideremos una población, con una distribución normal respecto de una variable aleatoria; extraemos una muestra por alguno de los procedimientos del epígrafe anterior.

Para la variable aleatoria que estamos considerando podemos calcular la media y la desviación típica en la muestra, que en general serán distintas a las correspondientes de la población :

Si la muestra tiene n individuos y los valores concretos que toma la variable aleatoria X son : x1 , x2 , ...,xn , los parámetros que se calculan en la muestra son :

La media muestral :

La varianza muestral y la desviación típica muestral :

La cuasivarianza muestral y la cuasidesviación típica muestral :

Consideremos una población, con una variable aleatoria X que se distribuye normalmente, y donde conocemos que la desviación típica es σ ; sólo desconocemos la media de la población, μ.

Tomamos muestras de tamaño n y calculamos la media muestral para cada muestra :

El valor que toma la media muestral dependerá de la muestra seleccionada, como la toma de la muestra es aleatoria, la media muestral es una variable aleatoria ; como cada valor que toma esta variable aleatoria, depende de la suma de n valores, por el Teorema Central del Límite, sabemos que además se distribuye normalmente.

Estimación puntual de la media

Hemos visto como las medias de las muestras se distribuyen normalmente en torno a la media de la población, con una desviación típica que disminuye cuando aumenta el tamaño de la muestra.

Por tener estas cualidades, se dice que la media muestral es centrada y consistente para estimar la media de la población, es decir es un buen estimador puntual para conocer la media de una población, en el caso de que ésta se desconozca.

La media muestral nos da una buena aproximación de la media de la población, cuando ésta se desconoce; pero no da ninguna otra información, nada acerca de si la aproximación ha sido buena o si por el contrario ha sido mala, ni de los porcentajes o probabilidades de que sea buena o mala.

Este inconveniente lo evitamos utilizando la estimación de la media por intervalos de confianza.

Estimación de la media de la población por intervalos de confianza

Sabemos como se distribuyen las medias muestrales, sólo desconocemos la media de la población. Si supiéramos la media de la población, podríamos calcular un intervalo, alrededor de la media, tal que con una probabilidad dada, las medias de las muestras estuvieran dentro de ese intervalo.

Por ejemplo, supongamos que queremos que la probabilidad de que la media de una muestra esté dentro del intervalo a calcular, sea de 0,95; sólo tenemos que tipificar y mediante la tabla de la distribución normal estándar, calcular tα para α = 1-0,95=0,05

Como no conocemos la media de la población, μ, la sustituimos por la media de la muestra, con lo cual el intervalo será diferente para cada muestra, pero, con probabilidad 1-α , la media de la población, estará dentro del intervalo así calculado.

Así, basándonos en la media de la muestra, damos un intervalo en el que podemos suponer que se encuentra la media de la población con una confianza del 1-α.

Intervalo de confianza para la media de la población

El intervalo de confianza, para la media de una población, con un nivel de confianza de 1- α , siendo X la media de una muestra de tamaño n y σ la desviación típica de la población, es:

Error máximo

El error maximo en la estimación, que se comete con una confianza del 1-α, es:

De las variables que intervienen en la estimación, error máximo, confianza y tamaño de la muestra N, siempre podremos fijar dos y calcular la tercera, por tanto en ocasiones, fijamos el error máximo, la confianza y calculamos el tamaño de la muestra:

Tamaño de la muestra

Observación

Estamos suponiendo que la desviación típica de la población es conocida, pero es raro que no se conozca la media y se conozca la desviación típica; lo normal, será que no se conozca ni la media ni la desviación típica de la población.

La varianza de la muestra no es un estimador centrado de la varianza de la población, y sin embargo, la cuasivarianza de la muestra, sí es un estimador centrado de la varianza de la población; por tanto, es mejor estimador de la varianza de la población, la cuasivarianza de la muestra.

Como :

Para valores grandes de n es prácticamente igual, tomar como estimador de la varianza de la poblacion, la varianza o la cuasivarianza de la muestra; pero, para valores pequeños de n (en la práctica se considera pequeño n ≤ 30), es mejor estimar la varianza de la población, mediante la cuasivarianza.

Un ejemplo sencillo, para los que, como Santo Tomás, necesitan ver para creer