Distribución Normal

El estudio de los fenómenos aleatorios se nutre de muchas técnicas para identificar sus características, en este sentido se desea contar con modelos para predecir o sencillamente conocer la naturaleza de los mismos.

Entre la certidumbre y la incertidumbre se situan los métodos de las probabilidades. La distribución más estudiada y conocida en este sentido es la Distribución Normal.

En términos informales, cuando la mayor cantidad de valores son similares y se encuentran concentrados alrededor de la media y un número muy bajo de valores se encuentran muy por debajo o muy por encima de la media, es posible que la distribución de los valores sea Normal.

Las variables aleatorias pueden tener comportamientos que se pueden caracterizar y al mismo tiempo asignar probabilidades a los posibles resultados. En el caso de una variable aleatoria que se distribuye Normal, contamos con la función de densidad.

La función de densidad de probabilidad nos indica cómo se comporta una población. Es decir, nos permite saber con qué frecuencia relativa, con qué probabilidad una variable aleatoria $\mathcal{X}$ toma un valor cercano a $x$. Este comportamiento se describe con una función denominada función de densidad.

Función de Densidad Normal

Decimos que una variable aleatoria $\mathcal{X}$ tiene distribución normal con media $\mu$ y varianza $\sigma^2$, $\mathcal{X}\sim \mathcal{N}(\mu,\sigma)$, cuando su función de densidad es

Esta función de densidad tiene forma de campana, esta denominación se debe a Esprit Jouffret que utilizó el término “bell surface” por primera vez en 1872 para una distribución normal bivariada de variables independientes. A esta distribución generalmente se le denomia campana de Gauss, debido a Carl Friedrich Gauss (1777-1855) matemático que dio aportes importantes sobre dicha distribución.

Esta densidad toma mucha importancia ya que muchos fenómenos de la vida real pueden ser representados por ella, algunos ejemplos de datos que podemos modelar son datos económicos, de sociología, de características morfológicas de individuos de cierta especie, datos del clima, medición de errores, entre otros. Una variable con está densidad puede tomar valores en los reales, es decir, si $x$ representa los valores que puede tomar la variable aleatoria $\mathcal X$ entonces , $-\infty < x <\infty$ lo que es igual a escribir $x\in \mathbb R$.

Como podemos notar tiene dos parámetros, el parámetro $\mu$, que puede tomar cualquier valor, éste representa el valor esperado de dicha variable aleatoria y coincide con el centro de la función, además esta función es simétrica con respecto a este parámetro, tomando su valor máximo en $\mu$; el otro parámetro es $\sigma$, el cual toma un valor positivo y representa la dispersión que hay de los datos con respecto a la media, es decir, que tan distantes se encuentran los datos con respecto a su valor esperado. Una representación gráfica de dicha densidad es la siguiente:

Cuando el parámetro $\mu=0$ y $\sigma=1$ decimos que tenemos la densidad normal estándar, $\mathcal Z \sim \mathcal N(0,1)$. Cualquier variable aleatoria normal $\mathcal X \sim \mathcal N(\mu,\sigma)$ puede ser transformada en una variable con función de densidad normal estándar, esto se hace mediante la transformación $\mathcal Z = \frac{\mathcal X -\mu}{\sigma}$, a esta transformación se le llama estandarización de la variable aleatoria $\mathcal X$.

Función de Distribución Normal

Recordemos que la función de distribución nos indica la probabilidad de que una variable aleatoria $\mathcal X$ tome valores menores o iguales a un valor $x$, $F(x)=P(\mathcal X \le x)$. La función de distribución de esta variable aleatora normal es:

Notemos que

Si hacemos $z=\frac{x-\mu}{\sigma}$

Es decir para cualquier variable aleatoria, $\mathcal{X}\sim N(\mu,\sigma)$, la distribución acumulada en $x$, $F_\mathcal{X}(x)$, es la misma que la de una variable aleatoria normal estándar, $\mathcal{Z}\sim N(0,1)$, $F_\mathcal{Z}(z)$.

Valor esperado de la Distribución Normal

Veamos que en efecto el valor esperado de una variable aleatoria con distribución normal coincide con el parámetro $\mu$.

Aplicando el cambio $u=\frac{x-\mu}{\sqrt{2}\sigma}\Rightarrow x=\sqrt{2}\sigma u+\mu\Rightarrow dx=\sqrt{2}\sigma du$ tenemos:

Veamos cuanto nos da la primera integral

Si hacemos el cambio $z=u^2\Rightarrow dz=2udu\Rightarrow \frac{dz}{2}=udu$ los límites de integración quedan $z=\infty$ cuando $u=-\infty$ y $u=\infty$, y $z=0$ cuando $u=0$.

Sustituyendo este resultado nos queda:

En este último gráfico podemos ver el comportamiento de la función de densidad cuando variamos el parámetro $\mu$, es decir con distintas medias.

Varianza de la Distribución Normal

Calculemos ahora la varianza de una variable aleatoria con distribución Normal.

Aplicando el cambio de variable $u=\frac{x-\mu}{\sqrt{2}\sigma}$ nos queda:

Ahora utilizaremos integración por partes para resolver la integral

si hacemos $z=u^2\Rightarrow dz=2u\ du \Rightarrow \frac{dz}{2}=u\ du$

Aplicándolo nos queda:

Para resolver los límites aplicaremos la regla de L’Hospital, obteniendo:

Con respecto al otro límite se tiene el mismo resultado. Sustituyendo esto nos queda:

La varianza coincide con el parámetro $\sigma^2$ y este nos mide el grado de dispersión que hay con respecto a la media de los datos, en el gráfico siguiente podemos ver como modifica este parámetro a la función de densidad para una media fija, si el valor es menor que 1 la forma de la función de densidad es mas afilada, con respecto a su media, y sus colas son menos pesadas, y si el valor es mayor que uno se ve como se va aplastando a medida que este valor aumenta, y con ésto las colas se hacen más pesadas.

Comandos en R

En R los comandos asociados a la función Normal son:

1) Función de densidad $f_{\mathcal X}(x)$

El comando que se usa es dnorm(), tiene como argumentos:

  • x : Es un vector que corresponde a los valores donde se quiere calcular la probabilidad.

  • mean : Parámetro de la media, es decir, $\mu$.

  • sd : Desviación estándar, $\sigma=\sqrt{\sigma^2}$

2) Función de distribución $F(x)= P(\mathcal{X}\le x)$

El comando que realiza este cálculo es pnorm(), tiene los mismos argumentos que la función de densidad, pero en vez de x se tiene q y representa lo mismo, adicionalmente se tiene el siguiente argumento:

  • lower.tail: Indica si se quiere la probabilidad inferior o superior.

3) Quantil

Conociendo una probabilidad $\theta$, si queremos calcular para que valor $x$ de la variable aleatoria se cumple $P(\mathcal{X}\le x)=\theta$, se calcula con el comando qnorm(), este comando usa los argumento mean, sd, lower.tail y

  • p: Corresponde a la probabilidad $\theta$.

4) Generar variables aleatorias Normales con parámetros $\mu$ y desviación estándar $\sigma$.

El comando es rnorm(), necesita los argumentos mean, sd y

  • n: Corresponde al número de la muestra que se quiere generar.

Ejemplo:

Supongamos que la demanda diaria de un producto de limpieza en un supermercado se distribuye aproximadamente cono una variable aleatoria normal con media 20 y desviación estándar 5 unidades. Calcular la probabilidad de que la demanda diaria este entre 15 y 25 unidades.

Llamemos $\mathcal X$ a la variable aleatoria que nos representa la demanda diaria del producto de limpieza en un supermecado, por el enunciado tenemos que $\mathcal X\sim \mathcal N(\mu=20,\sigma=5)$. Nos piden calcular $P(15<\mathcal X < 25)=P(\mathcal X <25)-P(\mathcal X<15)$, para este cálculo utilizaremos el comando pnorm(), el cual nos da la probabilidad a la izquierda.

pnorm(q=25,mean=20,sd=5)- pnorm(q=15,mean=20,sd=5)
[1] 0.6826895

Obtenemos entonces que la probabilidad de que la demanda diaria este entre 15 y 25 es 0.6826895.

Calcular el valor superior de $x$, tal que la probabilidad de que la demanda diaria sea menor que $x$ sea 0.42, es decir $P(\mathcal{X}\le x)= 0.42$.

Para calcular el cuantil utilizaremos el comando qnorm() de la siguiente manera:

qnorm(p=0.42,mean=20,sd=5)
[1] 18.99053

Con este valor la probabilidad de que la demanda diaria sea menor $19$ es de $0.42$.

Generar una muestra de tamaño 50, que corresponda a la variable aleatoria Normal con parámetros $\mu =20,\sigma =5$.

Generaremos las 50 variables aleatorias usando el comando rnorm()

rnorm(n=50,mean=20, sd=5)

Obtenemos la muestra siguiente:

 [1] 11.207749 17.429122 21.784476 19.414502 16.371340 17.415915 26.598897
 [8] 15.764458 24.370579 26.544490 22.756814 18.811198 21.515692 14.475950
[15] 18.610029 26.274272 23.944796 18.713391 25.174667 14.002806 30.145435
[22] 16.138524 15.182521 16.729786 23.996774 23.294710 11.826799 30.647840
[29] 26.728946 18.333374 20.648519 14.509143 14.546206 14.438988 18.998033
[36] 26.881865  7.922049 24.306341  6.847858 24.419681 21.179553 17.428010
[43] 20.885474 23.493959 19.875515 12.888056 12.322214  4.836786 22.765827
[50] 25.637651

Como esta muestra es aleatoria variara cada vez que se coloque el mismo comando.

Gráficos de la función de densidad y de distribución

par(mfrow=c(1,2))

x<-seq(5,35,0.01)

#Función de densidad
y <- dnorm(x, mean=20, sd=5)
plot( x, y, type="l", xlab="x", ylab="f(x)", main="Densidad Normal")

#Función de distribución
y <- pnorm(x, mean=20, sd=5)
plot( x, y, type="l", xlab="x", ylab="P(X<x)", main="Distribución Normal")

Práctica

# Si tenemos una variable aleatoria X que se distribuye normal con media 10 y desviación estándar 12, calcular: ## Los valores de x que corresponden a las siguientes probabilidades: # a) P(X<a)=0.04 a <- a # b) P(X<x)=0.97 b <- b # c) P(X<z)<-0.25 c <- c ## Determinar las siguientes probabilidades: #a) P(10<X<15) proba_a <- proba_a #b) P(3<X<12) proba_b <- proba_b #c) P(X>13) proba_c <- proba_c ## Generar 20 valores aleatorios de dicha variable y graficar su función de densidad. data <- data # Ordenar los datos de menor a mayor con el comando sort() y guardarlos en la siguiente variable x <- # Guardar en la variable "y" los valores que toma la función de densidad en la variable anterior y <- # Generar el gráfico colocando type="l", main="Función de densidad", xalb="x" y ylab="f(x)" # Si tenemos una variable aleatoria X que se distribuye normal con media 10 y desviación estándar 12, calcular: ## Los valores de x que corresponden a las siguientes probabilidades: # a) P(X<a)=0.04 a <- qnorm(p=0.04,mean=10,sd=12) a # b) P(X<x)=0.97 b <- qnorm(p=0.97,mean=10,sd=12) b # c) P(X<z)<-0.25 c <-qnorm(p=0.25,mean=10,sd=12) c ## Determinar las siguientes probabilidades: #a) P(10<X<15) proba_a <- pnorm(q=15,mean=10,sd=12)- pnorm(q=10,mean=10,sd=12) proba_a #b) P(3<X<12) proba_b <- pnorm(q=12,mean=10,sd=12)- pnorm(q=3,mean=10,sd=12) proba_b #c) P(X>13) proba_c <- 1- pnorm(q=13,mean=10,sd=12) proba_c ## Generar 20 valores aleatorios de dicha variable y graficar su función de densidad. data <- rnorm(20,mean=10,sd=12) data # Ordenar los datos de menor a mayor con el comando sort() y guardarlos en la siguiente variable x <- sort(data) # Guardar en la variable "y" los valores que toma la función de densidad en la variable anterior y <- dnorm(x,mean=10,sd=12) # Generar el grafico colocando type="l", main="Función de densidad", xalb="x" y ylab="f(x)" plot(x,y,type="l",main="Funcion de densidad", xlab="x", ylab="f(x)") test_object("a", incorrect_msg = "Recuerde que el comando qnorm() nos da el quantil de la probabilidad a la izquierda, es decir, el valor x tal que P(X<x)=p.") test_object("b", incorrect_msg = "Recuerde que la funcion qnorm() nos da el quantil de la probabilidad a la izquierda, es decir, el valor x tal que P(X<x)=p.") test_object("c", incorrect_msg = "Recuerde que la funcion qnorm() nos da el quantil de la probabilidad a la izquierda, es decir, el valor x tal que P(X<x)=p.") test_object("proba_a", incorrect_msg = "Recuerde que el comando pnorm() da la probabilidad a la izquierda, es decir, P(a<X<b)=P(X<b)-P(a<X)") test_object("proba_b", incorrect_msg = "Recuerde que el comando pnorm() da la probabilidad a la izquierda, es decir, P(a<X<b)=P(X<b)-P(a<X)") test_object("proba_c", incorrect_msg = "Recuerde que la probabilidad del complemento es P(x>a)=1-P(x<a)") test_object("data", incorrect_msg = "Para generar numeros aleatorios usar el comando rnorm()") test_object("data", incorrect_msg = "Para odenar los datos de menor a mayor se usa el comando sort()") test_object("y", incorrect_msg = "Para generar los valores que toma la funcion de densidad usamos el comando dnorm()") test_function("plot", incorrect_msg = "El comando para realizar un grafico es plot(x,y,type,main,xlab,ylab)") success_msg("Muy bien!")
Usar los comandos explicados anteriormente

La Distribución Normal tiene múltiples aplicaciones y tiene la ventaja de ser la más estudiada. De hecho el Riesgo, en muchos casos, se estudia partiendo de este modelo y con las características de la Distribución se pueden calcular Probabilidades.

Este será el primero de muchos artículos que vamos a tratar esta Distribución, desde lo más básico a lo más elaborado.

Copyright © 2014-2018 Synergy Vision. Los artículos del Corpus se comparten bajo los términos de la licencia Creative Commons con Reconocimiento, Propósito no comercial, Compartir contenido similar, 4.0 Internacional (CC BY-NC-SA 4.0).

Citar el artículo.