ARTÍCULOS

TABLAS ESTADÍSTICAS EN INTERNET (I):

Cálculo de probabilidades en las distribuciones comunes en el análisis de datos


Palmer, A.;  Jiménez, R y Rubí, A.
Area de Metodología de las Ciencias del Comportamiento.
Departamento de Psicología.
Universitat de les Illes Balears.
e-Mail:
alfonso.palmer@uib.es

 

RESUMEN

En este artículo se presentan múltiples enlaces a las distribuciones de probabilidad mas comunes, tanto para variables discretas (binomial y poisson) como para variables continuas (normal, ji-cuadrado, t de Student y F de Snedecor), utilizadas en el análisis de datos. Asimismo se introduce el programa STATLETS, que puede obtenerse gratuitamente en Internet.


Introducción
Distribuciones de uso común
         Distribucionesdiscretas
                 Bernoulli
                 Binomial
                 Poisson
         Distribuciones continuas
                 Normal
                 Ji-cuadrado
                 t de Student
                 F de Snedecor
Relación entre distribuciones
         Binomial y Poisson
         Binomial y Normal
         Poisson y Normal
         Normal y Ji-cuadrado
         Normal, Ji-cuadrado, t de Student y F de Snedecor
Software adecuado: el STATLETS
Media y Variancia de las distribuciones

 

INTRODUCCION

Cuando un investigador lleva a cabo una prueba de hipótesis para estudiar, por ejemplo, la posible existencia de relación entre variables, aplicará una prueba estadística que le proporcionará un valor que deberá ser situado en la distribución de referencia para poder averiguar la plausibilidad de la hipótesis nula de no relación y, en función del área (probabilidad) que le corresponda, tomar la decisión de mantener la hipótesis nula de no relación (independencia) o rechazar dicha hipótesis en favor de la hipótesis alternativa de existencia de relación entre las variables analizadas.

Se distingue entre variables aleatorias discretas y continuas, definiéndose una variable aleatoria discreta aquella que puede tomar un número finito o numerable de valores, mientras que una variable aleatoria continua puede tomar infinitos valores, es decir cualquier valor dentro de un intervalo.

Cuando se trata de variables discretas, se puede calcular la probabilidad de obtener un determinado valor , por medio de la función de probabilidad, denominada f(x) y definida como la probabilidad P(X=x), así como la probabilidad de obtener un valor inferior o igual a x, por medio de la función de distribución, denominada F(x) y definida como la probabilidad acumulada P(Xx).

Cuando se trata de variables continuas, ya no tiene sentido calcular la probabilidad en un valor, ya que esta es nula, sino que el interés radica en obtener la probabilidad en un intervalo [a,b], así pues se trata de obtener el valor de la función de distribución F(x) en este intervalo, el cual se obtiene por medio de la integración de la función de densidad de probabilidad f(x):



Así pues, a efectos del investigador, en el caso de distribuciones discretas se debe obtener el cálculo de probabilidades, mientras que en el caso de distribuciones continuas el usuario debe realizar la integración pertinente para obtener el área correspondiente al intervalo elegido.

Para evitar que el usuario tuviera que realizar estos cálculos, se crearon las tablas de las diferentes distribuciones donde se transcribían los resultados obtenidos para cada uno de los valores de la variable, en el caso discreto, y la probabilidad acumulada para diferentes valores en el caso de las distribuciones continuas.

Tanto en el caso de las distribuciones discretas como en las distribuciones continuas, un problema añadido es que cada una de ellas depende de uno o más parámetros.

Así por ejemplo, en el caso discreto la distribución binomial depende del número n de ensayos y de la probabilidad p de éxito en cada ensayo. Teniendo en cuenta que p puede tomar infinitos valores en el intervalo [0,1], nos encontramos que hay infinitas distribuciones binomiales, por lo que al utilizar unas tablas escritas en papel, forzosamente se tienen que realizar restricciones. En general las tablas solo proporcionan unos cuantos valores del parámetro p.

En el caso continuo, por ejemplo, la distribución de la t de Student depende de un parámetro n. Cada vez que varía este valor, varía la forma de la distribución y por tanto se obtienen infinitas distribuciones, por lo que en las tablas escritas en papel se utilizan tan solo una serie reducida de valores.

En ambos casos, cuando al usuario le interesa un valor no contemplado en las tablas debe buscarlo, en general, por medio de una interpolación lineal entre los dos valores, anterior y posterior, más cercanos que se encuentren en ellas, cometiéndose por tanto un error, aunque en general este sea pequeño.

La entrada de los programas y paquetes estadísticos, con la difusión de los ordenadores personales, vino a solucionar bastantes de estos problemas, ya que el ordenador es capaz de realizar estos cálculos en milésimas de segundo y enseñarnos a continuación el resultado. El único problema que se le plantea al usuario es que debe tener, implementado en su ordenador, el programa estadístico que le permita realizar estos cálculos.

Hoy en día, la situación ha vuelto a dar un giro copernicano en la solución de este tipo de problemas, ya que actualmente Internet hace posible que un usuario no necesite tener ningún programa matemático, ni estadístico, en su ordenador para poder solucionar el cálculo de probabilidades en distribuciones de variables aleatorias.

Estar conectado a Internet permite, en estos momentos, disponer de una serie de recursos que hacen ya innecesario el uso de libros de tablas de estadística o el uso de algún programa informático situado en el disco duro de nuestro ordenador. El objetivo de este articulo es dar información, en forma de enlaces, para que cada usuario busque y encuentre la solución a su problema, cuando este problema consista en obtener una probabilidad asociada a una de las distribuciones conocidas, sea discreta o continua.

A efectos de tener identificadas las distribuciones, discretas y continuas, utilizadas de forma mas frecuente, se proporciona su función de probabilidad (caso discreto) o su función de densidad de probabilidad (caso continuo), con el ánimo de dar un poco de contenido a cada distribución. Por supuesto que si el usuario quiere tener más información sobre alguna de estas distribuciones le recomendamos que acuda a algún texto especializado.

 

DISTRIBUCIONES DE USO COMUN

Existe un número enorme de distribuciones de probabilidad, sin embargo hay un subconjunto de ellas que son las que frecuentemente son utilizadas en la Estadística Clásica. Así, de las dos distribuciones más comunes, y más básicas, en el ámbito de los datos categóricos podemos decir que, en primer lugar se encuentra la distribución binomial (frecuencia de una categoría de una variable dicotómica) y la distribución de Poisson (frecuencia de aparición de un suceso poco frecuente).

Cuando hablamos de distribuciones continuas en el ámbito del análisis de datos, sin duda aparece en primer lugar la distribución Normal, básica en el campo de la estadística paramétrica al aparecer como uno de los supuestos exigidos en el cumplimiento de las condiciones para que puedan ser utilizadas las pruebas estadísticas paramétricas.

Relacionada con la anterior, aparece una trilogía de distribuciones que constituyen las distribuciones de referencia de la mayor parte de pruebas estadísticas. Así aparecen la distribución t de Student, la distribución Ji-cuadrado de Pearson y la distribución F de Snedecor, llamada así en conmemoración a Fisher.

Así pues, en este documento nuestra intención es hacer llegar al lector interesado información sobre estas distribuciones y distintas posibilidades de realizar cálculos sobre ellas.

 

DISTRIBUCIONES DISCRETAS

Distribución de Bernoulli

Sea un experimento aleatorio donde sólo pueden darse dos resultados: presencia del suceso (definido como X=1) o ausencia del suceso (definido como X=0). La distribución de esta variable aleatoria viene determinada por un parámetro, p que representa la probabilidad de acertar o tener éxito en una realización.

Ejemplos: El lanzamiento de una moneda (cara/cruz), la respuesta a una pregunta (correcta/incorrecta), comprar un nuevo producto (si/no), etc.

 

Distribución Binomial

Esta distribución proviene de n variables de Bernoulli y depende de dos parámetros B(n,p). Permite calcular la probabilidad de obtener un número k de éxitos al realizar n ensayos de Bernoulli independientes, cada uno de ellos con la misma probabilidad p de éxito. La variable toma valores enteros entre 0 y n.

Ejemplo: Número de caras al lanzar 100 veces una moneda (p=0.50).

En el siguiente gráfico se muestra la función de probabilidad Binomial con 20 realizaciones y una probabilidad de éxito de 0.25. En abcisas se representan los distintos valores que puede tomar la variable X (de 0 a 20), y en ordenadas se representa la probabilidad asociada a cada valor posible de X.

Para calcular la función de probabilidad de una distribución binomial se puede utilizar el siguiente enlace: http://www.stat.ucla.edu/calculators/cdf/binom/binomdens.phtml , que accede a una página con la calculadora que se muestra a continuación, en la que se han introducido los parámetros utilizados en el gráfico. UCLA Statistics.

Concretamente, se obtiene una probabilidad de 0.189685 de que ocurran 4 sucesos con éxito (X-value) de los 20 posibles (Number of Trials) con una probabilidad de éxito de 0.25 (Probability of Success). En el gráfico se puede leer de forma aproximada esta probabilidad calculada.

También se muestra, como ejemplo, la calculadora que aparece en la siguiente dirección: http://faculty.vassar.edu/~lowry/binom_stats.html , que proporciona la probabilidad de que una determinada variable aleatoria binomial X tome el valor r en una serie de n repeticiones teniendo en cada una de ellas una probabilidad p de ocurrencia. Por tanto, calcula directamente la probabilidad exacta, y también, p(rn), y p(rn). VassarStats.

Por ejemplo, se puede buscar la probabilidad de que un determinado suceso que tiene una probabilidad de ocurrencia de valor p=0.4, se presente 3 veces en una serie de 6 repeticiones (exatly 3 out of 6), además de la probabilidad de que este suceso se presente 3 o menos veces en 6 repeticiones (3 or fewer out of 6), y la probabilidad de que se presente 3 o más veces en esas 6 repeticiones (3 or more out of 6).


Otras direcciones donde se pueden encontrar calculadoras de probabilidades, gráficos y otras aplicaciones basadas en la función de probabilidad binomial son las siguientes:

Distribución binomial: gráfico.UCLA Statistics.

Generación aleatoria de muestras., especificando los parámetros. UCLA Statistics.

Calculador para la binomial. Proporciona la probabilidad de que una determinada variable aleatoria binomial X tome el valor x en una serie de n repeticiones teniendo en cada una de ellas una probabilidad p de ocurrencia. Institute of Phonetic Sciences. Faculty of the Humanities. University of Amsterdam.

Cálculo de la probabilidad exacta y componentes asociados (n!, r!, p^r, etc). VassarStats.

Cálculo de probabilidades bajo la distribución binomial (acumuladas y no acumuladas). S.I.S.A. Simple Interactive Statistical Analysis.

Distribución binomial acumulada: calculador. Hay que introducir 3 de los 4 siguientes valores, y el applet halla el restante: nº aciertos, nº ensayos, probabilidad de acierto, probabilidad de obtener X aciertos en n ensayos, con una p determinada. UCLA Statistics.

Distribución binomial acumulada: gráfico. UCLA Statistics.

Generación aleatoria de muestras, bajo unos determinados parámetros que hay que especificar. UCLA Statistics.

 

 

Distribución de Poisson

Permite calcular la probabilidad de obtener un número k de eventos en sucesos con pequeña probabilidad de ocurrencia. La variable X se mueve desde 0 en adelante, con valores enteros.

El valor del parámetro λ > 0 representa el número promedio esperado, por unidad de tiempo o de espacio.

Así pues, al parámetro λ se le denomina parámetro de tasa, ya que, en una unidad de espacio o de tiempo puede que no se observen exactamente λ eventos, pero sin embargo en un amplio espacio de tiempo o de espacio esperaremos observar un evento ocurriendo en una tasa de λ por unidad del tiempo o del espacio.

En general se define que una variable aleatoria de Poisson describe un evento raro o poco frecuente, lo cual debe ser entendido en el sentido de que la probabilidad de P(X=k) es menor a medida que el valor de k es mayor.

Ejemplos: el número de errores en una página de un libro, el número de llamadas telefónicas equivocadas al cabo de un día.

En el siguiente gráfico se muestra la función de probabilidad de Poisson con λ=4.

En la dirección http://www.stat.ucla.edu/calculators/cdf/poisson/poissondens.phtml tendrá acceso a un calculador de la distribución de Poisson no acumulada, en la que especificando el valor de X ( número de sucesos) y el parámetro λ (Intensity parameter, que representa el número promedio de sucesos esperado) se proporciona la probabilidad de ocurrencia de esos X sucesos (campo Density). Para ello, pulsar el botón Submit!. UCLA Statistics.

Por ejemplo, encontrará que la probabilidad de ocurrencia de 6 eventos (Pr(X=6)) en una distribución de Poisson con un valor promedio esperado de 4 sucesos (λ=4), es de 0.104196, valor que se puede leer en el gráfico anterior de forma aproximada para X=6.


Otras direcciones relacionadas con la distribución de Poisson son las siguientes:

Distribución no acumulada: gráfico. UCLA Statistics.

Distribución Poisson acumulada: calculador. UCLA Statistics.

Distribución acumulada: gráfico. UCLA Statistics.

Generación aleatoria de muestras. UCLA Statistics.

Cálculo de probabilidades bajo la distribución Poisson. Chuck Anesi.

 

 

DISTRIBUCIONES CONTINUAS

Distribución Normal

Es una distribución simétrica cuyos valores se mueven en todo el eje real. Depende de dos parámetros, la media μ y la desviación estándar σ . Se simboliza por N(μ ,σ).

Esta distribución, conocida también como distribución gausiana o distribución de Laplace-Gauss, es la distribución más conocida y utilizada en estadística, siendo una distribución seguida por un gran número de variables.

Cuando a una variable X que sigue la normal N(μ ,σ).se le realiza el cambio de variable Y=(X-μ)/σ se obtiene la distribución normal N(0,1) denominada normal centrada y reducida, o distribución normal estándar o unitaria.

En el siguiente gráfico se muestra la función de densidad de la distribución Normal centrada y reducida.

 

Para calcular la probabilidad acumulada hasta un cierto valor X en la distribución Normal puede acceder a la calculadora mostrada en la siguiente dirección: http://www.stat.ucla.edu/calculators/cdf/normal/normalcalc.phtml .Especificándole 3 de los siguientes cuatro valores proporciona el cuarto (en el que debe introducirse un signo de interrogación): valor de la observación, media, desviación estándar, probabilidad acumulada. UCLA Statistics.
 

En la figura se muestra la probabilidad acumulada en el valor X=1.96, es decir, Pr(X1.96)=0.975.


En distribución normal (David Lane. HyperStat Online) puede calcularse el valor de Z, es decir, valores de la normal (0,1), para un área dada y para un valor Z dado. Incluye la representación gráfica de la distribución.


En la dirección http://www.stat.ucla.edu/calculators/cdf/normal/normaldens.phtml encontrará un calculador de la distribución Normal no acumulada , en la que introduciendo el valor X, la media y la desviación estándar de la distribución se obtiene la densidad del valor X. UCLA Statistics.

Como se ve en la figura, dado un valor X=1.96 se obtiene su densidad en la distribución Normal centrada y reducida, f(x=1.96)=0.058441.


Otras direcciones relacionadas con la distribución Normal son las siguientes:

Gráfico de la distribución Normal (probabilidad acumulada).UCLA Statistics.

Aplicación sobre la distribución normal: explicación interactiva de la distribución normal. Department of Statistics. Stanford University.

Distribución Normal: cálculo de probabilidad bajo la distribución normal. Institute of Phonetic Sciences. Faculty of the Humanities. University of Amsterdam.

Conjunto de aplicaciones interactivas. Esta dirección presenta cuatro 'applets' muy intuitivos y visuales que permiten obtener muy flexiblemente las probabilidades para un valor X, estandarizar valores (y viceversa) o visualizar y explicar el uso de las "viejas" tablas de la distribución Normal. En su conjunto resulta muy interesante; y a mi entender, especialmente útil para fines didácticos. Seeing Statistics. University of Colorado, Boulder.

Generación aleatoria de una muestra Normal. Debe especificarse el tamaño, la media y la desviación estándar, y una dirección de correo donde se envía la muestra generada. UCLA Statistics.

Cálculo de probabilidades entre dos valores de la distribución Normal estandarizada, con gráfico ilustrativo. California State, University San Bernardino.

Generación aleatoria de muestras bajo la distribución Normal o Uniforme, a partir de la especificación de unos parámetros. S.I.S.A. Simple Interactive Statistical Analysis.

Cálculo de los valores críticos y probabilidades que quedan por detrás de un valor X, o entre dos valores, para cualquier distribución normal. Obtiene las probabilidades unilaterales. Introduction to Statistics: Concepts, Models, and Applications David W. Stockburger.





Distribución Ji-cuadrado

Esta distribución proviene de la suma de n variables aleatorias independientes N(0,1) elevadas al cuadrado, Z2. Se simboliza como χ2(n). Así pues, esta distribución depende de un parámetro n denominado grados de libertad.

En el siguiente gráfico se muestra la función de densidad de la distribución Ji-cuadrado con 15 grados de libertad.

 


En la dirección http://www.stat.ucla.edu/calculators/cdf/chi2/chi2calc.phtml encontrará un calculador de la probabilidad acumulada en un valor ji-cuadrado (X-value) con unos grados de libertad determinados (Degrees of Freedom), que a continuación le mostramos. UCLA Statistics.

Especificando 2 de los valores proporciona el tercero, en el que debe escribirse un signo de interrogación. Una vez introducidos dichos valores se ha de pulsar el botón Complete Me!. Por ejemplo, si se pretende calcular la probabilidad acumulada en el valor X=20 de una distribución Ji-cuadrado con 15 grados de libertad se obtendría el valor ?=0.828067, es decir, Pr(X20)=0.828067.


Otras direcciones en las que se pueden encontrar aplicaciones relacionadas con la distribución Ji-cuadrado son las siguientes:

Gráfico de la distribución acumulada. UCLA Statistics.

Distribución no acumulada: calculador. Introduciendo el valor X y los grados de libertad de la distribución obtiene la densidad del valor X. UCLA Statistics.

Gráfico de la distribución no acumulada. UCLA Statistics.

Generación aleatoria de muestras. Genera aleatoriamente n valores bajo una distribución Ji-Cuadrado, con unos determinados grados de libertad, y envía la muestra a una dirección de correo.UCLA Statistics.

Valores críticos, con p=0.10, p=0.05 y p=0.01. Introduction to Statistics: Concepts, Models, and Applications David W. Stockburger.

 

Distribución Ji-cuadrado no centrada

Cuando las n variables aleatorias independientes X se distribuyen como N(μi , 1), la suma X2 se distribuye según una Ji-cuadrado no centrada, con n grados de libertad y parámetro de descentralización δ, definido como:

En la dirección http://www.stat.ucla.edu/calculators/cdf/ncchi2/ncchi2calc.phtml se puede calcular la probabilidad acumulada en el valor X de una distribución Ji- cuadrado no centrada con n grados de libertad y parámetro de descentralización δ. Especificando 3 de los siguientes cuatro valores proporciona el cuarto (en el que debe introducirse un signo de interrogación): valor X, probabilidad, grados de libertad (Degrees of Freedom) y parámetro de descentralización (Noncentrality Parameter) . UCLA Statistics.

Con los tres parámetros especificados en la figura se obtendría una probabilidad acumulada de 0.489703 (Pr(X20).


Otras direcciones relacionadas con la distribución Ji- cuadrado no centrada son las siguientes:

Gráfico de la distribución acumulada. UCLA Statistics.

Generación aleatoria de muestras. UCLA Statistics.





Distribución t de Student

Esta distribución depende de un parámetro n denominado grados de libertad. Se simboliza por t(n) y puede tomar valores en todo el eje real.

Donde Γ simboliza la función gamma.

Esta distribución está ligada a la distribución Normal y a la Ji-cuadrado, de manera que si X es N(0,1), e Y es una χ2(n), la variable:

En el siguiente gráfico se muestra la función de densidad de la distribución t de Student con 10 grados de libertad.

 

Se puede acceder a un calculador de probabilidades acumuladas basadas en la distribución t de Student: http://www.stat.ucla.edu/calculators/cdf/student/studentcalc.phtml, así como también obtener el valor X dada una determinada probabilidad acumulada. Concretamente, especificando 2 de los siguientes valores proporciona el tercero (en el que debe introducirse un signo de interrogación): valor de X, grados de libertad, probabilidad acumulada. UCLA Statistics.

Si se quiere calcular la probabilidad acumulada en el valor X=2 que se sitúa en la distribución t de Student con 10 grados de libertad se obtendría el valor ? = 0.963306, es decir, Pr(X2)=0.963306.

Si se quiere calcular el valor X que se sitúa en la distribución t de Student con 10 grados de libertad y una probabilidad acumulada de 0.95 se obtendría un valor ? = 1.812461, es decir, Pr(X1.812461)=0.95.


Otras direcciones relacionadas con la distribución t de Student son las siguientes:

t de Student: cálculo de probabilidad bajo la distribución t de Student. Institute of Phonetic Sciences. Faculty of the Humanities. University of Amsterdam.

Gráfico de la distribución acumulada. UCLA Statistics.

Distribución t de Student no acumulada: calculador. Introduciendo el valor X y los grados de libertad de la distribución obtiene la densidad del valor X. UCLA Statistics.

Gráfico de la distribución no acumulada. UCLA Statistics.

Generación aleatoria de muestras. Genera aleatoriamente n valores bajo una distribución t de Student con unos determinados grados de libertad, y envía la muestra a una dirección de correo.UCLA Statistics.

Valores críticos, para p=0.05, 0.01 y 0.10, para pruebas unilaterales y bilaterales. Introduction to Statistics: Concepts, Models, and Applications David W. Stockburger.



Distribución t de Student no centrada

Si la variable X es N(μ ,σ ) y la variable Y/σ 2 se distribuye según una Ji-cuadrado con n grados de libertad, se dice que la variable t sigue una distribución t de Student no centrada con n grados de libertad y con parámetro de descentralización δ, definido como:

En la dirección http://www.stat.ucla.edu/calculators/cdf/ncstudent/ncstudentcalc.phtmlse puede calcular la probabilidad acumulada asociada a un valor X situado en una distribución t de Student no centrada con n grados de libertad y parámetro de descentralización δ . UCLA Statistics.

En este ejemplo se pretende obtener la probabilidad acumulada asociada a un valor X=2 en una distribución t de Student no centrada con 30 grados de libertad y un parámetro de descentralización igual a 2. Una vez pulsado el botón Complete Me! obtendríamos que dicha probabilidad es igual a 0.480973.


También puede acceder a la generación aleatoria de muestras basadas en la distribución t de Student no centrada. UCLA Statistics.

 

 

Distribución F de Snedecor

Esta distribución depende de dos parámetros, m y n. Se simboliza como F(m,n). La variable puede tomar valores mayores que 0.

Esta distribución corresponde al cociente de dos variables aleatorias Ji-Cuadrado con m y n grados de libertad. Es decir, si X es una χ2(m) e Y es una χ2(n) independientes, entonces la variable:

Se distribuye según una F de Snedecor con m y n grados de libertad.

En el siguiente gráfico se muestra la función de densidad de dos distribuciones F de Snedecor , una con 30 grados de libertad en el numerador y denominador, y otra con 5 grados de libertad en el numerador y 10 grados de libertad en el denominador.

 

En la dirección http://www.stat.ucla.edu/calculators/cdf/f/fcalc.phtml se encuentra una aplicación para el cálculo de la probabilidad acumulada en un valor X asociado una distribución F de Snedecor con m y n grados de libertad. UCLA Statistics.


Al introducir 3 de los siguientes valores, proporciona el restante, para el que debe escribirse un signo de interrogación: el valor (X), la probabilidad acumulada y los grados de libertad del numerador y denominador. Se comprueba en el ejemplo que, dada una distribución F de Snedecor con 5 y 10 grados de libertad, Pr(X1)=0.534881.

En la dirección http://www.ruf.rice.edu/~lane/hyperstat/F_table.html se puede realizar el cálculo de la probabilidad que un valor F deja a su derecha. David Lane. HyperStat Online.

Se deben introducir los grados de libertad del numerador, los grados de libertad del denominador y el valor de F. Pulsar a continuación el botón Compute, que calculará la probabilidad dejada a la derecha del valor F. En el ejemplo vemos que, dada una distribución F de Snedecor con 5 y 10 grados de libertad, el valor F=1 deja una probabilidad de 0.46512 a su derecha (área del 46,5%), valor complementario al obtenido en el calculador anterior (0.534881, que corresponde con la probabilidad que deja el valor F=1 a su izquierda).


Otras direcciones relacionadas con la distribución F de Snedecor son las siguientes:

Gráfico de la distribución acumulada. UCLA Statistics.

Distribución no acumulada: calculador. Se introducen el valor F y los dos grados de libertad, y obtiene la función de densidad de dicho valor. UCLA Statistics.

Gráfico de la distribución no acumulada. UCLA Statistics.

Generación aleatoria de muestras., bajo unos determinados parámetros. UCLA Statistics.

F de Snedecor: valores críticos para la distribución F de Snedecor (para p=0.01 y p=0.05). Introduction to Statistics: Concepts, Models, and Applications David W. Stockburger.

Forma y valores críticos. Es una aplicación que muestra la como cambia la forma de la distribución y sus valores críticos en función de los grados de libertad. Universitair Centrum voor Statistiek.

 

Distribución F de Snedecor no centrada

Si la variable X es una variable Ji-cuadrado no centrada con m grados de libertad y parámetro de descentralización δ e Y es una Ji-cuadrado con n grados de libertad independiente de la anterior, la variable F definida como el cociente anterior sigue una distribución F no centrada con m y n grados de libertad y parámetro de descentralización δ .

En la dirección http://www.stat.ucla.edu/calculators/cdf/ncf/ncfcalc.phtml se tiene acceso a un calculador basado en dicha distribución. UCLA Statistics.

En este ejemplo se pretende obtener la probabilidad acumulada asociada a un valor X=1 en una distribución F de Snedecor no centrada con 5 y 10 grados de libertad y un parámetro de descentralización igual a 3. Una vez pulsado el botón Complete Me! obtendríamos que la probabilidad que dicho valor X deja a su izquierda es igual a 0.297324.


Enlaces relacionados con esta distribución son los siguientes:

Gráfico de la distribución acumulada. UCLA Statistics.

Generación aleatoria de muestras. UCLA Statistics.

 

 

RELACION ENTRE DISTRIBUCIONES

Si bien a primera vista puede parecer que las distribuciones no tienen nada en común, lo cierto es que, bajo ciertas condiciones, dos distribuciones pueden tener una equivalencia tal que, para un valor determinado, la probabilidad bajo las dos distribuciones sea muy similar, por lo que su cálculo puede ser realizado sobre cualquiera de las dos distribuciones, por lo que, en este caso, se utilizará la distribución que sea más cómoda para el usuario.

 

Binomial y Poisson

Una distribución binomial B(n,p) puede ser aproximada por medio de la distribución de Poisson P(λ), cuando la probabilidad de ocurrencia sea pequeña, sin más que obtener el valor del parámetro λ de Poisson por medio de la relación:


En la dirección http://www.stat.wvu.edu/SRS/Modules/PoissonApprox/poissonapprox.html puede encontrar una aplicación en la que se demuestra cómo una distribución binomial puede ser aproximada por una distribución de Poisson. Se puede comparar la distribución de frecuencias bajo una binomial y una Poisson cuando modificamos los valores n y p. Incluye ejercicios y ejemplos. Eberly College of Arts and Sciences. Departament of Statistics.

En esta aplicación se puede optar entre la visualización de la función de probabilidad (f(x)), que representa la probabilidad en un punto específico, o bien, por la función de distribución (F(x)), que representa la probabilidad acumulada.
Para actualizar los cambios en las distribuciones una vez modificados los parámetros n y p se debe pulsar el botón Rescale.

La selección de un rango de valores para encontrar su probabilidad se debe realizar a través de la lista desplegable que se encuentra encima del gráfico, en la zona grisácea. Si hacemos clic en el botón de flecha que aparece justo al final del campo con el texto Prob, aparecerá una lista de las posibles formas de selección (en rojo) de una zona del gráfico.




Binomial y Normal

Una distribución binomial B(n,p) puede aproximarse a la Normal cuando n30 y 0.1<p<0.9, o bien cuando p está cerca de 0.5 y np>5.

Para npq >= 9, la siguiente transformación proporciona una variable aproximadamente normal:

                    

Para el cálculo de P(aXb), correspondiente a una distribución binomial, a partir de la distribución Normal aproximada, se realiza la denominada corrección de continuidad que se presenta a continuación:

                 

 


 




y se calcula el área bajo la normal en el intervalo [a',b'].
            Si p<0.1 ó n<30, la aproximación es aceptable si np>5.
            Si p 0.5, la aproximación sigue siendo válida si np>3.
            Si n<30 y np<5, la binomial debe calcularse directamente como binomial.


En la dirección http://www.stat.wvu.edu/SRS/Modules/NormalApprox/normalapprox.html se encuentra una aplicación que puede usarse para obtener la aproximación de la binomial a la Normal, para estudiar las diferencias entre las probabilidades obtenidas bajo las dos distribuciones, y para estudiar en qué condiciones la aproximación es buena. Permite ajustar los parámetros n y p, y ver gráficamente si la forma de la distribución se ajusta a la normal. Por otra parte, también se puede optar entre la visualización de la función de probabilidad (Binomial) / densidad (Normal) (f(x)), que representa la probabilidad en un punto (Binomial) o intervalo (Normal) específico, o bien, por la función de distribución (F(x)), que representa la probabilidad acumulada. Eberly College of Arts and Sciences. Department of Statistics.

Para actualizar los cambios en las distribuciones una vez modificados los parámetros n y p se debe pulsar el botón Rescale.

En la imagen puede ver como hemos aproximado una distribución binomial B(20, 0.5) a una distribución normal, y cómo la probabilidad asociada al rango de valores discretos 7-13 (columnas) en la distribución binomial (0.8846) es muy similar a la probabilidad asociada al mismo rango continuo (6.5-13.5, línea amarilla) de la distribución normal (0.8824).

La selección de un rango de valores o área del gráfico para encontrar su probabilidad se debe realizar a través de la lista desplegable que se encuentra encima del gráfico, en la zona grisácea. Si hacemos clic en el botón de flecha que aparece justo al final del campo con el texto Prob, aparecerá una lista de las posibles formas de selección de una zona del gráfico. Una vez seleccionada la opción emergerá un cuadro de diálogo donde introducir los valores discretos enteros del eje X que definirán la zona a seleccionar (en color azul en el gráfico):

x>= a Se debe introducir el valor a en el campo Lower bound .
x<=a Se debe introducir el valor a en el campo Upper bound
a<=x<=b Se debe introducir el valor a en el campo Lower bound y b en el campo Upper bound
x=?        Se debe introducir el valor discreto escogido.



Otros enlaces en los que se puede estudiar esta relación son los siguientes:


Aplicación sobre la distribución binomial y su aproximación a la Normal. P.B. Stark. University of California, Berkeley. Department of Statistics.

Aproximación de la Binomial a la Normal. Obtiene el valor de la N(0,1) que correspondería a una binomial con n, r y p, y presenta una tabla con las probabilidades de cada valor N(0,1). Richard Lowry. VassarStats, Vassar College.

Demostración interactiva de la aproximación de la Binomial a la Normal. El usuario especifica valores para n y para p, y puede ver gráficamente, como cambia el ajuste de la aproximación. Ideada para utilizarse con fines didácticos o educativos. David Lane. HyperStat Online.




Poisson y Normal

Para el cálculo de P(aXb) en la distribución de Poisson a partir de la normal se realiza la corrección de continuidad.

y se calcula el área bajo la normal en el intervalo [a',b'].

Esta aproximación es aceptable para λ 9, y mejora a medida que λ aumenta de valor.

 

 

Normal y Ji-cuadrado

A medida que n aumenta, la distribución ji-cuadrado tiende a la distribución normal con media n y variancia 2n


Para n grande (n30), un valor de la distribución ji-cuadrado se puede obtener por su valor en la distribución normal, por medio de la siguiente transformación:

 

 

 

Normal, Ji-cuadrado, t de Student y F de Snedecor

El siguiente esquema permite visualizar la relación existente entre el conjunto de las cuatro distribuciones continuas que se han presentado:

 

Los siguientes ejemplos numéricos permiten verificar la igualdad de los valores de las funciones según el esquema presentado. El valor 0.05 se utiliza a efectos de obtener un punto concreto de la distribución:

 

          F(1,10,0.05) = 4.96463  <======>  t(10,0.05) = 2.22814
                                                    F=t2

          F(1, ,0.05) = 3.84147 <======>   z(0.05) = 1.95997
                                                     F=z2

          F(10, ,0.05) = 1.8307 <======>   X2(10,0.05)/10 =1.8307
                                                 F(n, )=Xn2/n

          t( ,0.05) = 1.95997     <======>    z(0.05) = 1.95997
                                                   t =z

          X2(1,0.05) = 3.84134   <======>   z(0.05) = 1.95997
                                                  X12=z2

 

 

SOFTWARE ADECUADO

En Internet podemos "bajar" de forma gratuita el programa STATLETS que se encuentra en http://www.statlets.com en su versión no comercial, el cual, entre otras posibilidades que le da los 50 Java applets que contiene, permite obtener una serie de gráficos y de valores para un amplio conjunto de distribuciones. El siguiente gráfico recoge la pantalla de este programa en su apartado de distribuciones, en el que se encuentran los nombres de las 24 distribuciones disponibles.

Para llegar a esta pantalla ejecutamos el programa STATLETS y en el menú elegimos Plot | Probability Distributions

 

 

Una vez tengamos esta pantalla, elegimos la distribución que nos interese. A título de ejemplo seleccionamos la distribución Normal.

A continuación se tiene que especificar la distribución concreta que nos interesa. Es decir, se trata de proporcionar los valores de los parámetros de la distribución. Esto se consigue pulsando en primer lugar la pestaña PDF y a continuación elegir Options en donde podremos escribir los valores de los parámetros de la distribución. En nuestro ejemplo se proporcionan los valores de la media y de la desviación estándar que definirán a la distribución normal. Al pulsar OK queda definida la normal N(0,1), tal como se puede ver en el siguiente gráfico.

 

Una vez definida la distribución podemos utilizar la pestaña Critical Values para definir valores de probabilidad acumulada y poder obtener los valores de la distribución que les corresponden. Para ello utilizamos Options y escribimos los valores de las áreas que interesen. Al pulsar OK el programa nos proporciona los valores buscados, tal como se puede ver en el siguiente gráfico.

 

 

Si lo que nos interesa es encontrar la probabilidad asociada a un valor de la distribución, seleccionamos la pestaña Tail Areas y en el botón Options podemos escribir hasta un máximo de cinco valores de la distribución. Para cada uno de ellos, el programa proporciona la probabilidad acumulada por debajo del valor (Lower Tail Area), el valor (altura) de la función de densidad de probabilidad para este valor (Probability Density) y la probabilidad acumulada por encima del valor (Upper Tail Area).

En nuestro ejemplo utilizamos el valor 1.96, el cual deja por debajo un área de valor 0.975002 y por encima un valor 0.024998. Por otra parte la función de densidad de probabilidad en el punto 1.96 vale 0.058441, tal como se puede leer en el siguiente gráfico:

 

 

 

Media y Variancia de las distribuciones

Una distribución viene caracterizada, entre otros índices, por una medida de su localización, la esperanza matemática, y una medida de su dispersión alrededor de la esperanza, denominada variancia.

A partir de la función de probabilidad o de densidad se puede calcular el valor de la esperanza matemática, que representa el centro de gravedad de los valores de la distribución donde la masa de cada punto es proporcional a la densidad en dicho punto.

Su cálculo se realiza por medio de la siguiente expresión:

Para una variable discreta:

 

Para una variable continua:

 

La variancia de una distribución indica cómo se distribuye la probabilidad alrededor de la esperanza, y su cálculo se realiza por medio de la expresión:

Para una variable discreta:

 

Para una variable continua:

 

Una expresión que a veces resulta más fácil utilizar para el cálculo de la variancia viene dada por:

 

A continuación se proporcionan la esperanza matemática E(X) y la variancia V(X) de cada distribución.

Bernoulli

 

Binomial: B(n,p)

 

Poisson: P(λ )

 

Normal: N(μ , σ )

 

Ji-cuadrado: χ2(n)

 

t de Student: t(n)

 

F de Snedecor: F(m,n)

 

Ji-Cuadrado no centrada: χ 2(n,δ)

 

t de Student no centrada: t(n,δ)

 

F de Snedecor no centrada: F(m,n,δ)

 

 

Referencias

Aranda, J. y Gómez, J. (1992). Fundamentos de estadística para economía y administración de empresas. Barcelona: Ed. P.P.U.

Castillo, E. (1978). Introducción a la estadística aplicada. Tomo 1. Santander (editado por el autor).

Lindsey, J.K. (1995). Introductory statistics. A modelling approach. Oxford: Clarendon Press.

Mendenhall, W., Scheaffer, R. y Wackerly, D (1986). Estadística matemática con aplicaciones. México: Grupo Editorial Iberoamérica.

Miller, J. (1997). CUPID: a program for computations with univariate probability distributions. Versión 1.1. Department of Psychology. University of Otago. Dunedin, New Zealand.

Palmer, A. (1995). Fundamentos matemáticos para el análisis de datos en Psicología. Palma de Mallorca: Universitat de les Illes Balears. Col.lecció materials didàctics, 3.

Libros de Tablas

Domènech, J.M. (1987). Tablas de estadística. Barcelona: Editorial Herder.

Meredith, W. (1971). Manual de tablas estadísticas. México: Ed. Trillas.

Palmer, A. (1995). Tablas de estadística. Palma de Mallorca: Universitat de les Illes Balears. Col.lecció materials didàctics, 7.

Pearson, E.S. y Hartley, H.O. (eds.)(1954). Biometrika tables for statisticians, Vol.1. Cambridge University Press.

Zar, J.H. (1984). Biostatistical analysis (2ªed.). Prentice-Hall.

Volver

Copyright © InterSalud 1999

Principio de página