Análisis Estadísticos para Ensayos Clínicos y Estudios Epidemiológicos. Asesoría estadística para investigación, en general, incluyendo Tesis. Asesoría Metodológica. Diseño de Posters para Congresos y Eventos Científicos.

martes, 6 de marzo de 2018

El coeficiente r de correlación y Karl Pearson

El coeficiente de correlación r de Pearson, para variables aleatorias cuantitativas, es un índice que mide el grado de covariación entre variables relacionadas linealmente.

Se hace énfasis en el concepto de linealidad porque puede haber otro tipo de relaciones entre variables, que no sean lineales, para las cuales no aplica este modelo.

Los valores del índice oscilan entre -1 y 1. Indicando el número la magnitud de la asociación y el signo la dirección de la misma.

Mientras más cercano sea el índice a 1 ó -1 más fuerte es la correlación.

En el caso de que el índice sea 1, se dice que hay una relación positiva perfecta, es decir, que la variable Y aumenta exactamente en la medida que aumenta la variable X. En el caso de que el índice sea -1, se dice que hay una relación negativa perfecta, es decir, que la variable Y disminuye exactamente en la medida en que aumenta la variable X. 

La correlación indica la dirección y la fuerza de una relación lineal y proporcionalidad entre dos variables estadísticas.

La fórmula del coeficiente r de correlación de Pearson es: 



Esta fórmula es especialmente útil cuando se conocen las medias y desviaciones típicas de las variables X e Y.

Un coeficiente de correlación es significativo si se puede afirmar, con cierta probabilidad, mientras más alta mejor, que es diferente a cero.

Generalmente se trabaja en base a una hipótesis. Dado un cierto coeficiente de correlación r obtenido en una determinada muestra, se trata de comprobar si dicho coeficiente es posible que se encuentre dentro de la distribución muestral especificada por la hipótesis nula.

Muchas veces al realizar el gráfico de dispersión con las variables X e Y se puede observar cierta relación entre las mismas, sobre todo si la relación es fuerte. Cuando la nube de puntos es absolutamente dispersa, es muy difícil sacar conclusiones directas.

En el siguiente gráfico se puede observar de lo que hablo:




Ahora, quisiera hablar brevemente sobre el padre de este tema: Karl Pearson.



Fue un matemático y científico británico, nacido en Londres el 27 de marzo de 1857. 

Desarrolló una investigación intensa sobre la aplicación de los métodos estadísticos en la biología y es considerado el fundador de la bioestadística y de la estadística matemática.

Trabajó en la aplicación de las matemáticas al estudio de la evolución de las especies y a la herencia, intentaba encontrar relaciones estadísticas para explicar como las características biológicas iban pasando a través de sucesivas generaciones.

Definió los conceptos de correlación, análisis de regresión y desviación típica.

Escribió un reconocido libro científico-filosófico llamado "La Gramática de la Ciencia" que años después sería recomendado por Einstein, quien utilizó varios de los temas del libro como parte de sus teorías, así como lo hicieron otros prominentes investigadores.

Murió en Londres el 27 de abril de 1936.

miércoles, 21 de febrero de 2018

Regresión Lineal Múltiple



La predicción de una variable (Y) a partir de otra variable única, es un análisis no necesariamente común, toda vez que en la realidad, generalmente, existen múltiples  factores  que  afectan  a  cualquier  fenómeno  que  pretenda  explicarse.  

Es importante estudiar un modelo de análisis más complejo que  la correlación o la regresión simple, para realizar los cálculos adecuados para determinar cómo se  producen  estas  relaciones  múltiples entre  la  variable dependiente y  una  serie  más  o  menos numerosa  de  factores  que  la  condicionan.  

El  modelo de  la  regresión  lineal múltiple es un análisis multivariable que permite este objetivo.

Los modelos multinivel, proponen una estructura de análisis dentro de la cual se pueden reconocer los distintos niveles en que se articulan los datos, estando cada subnivel representado por su propio modelo (Draper, 1995) que especifica a cierto nivel cómo las variables, de ese nivel, influyen en las relaciones que se establecen en otros niveles.  

Para su aplicación se deben cumplir requisitos, que, de hecho, también se toman en cuenta en el modelo de regresión lineal.

Homocedasticidad: La distribución de los errores respecto al plano de regresión es homogénea alrededor del mismo.

Normalidad: los errores siguen una ley normal.

Independencia  de  errores:   Los  errores  son  independientes  entre  sí,  no  están relacionados  con  las  variables  predictoras.

Para dos variables independientes la fórmula de la ecuación de regresión múltiple es:


Eso, para dos variables independientes.

La ecuación general con k variables independientes es:



El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de la regresión.

Otro manera de estimar el modelo de regresión múltiple, es el método “stepwise” o  estimación  por  pasos.  consiste  en  estimar  sucesivos  modelos  de  regresión,  según  se incorporen, una a una y paso a paso, las diferentes variables predictoras. 

Mediante este método de estimación por pasos no sólo se evalúa la significación de cada modelo estimado (con una o más variables predictoras) sino que se informa también del aumento del poder explicativo de dicho modelo  según van incorporándose, una  a una, las  restantes  variables  explicativas potencialmente.

El modelo de regresión lineal múltiple es muy utilizado en investigaciones de Ciencias de la Salud.


miércoles, 1 de noviembre de 2017

Acerca de la Regresión Logística Múltiple



Regresión Logística Múltiple



La regresión logística múltiple generaliza el método de regresión logística para problemas, con más de dos posibles resultados discretos.​ Se utiliza para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables .


La opción Regresión logística múltiple resulta útil en aquellas situaciones en las que desee poder clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente no está restringida a dos categorías.


La regresión logística permite discriminar entre dos poblaciones, en términos de un conjunto de

variables en el papel de predictores.


para representar probabilidades de ocurrencia de un evento, como función de una serie de variables predictoras.


Adicionalmente, sirve para representar una variable asociada a un fenómeno  que de un conjunto de variables predictoras, cuyo comportamiento sea aproximadamente lineal, dentro de un cierto rango de los predictores, y tiendan a mantenerse constantes fuera de él.


Los predictores pueden ser también variables dicotómicas, en tal caso se utilizan variables dummy para representarlas.



El modelo de regresión logística es un modelo lineal generalizado





en que la función de enlace η es del tipo:

 





Las variables x1, x2, ....., xk son los predictores, ,la variable γ es la respuesta, que toma los valores 1  o  0, los β0, β1, ......., βson los parámetros del modelo.


e es un error aleatorio, tal que 0 <η (x)+e<1


Si el modelo se utiliza para clasificar, los valores 0 y 1 de la respuesta e identifican a ambas poblaciones en que se puede clasificar una observación.  
 

El modelo logístico multinomial supone que los datos son específicos del caso; Es decir, cada variable independiente tiene un valor único para cada caso. 

El modelo logístico multinomial también supone que la variable dependiente no puede ser perfectamente pronosticada a partir de las variables independientes para ningún caso.



Existen varios tipos de regresión logística múltiple.








_____________________________________

Wikipedia

                               http://www.jorgegalbiati.cl/ejercicios_7/RegrLog.pdf