Análisis Estadísticos para Ensayos Clínicos y Estudios Epidemiológicos. Asesoría estadística para investigación, en general, incluyendo Tesis. Asesoría Metodológica. Diseño de Posters para Congresos y Eventos Científicos.

martes, 6 de marzo de 2018

El coeficiente r de correlación y Karl Pearson

El coeficiente de correlación r de Pearson, para variables aleatorias cuantitativas, es un índice que mide el grado de covariación entre variables relacionadas linealmente.

Se hace énfasis en el concepto de linealidad porque puede haber otro tipo de relaciones entre variables, que no sean lineales, para las cuales no aplica este modelo.

Los valores del índice oscilan entre -1 y 1. Indicando el número la magnitud de la asociación y el signo la dirección de la misma.

Mientras más cercano sea el índice a 1 ó -1 más fuerte es la correlación.

En el caso de que el índice sea 1, se dice que hay una relación positiva perfecta, es decir, que la variable Y aumenta exactamente en la medida que aumenta la variable X. En el caso de que el índice sea -1, se dice que hay una relación negativa perfecta, es decir, que la variable Y disminuye exactamente en la medida en que aumenta la variable X. 

La correlación indica la dirección y la fuerza de una relación lineal y proporcionalidad entre dos variables estadísticas.

La fórmula del coeficiente r de correlación de Pearson es: 



Esta fórmula es especialmente útil cuando se conocen las medias y desviaciones típicas de las variables X e Y.

Un coeficiente de correlación es significativo si se puede afirmar, con cierta probabilidad, mientras más alta mejor, que es diferente a cero.

Generalmente se trabaja en base a una hipótesis. Dado un cierto coeficiente de correlación r obtenido en una determinada muestra, se trata de comprobar si dicho coeficiente es posible que se encuentre dentro de la distribución muestral especificada por la hipótesis nula.

Muchas veces al realizar el gráfico de dispersión con las variables X e Y se puede observar cierta relación entre las mismas, sobre todo si la relación es fuerte. Cuando la nube de puntos es absolutamente dispersa, es muy difícil sacar conclusiones directas.

En el siguiente gráfico se puede observar de lo que hablo:




Ahora, quisiera hablar brevemente sobre el padre de este tema: Karl Pearson.



Fue un matemático y científico británico, nacido en Londres el 27 de marzo de 1857. 

Desarrolló una investigación intensa sobre la aplicación de los métodos estadísticos en la biología y es considerado el fundador de la bioestadística y de la estadística matemática.

Trabajó en la aplicación de las matemáticas al estudio de la evolución de las especies y a la herencia, intentaba encontrar relaciones estadísticas para explicar como las características biológicas iban pasando a través de sucesivas generaciones.

Definió los conceptos de correlación, análisis de regresión y desviación típica.

Escribió un reconocido libro científico-filosófico llamado "La Gramática de la Ciencia" que años después sería recomendado por Einstein, quien utilizó varios de los temas del libro como parte de sus teorías, así como lo hicieron otros prominentes investigadores.

Murió en Londres el 27 de abril de 1936.