Análisis Estadísticos para Ensayos Clínicos y Estudios Epidemiológicos. Asesoría estadística para investigación, en general, incluyendo Tesis. Asesoría Metodológica. Diseño de Posters para Congresos y Eventos Científicos.

sábado, 1 de septiembre de 2018

Hipótesis en Investigación


Hipótesis en Investigación

En años de experiencia en investigación clínica he notado que muchos profesionales, y más aún los estudiantes, tienen problemas para plantear las hipótesis.

La hipótesis se puede definir como una predicción o explicación provisoria de la relación entre 2 o más variables. 

La hipótesis, como formulación que plantea una presunta relación, se puede expresar en forma de proposición, conjetura, suposición, idea o argumento que se acepta temporalmente para explicar ciertos hechos.

Así pues, el problema-pregunta precede a la hipótesis-respuesta que, a su vez, deriva del/los objetivo/s de la investigación.

Es evidente que el carácter tentativo, aunque informado, de la hipótesis la sitúa al inicio de un estudio (hipótesis a priori) en la fase de planificación y lógicamente antes de la obtención y análisis de los datos.

Según el método científico, las hipótesis pueden derivar de la aplicación de un razonamiento lógico inductivo o deductivo.

El método de razonamiento inductivo parte de la observación de un problema concreto y puede conducir a la formulación de una hipótesis.

El método deductivo nace de una teoría o de un marco conceptual o teórico5-7 y conduce a una serie de afirmaciones o hipótesis que, convertidas en un instrumento de trabajo, analizan la teoría.

Una vez analizada la hipótesis, no es lógico, ni ético, cambiar o manipular su formulación inicial (tampoco sería lícito cambiarla una vez conocido el resultado).

Otra cuestión es que los resultados obtenidos conduzcan a replantear o a formular otra hipótesis de trabajo (hipótesis a posteriori) pero ésta ya sería contrastada en otros estudios futuros.

Relación entre objetivos, hipótesis y diseño de estudio

Es importante insistir en que la clase de objetivos es clave para valorar la pertinencia de la/s hipótesis. El papel de la hipótesis consiste en guiar en la selección y definición de la metodología a utilizar.

Los estudios analíticos cuyo objetivo es la investigación de relaciones causales precisan de hipótesis que permitan establecer la base para las pruebas de significación estadística.

Los diseños analíticos (observacionales o experimentales) pretenden poner en evidencia asociaciones causales e intentan averiguar el porqué de ciertas situaciones. En este tipo de estudios, la hipótesis aporta una posible explicación y ésta exige que se disponga de datos suficientes para elaborar una respuesta provisional.

Estructura de una hipótesis

Una hipótesis bien formulada cuenta con una estructura compuesta por: unidad/es de observación (sujetos u objetos) y variables (atributos susceptibles de medición); además, se puede indicar cómo se espera que se relacionen estos dos elementos (direccionalidad de la hipótesis).

Cabe destacar que la direccionalidad de una hipótesis traduce las expectativas del estudio, lo cual, según algunos autores, puede ir en detrimento de su imparcialidad. No obstante, todo investigador/a tiene cierta idea o intuición sobre la posible respuesta a su problema, aunque no la formule explícitamente.

Ahora bien, es muy importante que el investigador sepa y acepte que las hipótesis no siempre se confirman y que para eso es que se realiza la investigación. El hecho de que no se confirme no implica para nada que la investigación esté mal o sea incorrecta.


----------------------------------------------------------------
Agradecimiento: En general extraído de “El uso de hipótesis en la investigación científica” (The use of hypothesis in scientific research) MT Icart Iserna, J. Canela Solerb

martes, 6 de marzo de 2018

El coeficiente r de correlación y Karl Pearson

El coeficiente de correlación r de Pearson, para variables aleatorias cuantitativas, es un índice que mide el grado de covariación entre variables relacionadas linealmente.

Se hace énfasis en el concepto de linealidad porque puede haber otro tipo de relaciones entre variables, que no sean lineales, para las cuales no aplica este modelo.

Los valores del índice oscilan entre -1 y 1. Indicando el número la magnitud de la asociación y el signo la dirección de la misma.

Mientras más cercano sea el índice a 1 ó -1 más fuerte es la correlación.

En el caso de que el índice sea 1, se dice que hay una relación positiva perfecta, es decir, que la variable Y aumenta exactamente en la medida que aumenta la variable X. En el caso de que el índice sea -1, se dice que hay una relación negativa perfecta, es decir, que la variable Y disminuye exactamente en la medida en que aumenta la variable X. 

La correlación indica la dirección y la fuerza de una relación lineal y proporcionalidad entre dos variables estadísticas.

La fórmula del coeficiente r de correlación de Pearson es: 



Esta fórmula es especialmente útil cuando se conocen las medias y desviaciones típicas de las variables X e Y.

Un coeficiente de correlación es significativo si se puede afirmar, con cierta probabilidad, mientras más alta mejor, que es diferente a cero.

Generalmente se trabaja en base a una hipótesis. Dado un cierto coeficiente de correlación r obtenido en una determinada muestra, se trata de comprobar si dicho coeficiente es posible que se encuentre dentro de la distribución muestral especificada por la hipótesis nula.

Muchas veces al realizar el gráfico de dispersión con las variables X e Y se puede observar cierta relación entre las mismas, sobre todo si la relación es fuerte. Cuando la nube de puntos es absolutamente dispersa, es muy difícil sacar conclusiones directas.

En el siguiente gráfico se puede observar de lo que hablo:




Ahora, quisiera hablar brevemente sobre el padre de este tema: Karl Pearson.



Fue un matemático y científico británico, nacido en Londres el 27 de marzo de 1857. 

Desarrolló una investigación intensa sobre la aplicación de los métodos estadísticos en la biología y es considerado el fundador de la bioestadística y de la estadística matemática.

Trabajó en la aplicación de las matemáticas al estudio de la evolución de las especies y a la herencia, intentaba encontrar relaciones estadísticas para explicar como las características biológicas iban pasando a través de sucesivas generaciones.

Definió los conceptos de correlación, análisis de regresión y desviación típica.

Escribió un reconocido libro científico-filosófico llamado "La Gramática de la Ciencia" que años después sería recomendado por Einstein, quien utilizó varios de los temas del libro como parte de sus teorías, así como lo hicieron otros prominentes investigadores.

Murió en Londres el 27 de abril de 1936.

miércoles, 21 de febrero de 2018

Regresión Lineal Múltiple



La predicción de una variable (Y) a partir de otra variable única, es un análisis no necesariamente común, toda vez que en la realidad, generalmente, existen múltiples  factores  que  afectan  a  cualquier  fenómeno  que  pretenda  explicarse.  


Es importante estudiar un modelo de análisis más complejo que  la correlación o la regresión simple, para realizar los cálculos adecuados para determinar cómo se  producen  estas  relaciones  múltiples entre  la  variable dependiente y  una  serie  más  o  menos numerosa  de  factores  que  la  condicionan.  


El  modelo de  la  regresión  lineal múltiple es un análisis multivariable que permite este objetivo.


Los modelos multinivel, proponen una estructura de análisis dentro de la cual se pueden reconocer los distintos niveles en que se articulan los datos, estando cada subnivel representado por su propio modelo (Draper, 1995) que especifica a cierto nivel cómo las variables, de ese nivel, influyen en las relaciones que se establecen en otros niveles.  


Para su aplicación se deben cumplir requisitos, que, de hecho, también se toman en cuenta en el modelo de regresión lineal.


Homocedasticidad: La distribución de los errores respecto al plano de regresión es homogénea alrededor del mismo.


Normalidad: los errores siguen una ley normal.


Independencia  de  errores:   Los  errores  son  independientes  entre  sí,  no  están relacionados  con  las  variables  predictoras.


Para dos variables independientes la fórmula de la ecuación de regresión múltiple es:




Eso, para dos variables independientes.


La ecuación general con k variables independientes es:





El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de la regresión.


Otro manera de estimar el modelo de regresión múltiple, es el método “stepwise” o  estimación  por  pasos.  consiste  en  estimar  sucesivos  modelos  de  regresión,  según  se incorporen, una a una y paso a paso, las diferentes variables predictoras. 


Mediante este método de estimación por pasos no sólo se evalúa la significación de cada modelo estimado (con una o más variables predictoras) sino que se informa también del aumento del poder explicativo de dicho modelo  según van incorporándose, una  a una, las  restantes  variables  explicativas potencialmente.


El modelo de regresión lineal múltiple es muy utilizado en investigaciones de Ciencias de la Salud.