Correlacion y modelos de regresion lineal

Independencia de dos variables aleatorias

Dos v.a. X e Y se dice que son estocásticamente independientes si y sólo si f(x,y)=f₁(x).f₂(y). En caso contrario se dice que están correlacionadas.

¿Son independientes las variables del ejemplo anterior? Como f₁(0)=0,7 y f₂(0)=0,5 f₁(0). f₂(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.

Según la definición de fdp condicionada, si X e Y son independientes

que coincide más con la idea intuitiva de independencia.

¿Cuándo diríamos que la hipertensión es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x₁|X₂=1), en los no consumidores: f(x₁|X₂=0) y en la población general: f₁(x₁).

En el ejemplo, la probabilidad de ser hipertenso en la población general f₁(1)=0,3 y en los consumidores de sal f(X₁=1|X₂=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes).

Diríamos que el consumo de sal y la hipertensión están correlacionados o asociados, o que la hipertensión depende del consumo de sal o, en terminología epidemiológica, que el consumo de sal es un factor de riesgo para la hipertensión. En cualquier caso, la correlación no implica dependencia causal.

El problema, en la práctica, es que no se suelen conocer las fdp's. A partir de una muestra sólo se puede obtener una estimación de la misma, además también se desean obtener estimaciones de la fuerza de la asociación.

Los modelos de regresión son modelos matemáticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemáticas de dependencia se puedan concebir, los más usados son lineal, polinómico, logístico, de Poisson, ...