MATEMÁTICA Y ESTADÍSTICA
39
Trabajo Práctico No.12: Análisis de Correlación lineal simple Contenido: Correlación lineal aplicaciones, cálculos e interpretación: Coeficiente de correlación “r” de Pearson. Pruebas de significancia de “r”: prueba de “t”, uso de ábacos, uso de tablas. Límites de confianza de “r”.Test de hipótesis sobre la población de “r”, Transformación de Fisher para “r” en “z”. Comparación de dos coeficientes de correlación. Lecturas recomendadas: Spiegel, 1991. Cap.13:289-321; Cap.14:322-356; Cap.17:411-439. Sokal & Rohlf, 1979. Cap.4: 444-537; Cap.15:541-600. Zar, J. H., 1984. Cap. 19: 306-313. Merodio, 1986. Cap.4: 57-65. Idea principal El objetivo de un estudio de dos variables cuantitativas, ya sea a través de un estudio de correlación o de regresión, es obtener una medida matemática de la relación entre las dos variables y dar una medida de la incertidumbre de la relación hallada. La CORRELACIÓN estudia el comportamiento conjunto de dos variables aleatorias referidas a dos características diferentes de un mismo objeto. Interesa lograr una medida de la intensidad de la relación mutua entre ambas. El coeficiente de correlación lineal considera la relación lineal entre dos variables, pero ninguna de ellas se asume que sea funcionalmente dependiente de la otra. Sería el caso en que se deseara estudiar la relación entre el contenido de Si y K en rocas ígneas. Los gráficos de dispersión en los que se representan pares (x,y) obtenidos de las observaciones, dan una primera idea de la naturaleza de la relación entre ambas variables. Ellos permiten analizar: * El sentido, positivo o negativo. Se dice que la relación es positiva cuando a valores mayores de una variable le corresponden en general valores mayores de la otra y negativa en el caso que a valores menores de una variable le corresponden valores mayores de la otra * La forma que podrá ser lineal, cuadrática etc. o en algunos casos no estar definida o clara. * La intensidad, fuerte o débil, que esta dada por el grado de proximidad de los puntos a la gráfica que supone describe el comportamiento de una función de la otra.
Para el desarrollo del TP se requiere el uso del ábaco para determinar los límites de confianza del coeficiente de Correlación “r” de Pearson y de las tablas de valores críticos del coeficiente de Correlación “r” de Pearson; TRANSFORMACIÓN F DE FISHER; Zr, PARA EL COEFICIENTE DE CORRELACIÓN “r” DE PEARSON, TRANSFORMACIÓN F DE FISHER , Zr, EN EL COEFICIENTE DE CORRELACIÓN “r” DE PEARSON . 12.1) a) Plantee un problema GEOLÓGICO que debería ser resuelto mediante la aplicación de un análisis de correlación. ................................................................................................................................................. ................................................................................................................................................. .......................................................................................................................................... b) Completar: En un problema de correlación interesa explorar la relación de la variable “y” en función de “x” y viceversa y lograr una medida de la intensidad de la relación entre ambas. El coeficiente de correlación es una de las medidas de asociación lineal entre ambas variables. • El coeficiente de correlación varía entre ........................................... • El signo del coeficiente de correlación indica ........................................................... • La magnitud del coeficiente indica la .......................... de la correlación lineal. Si su valor absoluto fuese 1, esto indicaría que.................................................................. y en el caso que fuera 0, indicaría que ...................................................................... c) Dados los siguientes valores del coeficiente de correlación: 0; -0,9; 0,7; 0,05; ¿Con qué gráfica asociaría mejor cada uno de ellos?
40
MATEMÁTICA Y ESTADÍSTICA 5.5
4.5 4.0
4.5 3.5 3.0
Y
Y
3.5
2.5
2.5 2.0 1.5
1.5 1.0
0.5
0.5
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
0.8
1.2
1.6
2.0
X
2.4
2.8
3.2
3.6
X
4.5
5.5
4.0 4.5
3.5 3.0
Y
Y
3.5
2.5
2.5 2.0 1.5
1.5
1.0 0.5
0.5 0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
X
X
12.2) En un trabajo de campo realizado en una quebrada en la Puna Argentina se ha medido el espesor, en metros, de 2 secuencias rocosas (A y B). Los espesores de ambas unidades aumentan paulatinamente desde el inicio de la quebrada hacia aguas arriba. Las medidas efectuadas en cada estación se indican a continuación. Estación 1 2 3 4 5 6
Espesor (m) Unidad A (x) 50 60 70 75 80 90
Unidad B (y) 50 85 110 140 170 200
Espesor total Unidad A (x’) 50,0 41,4 38,9 34,9 32,0 31,0
(%) Unidad B (y’) 50,0 58,6 61,1 65,1 68,0 69,0
¿Puede Ud. asegurar que existe algún tipo de vinculación entre el espesor de ambas secuencias? Justifique su respuesta utilizando argumentos estadísticos. Para responder puede seguir los pasos indicados a continuación: a) Calcule la media, la desviación estándar y el coeficiente de variación de cada una de las variables (x e y). b) Realice un diagrama de dispersión x (en abscisas) e y (en ordenadas). ¿Cuáles son las características de las relaciones sugeridas por el gráfico obtenido? c) Calcule el coeficiente de correlación de Pearson (r). d) Efectúe una prueba de significación del coeficiente de correlación (r). Utilice la tabla disponible para tal fin. Corrobore los resultados realizando también un test de “t”. d) Los datos obtenidos fueron convertidos a porcentajes de manera que cada par de valores expresa la proporción relativa de cada unidad en una misma estación (columna x’e y’ de la tabla de datos). ¿Puede Ud. afirmar que los resultados obtenidos con los datos originales y los datos transformados son los mismos? Justifique su respuesta utilizando argumentos estadísticos. • Realice un diagrama de dispersión x’- y’ ¿Cuáles son las características de las relaciones sugeridas por el gráfico obtenido? • Calcule el coeficiente de correlación de Pearson (r) y realice una prueba de significación para el mismo.
41
MATEMÁTICA Y ESTADÍSTICA
El problema de la suma constante: uno de las prácticas habituales en el tratamiento de datos es su transformación de forma que para un espécimen o individuo la suma de todas las componentes individuales sea constante (i.e. 100%).como sucede cuando se estudia la composición geoquímica de rocas y minerales. Datos expresados como parte del todo (porcentajes o partes por millón –ppm-) se conocen como datos composicionales. Este es un mecanismo sencillo que permite realizar comparaciones entre muestras, sin embargo puede conducir a resultados espurios e inducir a interpretaciones erróneas de los datos. Esto se produce pues los porcentajes son razones numéricas complejas que contienen variables en su denominador que representan todos los constituyentes a ser examinados. Esto trae aparejado que los componentes de porcentajes no sean libres de variar independientemente. A medida que la proporción de un componente aumenta, la proporción de uno o más de los otros componentes debe decrecer. Por ejemplo si se analiza el quimismo de una roca y el contenido en sílice fuera 61,5%, entonces el contenido de alúmina no podrá ser cualquier valor, estará restringido a ser igual ó menor que (100 – 61,5)%. El siguiente óxido que forme parte de esta roca se verá también restringido por el contenido de los dos elementos anteriores. Una de los problemas que se producen al analizar datos composicionales es que se introduce un sesgo negativo en las correlaciones, como se acaba de demostrar con los datos del ejercicio. (Aitchison, 1986; Rollinson, 1993)
12.3) Se ha efectuado un estudio hidroquímico en aguas y salmueras de la Salinas Grandes, Córdoba. Para ello se tomaron muestras de agua en el área de aporte de ríos y vertientes y en el Complejo salino (lagos y lagunas). (Dargám y Depetris, 1985. RAGA, 50(1-4):87-102). a) Interesa conocer si la relación cloruros-sodio de las muestras que se han tomado (ver datos adjuntos) puede considerarse que pertenecen a una población cuyo coeficiente de correlación es ρ = 0,93. Justifique su respuesta indicando hipótesis nula, alternativa y nivel de significación de la prueba. Para responder puede seguir los pasos indicados a continuación: Realice un diagrama de dispersión x (en abscisas) y (en ordenadas). Analice las características de las relaciones sugeridas por el gráfico. Calcule el coeficiente de correlación. Realice la transformación de Fisher del r calculado y de ρ. Luego prosiga con el Test de hipótesis. Log (Na+/meq) 3,54 3,65 3,26 3,30 3,26 2,60 3,02 3,91 3,50 3,59
Log (Cl-/meq) 3,62 3,75 3,15 3,08 2,80 2,84 3,04 3,95 3,55 3,16
Log (Na+/meq) Log (Cl-/meq) 3,00 2,94 3,04 2,67 2,89 2,64 3,33 3,17 3,45 3,31 3,49 3,37 2,00 1,88 2,22 2,34 2,36 2,65 2,82 2,97
Log (Na+/meq) Log (Cl-/meq) 2,90 3,17 3,89 4,03 3,02 2,63 3,64 3,88 3,83 4,05 3,17 3,01 3,04 2,98 2,95 3,14 2,31 2,40 2,71 2,77
b) Se estudió también la relación cloruros-sodio en 60 muestras del Complejo salino, el coeficiente de correlación calculado es r = 0,90. ¿Pude considerarse que las aguas tomadas en el área de aporte y en el Complejo salino pertenecen a la misma población? En caso afirmativo, ¿cuál es el coeficiente de correlación de esa población? Justifique su respuesta indicando hipótesis nula, alternativa y nivel de significación de la prueba. Para responder puede seguir los pasos indicados a continuación: Realice las transformaciones de Fisher para ambos r, realice el Test de hipótesis. Si acepta la hipótesis nula enunciada, calcule el coeficiente de correlación común. No olvide expresar el resultado “z” como “r”.
42
MATEMÁTICA Y ESTADÍSTICA
Trabajo Práctico No.13: Regresión lineal simple Contenido: Regresión lineal simple aplicaciones, cálculos e interpretación: recta de regresión. Test de hipótesis sobre el coeficiente de regresión: ANOVA de la regresión, test de “t”. Límites de confianza del coeficiente de regresión. Lecturas recomendadas: Spiegel, 1991. Cap.13:289-321; Cap.14:322-356; Cap.17:411-439. Sokal & Rohlf, 1979.Cap.14:444-537; Cap.15:541-600. Zar, J.H., 1984, Cap. 17: 261-273. Merodio, 1986. Cap.4: 57-65. Davis, 1973. Cap.5: 192-222. Idea principal El análisis de REGRESIÓN enfoca el problema de explorar y modelar la relación existente entre una variable aleatoria, respuesta, “y”, llamada variable dependiente y otra variable, controlada por el investigador “x”, explicativa denominada variable independiente. Esto significa que la magnitud de una de las variables (la dependiente) está determinada ó es función de la magnitud de la segunda variable (la independiente). Cuando la relación puede expresarse a través de una recta se denomina regresión lineal, y se agrega el adjetivo de simple pues sólo considera el caso de 2 variables. El cálculo de isocronas (geocronología) es una de las muchas aplicaciones en ciencias de la tierra.
Para el desarrollo del TP se requiere el uso de las tablas de probabilidades “t” y “F”. 13.1) a) Dadas las siguientes variables explicativas indique para cada uno de ellas una variable respuesta. Variable respuesta
Variable explicativa Presión litostática Metasomatismo
b) Dadas las siguientes variables respuesta indique para cada uno de ellas una o mas variables explicativas. Variable respuesta Volumen de un gas Densidad de un magma
Variable explicativa
13.2) En un intento de interpretar las condiciones ambientales en las que se desarrolló una cuenca sedimentaria del Paleozoico inferior se ha estudiado un largo testigo que atraviesa una espesa sucesión estratigráfica de esta edad. Se trata de una unidad clástica constituida por capas de arcillas intercaladas con arenas, perteneciente a un ambiente marino offshore (aguas afuera). El geólogo ha postulado que la cuenca se ha llenado paulatinamente, y que la línea de costa ha avanzado en dirección a la perforación, conforme a ello, el espesor de las capas de arena ha aumentado. La unidad contiene cientos de capas por lo que se optó por medir el espesor de las capas de arena que se encuentran a intervalos regulares de 10 cm. Estas medidas desde la base al techo del testigo se presentan en la tabla adjunta. Intervalo
Espesor
Intervalo
Espesor
Intervalo
Espesor
Intervalo
Espesor
Intervalo
Espesor
10(base)
9,2
110
5,9
210
7,1
310
12,1
410
11,2
20
7,1
120
6,1
220
10,4
320
15,3
420
17,3
30
5,9
130
7,7
230
6,7
330
9
430
15,8
40
3,7
140
7
240
8,6
340
11,2
440
11,1
50
6,2
150
5,5
250
6,4
350
8,9
450
11,8
60
4,1
160
9,8
260
8,5
360
9
460
18,9
70
3,9
170
6,9
270
8,9
370
6,5
470
9,6
80
5
180
5,2
280
10,7
380
11
480
17,9
90
4,4
190
6,8
290
14,4
390
13,9
490
12,8
100
6,8
200
8,5
300
15,2
400
9,1
500(techo)
15
43
MATEMÁTICA Y ESTADÍSTICA
a) El geólogo necesita determinar si, el aumento del espesor de las capas de arena en función de la profundidad, es un fenómeno real. Para contestar esta pregunta le recomendamos que: i) Construya el gráfico bi-variado de dispersión de las variables X e Y. Incluya un punto más cuyas coordenadas correspondan a los promedios de cada una de las variables. ii) Calcule la ecuación de la recta (a + bx), donde a representa la ordenada al origen y b la pendiente o coeficiente de regresión. iii) Estime el espesor de las capas de arenas para una profundidad de 367 metros. iv) Trace la recta de regresión sobre el gráfico de dispersión de ambas variables. v) Calcule la varianza explicada por la regresión. vi) Calcule la varianza no explicada. vii) Efectúe un ANOVA sobre la significancia de la varianza explicada y no explicada por la regresión. b) El geólogo también está interesado en establecer si el espesor de las capas de arena aumenta hacia la parte superior del testigo. Para establecerlo le recomendamos que realice un test de “t” sobre el coeficiente de regresión. Analice detenidamente si se trata de un test a 1 cola (¿superior o inferior?), o a 2 colas. Justifique su elección. 13.3) Una empresa minera está interesada en el estudio de depósitos de oro por ello efectúa un muestreo de pepitas en sedimentos de corriente. Se desea contrastar la siguiente hipótesis: el porcentaje de oro aumenta a medida que aumenta la distancia del lugar donde el río corta el filón que es la fuente de aporte de las pepitas. Se supone que a medida que las pepitas se mueven aguas abajo, la plata y los metales base son lixiviados aumentando el contenido relativo en oro. A continuación se muestran las estimas de los parámetros (a y b) de una regresión como así también sus respectivos errores y los resultados del ensayo de hipótesis efectuados a los parámetros y la regresión. Interprete los resultados. Parámetro
Valor
Ordenada al origen Pendiente
69,5872 5.739 E-04
Error estándar 0,0012 3.667 E-07
"t" de Student
Probabilidad a 2 colas
57853.39 1565.11
0.0000 0.0000
R-SQUARED 1.0000 RESID. MEAN SQUARE (MSE) 8.515E-06 ADJUSTED R-SQUARED 1.0000 STANDARD DEVIATION 0.00292 Origen de la variación Regresión Residuos
Suma de cuadrados 20.8570 2.469E-04
Grados de libertad 1 29
Cuadrado medio 20.8570 8.515E-06
F
Prob.
2449566
0.0000