Capítulo 11
Diseño de experimentos factoriales a dos niveles
1. Introducción 2. El diseño 22 3. El diseño 2k 4. Fracciones de diseños factoriales
1 Apuntes realzados por el Profesor Ismael Sánchez para la asignatura: Métodos Estadísticos para la Mejora de la Calidad, de la titulación de Ingeniería de Telecomunicaciones. Universidad Carlos III de Madrid
1
2
Diseño de experimentos factoriales a dos niveles
11.1.
Introducción
En los dos capítulos anteriores tratamos el análisis de los datos que resultaban al realizar un conjunto de experimentos. En este capítulo estudiaremos cómo diseñar el experimento con el fin de analizar el máximo número de factores con el mínimo número de datos. La motivación general es que la obtención de datos reales por medio de experimentos puede ser muy caro. Por tanto, hemos de optimizar el coste del experimento. Para ello, una estrategia habitual es realizar experimentos con sólo dos niveles para cada uno de los factores a considerar. Por ejemplo: Tipo de motor: con/sin catalizador Temperatura: alta/baja Reactivo químico: en cantidad Q1 ó Q2 Circuitos: con componentes tipo I o tipo II Voltaje: V1 ó V2 Potencia: P1 ó P2 Este tipo de diseños es muy frecuente en la industria debido al alto coste que puede suponer la experimentación y al elevado número de experimentos que serían necesarios si estamos interesados en muchos factores con muchos niveles. Por ejemplo, un diseño de 5 factores con 5 niveles cada uno requiere la realización de 55 = 3125 experimentos. El objetivo, por tanto, es detectar qué factores son significativos (o interacciones entre factores) realizando un número mínimo de experimentos. Posteriormente, se pede pasar a realizar un experimento más exhaustivo sólo con los factores que en esta primera etapa hayan resultado significativos. En la literatura inglesa a este tipo de experimentos se le denomina ’screening designs’, o diseños prospectivos, por su carácter preliminar.
11.2.
El diseño 22
11.2.1.
Tabla estándar y ecuación de regresión
Este es el caso más sencillo de diseños factoriales a dos niveles. En la notación 22 , el exponente indica el número de factores: 2; mientras que la base indica los niveles de cada factor: también 2. El diseño consta de dos factores: el factor A y el factor B. Ambos factores tienen dos niveles: el nivel (—) y el nivel (+). Si el factor es cuantitativo, el nivel (+) representa al nivel superior y el (—) al inferior. Si el factor es del tipo presencia/ausencia de cierto atributo, el nivel (+) representa la presencia del atributo y (−) la ausencia. En cualquier otro caso, la asignación del nivel (+) o (−) es arbitraria. El diseño consta, entonces, de 4 experimentos según las cuatro combinaciones de los signos de los factores (factor A, factor B). Sea y la variable respuesta. Se suele denominar con la letra o al valor de y correspondiente a la combinación (—,—); con a a la combinación (+,—); con b a la combinación (—,+); y ab a la combinación (+,+). El diseño se puede resumir en la siguiente tabla, donde cada fila es un experimento distinto: Factor A Factor B Respuesta y − − y11 (o) + − y21 (a) − + y12 (b) + + y22 (ab)
(11.1)
11.2 El diseño 22
3
Cuando la secuencia de signos es como aparece en la tabla, recibe el nombre de configuración o tabla estándar: el factor A alterna los signos comenzando con el (—), mientras que el B cambia de signo cada dos experimentos y comienza por el (—). El subíndice de y es 1 si el factor está en el nivel (—), y 2 si está en el (+).
Ejemplo 1: Una empresa de componentes electrónicos desea saber qué factores afectan a la variabilidad de sus resistencias eléctricas. Dicha variabilidad se mide con la diferencia entre el valor real y el nominal (en Ohmios). Se realiza un primer experimento con 4 resistencias de valor nominal 100 Ω. Los factores que se controlan son: Factor A: Temperatura: (-) 15o C (+) 60o C Factor B: Vida del componente: (-) sin usar (+) 1000 horas de uso Los valores obtenidos para las cuatro resistencias analizadas (variable y =diferencia entre valor real y nominal (100 Ω)) son los siguientes Factor A Factor B Respuesta y − − y11 (o) = 3 + − y21 (a) = 15 − + y12 (b) = 20 + + y22 (ab) = 34
El modelo que sigue la variable y en este diseño es: yij = μ + αi + β j + (αβ)ij + uij ; i, j = 1, 2
(11.2)
y es un caso particular de los diseños factoriales vistos en el tema anterior. Al existir sólo dos niveles, merece la pena encontrar una expresión simplificada alternativa de este modelo, que permita un análisis más sencillo. El valor de yij en cada celda de la tabla de dimensión 2×2 puede expresarse de la siguiente forma:
Factor A − + − + − + − + Factor B − y11 y21 = − μ μ + − α1 α2 + − β 1 β 1 + μ μ + α1 α2 + y12 y22 + β2 β2 − + − + u11 u21 + − (αβ)11 (αβ)21 + − + u12 u22 + (αβ)12 (αβ)22 Como αi representa desviaciones respecto al valor medio μ se verifica que α1 + α2 = 0 ⇒ α1 = −α2
4
Diseño de experimentos factoriales a dos niveles
Por tanto − + − + − α1 α2 ≡ − −α2 α2 + α1 α2 + −α2 α2 Análogamente: β 1 + β 2 = 0 ⇒ β 1 = −β 2 y, por tanto − + − + − β 1 β 1 ≡ − −β 2 −β 2 + β2 β2 + β2 β2 Los parámetros de la interacción (αβ)ij también suman cero por filas y columnas, por tanto: − + − + − (αβ)11 (αβ)21 ≡ − (αβ)22 −(αβ)22 + (αβ)12 (αβ)22 + −(αβ)22 (αβ)22 Por tanto, se cumple que: Factor A − + − + − + − + Factor B − y11 y21 = − μ μ + − −α2 α2 + − −β 2 −β 2 + μ μ + −α2 α2 + y12 y22 + β2 β2 − + − + u11 u21 + − (αβ)22 −(αβ)22 + − + u12 u22 + −(αβ)22 (αβ)22 y basta, entonces, un sólo parámetro para describir el efecto de cada componente de la variabilidad explicada (factor o interacción). Definamos ahora las siguientes variables dicotómicas (variable dicotómica= que sólo toma dos valores): ½ si el Factor A está al nivel (+) DA = +1 −1 si el Factor A está al nivel (—) ½ si el Factor B está al nivel (+) DB = +1 −1 si el Factor B está al nivel (—) Utilizando estas variables, el modelo (11.2) puede escribirse de la siguiente manera: yij = μ + α2 DA + β 2 DB + (αβ)22 DA × DB + uij . A esta representación se le denomina Ecuación o Modelo de Regresión. Por ejemplo, para la observación y11 se tiene que ambos factores toman valor (—). Se tiene entonces que DA = −1, DB = −1 y DA × DB = +1, y la ecuación de regresión toma el valor y11 = μ − α2 − β 2 + (αβ)22 + u11 .
11.2 El diseño 22
11.2.2.
5
Estimación
La estimación de los parámetros se hace de la misma manera que se definió en los temas anteriores. Por tanto: P2 P2 j=1 i=1 yij μ ˆ= 4 P2 j=1 y2j −μ ˆ α ˆ2 = 2 P2 ˆ = i=1 yi2 − μ ˆ β 2 2 La interacción en la celda (i, j) es (αβ)ij = E(yij |para i, j) − μ − αi − β j donde, al existir una sola observación en cada celda, la estimación de E(yij |para i, j) será dicha observación. Por tanto: [ = y22 − μ ˆ . (αβ) ˆ−α ˆ2 − β 2 22
En este modelo sin replicaciones, la interacción de orden 2 coinciden con los residuos, por lo que su estimación nos deja sin información para calcular la VNE, lo que implicaría que la variabilidad de y se explicaría totalmente, sin error, con esos dos factores. No se tiene, entonces, información para realizar contrastes. No obstante, a nivel teórico tiene interés incluir aquí su estimación, y así definir de forma fácil la notación y propiedades que serán de utilidad para modelos más complejos en los que sí exista interés en estimar la interacción. Se define Efecto de un factor o interacción al incremento esperado en la variable respuesta al pasarse del nivel (—) al nivel (+). Se tiene entonces que: Efecto del Factor A≡ α = α2 − α1 = 2α2 Efecto del Factor B≡ β = β 2 − β 1 = 2β 2 Efecto de la interacción ≡ αβ = (αβ)22 − (αβ)12 = 2(αβ)22
Al efecto de los factores se les denomina también efectos principales. Puede demostrarse que la estimación de los efectos, tanto principales como interacciones, son independientes entre si. Esta independencia procede de la ortogonalidad de las columnas; es decir, que el producto escalar de cualquier par de columnas (con +1 en lugar de +, y -1 en lugar de —) es nulo. Por ejemplo A × B = {(−1) × (−1)} + {(+1) × (−1)} + {(−1) × (+1)} + {(+1) × (+1)} = 0.
Con los datos del Ejemplo 1 se tiene: μ ˆ = 18 α ˆ 2 = 6,5 ˆ =9 β 2
[ = 0,5 (αβ) 22
6
Diseño de experimentos factoriales a dos niveles
Figura 11.1: Diagrama de Pareto para los efectos del Ejemplo 1. y la ecuación de regresión es: yij = 18 + 6,5DA + 9DB + 0,5DA × DB donde no hay residuos porque coinciden con el efecto de la interacción. El efecto de cada factor es: Media global=18 Factor A: Temperatura=13 Factor B: Componente=18 Interacción=1 Es habitual representar estos efectos, en valor absoluto, en un diagrama de Pareto, donde los efectos se ordenan de mayor a menor magnitud (en valor absoluto). La figura 11.1 muestra el diagrama de Pareto para los efectos del ejemplo 1. La figura 11.2 muestra los gráficos de efectos principales e interacciones de este ejemplo.Puede verse que la interacción parece poco relevante, al ser las rectas del gráfico casi paralelas. En este ejemplo, no hay datos suficientes para estimar los residuos, por lo que no podemos hacer contrastes. Estimamos 4 parámetros con 4 datos y, por tanto, no hay grados de libertad para los residuos.
Otra forma alternativa y simple de obtener las estimaciones de los efectos de los factores, totalmente equivalente a la anterior, es aplicando el llamado criterio de los signos. Este criterio consiste en obtener las estimaciones aplicando las columnas de signos de la tabla estándar (11.1) a la columna de datos. Por ejemplo, el efecto de Factor A, α, es el incremento entre el nivel (+) y
7
Main Effects Plot 27 24 21 18 15 12 9 -1,0 1,0 Temperatura
-1,0 1,0 Vida del comp.
Variabilidad de las resistencias
Variabilidad de las resistencias
11.2 El diseño 22
Interaction Plot 40 Vida=1,0 30 20
Vida=1,0 Vida=-1,0
10 0
Vida=-1,0 -1,0
1,0 Temperatura
Figura 11.2: Gráfico de efectos principales e interacciones del ejemplo 1 el (—) de dicho factor. La estimación será la diferencia entre el efecto medio del nivel (+) y el del nivel (—), es decir, a + ab o + b 1 α ˆ= − = (−o + a − b + ab) 2 2 2 Puede observarse que la estimación es equivalente a aplicar la secuencia de signos del factor al vector de datos dividida por el número de veces que aparece el signo (+) (o el (—)). El efecto del Factor B, β, es el incremento entre el nivel (+) y el (—) de dicho factor, es decir, ˆ = ab + b − o + a = 1 (−o − a + b + ab) , β 2 2 2 donde puede comprobarse que coincide con el criterio de los signos. Para la estimación de la interacción, puede comprobarse que su estimación es equivalente a aplicar una columna de signos obtenida multiplicando las columnas de los factores implicados. Si multiplicamos las columnas de signos del Factor A y el Factor B se obtiene: Factor A Factor B Interacción AB Respuesta y − − + y11 (o) + − − y21 (a) − + − y12 (b) + + + y22 (ab)
(11.3)
y el efecto de la interacción se estima con: [ = 1 (o − a − b + ab) . (αβ) 2 En resumen, el criterio de los signos sirve para: Construir la columna de signos de las interacciones. Para ello se multiplican los signos de las columnas de los factores Estimar el efecto de un factor o interacción. El efecto será: Efecto estimado=
1 × (producto escalar de columna de signos y datos) no de signos (+)
8
Diseño de experimentos factoriales a dos niveles
La estimación de la media global equivale a utilizar una columna con todos los signos +, es decir: 1 μ ˆ = (o + a + b + ab). 4 Con los datos del Ejemplo 1 se tiene, aplicando el criterio de los signos: Media global= 14 (3 + 15 + 20 + 34) =18, Factor A= 12 (−3 + 15 − 20 + 34) =13, Factor B= 12 (−3 − 15 + 20 + 34) =18, Interacción= 12 (+3 − 15 − 20 + 34) =1, obteniéndose los mismos resultados que antes.
11.2.3.
Modelo con replicación
Si se desea contrastar si la interacción de orden más alto es significativa se ha de tener, como se vio ya en el tema anterior, replicaciones del experimento. El modelo para la variable respuesta yijk , donde el subíndice k corresponde a la replicación k-ésima es: yijk = μ + αi + β j + (αβ)ij + uijk ; i, j = 1, 2; k = 1, ..., K
(11.4)
y la ecuación de regresión será: yijk = μ + α2 DA + β 2 DB + (αβ)22 DA × DB + uijk Por ejemplo, si se tiene una replicación, la tabla estándar es: Factor A Factor B Interacción AB Respuesta y + y111 + — y211 + — y121 + + + y221 — — + y112 + — — y212 — + — y122 + + + y222
Ejemplo 2: Se repite el experimento del Ejemplo 1, obteniéndose los siguientes datos Factor A Factor B Interacción AB Experimento 1 Experimento 2 − − + y111 = 3 y112 = 2 y212 = 15 + − — y211 = 15 y122 = 21 − + — y121 = 20 y222 = 36 + + + y221 = 34 La estimación del efecto de cada factor es, aplicando el criterio de los signos,
(11.5)
11.2 El diseño 22
9
Media: μ ˆ = 18 (+3 + 15 + 20 + 34 + 2 + 15 + 21 + 36) = 18,25 Factor A: α ˆ = 14 (−3 + 15 − 20 + 34 − 2 + 15 − 21 + 36) = 13,5 ≡ 2ˆ α2 ˆ = 1 (−3 − 15 + 20 + 34 − 2 − 15 + 21 + 36) = 19 ≡ 2β ˆ Factor B: β 2 4 [ c = 1 (+3 − 15 − 20 + 34 + 2 − 15 − 21 + 36) = 1 ≡ 2(αβ) Interacción AB= αβ 22 4
Y la ecuación de regresión es
yijk = 18,25 + 6,75DA + 9,5DB + 0,5DA × DB + uijk .
11.2.4.
Tabla ANOVA y contrastes
La tabla ANOVA se construye de la misma forma que se indicó en los temas anteriores, pues el diseño 22 no es más que un caso sencillo de modelo con dos factores. El contraste de si un factor influye en la variable respuesta o la interacción es significativa se realiza con el respectivo contraste F. En el caso del ejemplo 1 la tabla, sin contar la interacción es
y puede verse en los p-valores que si usamos un nivel de significación del 5 % ambos factores influyen significativamente en la variable respuesta. Es decir, en el contraste: H0 : α1 = α2 = 0 H1 : H0 falsa o bien, puesto que α1 + α2 = 0, H0 : α2 = 0 H1 : α2 6= 0 tenemos que rechazar H0 . Asímismo, en el contraste H0 : β 2 = 0 H1 : β 2 6= 0 denemos tambien rechazar H0 . Si se quiere contrastar si la interacción es significativa se ha de utilizar el experimento replicado del ejemplo 2. El contraste puede resumirse con las siguientes hipótesis: H0 : (αβ)22 = 0 H1 : (αβ)22 6= 0
10
Diseño de experimentos factoriales a dos niveles
La tabla ANOVA es la siguiente:
donde se confirma que los factores tienen efectos significativos y que la interacción no es significativa.
11.3.
El diseño 2k
En esta sección extenderemos los resultados expuestos para el diseño 22 al caso de k factores con dos niveles cada uno. Se tiene, por tanto, 2k observaciones. Por ejemplo, si k = 3 se tienen 23 =8 observaciones. La tabla estándar se construye de igual forma que en el caso 22 . El primer factor comienza con el signo (—) y alterna signos (—) y (+). El segundo factor cambia de signo cada dos observaciones (21 ), el tercer factor cada cuatro (22 ) y el factor k-ésimo cada 2k-1 observaciones. Por ejemplo, el diseño 24 tiene la siguiente tabla estándar: Factor A Factor B Factor C Factor D
− + − + − + − + − + − + − + − +
− − + + − − + + − − + + − − + +
− − − − + + + + − − − − + + + +
− − − − − − − − + + + + + + + +
Respuesta y
y1111 y2111 y1211 y2211 y1121 y2121 y1221 y2221 y1112 y2112 y1212 y2212 y1122 y2122 y1222 y2222
=o =a =b = ab =c = ac = bc = abc =d = ad = bd = abd = cd = acd = bcd = abcd
Las interacciones de factores tienen signos que se obtienen de multiplicar los signos de los factores implicados. Por ejemplo, en el diseño 23 la tabla estándar con las interacciones es: A − + − + — + — +
B − − + + — — + +
C AB AC BC ABC Respuesta y − + + + — y111 = o — — — + + y211 = a — — + — + y121 = b — + — — — y221 = ab + + — — + y112 = c + — + — — y212 = ac + — — + — y122 = bc + + + + + y222 = abc
11.3 El diseño 2k
11
Asímismo, la estimación de los efectos de cada factor o interacción se realiza combinando linealmente los datos usando la columna de signos correspondiente y dividiendo por el número de signos (+) de la columna. Por ejemplo, en el diseño anterior, la estimación (βγ) del efecto de la interacción de los factores B y C es: d = 1 (+o + a − b − ab − c − ac + bc + abc) (βγ) 4 Ejemplo 3: La empresa ALCATEL ESPAÑA tiene una factoría en el municipio de Leganés donde produce, entre otros, equipos de conmutación para telecomunicaciones. En esta planta se tiene una sección de soldadura por ola para el ensamblaje de placas de circuitos impresos (PCB). La soldadura por ola consiste en una cinta transportadora que desplaza las PCBs, que tiene todos los circuitos ensamblados pero sin soldar, sobre una cubeta rectangular que contiene estaño líquido. En la cubeta existe un mecanismo que produce una ola en el estaño. La altura de la ola está diseñada para que toque a la PCB quedando las conexiones de la placa soldadas. Las inspecciones efectuadas en condiciones normales de funcionamiento señalan que el número de soldaduras defectuosas es del 0.35 % (350 ppm, donde ppm son ’partes o defectos por millón’). Se desea realizar un experimento para determinar si existen posibilidades de mejorar su funcionamiento. Para ello se decide controlar los siguientes factores: Factor A: Velocidad de la cinta: 1.6/1.8 (m/min) Factor B: Temperatura de la placa: 30/50o C Factor C: Temperatura del estaño líquido: 210/260o C factor D: Densidad del estaño: 0.83/0.86 (gr/cm 3 ) Para cada combinación de factores se utilizan 30 PCBs iguales, con 998 uniones cada una. Después de la soldadura se inspecciona cada placa y se contabiliza el número de defectos de soldadura en las 30 placas. El resultado del experimento se muestra en la siguiente tabla donde PPM =
número de soldaduras defectuosas en la 30 placas × 106 . número de soldaduras realizadas (=30 × 998)
Velocidad cinta Temp. PCB Temp. estaño Densidad PPM — — 299 + — — 267 + — — 311 + + — — 299 — — + — 334 + — + — 301 — + + — 378 + + + — 367 — — — + 334 + — — + 298 — + — + 356 + + — + 321 — — + + 336 + — + + 328 — + + + 435 + + + + 406
12
Diseño de experimentos factoriales a dos niveles
Figura 11.3: Diagrama de Pareto para los efectos del Ejemplo 3
La estimación de los efectos es (cálculos realizados con el Statgraphics 4.0)
El primer problema que se presenta al analizar un diseño 2k es saber qué factores son significativos. Si no se poseen replicaciones del experimento, habrá que calcular la varianza residual sˆ2R con la variabilidad correspondiente a las interacciones y factores no significativos. Por tanto, antes de poder hacer contrastes con la tabla ANOVA es necesario hacer una pre-selección de aquellos efectos que se consideran no significativos. Una forma secilla de decidir qué efectos excluir es mediante un diagrama de Pareto donde se representan los efectos de cada factor e interacción en valor absoluto. El diagrama de Pareto para los datos del ejemplo 3 se muestra en la figura ??. En esta figura puede verse que los efectos que más influencia tienen en la variable respuesta son los 4 efectos principales de los factores y la interacción BC (temperatura de la placa con
11.3 El diseño 2k
13
Figura 11.4: Grafico probabilístico normal para los datos del ejemplo 3
temperatura del estaño). Una segunda forma de hacer la preselección es con un gráfico probabilístico normal. El fundamento de este gráfico es el siguiente. La estimación se basa en medias muestrales, o diferencias de medias muestrales de la variable respesta. Como estamos utilizando la hipótesis de que la variable respuesta es normal, las estimaciones serán combinaciones lineales de normales, lo que resulta también en variables normales. Por tanto, si los efectos no son significativos, su valor estimado procederá de una distribución normal de media cero. El gráfico probabilistico normal que se usa para identificar efectos significativos se basa en esta propiedad. El gráfico probabilístico normal tiene una escala en el eje de ordendas tal que los efectos no significativos estarán alineados. Si algún efecto es no nulo, aparecerá fuera de dicha alineación. La figura 11.4 muestra el gráfico probabilístico normal con los datos del ejemplo 3. De este gráfico se extraen las mismas conclusiones que del gráfico de Pareto anterior: los factores principales y la interacción BC parecen ser los únicos efectos significativos. A la hora de hacer una primera identificación de los efectos que pueden inclurise en el análisis, es útil tener en cuenta las dos siguiente reglas empíricas: (1) Cuanto más complejo es un efecto, es decir, cuanto más alto sea el orden de una interacción, menos probable es que tenga un efecto significativo; (2) si dos variables no son significativas, es raro que su interacción lo sea. Con estas dos reglas empíricas y el resultado del gráfico probabilístico normal o de Pareto se hará una primera selección de efectos. En general, esta primera selección consiste en eliminar aquellos efectos de alto orden que sean menos prometedores. Con los datos del ejemplo, en primer lugar construiremos una tabla ANOVA en la que se eliminen las interacciones de cuarto y tercer orden. La tabla que se obtiene es:
14
Diseño de experimentos factoriales a dos niveles
donde se confirma que las interacciones AC, CD, AD y BD no son tampoco significativas. Si eliminamos también estas interacciones tendremos una mejor estimación de la varianza residual. La tabla ANOVA es, entonces,
Si se consideran sólo estos efectos, la ecuación de regresión es:
PPMijkl = 335,625 − 12,25DA + 23,5DB + 25DC + 16,125DD + 12,375DB × DC + eijkl .
Para obtener la combinación óptima de factores, se han de seleccionar los niveles que nos proporcionan los mejores valores de la variable respuesta PPM con la anterior equación. Si no existiesen interaciones significativas, la elección de los niveles más adecuados sería muy sencilla, pues bastaría analizar la respuesta factor a factor. Si existen interacciones, no basta con observar el comportamiento individual de cada factor. Lo más sencillo es calcular el resultado de la ecuación de regresión para todos los experimentos y buscar la combinación más ventajosa. El resultado de esta operación con el Statgraphics es:
11.3 El diseño 2k
15
Por lo tanto, el experimento correspondiente a la fila 2 de la tabla estándar es el que proporciona el menor número de defectos. Los mejores resultados para la instalación de soldadura por ola se tendrán con: Velocidad alta: 1.8 m/min: Factor A a nivel (+) Temperatura de placa baja: 30o C: Factor B a nivel (—) Temperatura de estaño líquido baja: 210o C. Factor C a nivel (—) Densidad a nivel bajo. Factor D a nivel (—). Con esos niveles se espera, por término medio, 271 PPM o 0.27 % de defectos en lugar del 0.35 % que se estaban produciendo. La mejora es del 22.5 %. El procedimiento general para resolver un diseño 2k se puede resumir en los siguientes puntos:
1. Se hace un análisis previo de los datos utilizando técnicas descriptivas 2. Se estiman los efectos de los factores e interacciones 3. Se representan dichas estimaciones en un diagrama de Pareto o gráfico probabilístico normal 4. A la vista de estas representaciones gráficas se hace una preselección de los efectos que no son significativos 5. Se construye la tabla ANOVA con los efectos restantes y se contrasta su significatividad
16
Diseño de experimentos factoriales a dos niveles
6. Se eliminan los efectos que, tras los contrastes anteriores, no resulten significativos y se reconstruye la tabla ANOVA hasta que todos los efectos incluidos sean significativos 7. Se hace diagnosis de los residuos para comprobar que el modelo es adecuado 8. Se construye la recta de regresión y se obtiene con ella las condiciones de los factores que proporcionan mejores valores de la variable respuesta
11.4.
Fracciones
11.4.1.
Conceptos generales
Se denomina fracción de un diseño factorial a un diseño en el que no se realizan todos los experimentos que se indican en la tabla estándar, sino sólo una fracción de ellos. Veamos un ejemplo a partir del diseño 23 . La tabla estándar de un diseño 23 es: A − + − + — + — +
B − − + + — — + +
C AB AC BC ABC Respuesta y − + + + — y111 = o — — — + + y211 = a — — + — + y121 = b — + — — — y221 = ab + + — — + y112 = c + — + — — y212 = ac + — — + — y122 = bc + + + + + y222 = abc
lo que indica que hay que realizar 8 experimentos para obtener estimaciones independientes de cada efecto. Se pueden elegir muchas fracciones diferentes de este diseño. Una posible fracción consistiría, por ejemplo, en realizar sólo aquellos experimentos correspondientes a los signos (+) de la interacción ABC, es decir, hacer sólo la siguiente mitad de la tabla: A + − — +
B − + — +
C AB AC BC ABC Respuesta y — — — + + y211 = a — — + — + y121 = b + + — — + y112 = c + + + + + y222 = abc
La ventaja de realizar sólo una fracción de los experimentos es clara: es más económico. Pero, como puede observarse en esta tabla, al realizarse sólo una parte de los experimentos, no se tiene la información suficiente para estimar todos los efectos de forma independiente. las columnas de signos ya no son todas ortogonales. Mirando las columnas de signos puede verse que el efecto de la interacción ABC está confundido con el de la media general. Se dice entonces que ambos efectos son alias. Igual confusión ocurre en la estimación de estos efectos. Aplicando el criterio de los signos a la tabla anterior se tiene que la estimación de la interacción ABC coincidirá con la estimación de la media μ ˆ . De la tabla se deduce que también hay confusión de los siguientes efectos: Factor A e interacción BC Factor B y la interacción AC Factor C e interacción AB Puede demostrarse que cuando estimamos efectos confundidos estamos, en realidad, estimando el efecto agregado, o suma, de ellos. Por ejemplo, con la fracción anterior, el efecto del factor A (que
11.4 Fracciones
17
denotamos por α) y la interacción BC (que denotamos por (βγ)) son alias. Entonces la estimación de estos efectos verifica que n o d = α + (βγ) E(ˆ α) = E (βγ)
Por tanto, la realización de una fracción tendrá interés sólo si suponemos que algunos de los efectos que se confunden son nulos. En nuestro ejemplo, la fracción propuesta es un diseño útil para estimar los efectos principales sólo si suponemos que las interacciones de orden 2 son nulas.
Cuando la fracción consiste en realizar la mitad del diseño eligiendo signos iguales de algún efecto se le denomina media fracción o diseño 2k−1 . Por ejemplo, la media fracción expuesta antes es una media fracción de un 23 y sería un diseño 23−1 . Dado un diseño, se pueden escoger muchas fracciones distintas. Por ejemplo, otra fracción 23−1 se podría conseguir eligiendo los experimentos correspondientes al signo (—) de la interacción AB. La tabla sería: A + − + —
B − + — +
C AB AC BC ABC Respuesta y — — — + + y211 = a — — + — + y121 = b + — + — — y212 = ac + — — + — y122 = bc
En este caso, la disminución del número de experimentos lleva a las siguientes confusiones: ˆ Factor A y Factor B (sólo se diferencian en el signo: α ˆ = −β) Factor C e interacción ABC Interacción AB y media μ ˆ Interacciones AC y BC Este diseño es peor que la fracción anterior, pues confunde efectos principales entre si: no se puede obtener una estimación independiente del factor A y el B. En resumen, una fracción de un diseño factorial Permite economizar la investigación al necesitar menos experimentos Confunde efectos, por lo que habrá que seleccionarlo con cautela y utilizar hipótesis simplificadoras que resuelvan las confusiones El análisis de las confusiones que se producen en una fracción se realiza mediante la llamada ecuación generatriz de la fracción. Además, estudiaremos el concepto de Resolución, que nos permitirá escoger fracciones donde no se confundan los efectos principales de los factores.
11.4.2.
Ecuación generatriz de una fracción
La ecuación generatriz de una fracción permite conocer la estructura de confusión de una fracción. A esta estructura de efectos confundidos también se le conoce como estructura de alias. Denotemos con I a una columna que tiene todos sus signos (+) y a —I a una columna con todos los signos (—). La ecuación generatriz de una fracción es el conjunto de columnas de la tabla de la fracción que son iguales a I. En el caso anterior de la fracción 23−1 donde
18
Diseño de experimentos factoriales a dos niveles
se escogía aquella fracción del diseño 23 que coincidía con los signos (+) de la columna ABC, la ecuación generatriz es: I = ABC. En el segundo ejemplo, donde la fracción se escogía con los signos (—) de la columna AB, la ecuación generatriz es I = −AB. A partir de esta ecuación es fácil hallar la estructura de confusión o alias. Para ello, basta con comprobar que se cumplen las siguientes reglas para operar con columnas: 1. La multiplicación de una columna por si misma es I: AA=I; (AB)(AB)=I, etc. 2. La multiplicación de una columna por I no la modifica: AI=A; (AB)I=AB. Aplicando estas reglas a la fracción I = ABC podemos obtener la confusión del factor A con la interacción BC mencionada anteriormente. Si multiplicamos por A a ambos lados de la ecuación generatriz se tiene: AI = A = A(ABC) = A2 BC = BC ⇒ A = BC. Se dice entonces que el factor A y el BC están confundidos o son alias. Por tanto, si el factor A y la interacción BC son significativas, esta fracción no podría estimar su efecto por separado. La estimación que se obtiene sería la suma de ambos efectos. De la misma forma se puede obtener el resto de las confusiones BI = B = B(ABC) = AB 2 C = AC ⇒ B = AC
CI = C = C(ABC) = ABC 2 = AB ⇒ C = AB
En el segundo ejemplo, con ecuación generatriz I = −AB, se tiene la siguiente estructura de alias: AI = A = −A(AB) = −A2 B = −B ⇒ A = −B, CI = C = −C(AB) = −ABC ⇒ C = −ABC, ABI = AB = −AB(AB) = −I ⇒ AB = −I,
ACI = AC = −AC(AB) = −A2 CB = −CB ⇒ AC = −CB.
11.4.3.
Resolución
Uno de los fundamentos para el uso de fracciones es la hipótesis de que las interacciones de orden alto no son significativas. De esta forma, es fácil resolver las confusiones que se originan en la estimación de efectos. Este fundamento se basa en la experiencia empírica mencionada anteriormente: cuanto mayor es el orden de una interacción menor suele ser su efecto. Según esto, puede decirse que una fracción será buena si confunde los efectos principales de los factores con las interacciones de orden más alto posible. Por contra, una mala fracción será aquella que confunda los efectos principales de los factores entre sí. Estas diferencias en el tipo de confusión que se produce en una fracción se cuantifican a través del concepto de resolución, de forma que a mayor resolución mejor sea la fracción. Se define resolución de una fracción de la siguiente forma: Resolución: orden de interacción más baja confundida con algún efecto principal+1.
11.4 Fracciones
19
Por ejemplo, en una fracción de resolución III, los efectos principales pueden estar confundidos con interacciones de orden 2, pero no hay confusión de efectos principales entre si. Por ejemplo la fracción 23−1 construida con la ecuación I = ABC es de resolución III. Esta fracción también puede escribirse como 23−1 III . En el caso de la fracción de ecuación I = −AB la resolución es II (23−1 II ) pues los efectos principales están confundidos entre si. En estos dos ejemplos puede verse que una definición alternativa de resolución es el número de letras de la ecuación generatriz (si la ecuación consta de varias palabras, la resolución está determinada por la más corta). Supongamos que queremos un diseño 2k−1 con máxima resolución. Un procedimientro general para conseguirlo es el siguiente: 1. Escribir el diseño factorial completo para k-1 variables. Por ejemplo, si queremos un diseño 23−1 comenzaríamos escribiendo la tabla de un diseño 22 . 2. Asignamos la variable k-ésima a alguna columna de interacción de orden k-1. En el caso del diseño 23−1 , el tercer factor sería asignado a la columna de signos de los dos factores principales del 22 En general, diseños 2k−p con máxima resolución se obtienen de la siguiente forma: 1. Se escribe el diseño completo para k-p factores 2. Se asignan los p factores adicionales a las columnas de las interacciones de mayor orden posible
Ejemplo 4: Se desea realizar un diseño para determinar la significatividad de 6 factores (A,B,C,D,E,F) sobre una variable respuesta. Debido al coste de la recogida de datos, se desea hacer un primer análisis con sólo 8 experimentos. ¿Cómo ha de ser el diseño? Si se van a recoger sólo 8 datos se ha de partir de la tabla de un diseño 2 3 : A − + − + — + — +
B − − + + — — + +
C AB AC BC ABC − + + + — — — — + + — — + — + — + — — — + + — — + + — + — — + — — + — + + + + +
Para asignar los factores D, E y F hay varias opciones, o asignarlos en las columnas de las interacciones de orden 2 o asignar un factor en la columna ABC y los otros dos factores en las columnas de interacción de orden 2. En el caso en que se asignen a las columnas de orden dos, el diseño final sería A B C D=AB E=AC F=BC − − − + + + + − — — — + − + — — + — + + — + — — — — + + — — + — + — + — — + + — — + + + + + + +
20
Diseño de experimentos factoriales a dos niveles
y el diseño es de resolución III al confundirse los efectos principales con las interacciones de orden 2. Este diseño puede entonces escribirse como 2 6−3 III . Utilizando que D=AB se obtiene que DD=I=ABD. Operando de esta forma se obtiene la siguiente ecuación generatriz: I = ABD = ACE = BCF. Esta ecuación puede ampliarse incorportando términos de orden 4 ó superior, aunque en la práctica suelen tener escaso interés. Aplicando que ABD=ACE, entonces ABDACE=BDCE=I. Análogamente se tiene que (ABD)(BCF)=ACDF=I y también que (ACE)(BCF)=ABEF=I. Multiplicando los términos de tres en tres se tiene que (ABD)(ACE)(BCF)=DEF. La ecuación generatriz completa es I = ABD = ACE = BCF = DEF = BDCE = ACDF = ABEF. La estructura de alias de los efectos principales es: A = BD = CE = ABCF B = AD = ABCE = CF C = ABDF = AE = DF D = AB = ACDE = BCDF E = ABDE = AC = BCF E F = ABDF = ACEF = BC La segunda opción para diseñar la fracción consiste en asignar uno de los factores a la interacción ABC. Si hubiese algún motivo para pensar que alguna interacción de orden 2 fuese significativa podría dejarse dicha columna libre y utilizar el resto de las columnas de interacciones para asignar los factores restantes. Por ejemplo, si se sospechase que la interacción AB pudiese ser significativa, un diseño que no confundiese la interacción AB con ningún factor principal sería A − + − + — + — +
B − − + + — — + +
C D=AC E=BC F=ABC − + + — — — + + — + — + — — — — + — — + + + — — + — + — + + + +
que seguiría siendo de resolución III. Su ecuación generatriz es: I = ACD = BCE = ABCF. De esta ecuación se obtiene la siguiente estructura de alias de los efectos principales: A = CD = ABCE = BCF B = ABCD = CE = ACF C = AD = BE = ABF D = AC = BCDE = ABCDF E = ACDE = BC = ABCEF F = ACDF = BCEF = ABC
11.4 Fracciones
21
donde se comprueba que los efectos principales se confunden con interacciones de orden 2, excepto con la interacción AB, que se espera sea significativa, por lo que los efectos de interés pueden ser estimados adecuadamente. Si resolvemos este problema con el Statgraphics 4.0, utilizará por defecto el primero de los diseños. Es decir, asignaría los factores adicionales a los efectos de orden 2. Si quisiesemos planear la segunda opción deberíamos usar la opción ’user specified design’. Al decir al programa que deseamos un diseño con 6 factores nos proporciona las siguientes opciones:
Si estamos interesados en un diseño de 8 experimentos seleccionaremos el diseño 2 6−3 III . El ordenador proporciona la siguiente estructura de alias completa:
Estructura de alias. Salida del Statgraphics 4.0
11.4.4.
Ampliación de los diseños: diseños secuenciales
El análisis de una fracción se realiza de la misma forma que los diseños completos. La tabla ANOVA nos dirá qué efectos son significativos. Para resolver las confusiones se ha de emplear la información adicional que se tenga sobre la posible significatividad de las interacciones. En caso de duda se debe ampliar el experimento de forma que la interacción de interés no tenga confusiones.
22
Diseño de experimentos factoriales a dos niveles
En general se cumplen las siguientes reglas Es infrecuente que si dos factores no son significativos lo sean las interacciones Los efectos principales suelen ser de mayor magnitud que las interacciones 6−3 Hay situaciones en las que pueden existir dudas. Veamos, por ejemplo, el diseño 2III que proporciona el Statgraphics para el ejemplo anterior. Supongamos que tras analizar los datos se detecta que los contrastes 1,2 y 4 son significativos (ver figura ??). En ese caso existen varias interpretaciones (suponiendo que las interacciones de orden 3 o mayores no son significativas)
Los factores A,B y D son significativos y no hay interacciones significativas Los factores A, B y su interacción AB son significativos. El factor D no es significativo ni ninguna otra interacción Los factores A y D y su interacción AD son los efectos significativos. El factor B no es significativo ni ninguna otra interacción Los factores B y D y su interacción BD son los efectos significativos. El factor A no es significativo ni ninguna otra interacción Si no se posee información adicional para decidir cuál de estas cuatro opciones es la más adecuada se debe ampliar el experimento. En este caso, el segundo diseño se trataría sólamente de un diseño con 3 factores A, B, y D donde la interacción de tercer orden y las interacciones AD y BD no serían significativas. Por tanto, una opción económica es realizar un diseño 23 donde utilizaríamos las interacciones no significaticas para calcular la VNE y poder hacer contrastes. De esta forma, con un total de 8+8=16 experimentos habríamos resuelto el análisis, en lugar de los 26 = 64 experimentos que requeriría un diseño factorial completo. Esta forma de resolver el problema: la aplicación secuencial de diseños con el mínimo número de experimentos posible, es la clave del diseño de experimentos en ingeniería. Para el problema del ejemplo 4 se opta por el siguiente diseño 2 6−3 III : A − + − + — + — +
B − − + + — — + +
C D=AB E=AC F=BC − + + + — — — + — — + — — + — — + + — — + — + — + — — + + + + +
Después de realizarse los 8 experimentos se obtienen los siguientes datos A − + − + — + — +
B − − + + — — + +
C − — — — + + + +
D + — — + + — — +
E + — + — — + — +
F Respuesta + 3 + 15 — 20 — 34 — 3 — 15 + 19 + 36
11.4 Fracciones
23
Figura 11.5: La estimación de los parámetros (utilizando el criterio de los signos) proporciona las estimaciones que están representadas en el siguiente diagrama de pareto (valores absolutos). Este gráfico sugiere que los factores E, F, C y sus interacciones son no significativos. De esta forma, sus grados de libertad se utilizan para estimar la varianza residual. La tabla ANOVA resultante de no considerar estos efectos es
El resultado no es claro, pues no se sabe si los factores A, B y D son los efectos significativos o sólo lo son dos de ellos y su interacción. El paso siguiente sería proponer un segundo experimento con sólo estos 3 factores.