서울의대 대학원 수업
반복측정 자료분석 Repeated measured data analysis 2011년 6월 2일(목)
황 승 식
[email protected]
@cyberdoc73
차례 • 반복 측정 자료의 이변수 통계 – 짝지은 t 검정, 맥네마 검정, 윌콕슨 부호 순위 검정 – 반복측정 분산분석, 코크란 Q, 프리드만 통계량
• 반복 측정 자료의 다변수 통계 – – – –
단일 지표로 변환 일반화 추정 방정식 혼합 효과 모형 반복 측정 분산분석
• 반복 측정 자료 분석의 실제
Study design and statistical analysis: a practical Guide for clinicians. Mitchell H. Katz. Cambridge: Cambridge University Press. 2006.
5.10 같은 연구대상자의 반복 관찰값은 어떻 게 분석하는가? • 같은 연구대상자의 반복 관찰값은 관찰값 이 서로 상관성이 있음(correlated)을 고려 한 통계 기법으로 분석 – 상관성을 고려하지 않으면 부정확한 결과 – 어느 연구가 더 정보가 많은가? • 콜레스테롤 측정 남녀 100명씩 200명 1회 측정 • 콜레스테롤 측정 남녀 25명씩 50명 4회 측정
Table 5.22. Comparison of bivariate tests for independent observations and repeated observations of the same subjects 독립 관찰값 (2 집단)
짝지은 관찰값 독립 관찰값 (2 번) (3 집단 이상)
반복 측정 관찰값 (3 번 이상)
이분형 변수
카이제곱, 직접 확률 검정
맥네마 검정
카이제곱
코크란 Q
정규 분포 연속형 변수
t 검정
짝지은 t 검정
분산분석
반복 측정 분산분석
비정규 분포 연속형 변수
만-위트니 검정 윌콕슨 부호 순위 검정
크루스칼-왈 리스 검정
프리드만 통계량
순위형 변수
만-위트니 검정 윌콕슨 부호 순위 검정
크루스칼-왈 리스 검정
프리드만 통계량
• 5.10.A 이분형 변수의 짝지은 측정 – 이분형 변수의 짝지은(전후) 측정 비교 맥네 마 검정(McNemar’s test)
Table 5.23. 위식도 역류와 H. pylori 감염이 있는 환자에서 위 염 여부 Follow-up Baseline
Normal
Gastritis
Normal
7
17
24 (41%)
Gastritis
4
31
35 (59%)
Total
11 (19%)
48 (81%)
59 (100%)
P = 0.007 by McNemar’s test From Kuipers, E.J., et al. N Engl J Med 1996; 334: 1018-22.
Total
• 5.10.B 이분형 변수의 셋 이상 반복 측정 – 같은 연구대상에서 이분형 결과 변수를 여러 번 관찰한 결과 평가는 Cochran’s Q 이용 – Cochran’s Q는 카이제곱 분포 따름 – 값이 크면 연구대상에서 반복 관찰된 값이 차 이가 없다는 귀무가설을 기각
Table 5.24. HIV 전파와 관련된 행동 변화 Baseline (%)
6 months (%)
12 months 18 months P-value (%) (%)
20
18
18
10
<0.001
Unprotected 32 receptive anal sex
27
28
29
0.02
Condon failure
19
13
10
12
<0.001
Urethritis
9
3
2
2
<0.001
HIV-positive sex partner
Behaviors are coded as yes or no. From Buchbinder, S.P., et al. J Infect Dis 1996; 174: 954-
• 5.10.C 정규 분포를 따르는 연속형 변수의 짝지은 측정 – 짝지은 t 검정(paired t-test) 실시 • 짝지은 t = 짝지은 쌍의 변화 평균 / 변화의 표준 편 차
P-value based on a paired t-test. From Moliterno, D.J., et al. N Engl J Med 1994; 330: 454-9.
• 5.10.D 정규 분포를 따르는 연속형 변수의 셋 이상 반복 측정 – 반복 측정 분산분석(repeated-measures ANOVA) 수 행 – 제한점: 같은 시간에 같은 관찰값의 개수 대부분 의 임상 연구에서 불충족 – 일반화 선형 방정식(generalized estimating equations; GEE) 또는 혼합 효과 모형(mixed-effects model)으로 분석
Figure 5.10 인터넷 교육을 받은 환자와 인터넷 행동 치료를 받 은 환자에서 체중 감소 비교 From Tate, D.F.., et al. J Am Med Assoc 2001; 285: 1172-7.
• 5.10.E 정규 분포를 따르지 않거나 순위형 변수에서 짝지은 관찰 – 윌콕슨 부호 순위 검정(Wilcoxon signed rank test) 수행
Figure 5.11 11명의 비만 여성에서 체중 감소 전후 요중 11dehydro-thromboxane B2 배출 농도. 점선은 비만이 아닌 여성의 요중 배출 농도의 범위. From Davi, G., et al. J Am Med Assoc 2002; 288: 2008-14.
Table 5.26. 서로 다른 두 항암화학요법으로 치료 받은 30명 환자 의 결과 From Herrstedt, J., et al. N Engl J Med 1993; 328: 1076-80.
• 5.10.F 정규 분포를 따르지 않는 연속형 변 수나 순위형 변수의 셋 이상 반복 관찰 – 프리드만 통계량(Friedman statistic) 비교
Table 5.27. 생명이 위독한 치매 환자에서 선택하는 진료 형태
Friedman statistic is significant, P<0.001. From Darzins, R., et al. N Engl J Med 1993; 329:736.
5.11 짝지은 자료의 이변수 관련성 은 어떻게 검정하는가? • 5.11.A 이분형 변수의 짝지은 비교 – 맥네마 검정, 짝지은 오즈비
• 5.11.B 정규 분포를 따르는 연속형 변수의 짝지 은 측정 – 짝지은 t 검정
• 5.11.C 정규 분포를 따르지 않는 연속형 변수 나 순위형 변수의 짝지은 측정 – 윌콕슨 순위 부호 검정
• 5.11.D 짝지은 생존 시간 – 손쉬운 통계 기법 없음.
Table 5.28. 짝지은 자료와 짝짓지 않은 자료 의 이변량 검정 비교 짝짓지 않은 자료
짝지은 자료
이분형 변수
카이 제곱 검정 오즈비
맥네마 검정 짝지은 오즈비
정규 분포를 따르는 연속 형 변수
t-검정
짝지은 t-검정
정규 분포를 따르지 않는 연속형 변수
만-위트니 검정
윌콕슨 부호 순위 검정
순위형 변수
만-위트니 검정
윌콕슨 부호 순위 검정
생존 시간
로그-순위 검정
손쉽게 이용 가능한 검 정 없음.
Multivariable analysis: a practical Guide for clinicians. 2nd ed. Mitchell H. Katz. Cambridge: Cambridge University Press. 2006.
12. 상관된(correlated) 관찰값 12.1 상관된 관찰값을 어떻게 분석하는가? 12.1.A 단일 지표로 변환 12.1.B 일반화 추정 방정식 12.1.C 혼합 효과 모형 12.1.D 반복 측정 분산(공분산) 분석 12.1.E 조건부 로지스틱 회귀분석 12.1F 비례 위험 모형의 Anderson-Gill 변환 12.1G 비례 위험 분석의 marginal 접근
12.2 상관된 관찰값 연구를 위해 필요한 표본수 는 어떻게 산출하는가?
12.1 상관된 관찰값을 어떻게 분석하는가? • 경시적(longitudinal) 연구에서 대상자의 반 복 관찰값은 상관된(correlated) 반응 결과 를 얻게 됨. • 연구 결과는 군집(cluster) 내(within)에서 군 집 간(between)보다 더 비슷함. – 같은 사람, 같은 가족, 같은 병원, 같은 도시 등.
• 상관성을 무시하고 분석하는 경우 통계적 의미를 과장하게 됨.
Table 12.1 상관된 관찰값을 얻는 상황 • 서로 다른 시점에 같은 대상자에서 여러 번 관찰 (6 개월마다 대상자를 평가하는 경시적 연구) • 서로 다른 치료를 받은 후 같은 대상자에서 여러 번 관찰 (교차 연구) • 같은 대상자의 서로 다른 신체 일부에 대해 여러 번 관찰 • 연관된 개인(가족, 의사의 진료, 병원 등)으로 설정 된 집단(군집)으로부터 무작위 배정되거나 모집된 대상자 연구 설계 • 환자-대조군이 개별 짝짓기 된 짝지은 연구 설계
• [TIP] 대상자를 여러 번 관찰하면 연구의 검 정력(power)을 높임. • [TIP] 중복이 있는 몸의 일부(눈, 관절, 치아, 손가락 등)를 대상으로 연구하는 경우, 개별 부 위를 추적관찰하여 표본 수를 늘릴 수 있음. • [TIP] 반복 관찰값을 분석하면 시간 추세(time trend) 평가 가능 • [TIP] 상관된 관찰값의 경우 군집임을 식별할 수 있도록 변수 지정 필요
12.1.A 반복 관찰값을 단일 지표로 변환 • 변화 점수(change score)로 변환 – [정의] 변화 점수는 결과 변수가 연구 기간에 따른 절대적 또는 상대적 변화량 – 두 관찰값 이상에서는 적용 불가
• 기울기(slope)로 변환 – 여러 관찰값 이상에서 적용 가능 – 군집 간 관찰값의 숫자가 동일하지 않을 때도 가능
• 단순해 보이지만 꽤 강력한 기법 • 시간에 따른 변화가 선형(linear)일 때만 적용 가능한 단점
• Response feature analysis • Linear regression method – Generalized estimating equation, GEE – Mixed effect model, MEM – Repeated measures ANOVA
Table. Response features suggested in Matthews et al. (1990) Type of data
Property to be compared between groups
Summary measure
Peaked
Overall value of response
Mean or area under the curve
Peaked
Value of most extreme response
Maximum (minimum)
Peaked
Delay in response
Time to maximum or minimum
Growth
Rate of change of response
Linear regression coefficient
Growth
Final level of response
Final value or (relative) difference between first and last
Growth
Delay in response
Time to reach a particular value
Matthews JNS, Altman DG, Campbell MJ, and Royston P. Analysis of serial measurements in medical research. Br Med J 1990;300(6719):230-235
12.1.B 일반화 추정 방정식 • 일반화 추정 방정식(generalized estimating equations, GEE)은 군집 관찰값을 보정하는데 매우 유연한 기법 – 연속형, 이분형, 순위형, 범주형 모두 분석 가능 – 인구집단 평균 모형 추정 – 서로 다른 군집에서 서로 다른 관찰 숫자여도 수행 가능(한 대상자에서 두 번과 다른 대상자에서 네 번, 한 병원에서 20명과 다른 병원에서 40명 등) – 관찰값 간에 일정하지 않은 간격도 처리 가능 – 상관된 결과를 보정하면, 점 추정치는 안 변하고 표 준오차만 변함.
• 모형 지정 항목 – 연결 함수(link function) • 가우스(정규), 이산형, 포아송 등
– 가상관 행렬(working correlation matrix) • Exchangeable, M-dependent, First-order autoregressive, Independent, Unstructured • 교환 가능 가상관 행렬은 두 상관된 관찰값이 일정 하게 상관성이 있음을 가정
– 분산-공분산 행렬 추정 기법
Unstructured
Exchangeable
• [TIP] 대부분의 경우 가상관 행렬로 ‘교환가 능(exchangeable)’을 지정 • Model parameter quasi-likelihood technique • [TIP] 군집 숫자가 작은 경우(<40), HuberWhiter 샌드위치 추정량을 적용해서 해결 Robust estimator
12.1.C 혼합 효과 모형 • 혼합 효과 모형(Mixed-effects model, MEM) – 혼합 모형, 임의 효과 회귀 모형, 임의 기울기 모형, 임의 회귀 모형, 다수준(multilevel) 모형, 계층적 (hierarchical) 모형 – “혼합”은 혼합 은 ‘고정(fixed)’ 고정 효과와 ‘임의(random)’ 임의 효과가 혼재함을 의미 • 개인이 평균(fixed) 결과로부터 임의로 편차가 있음 가정
– GEE와 마찬가지로 연속형, 이분형, 순위형, 범주형 결과 분석 가능, 상관 구조 지정 불필요 – 간격이 일정하지 않을 때도 분석 가능
• [TIP] GEE보다 MEM이 선호되는 상황은, (1) 군집의 개수가 작을 때와, (2) 연구 초점이 개별 대상자에서 결과를 예측하는 경우임. – 담배를 피우고, 술을 마시는 66세 백인의 골밀 도를 예측 MEM – 연령, 흡연, 음주가 평균 골밀도에 미치는 영향 확인 GEE
12.1.D 반복 측정 분산/공분산 분석 • [정의] 반복 측정 분산분석(Repeated measures ANOVA, RM ANOVA)은 연속형 변 수로 반복 관찰된 둘 이상 집단의 평균을 비 교하는 방법 • 같은 시점에 대상자의 관찰값의 개수는 동 일해야 함. • [TIP] 군집 내 관찰값의 개수가 동일하지 않은 경우는 GEE나 MEM 이용
Table 12.4 건강 염려증 환자에서 기존 치료(대조군) 대비 인지 행동 치료(치료군)의 효과 From Barsky AJ and Ahern DK. JAMA 2004; 291: 1464-70
• 반복 측정 분산/공분산 분석은 데이터가 구형 성(sphericity) 가정을 충족해야 함. • [TIP] 모클리 검정(Mauchly test)을 이용하여 데이터가 구형성 가정을 만족하는지 평가 • [TIP] 데이터가 구형성 가정을 만족하지 않으 면 그린하우스-가이저 교정(GreenhouseGesser correction)을 이용 • 결과 변수가 하나 이상일 때 다변량 (multivariate) 분산/공분산 분석 사용
Table 12.5 GEE, MEM, RM ANOVA의 비교 기법
결과 변수 유형
연구 기간 값이 변하 는 공변량 적용
일정하지 않은 관찰 값 개수 적 용
결측값 대 응
일정하지 않은 간격 의 관찰값 적용
GEE
연속형, 순 위형, 이분 형 및 범주 형
가능
가능
가능, 데이 터가 임의 결측인 경 우
가능
MEM
연속형, 순 위형, 이분 형 및 범주 형
가능
가능
가능, 데이 터가 임의 결측인 경 우
가능
RM ANOVA
연속형만
불가
불가
불가
불가
12.1.E 조건부 로지스틱 회귀분석 • 조건부 로지스틱 회귀분석(conditional logistic regression) – 이분형 결과 변수인 군집 데이터 분석에 활용 – 결과는 일반 로지스틱 회귀분석과 동일 – 한 가지 이상 원인으로 상관된 결과 분석 불가 – 이분형 결과 변수이고 한 가지 원인으로 상관 된 경우, GEE나 MEM보다 수행과 해석이 쉬움.
12.2 상관된 관찰값 연구를 위해 필 요한 표본수는 어떻게 산출하는가? 1. 독립이 아닌 관찰값을 분석하는 설계는 단일 대상 자로 대표되는 개별 관찰값으로 가정한 경우에 비 해 표본수가 더 많이 필요 상관된 관찰값을 보 정하는 효과가 표준 오차를 크기와 신뢰구간을 키 우기 때문 2. 군집 내 독립이 아닌 관찰값의 상관성이 크면 클수 록, 필요한 표본수는 더 큼 표준 오차의 확대는 상관성의 크기에 의존하기 때문 여러가지 소프트웨어를 통해 산출 가능 참고: Twisk JAR. Applied longitudinal data analysis for epidemiology: a practical guide, 2003, pp280-5.
수고하셨읍니다.