ESTIMASI PARAMETER MODEL SURVIVAL DISTRIBUSI

Download Pada penelitian ini dibahas mengenai estimasi parameter model survival distribusi Eksponensial pada data tersensor dengan metode Maksimum ...

0 downloads 624 Views 249KB Size
Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster) Volume 5, No. 03 (2016), hal 213– 220.

ESTIMASI PARAMETER MODEL SURVIVAL DISTRIBUSI EKSPONENSIAL DATA TERSENSOR DENGAN METODE MAKSIMUM LIKELIHOOD DAN BAYESIAN SELF Syarifah Fitria, Helmi, Setyo Wira Rizki INTISARI Data survival adalah data yang menunjukkan waktu suatu individu atau objek dapat bertahan hidup hingga terjadinya suatu kegagalan atau kejadian tertentu. Data survival dikatakan tersensor apabila objek pada penelitian hilang atau sampai akhir penelitian objek tersebut belum mengalami kejadian tertentu. Pada penelitian ini dibahas mengenai estimasi parameter model survival distribusi Eksponensial pada data tersensor dengan metode Maksimum Likelihood dan metode Bayesian SELF. Setelah diperoleh estimator dari kedua metode tersebut, selanjutnya akan diterapkan pada data pasien penderita kanker paru-paru berdistribusi Eksponensial yang diambil dari program R versi 3.3.0 untuk mengetahui peluang individu dapat bertahan hidup. Nilai MSE yang diperoleh untuk fungsi survival dan fungsi hazard dari metode Maksimum Likelihood ialah 0,000311 dan 2,91728E-07, dari metode Bayesian SELF ialah 0,000244 dan 2,30505E-07. Berdasarkan nilai MSE dari estimator diperoleh metode Bayesian SELF lebih baik dari pada metode Maksimum Likelihood. Hasil olah data dari metode Bayesian SELF diperoleh peluang hidup pasien pada kasus ini yang mengidap penyakit kanker paru-paru selama 30 hari adalah 0,7927, selama 100 hari adalah 0,4611, selama 200 hari adalah 0,2126, selama 553 hari adalah 0,0138 dan 999 hari adalah 0,0004. Berdasarkan hasil tersebut dapat dikatakan bahwa semakin lama seorang pasien mengidap penyakit kanker paru-paru maka peluang hidup pasien akan semakin kecil (mendekati nol), hingga akhirnya mengalami kematian. Kata Kunci: Distribusi Eksponensial, MLE, Metode Bayesian SELF

PENDAHULUAN Analisis survival adalah sekumpulan prosedur statistika untuk menganalisis data dengan variabel yang diperhatikan waktu sampai terjadinya suatu event [1]. Analisis survival ini dapat digunakan untuk memodelkan data survival. Pada analisis survival terdapat konsep penyensoran yaitu pengamatan tersensor dan pengamatan tidak tersensor (pengamatan lengkap). Pengamatan dikatakan tersensor apabila data tidak dapat diamati secara lengkap karena subjek penelitian hilang atau mengundurkan diri atau sampai akhir penelitian subjek tersebut belum mengalami kejadian tertentu sedangkan pengamatan dikatakan tidak tersensor apabila semua subjek penelitian atau unit data yang diteliti mati atau gagal. Terdapat dua model yang digunakan untuk menganalisis data survival yaitu model parametrik dan model nonparametrik. Model parametrik adalah suatu model survival dengan data survival yang mengikuti asumsi distribusi tertentu. Beberapa model parametrik terdiri dari distribusi Eksponensial, distribusi Weibull, distribusi Log-Normal, distribusi Log-Logistik, dan distribusi Gamma. Jika distribusi yang mendasari data survival tidak diketahui, artinya data tidak mengikuti suatu distribusi tertentu yang sudah ada maka digunakan model nonparametrik. Adapun dalam penelitian ini digunakan model survival berdistribusi Eksponensial. Dalam bidang kesehatan, distribusi Eksponensial dapat digunakan untuk meneliti data survival pasien. Adanya distribusi Eksponensial untuk meneliti data survival, dapat diketahui ketahanan hidup dari obyek yang diamati dengan cara mengestimasi parameter dari distribusinya. Saat ini dikenal dua metode untuk mengestimasi parameter yaitu metode klasik dan metode Bayesian. Salah satu metode estimasi parameter dengan metode klasik adalah metode Maximum Likelihood Estimation (MLE). 213

214

S. FITRIA, HELMI, S. W. RIZKI

Metode MLE merupakan suatu metode estimasi parameter yang memaksimumkan fungsi likelihood. Metode Bayesian merupakan metode estimasi yang menggabungkan distribusi prior dan fungsi likelihood. Distribusi prior adalah distribusi awal yang memberi informasi tentang suatu parameter. Fungsi likelihood yang digabung dengan distribusi prior akan menghasilkan suatu distribusi baru yaitu distribusi posterior yang menyatakan tingkat keyakinan mengenai suatu parameter setelah sampel diamati [2]. Terdapat beberapa pendekatan dari metode Bayesian yang dapat digunakan untuk mengestimasi parameter distribusi yaitu Generalised Non-informative Prior, Linear Exponential Loss Function, Lindley Approximation, General Entropy Loss Function (GELF), dan Squared Error Loss Function (SELF). Penelitian ini bertujuan untuk menentukan metode estimasi terbaik untuk model survival distribusi Eksponensial data tersensor pada kasus penderita kanker paru-paru dengan menggunakan metode MLE dan metode Bayesian SELF. Adapun pada metode Bayesian distribusi prior yang digunakan ialah distribusi Gamma yang merupakan prior sekawan untuk distribusi Eksponensial serta pendekatan loss function yang paling umum digunakan untuk metode Bayesian adalah Squared Error Loss Function (SELF) juga disebut sebagai Quadratic Loss Function [2]. Data yang digunakan dalam penelitian ini berupa data kanker paru-paru yang diambil dari program R versi 3.3.0 dengan melakukan uji Kolmogorov-Smirnov sehingga diketahui data berdistribusi Eksponensial. Langkah pertama adalah menentukan fungsi distribusi kumulatif, fungsi survival dan fungsi hazard dari distribusi Eksponensial. Langkah kedua adalah menentukan fungsi likelihood yang digunakan pada metode MLE dan metode Bayesian SELF. Langkah ketiga menentukan estimasi parameter dari metode MLE dan Metode Bayesian SELF. Selanjutnya, pada langkah keempat dilakukan proses perhitungan fungsi survival dan fungsi hazard dari hasil estimasi untuk metode MLE dan metode Bayesian SELF. Langkah terakhir ialah menghitung nilai MSE untuk fungsi survival dan fungsi hazard dari hasil estimasi kedua metode. Setelah diperoleh nilai MSE maka dapat membandingan dari kedua metode estimasi berdasarkan nilai MSE terkecil. DISTRIBUSI WAKTU SURVIVAL Distribusi waktu survival dapat dinyatakan dengan tiga fungsi yaitu, fungsi kepadatan peluang, fungsi survival, dan fungsi hazard. Waktu survival (T ) merupakan variabel random non-negatif yang mewaliki waktu survival dari individu-individu dalam populasi yang merupakan variabel random kontinu dalam interval [ 0, ∞ ) atau waktu survival pada waktu t dengan t > 0 [3]. 1. Fungsi Kepadatan Peluang Fungsi kepadatan peluang adalah peluang suatu individu mati atau mengalami kejadian sesaat dalam interval waktu t sampai t + ∆t yang dirumuskan sebagai berikut:

 P ( t < T < ( t + ∆t ) )   F ( t + ∆t ) − F ( t )  f ( t ) = lim   = lim   ∆t → 0 ∆t ∆t   ∆t → 0   Jika T merupakan variabel random non-negatif pada interval [ 0, ∞ ) , maka F ( t ) merupakan fungsi distribusi kumulatif kontinu dari T yaitu: F ( t ) = P (T ≤ t ) =

t

∫ f ( t ) dt 0

2. Fungsi Survival Fungsi survival S ( t ) didefinisikan sebagai peluang suatu individu dapat bertahan hidup dengan waktu survival sampai dengan waktu t dengan ( t > 0 ) yaitu: S ( t ) = 1 − P (T ≤ t ) = 1 − F ( t )

Estimasi Parameter Model Survival Data Tersensor Disrtibusi Eksponensial ….

215

3. Fungsi Hazard Fungsi hazard didefinisikan sebagai kelajuan suatu individu mati dalam interval waktu dari t sampai t + ∆t , jika diketahui individu tersebut masih dapat bertahan hidup sampai dengan waktu t . fungsi hazard dinyatakan sebagai berikut: f (t ) h (t ) = S (t ) DISTRIBUSI EKSPONENSIAL Jika t adalah waktu survival dari variabel random kontinu T yang mengikuti distribusi Eksponensial dengan parameter θ , maka fungsi kepadatan peluang distribusi Eksponensial ialah [4]: f (t ) = θ e −θ t , t > 0, θ > 0

Fungsi distribusi kumulatif untuk distribusi Eksponensial ialah:

F ( t ; θ ) = 1 − e−θ t Fungsi survival dari distribusi Eksponensial sebagai berikut:

S ( t; θ ) = e−θ t Sehingga fungsi hazard ialah:

h ( t;θ ) = θ METODE MAXIMUM LIKELIHOOD ESTIMATION Fungsi likelihood pada data tersensor dari data pengamatan (ti , δ i ) , i = 1, 2,..., n ialah [3]: L (θ ) =

n

∏  f ( t )

δi

i

i =1

1−δ i

 S ( ti ) 

dengan δ i adalah indikator penyensoran, bernilai 1 jika data tidak tersensor dan bernilai 0 jika data tersensor. Nilai ti diperoleh dari min(Ti , Ci ), i = 1, 2, 3,..., n , dengan Ti adalah waktu hidup individu ke i dengan i = 1,..., n dan Ci adalah waktu penyensoran individu ke i dengan i = 1,..., n . Sehingga fungsi likelihood dari distribusi Ekponensial untuk data tersensor memiliki bentuk sebagai berikut: L ( ti ; θ , δ ) =

n

∏ θ e i =1 n

∑ δi

= θ i =1 e

−θ ti

δ

1−δ i

 i e −θ t     i

 n  −θ  ti     i =1 



(1)

Kemudian membentuk logaritma natural ( ln ) dari Persamaan (1), sehingga diperoleh log-likelihood sebagai berikut:  n δ −θ  n t   ∑ i    ∑ i ln L ( ti ; θ , δ ) = ln  θ i =1 e  i =1        ln L ( ti ; θ , δ ) =  

n





i =1



 i =1 

n



∑ δ i  ln θ −  ∑ ti  θ

(2)

Untuk memperoleh nilai estimasi, Persamaan (2) diturunkan parsial terhadap θ dan menyamakan turunannya dengan nol, sehingga:

216

S. FITRIA, HELMI, S. W. RIZKI

∂ ∂θ

 n   n   δ ln θ −   ti  θ  = 0 i   i =1   i =1  





maka didapat, n

θˆ

∑δ

=

ML

i

i =1 n

∑t

i

i =1

Estimasi parameter fungsi survival dan fungsi hazard dengan metode MLE dari distribusi Eksponensial pada data tersensor diperoleh:

(

)

SˆML ti ; θˆML = e

   −   



n

∑ δi 

n

i =1 n

ti ti   i =1 



(

)

hˆML ti ; θˆML =

∑δ

i

i =1 n

∑t

i

i =1

METODE BAYESIAN Pada metode Bayesian, ketika suatu populasi mengikuti distribusi tertentu dengan suatu parameter di dalamnya (misalkan dalam hal ini θ ), maka kemungkinan parameter θ mengikuti suatu distribusi peluang tertentu yang disebut sebagai distribusi prior. Dalam kasus ini, distribusi Gamma ditetapkan sebagai distribusi prior sekawan untuk distribusi Eksponensial, sehingga distribusi prior untuk θ ialah: f (θ ) =

dengan α = 1 dan β =

1

θ

β α α −1 − βθ θ e Γ (α )

α > 0, β > 0, θ > 0

(3)

.

Distribusi prior kemudian digabungkan dengan informasi sampel yang dinyatakan dengan fungsi likelihood untuk membentuk distribusi posterior [5]. Distribusi posterior diperoleh dengan cara membagi fungsi kepadatan peluang bersama dengan fungsi marginal. Distribusi posterior dinyatakan sebagai berikut:

f (θ ti ) =

f (θ ) f ( ti θ ) ∞

∫ f (θ ) f ( t θ ) dθ i

0

Fungsi kepadatan peluang f (θ ti ) dan f (θ ) masing-masing menunjukkan distribusi posterior dan distribusi prior, sedangkan f ( ti θ ) menunjukkan fungsi likelihood. Jika T ~ Eksponensial (θ ) dan fungsi kepadatan peluang distribusi prior θ ~ Gamma (α , β ) , maka distribusi posterior dapat dinyatakan sebagai fungsi bersyarat dari θ dengan ti diketahui, sehingga dapat dinyatakan dengan,

f (θ ti ) = Karena

f (θ , ti ) dapat dinyatakan sebagai

f (θ , ti ) f ( ti )

f (θ ) f ( ti θ ) , dimana

f ( ti θ ) merupakan fungsi

likelihood dan f (θ ) merupakan distribusi prior, maka berdasarkan Persamaan (1) dan (3) maka

Estimasi Parameter Model Survival Data Tersensor Disrtibusi Eksponensial ….

217

f (θ , ti ) dapat dinyatakan sebagai berikut:

f (θ , ti ) = f (θ ) f ( ti θ )

β

f (θ , ti ) =

n

∑ δi +α −1

α

Γ (α )

θ i =1

e

 n  −θ  ti + β     i =1 



(4)

Selanjunya fungsi marginal dari ti yaitu:

f ( ti ) =



∫ f (θ ) f ( t θ ) dθ i

0

n

   β    f ( ti ) =  Γ δi + α   Γ (α )        i =1   α

δ i +α ∑

n



 1  n  ti + β  i =1 

i =1

(5)



Maka dengan Persamaan (4) dan (5) distribusi posterior dapat dinyatakan sebagai berikut: 

n

n



δ i +α −1 −θ  ∑ ti + β  βα ∑ e  i =1  θ i =1 Γ (α )

f (θ ti ) =

n

   β      Γ  δ i + α     Γ (α )   i =1   α

n



δ i +α ∑

 1  n  ti + β  i =1 

i =1



n

δ +α ∑ i

 i =1 n  n   ti + β  δ i +α −1 −θ  ∑ ti + β  ∑  i =1   i =1  i =1 θ f (θ ti ) = e (6)  n  Γ  δi + α   i =1  Berdasarkan Persamaan (6), maka diketahui bahwa distribusi posterior dari distribusi Eksponensial n







ialah berdistribusi Gamma 

n

n



i =1



∑δi + α , ∑ti + β  .

 i =1

METODE BAYESIAN SELF Estimasi parameter untuk metode Bayesian yang digunakan dalam kasus ini ialah Symmetric Loss Function yang dikenal sebagai Squared Error Loss Function (SELF) didefinisikan sebagai berikut: ) ) 2 0 <θ < ∞ L θ ,θ = θ − θ ) dengan θ merupakan estimator Bayesian SELF untuk parameter θ . Estimasi Bayesian SELF dari θ pada distribusi Eksponensial untuk data tersensor diperoleh dengan meminimumkan ekspektasi loss function yang diperoleh sebagai berikut: ) ∂  E L (θ , θ )    =0 ∂θ

(

) (

(

)

)

218

S. FITRIA, HELMI, S. W. RIZKI

) ∂  E (θ − θ ) 2    ⇔ =0 ∂θ ) ) ) ∂  E θ 2 − 2θθ + θ 2   =0 ⇔  ∂θ ) ⇔ E 2θ − 2θ = 0 ) ⇔ E (θ ) − θ = 0

(

)

(

)

(

)

Sehingga diperoleh: )

θ = E (θ )

`

(7)

Berdasarkan Persamaan (7) maka estimasi parameter dengan metode Bayesian SELF ialah: ∞

θˆBS = E (θ ) = ∫ θ f (θ ti ) 0

n

θˆ

BS

 n ∑ i =1 n  n  t β +   i ∞ ti + β  ∑ δi +α −1 −θ  ∑   i =1  i =1  i =1 θ e dθ = θ  n  0 Γ  δi + α   i =1 



δ i +α





maka didapat,

θˆ

 n   δi + α  i =1  = n    ti + β   i =1 



BS



Estimasi parameter fungsi survival dan fungsi hazard dengan metode Bayesian SELF dari distribusi Eksponensial pada data tersensor diperoleh:  n   δ i +α    i = 1 t − i n    ti + β     i =1 



(

)

SˆBS ti ;θˆBS = e



(

)

hˆBS ti ; θˆBS

 n   δi + α  i =1  =  n   ti + β   i =1 





STUDI KASUS Estimasi parameter yang diperoleh dari metode MLE dan metode Bayesian SELF dibandingkan menggunakan nilai Mean Square Error (MSE) dengan data yang digunakan ialah data waktu survival 137 pasien penderita kanker paru-paru yang diambil dari program R versi 3.3.0. MSE dari sebuah estimator untuk fungsi survival dan fungsi hazard didefinisikan sebagai: ) MSE S = E   ) MSE h = E  

)

2

)

2

( )

(S − S )

( )

(h − h)

 

(8)

 

(9) n

Dari data penderita kanker paruparu diketahui bahwa E (T ) = 121.627,

∑ δ i = 128 , i =1

n

∑t i =1

i

= 16663,

219

Estimasi Parameter Model Survival Data Tersensor Disrtibusi Eksponensial ….

dan β = 0, 008221 maka untuk estimasi parameter dengan metode MLE dan metode Bayesian SELF diperoleh:

( ) 128 = 0.007682 (t ;θˆ ) = 16663

SˆML ti ; θˆML = e hˆML

 128  − ti  16663 

i

hˆBS

(129 ) t (16663+ 0,008221) i

( ) 129 ) = 0.007742 (t ;θˆ ) = (16663 (+ 0, 008221 )

SˆBS ti ; θˆBS = e

ML



i

BS

Sehingga diperoleh fungsi survival dan fungsi hazard dari metode MLE dan metode Bayesian SELF pada penderita kanker paru-paru dalam bentuk grafik sebagai berikut: Grafik perbandingan metode MLE dan metode Bayesian SELF

Grafik perbandingan metode MLE dan metode Bayesian SELF

Variable FS FS MLE FS Bay esian SELF

1.0

Variable HZ HZ MLE HZ Bay esian SELF

0.0095

fungsi hazard

fungsi survival

0.8

0.6

0.4

0.0085

0.0075

0.2

0.0

0.0065 0

200

400 600 waktu survival

800

1000

0

200

400 600 waktu survival

800

1000

Gambar 1 Grafik perbandingan fungsi survival dan fungsi hazard Dari Gambar 1 dapat dilihat bahwa untuk fungsi survival, jika semakin lama individu menderita penyakit kanker paru-paru maka semakin kecil peluang untuk individu dapat bertahan hidup atau menuju kematian. Fungsi hazard distribusi Eksponensial berupa hazard konstan yang berarti potensi individu untuk menjadi sehat setiap saat, selama periode pengamatan tetap konstan. Selanjutnya, nilai MSE yang dihitung menggunakan Persamaan (8) dan Persamaan (9) ditampilkan pada Tabel 1 sebagai berikut: Tabel 1 Hasil perbandingan metode MLE dan Metode Bayesian SELF Mean Square Error (MSE) ) ) Metode Estimasi S (t ) h (t ) MLE 0,000311 2,91728E-07 Bayesian SELF 0,000244 2,30505E-07 Dari Tabel 1 terlihat bahwa untuk fungsi survival dan fungsi hazard metode Bayesian SELF memiliki nilai MSE lebih kecil dari pada metode MLE. Berdasarkan nilai MSE hasil estimasi untuk parameter θ diperoleh metode Bayesian SELF lebih baik dari pada metode MLE yang digunakan untuk mengestimasi model survival berdistribusi Eksponensial dengan data tersensor. Dari hasil estimasi dengan metode Bayesian SELF, jika diambil sebarang nilai ti pada data penderita kanker paru-paru dengan t1 = 30 , t2 = 100 , t3 = 200 , t4 = 553 , dan t5 = 999 maka dapat diketahui peluang individu dapat bertahan hidup sebagai berikut:

(

)

)



)



SˆBS t1 ; θˆBS = e

(

(129 ) (30) (16663+ 0,008221)



(129 )

16663+ 0,008221) SˆBS t2 ; θˆBS = e (

(

(129 )

16663+ 0,008221) SˆBS t3 ; θˆBS = e (

= 0, 7927

(100)

(200)

= 0, 4611 = 0, 2126

220

S. FITRIA, HELMI, S. W. RIZKI

(

)



)



SˆBS t4 ; θˆBS = e

(

(129 ) (553) (16663+ 0,008221) (129 )

16663+ 0,008221) SˆBS t5 ; θˆBS = e (

(999)

= 0, 0138 = 0, 0004

Sehingga diketahui peluang seorang pasien pada kasus ini untuk bertahan hidup jika mengidap penyakit kanker paru-paru selama 30 hari adalah 0,7927, selama 100 hari adalah 0,4611, selama 200 hari adalah 0,2126, selama 553 hari adalah 0,0138 dan 999 hari adalah 0,0004. Dari hasil perhitungan tersebut dapat dilihat bahwa semakin lama seorang pasien mengidap penyakit kanker paru-paru maka peluang hidup pasien akan semakin kecil (mendekati nol), hingga akhirnya mengalami kematian.

PENUTUP Estimasi parameter model survival distribusi Eksponensial data tersensor dengan menggunakan metode MLE dan metode Bayesian SELF dilakukan dengan data waktu survival 137 pasien penderita kanker paru-paru yang diambil dari program R versi 3.3.0. Nilai MSE yang diperoleh dari metode Bayesian SELF untuk fungsi survival dan fungsi hazard ialah 0,000244 dan 2,30505E-07, sedangkan nilai MSE yang diperoleh dari metode MLE untuk fungsi survival dan fungsi hazard ialah 0,000311 dan 2,91728E-07. Berdasarkan nilai MSE diperoleh metode Bayesian SELF lebih baik dari pada metode MLE karena memiliki nilai MSE lebih kecil. Hasil estimasi metode Bayesian SELF untuk studi kasus penderita kanker paru-paru dapat diketahui peluang seorang pasien untuk bertahan hidup pada kasus ini jika mengidap penyakit kanker paru-paru selama 30 hari adalah 0,7927, selama 100 hari adalah 0,4611, selama 200 hari adalah 0,2126, selama 553 hari adalah 0,0138 dan 999 hari adalah 0,0004.

DAFTAR PUSTAKA [1]. Kleinbaum, D.G. and Klein, M. Survival Analysis : A Self-Learning Text. New York: Springer Science Business Media, Inc; 2005. [2]. Berger, James O. Statistical Decision Theory and Bayesian Analysis. New York: SpringerVerlag; 1985. [3]. Lawless, J.F. Statistical Models and Method for Lifetime Data. New York: John Wiley and Sons; 1982. [4]. Lee, E.T. and Wang, J.W. Statistical Methods for Survival Data Analysis. Canada: John Wiley & Sons Inc; 2003.

[5]. Soejoeti, Z. dan Soebanar. Inferensi Bayesian. Jakarta: Karunika Universitas Terbuka;1988.

SYARIFAH FITRIA

: Fakultas MIPA Universitas Tanjungpura, Pontianak, [email protected] HELMI : Fakultas MIPA Universitas Tanjungpura, Pontianak, [email protected] SETYO WIRA RIZKI : Fakultas MIPA Universitas Tanjungpura, Pontianak, [email protected]