PENGANTAR & STATISTIKA DESKRIPTIF BI5106 Analisis Biostatistik Utriweni Mukhaiyar
Ilustrasi 2
Berikut adalah data produksi panas bumi di 25 titik pengeboran (ton/jam):
77.71 60.00 87 46 87.46 27.79 70.00
44.24 24.00 42 13 42.13 41.49 32.35
60.00 54.12 43 04 43.04 47.70 41.60
89.54 64.52 45 75 45.75 83.00 77.96
85.64 27.14 111 27 111.27 14.32 14.37
Informasi apa yang ingin diperoleh dari data ini ? 1. Rata-rata produksi panas bumi di 25 lokasi tersebut. 2. Penyebaran nilai produksi panas bumi di area wilayah pengeboran tersebut. 3. Lokasi pengeboran dengan nilai produksi yang ekstrim. 4 Signifikansi rata 4. rata-rata rata produksi panas bumi di area pengeboran tersebut. tersebut
Il t i Ilustrasi
3
Berikut adalah data rata-rata curah hujan bulanan yang d diamati dari d Stasiun S Padaherang P d h pada d tahun h 2001 – 2004. 2004
Sumber : Modul 3 Praktikum Mekanika Medium Kontinu “ Medan Gravitasi”
Tahun
Jan
Feb
Mar
Apr
Mei
Jun
Jul
Agust
Sep
Okt
Nop
Des
2001 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 2002 299.78 245.88 266.64 185.27 122.22 133.1 76.78
32.4
26.09 169.05 461.62 415.73
2003 425.21 370.8 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.02 2004
547.8 308.2
388
93
297
128
47
5
87
105
389
371.6
Informasi apa yang ingin diperoleh dari data ini ? 1. Rata-rata curah hujan setiap tahun. 2. Penyebaran tingkat curah hujan setiap bulan pada tahun tertentu. 3. Bulan tertentu yang memiliki tingkat curah hujan yang khusus. 4. Signifikansi perbedaan tingkat curah hujan antara tahun-tahun yang diamati. INFERENSI STATISTIKA
STATISTIKA DESKRIPTIF
Statistik dan Statistika 4
Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : o statistik (mis. rata-rata) nilai elevasi pasang surut air laut di selat Makassar (m), o statistik ( (mis. variansi)) hasil p pengukuran g tinggi gg g gelombang g (cm) menggunakan AWLR (Automatic Water Level Recorder) o Statisitik (mis. range) antara nilai tinggi pasang maksimum dan surut minimum (m)
Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data.
Jenis-jenis j Statistika 5
1.
2.
Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi.
Populasi dan Sampel 6
Populasi Sampel setiap p obyek y p populasi p memiliki m m kemungkinan/kesempatan yang sama untuk terpilih hasil pengukuran atau pengamatan
Sampel Acak Data
Contoh Populasi p dan Sampel p
Akan dilakukan pengamatan tentang rata-rata produksi minyak bumi di Indonesia. Indonesia Populasi Seluruh S l h titik di wilayah Indonesia ?
Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya
Keterwakilan sampel atas p populasi p ??
Kaidah Pengambilan Sampel p ((Teknik Sampling)
Sampel p 7
Contoh: setiap propinsi diambil beberapa titik pengamatan
Jenis-jenis Observasi 8
OBSERVASI / DATA KUALITATIF
Nominal
Ordinal/Rank
KUANTITATIF
Diskrit
Kontinu
Didasarkan pada suatu selang/interval sehingga meliputi semua bilangan riil Intensitas gempa yang terjadi setiap hari di suatu t wilayah, il h tingkat ti k t curah hujan harian di suatu daerah, dll
Tidak mengenal urutan dan operasi aritmatika
Mengenal urutan dan operasi aritmatika
Berhubungan dengan ‘proses menghitung’, dan pengamatan atas himpunan terhitung.
Jenis bencana yang j terjadi di suatu daerah (banjir, longsor, gempa, dll), jenis batuan, dll
Jenjang pendidikan (SD, SMP, SMA,...), tingkatan daerah d h (Kelurahan, (K l h Kecamatan Kab./Kota, Provinsi, Negara), dll
Banyaknya gempa yang terjadi di suatu daerah dalam d l 1 hari, h i banyaknya b k hari hujan dalam satu bulan di suatu daerah, dll
© 2012 by UM
Statistika Deskriptif 9
Metode pengolahan dan penyajian suatu gugus data
Tujuan : memberikan informasi yang berguna.
Informasi berupa : bentuk distribusi data
Mean, median, modus, kuartil, desil, persentil, dll
Ukuran Pemusatan 10
PARAMETER DISTRIBUSI
Ukuran Penyebaran (Variabilitas)
Variansi, simpangan baku, range, jangkauan kuartil, dll
Kemencengan
Skewness
Kelancipan
Kurtosis
Karakteristik Distribusi
Simetris
Mean = Median
Skew Positif
Mean > Median
Skew Negatif
Mean < Median
Puncak t tunggal l
1 modus
Puncak jamak
Modus banyak
Kesimetrisan
BENTUK DISTRIBUSI Puncak (Modal)
@ UM
Karakteristik Distribusi 11
1. PARAMETER DISTRIBUSI
Ukuran Pemusatan Ukuran Penyebaran
2. BENTUK DISTRIBUSI
Berpuncak Jamak
Berpuncak gg Tunggal
# modus > 1
# modus = 1
mean, median, modus, kuartil atas, kuartil bawah dll bawah, Range, simpangan baku, variansi, jangkauan antar kuartil, dll
Kemencengan
skewness
Kelancipan
kurtosis
Simetris Menceng/skew Positif Menceng/skew g Negatif
mean = median mean > median mean < median
CONTOH 1 12
Data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 (n = 12) 278.59
279.78
x1
355.29
241.34
x2
115.9 176.9 55.32 29.08 43.82
x7
313.68
x10
508.49 267.82
x12
Data yang diurutkan: 29.08 43.82 55.32 115.9 176.9 241.34 267.82 278.59 279.78 313.68 355.29 508.49
x(1) x(2)
X(7)
x(10)
minimum
Adakah perbedaan dari penyajian kedua data di atas?
x(12) maksimum
Ukuran Pemusatan & Penyebaran y Data 13
Ukuran p pemusatan data statistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentu. Contoh : Mean (rataan), kuartil bawah, kuartil tengah (median), kuartil atas, modus, persentil, ... Ukuran penyebaran data statistik yang memberikan informasi bagaimana data menyebar y di sekitar p pusat data. Contoh : range (jangkauan data), IQR (jangkauan antar kuartil), variansi, standar deviasi (simpangan baku), ...
Ukuran Pemusatan Data 14
1.
Mean (rata-rata) ( ) 1 n x xi n i 1
Contoh : x1 x2 ... x12 x 12 278.59 279.78 ... 267.82 222.17 12
15
29.08 50 43.82%55.32 115.9 176.9) 241.34 267.82278.59 313.68355.29 data (awal) (awal 50%279.78 data (akhir)) 508.49 (akhir
X(6.5)
2. Median Nilai l tengah h yang membagi b d kelompok dua k l k data sama banyak.
med = x(6.5) = x(6) + 0.5 (x(7) - x(6) )= 254.58 3 M 3. Modus d Nilai yang paling sering muncul. modus tidak ada
4. Kuartil 29.08 25 43.82 176.9 %55.32 115.9 25 %241.34 267.82278.59 25 %279.78 313.68355.29 25 %508.49
q1
q3
q2 = med d Kuartil bawah (q1) : q1 x n 1 q1 x 121 x
1 3 4
4
4
1 x3 x 4 x 3 70.47 4
Kuartil tengah (q2) : q2 x 2( n 1) x n 1
q2 x 121 x(6.5) (6 5) 254.58
4
2
2
Kuartil atas (q3) : q3 x 3( n 1) 16
q3 x 3(12 1) x
4
3 9 4
x9
4
3 x10 x9 305.21 4
5. Persentil 17
29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49
p25 • Persentil ke-i :
p75
p50 = med
x i ( n 1) 100
• Persentil ke-50 : x 50( n 1) x n 1
100
2
median
• Persentil ke-25 dan Persentil ke-75? kuartil bawah
kuartil atas
Ukuran Penyebaran y Data 18
D Data : x1, x2, x3, ..., xn Rataan : x Ukuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data. data n
Tidak memberikan informasi apap apa, karena : n
n
( x x ) x nx nx nx 0 i 1
i
i 1
i
(x x ) i
i1
Jumlah Kuadrat (JK) n
2 ( x x ) i i 1
Ukuran Penyebaran y Data 19
1. Jangkauan data (Range) R = datamax – datamin 2. Variansi
?
1 1 2 2 s ( xi x ) n 1 i 1 n 1 n
R = 508.49 – 29.08 = 479.41
n xi n i 1 2 x i n i 1
2
s2 20663.8
JKXX
3 Si 3. Simpangan Baku B k ((standard d d ddeviation) i i ) s 20663.8 143.75 s = √s2 4. Jangkauan k antar k kuartill dq = q3 – q1 dq = q3 – q1 = 234.74
Data Pencilan 20
Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan ?? 1. Hitung dq
dq = 234.74
2 Hitung BBP = q1 – k.dq 2. k dq
BBP = 70.47–(1.5)(234.74 ( )( ) = -281.65
Pilih nilai k = 3/2 (optional) 3 Hitung BAP = q3 + k.dq 3. k dq
BAP = 305.21 305 21 + (1,5)(234.74) (1 5)(234 74) = 657.32 657 32
4. Pencilan bawah < BBP
tidak ada pencilan bawah
5. Pencilan atas > BAP
tidak ada pencilan atas
SARI NUMERIK Count (banyak data, n) 21Sum (jumlah data) Average (rata-rata) Median (kuartil tengah) Mode (modus) Minimum Maximum Range Standard Deviation Variance Skewness Kurtosis 25th Percentile (persentil-25) 50th Percentile (persentil-50) 75th Percentile (persentil-75) Interquartile Range (dk) * Perhitungan dengan Mic. Excel
12 2666.01 222.17 254.58 29.08 508.49 479.41 143.75 20663.8 0.303* -0.181* 70.465 254.58 305.205 234.74
mean < median di
Menceng kiri/negatif ???
Penyajian y j Data 22
1. 2. 3. 4. 5. 6. 7.
Tabel Distribusi Frekuensi Pie Chart Dot Plot Histogram Diagram Batang – Daun (stem - leaf) Diagram Kotak – Titik (box plot) dll… Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik. Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.
23
T b l Di Tabel Distribusi t ib i FFrekuensi k i
Data banyaknya y y p pelanggan gg y yang g datang g ke sebuah mini market k d di 15 hari h tertentu pada d bulan b l Juli l 2011.
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Kelas Interval
Titik Tengah Kelas
Frekuensi (f)
Frekuensi Kumulatif
21 35 21-35
28
1
1
36-50
43
4
5
51-65
58
1
6
66-80
73
2
8
81-95
88
7
15
Bagaimana bentuk histogramnya?
PRINSIP DASAR PELUANG
Pie Chart 24
9% 10%
23%
58%
Pie chart merupakan grafik yang berbentuk lingkaran yang
mana setiap ti potongannya t mewakili kili proporsii atau t persentase t suatu komponen dari sebuah kelompok data (100%). Pemakaian pie chart hanya y cocok ketika menyatakan y data dalam bentuk proporsi dari satu kelompok data.
Dot Plot 25
3,5 3
frekuens si
2,5 2 1,5 1 0,5 0 0
20
40
60
80
100
nilai
Cara menggambarkan data dalam bentuk titik, titik dengan memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk diatas nilai data yang digambarkan.
Histogram g 26
Histogram g adalah g gambar berdasarkan distribusi frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle). (rectangle) Daerah setiap rectangle sebanding dengan frekuensinya.
Diagram Batang-Daun (StemLeaf)
27
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Stem atau batang, g mirip p dengan g g grup p data p pada histogram, g sedangkan g leaf atau daun, mirip dengan frekuensi. Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan g y yang g membentuk harga g data,, sedangkan g digit g di belakangnya akan merupakan leaf atau daun. Melalui stem-Leaf masih dapat dilihat nilai data mentahnya.
28
Diagram g Kotak-Titik (Box-Plot) 100 90
95
max 85
80
76
70
q2
q3 mean
60 50
47,5
40 30 20
26
q1
min
10 0
Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan k grup d data seperti pada d histogram h dan d diagram batang daun. Box Plot terdiri dari: datamin (median) q3 , dan i , q1 , q2 (median), datamax yang disusun secara terurut dengan membentuk kotak.
Pencilan pada Box Plot 29
*
pencilan atas BAP (pagar atas) upper whisker q3 q2
maksimum mean
q1 lower whisker * *
minimum
BBP (pagar bawah) pencilan bawah
Kelemahan dan Keunggulan 30
KELEMAHAN DOT PLOT
HISTOGRAM
KEUNGGULAN
Tidak efektif untuk ukuran data yang besar
Cepat
Lama
Histogram peluang dapat memberi gambaran tentang distribusi populasi
Banyak perhitungan Nilai data tidak nampak
Nilai data asli dapat diperkirakan
Tidak menuntut ketelitian dalam mencatat setiap nilai data Cepat p
BATANG-DAUN
Menuntut ketelitian mencatat daun
Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter
BOX PLOT
Membutuhkan perhitungan yang panjang
Box plot dapat memberi gambaran tentang bentuk distribusi populasi
TTerdiri di i dari d i parameterparameter dari data yang sudah diurutkan
Efektif Ef k if untukk membandingkan b di k bentuk b k distribusi beberapa kelompok data sekaligus
31
Bentuk Distribusi Ideal N Normal l
mean = median
Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 K t i = 3, Kurtosis 3 (d (dalam l software ft tertentu t t t kurtosis k t i normall = 0
32
L tih 1 Latihan
Suatu jenis polimer digunakan dalam sistem evakuasi pesawat terbang. Penting diperhatikan bahwa polimer tersebut harus mampu melawan proses penuaan. Diambil dua puluh sampel polimer yang kemudian dibagi atas dua percobaan. Percobaan pertama (batch 1) yang melibatkan 10 sampel dikenakan proses percepatan penuaan dengan temperatur tinggi selama 10 hari. Sedangkan 10 sampel lainnya (batch 2) tidak dikenakan proses apa-apa. Kekuatan K k t d daya rentang t (d l (dalam psi)i) sampel-sampel l l tersebut diukur dan dicatat sebagai berikut. Batch 1
227
222
218
217
225
218
216
229
228
221
Batch 2
219
214
215
211
209
218
203
204
201
205
Q Apakah Q: p p percobaan p proses p penuaan memberikan dampak pada kekuatan daya rentang polimer? Sumber: Walpole (2006), hal.13
33
Contoh 2
- Keluarkan K l k sarii numerik ik yang mungkin ki Ukuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAH-ATAS Ukuran penyebaran data : RANGE, JANGKAUAN KUARTIL, VARIANSI,SIMPANGAN BAKU Lain-lain : SKEWNESS dan KURTOSIS
Apakah diperlukan???
Pilih plot yang informatif untuk menjawab pertanyaan tersebut Misal: BOXPLOT
SARI NUMERIK
Mean Variansi Simp.Baku Min. Max. Q1 Median Q3
34
230
226.5 221.5
220 215
216
Batch.II 209,90 , 42,1000 6,49 201 219 204,25 210 214,75
230
229
225
Batch.1 222,10 , 23,6556 4,86 216 229 218 221,5 226,5
218
225 220
219
215
214.75
210
210
2 0 210
205
205
204.25
200
200
201
Batch 1 195
APA YANG DAPAT DISIMPULKAN??
195
Batch 2
@ UM
Transformasi Data (pengayaan) (p g y ) 35
Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris. Transformasi Tangga Tukey -1/x2 -1/x
untuk bentuk distribusi : skewness positif
√x
log (x)
x
x2
data awal
Merenggangkan data‐data yang berharga kecil dan merapatkan data‐data yang berharga besar
x3
10x
untuk bentuk distribusi : skewness negatif
Merapatkan data‐data yang berharga kecil dan merenggangkan data‐data yang berharga besar
Data contoh kasus : skewness = -0,5 0 5 (menceng kiri), kiri) maka transformasi yang mungkin adalah x2, x3, dan 10x.
Transformasi Data (pengayaan) Contoh Kasus 36
x
y = x2
87 37 59 49 69 95 83 87 39 95 83 76 83 26 6 46
7569 1369 3481 2401 4761 9025 6889 7569 1521 9025 6889 5776 6889 6 6 676 2116
transformasi
Lebih mendekati simetris (skew = 0) dibanding sebelum transformasi (skew = -0,5)
skew k = -0,18 0 18
** Ketika data ditransformasi, maka satuan dari data juga akan berubah
Referensi Djauhari, M.A., 2001, Catatan Kuliah Analisis Data. Walpole, Ronald E., et.al, Statistitic Walpole Ronald E et al Statistitic for Scientist and for Scientist and
Engineering, 8th Ed., 2007.
37