PENGANTAR & STATISTIKA DESKRIPTIF

Download Jenis-jenis Statistika j. 5. 1. Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. 2. Statistika inferensi...

0 downloads 519 Views 679KB Size
PENGANTAR & STATISTIKA DESKRIPTIF BI5106 Analisis Biostatistik Utriweni Mukhaiyar

Ilustrasi 2

Berikut adalah data produksi panas bumi di 25 titik pengeboran (ton/jam): 

77.71 60.00 87 46 87.46 27.79 70.00

44.24 24.00 42 13 42.13 41.49 32.35

60.00 54.12 43 04 43.04 47.70 41.60

89.54 64.52 45 75 45.75 83.00 77.96

85.64 27.14 111 27 111.27 14.32 14.37

 Informasi apa yang ingin diperoleh dari data ini ? 1. Rata-rata produksi panas bumi di 25 lokasi tersebut. 2. Penyebaran nilai produksi panas bumi di area wilayah pengeboran tersebut. 3. Lokasi pengeboran dengan nilai produksi yang ekstrim. 4 Signifikansi rata 4. rata-rata rata produksi panas bumi di area pengeboran tersebut. tersebut

Il t i Ilustrasi

3

Berikut adalah data rata-rata curah hujan bulanan yang d diamati dari d Stasiun S Padaherang P d h pada d tahun h 2001 – 2004. 2004 

Sumber : Modul 3 Praktikum Mekanika Medium Kontinu “ Medan Gravitasi”

Tahun

Jan

Feb

Mar

Apr

Mei

Jun

Jul

Agust

Sep

Okt

Nop

Des

2001 278.59 279.78 355.29 241.34 115.9 176.9 55.32 29.08 43.82 313.68 508.49 267.82 2002 299.78 245.88 266.64 185.27 122.22 133.1 76.78

32.4

26.09 169.05 461.62 415.73

2003 425.21 370.8 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.02 2004

547.8 308.2

388

93

297

128

47

5

87

105

389

371.6

 Informasi apa yang ingin diperoleh dari data ini ? 1. Rata-rata curah hujan setiap tahun. 2. Penyebaran tingkat curah hujan setiap bulan pada tahun tertentu. 3. Bulan tertentu yang memiliki tingkat curah hujan yang khusus. 4. Signifikansi perbedaan tingkat curah hujan antara tahun-tahun yang diamati. INFERENSI STATISTIKA

STATISTIKA DESKRIPTIF

Statistik dan Statistika 4

Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : o statistik (mis. rata-rata) nilai elevasi pasang surut air laut di selat Makassar (m), o statistik ( (mis. variansi)) hasil p pengukuran g tinggi gg g gelombang g (cm) menggunakan AWLR (Automatic Water Level Recorder) o Statisitik (mis. range) antara nilai tinggi pasang maksimum dan surut minimum (m)

Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data.

Jenis-jenis j Statistika 5

1.

2.

Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi.

Populasi dan Sampel 6

Populasi Sampel setiap p obyek y p populasi p memiliki m m kemungkinan/kesempatan yang sama untuk terpilih hasil pengukuran atau pengamatan

Sampel Acak Data

Contoh Populasi p dan Sampel p 

Akan dilakukan pengamatan tentang rata-rata produksi minyak bumi di Indonesia. Indonesia Populasi Seluruh S l h titik di wilayah Indonesia ?

Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya

Keterwakilan sampel atas p populasi p ??

Kaidah Pengambilan Sampel p ((Teknik Sampling)

Sampel p 7

Contoh: setiap propinsi diambil beberapa titik pengamatan

Jenis-jenis Observasi 8

OBSERVASI / DATA KUALITATIF

Nominal

Ordinal/Rank

KUANTITATIF

Diskrit

Kontinu

Didasarkan pada suatu selang/interval sehingga meliputi semua bilangan riil Intensitas gempa yang terjadi setiap hari di suatu t wilayah, il h tingkat ti k t curah hujan harian di suatu daerah, dll

Tidak mengenal urutan dan operasi aritmatika

Mengenal urutan dan operasi aritmatika

Berhubungan dengan ‘proses menghitung’, dan pengamatan atas himpunan terhitung.

Jenis bencana yang j terjadi di suatu daerah (banjir, longsor, gempa, dll), jenis batuan, dll

Jenjang pendidikan (SD, SMP, SMA,...), tingkatan daerah d h (Kelurahan, (K l h Kecamatan Kab./Kota, Provinsi, Negara), dll

Banyaknya gempa yang terjadi di suatu daerah dalam d l 1 hari, h i banyaknya b k hari hujan dalam satu bulan di suatu daerah, dll

© 2012 by UM

Statistika Deskriptif 9

Metode pengolahan dan penyajian suatu gugus data

Tujuan : memberikan informasi yang berguna.

Informasi berupa : bentuk distribusi data

Mean, median, modus, kuartil, desil, persentil, dll

Ukuran Pemusatan 10

PARAMETER DISTRIBUSI

Ukuran Penyebaran (Variabilitas)

Variansi, simpangan baku, range, jangkauan kuartil, dll

Kemencengan

Skewness

Kelancipan

Kurtosis

Karakteristik Distribusi

Simetris

Mean = Median

Skew Positif

Mean > Median

Skew Negatif

Mean < Median

Puncak t tunggal l

1 modus

Puncak jamak

Modus banyak

Kesimetrisan

BENTUK DISTRIBUSI Puncak (Modal)

@ UM

Karakteristik Distribusi 11

1. PARAMETER DISTRIBUSI

Ukuran Pemusatan Ukuran Penyebaran

2. BENTUK DISTRIBUSI

Berpuncak Jamak

Berpuncak gg Tunggal

# modus > 1

# modus = 1

mean, median, modus, kuartil atas, kuartil bawah dll bawah, Range, simpangan baku, variansi, jangkauan antar kuartil, dll

Kemencengan

skewness

Kelancipan

kurtosis

Simetris Menceng/skew Positif Menceng/skew g Negatif

mean = median mean > median mean < median

CONTOH 1 12

Data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 (n = 12) 278.59

279.78

x1

355.29

241.34

x2

115.9 176.9 55.32 29.08 43.82

x7

313.68

x10

508.49 267.82

x12

Data yang diurutkan: 29.08 43.82 55.32 115.9 176.9 241.34 267.82 278.59 279.78 313.68 355.29 508.49

x(1) x(2)

X(7)

x(10)

minimum

Adakah perbedaan dari penyajian kedua data di atas?

x(12) maksimum

Ukuran Pemusatan & Penyebaran y Data 13





Ukuran p pemusatan data statistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentu. Contoh : Mean (rataan), kuartil bawah, kuartil tengah (median), kuartil atas, modus, persentil, ... Ukuran penyebaran data statistik yang memberikan informasi bagaimana data menyebar y di sekitar p pusat data. Contoh : range (jangkauan data), IQR (jangkauan antar kuartil), variansi, standar deviasi (simpangan baku), ...

Ukuran Pemusatan Data 14

1.

Mean (rata-rata) ( ) 1 n x   xi n i 1

Contoh : x1  x2  ...  x12 x 12 278.59  279.78  ...  267.82   222.17 12

15

29.08 50 43.82%55.32 115.9 176.9) 241.34 267.82278.59 313.68355.29 data (awal) (awal 50%279.78 data (akhir)) 508.49 (akhir

X(6.5)

2. Median Nilai l tengah h yang membagi b d kelompok dua k l k data sama banyak.

med = x(6.5) = x(6) + 0.5 (x(7) - x(6) )= 254.58 3 M 3. Modus d Nilai yang paling sering muncul. modus tidak ada

4. Kuartil 29.08 25 43.82 176.9 %55.32 115.9 25 %241.34 267.82278.59 25 %279.78 313.68355.29 25 %508.49

q1



q3

q2 = med d Kuartil bawah (q1) : q1  x  n 1  q1  x 121   x

1 3    4

   4 

   4 





1  x3  x 4   x 3  70.47 4

Kuartil tengah (q2) : q2  x 2( n 1)   x n 1   

q2  x 121   x(6.5) (6 5)  254.58

4

 

   2 

   2 

Kuartil atas (q3) : q3  x 3( n 1)  16

q3  x 3(12 1)   x  

4

 

3 9   4

 x9  

 



4

 



3 x10   x9   305.21 4

5. Persentil 17

29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49

p25 • Persentil ke-i :

p75

p50 = med

 x i ( n 1)     100 

• Persentil ke-50 :  x 50( n 1)   x n 1   

100

 

   2 

median

• Persentil ke-25 dan Persentil ke-75? kuartil bawah

kuartil atas

Ukuran Penyebaran y Data 18

D Data : x1, x2, x3, ..., xn Rataan : x Ukuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data. data n

Tidak memberikan informasi apap apa, karena : n

n

 ( x  x )   x  nx  nx  nx  0 i 1

i

i 1

i

 (x  x ) i

i1

Jumlah Kuadrat (JK) n

2 ( x  x )  i i 1

Ukuran Penyebaran y Data 19

1. Jangkauan data (Range) R = datamax – datamin 2. Variansi

?

 1 1  2 2 s  ( xi  x )   n  1 i 1 n  1   n

R = 508.49 – 29.08 = 479.41

 n    xi  n  i 1  2  x  i n i 1

2

    

s2  20663.8

JKXX

3 Si 3. Simpangan Baku B k ((standard d d ddeviation) i i ) s  20663.8  143.75 s = √s2 4. Jangkauan k antar k kuartill dq = q3 – q1 dq = q3 – q1 = 234.74

Data Pencilan 20

Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan ?? 1. Hitung dq

dq = 234.74

2 Hitung BBP = q1 – k.dq 2. k dq

BBP = 70.47–(1.5)(234.74 ( )( ) = -281.65

Pilih nilai k = 3/2 (optional) 3 Hitung BAP = q3 + k.dq 3. k dq

BAP = 305.21 305 21 + (1,5)(234.74) (1 5)(234 74) = 657.32 657 32

4. Pencilan bawah < BBP

tidak ada pencilan bawah

5. Pencilan atas > BAP

tidak ada pencilan atas

SARI NUMERIK Count (banyak data, n) 21Sum (jumlah data) Average (rata-rata) Median (kuartil tengah) Mode (modus) Minimum Maximum Range Standard Deviation Variance Skewness Kurtosis 25th Percentile (persentil-25) 50th Percentile (persentil-50) 75th Percentile (persentil-75) Interquartile Range (dk) * Perhitungan dengan Mic. Excel

12 2666.01 222.17 254.58 29.08 508.49 479.41 143.75 20663.8 0.303* -0.181* 70.465 254.58 305.205 234.74

mean < median di

Menceng kiri/negatif ???

Penyajian y j Data 22

1. 2. 3. 4. 5. 6. 7.

Tabel Distribusi Frekuensi Pie Chart Dot Plot Histogram Diagram Batang – Daun (stem - leaf) Diagram Kotak – Titik (box plot) dll… Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik. Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.

23

T b l Di Tabel Distribusi t ib i FFrekuensi k i 

Data banyaknya y y p pelanggan gg y yang g datang g ke sebuah mini market k d di 15 hari h tertentu pada d bulan b l Juli l 2011.

26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Kelas Interval

Titik Tengah Kelas

Frekuensi (f)

Frekuensi Kumulatif

21 35 21-35

28

1

1

36-50

43

4

5

51-65

58

1

6

66-80

73

2

8

81-95

88

7

15

Bagaimana bentuk histogramnya?

PRINSIP DASAR PELUANG

Pie Chart 24

9% 10%

23%

58%

 Pie chart merupakan grafik yang berbentuk lingkaran yang

mana setiap ti potongannya t mewakili kili proporsii atau t persentase t suatu komponen dari sebuah kelompok data (100%).  Pemakaian pie chart hanya y cocok ketika menyatakan y data dalam bentuk proporsi dari satu kelompok data.

Dot Plot 25

3,5 3

frekuens si

2,5 2 1,5 1 0,5 0 0

20

40

60

80

100

nilai





Cara menggambarkan data dalam bentuk titik, titik dengan memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk diatas nilai data yang digambarkan.

Histogram g 26







Histogram g adalah g gambar berdasarkan distribusi frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle). (rectangle) Daerah setiap rectangle sebanding dengan frekuensinya.

Diagram Batang-Daun (StemLeaf)

27

26 37 39 46 49 59 69 76 83 83 83 87 87 95 95







Stem atau batang, g mirip p dengan g g grup p data p pada histogram, g sedangkan g leaf atau daun, mirip dengan frekuensi. Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan g y yang g membentuk harga g data,, sedangkan g digit g di belakangnya akan merupakan leaf atau daun. Melalui stem-Leaf masih dapat dilihat nilai data mentahnya.

28

Diagram g Kotak-Titik (Box-Plot) 100 90

95

max 85

80

76

70

q2

q3 mean

60 50

47,5

40 30 20

26

q1

min

10 0





Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan k grup d data seperti pada d histogram h dan d diagram batang daun. Box Plot terdiri dari: datamin (median) q3 , dan i , q1 , q2 (median), datamax yang disusun secara terurut dengan membentuk kotak.

Pencilan pada Box Plot 29

*

pencilan atas BAP (pagar atas) upper whisker q3 q2

maksimum mean

q1 lower whisker * *

minimum

BBP (pagar bawah) pencilan bawah

Kelemahan dan Keunggulan 30

KELEMAHAN DOT PLOT

HISTOGRAM

KEUNGGULAN

Tidak efektif untuk ukuran data yang besar

Cepat

Lama

Histogram peluang dapat memberi gambaran tentang distribusi populasi

Banyak perhitungan Nilai data tidak nampak

Nilai data asli dapat diperkirakan

Tidak menuntut ketelitian dalam mencatat setiap nilai data Cepat p

BATANG-DAUN

Menuntut ketelitian mencatat daun

Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter

BOX PLOT

Membutuhkan perhitungan yang panjang

Box plot dapat memberi gambaran tentang bentuk distribusi populasi

TTerdiri di i dari d i parameterparameter dari data yang sudah diurutkan

Efektif Ef k if untukk membandingkan b di k bentuk b k distribusi beberapa kelompok data sekaligus

31

Bentuk Distribusi Ideal N Normal l

mean = median

Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 K t i = 3, Kurtosis 3 (d (dalam l software ft tertentu t t t kurtosis k t i normall = 0

32

L tih 1 Latihan 

Suatu jenis polimer digunakan dalam sistem evakuasi pesawat terbang. Penting diperhatikan bahwa polimer tersebut harus mampu melawan proses penuaan. Diambil dua puluh sampel polimer yang kemudian dibagi atas dua percobaan. Percobaan pertama (batch 1) yang melibatkan 10 sampel dikenakan proses percepatan penuaan dengan temperatur tinggi selama 10 hari. Sedangkan 10 sampel lainnya (batch 2) tidak dikenakan proses apa-apa. Kekuatan K k t d daya rentang t (d l (dalam psi)i) sampel-sampel l l tersebut diukur dan dicatat sebagai berikut. Batch 1

227

222

218

217

225

218

216

229

228

221

Batch 2

219

214

215

211

209

218

203

204

201

205

Q Apakah Q: p p percobaan p proses p penuaan memberikan dampak pada kekuatan daya rentang polimer? Sumber: Walpole (2006), hal.13

33

Contoh 2

- Keluarkan K l k sarii numerik ik yang mungkin ki Ukuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAH-ATAS Ukuran penyebaran data : RANGE, JANGKAUAN KUARTIL, VARIANSI,SIMPANGAN BAKU Lain-lain : SKEWNESS dan KURTOSIS

Apakah diperlukan???

Pilih plot yang informatif untuk menjawab pertanyaan tersebut Misal: BOXPLOT

SARI NUMERIK

Mean Variansi Simp.Baku Min. Max. Q1 Median Q3

34

230

226.5 221.5

220 215

216

Batch.II 209,90 , 42,1000 6,49 201 219 204,25 210 214,75

230

229

225

Batch.1 222,10 , 23,6556 4,86 216 229 218 221,5 226,5

218

225 220

219

215

214.75

210

210

2 0 210

205

205

204.25

200

200

201

Batch 1 195

APA YANG DAPAT DISIMPULKAN??

195

Batch 2

@ UM

Transformasi Data (pengayaan) (p g y ) 35





Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris. Transformasi Tangga Tukey -1/x2 -1/x

untuk bentuk distribusi : skewness positif

√x

log (x)

x

x2

data awal

Merenggangkan data‐data yang berharga kecil dan merapatkan data‐data yang berharga besar

x3

10x

untuk bentuk distribusi : skewness negatif

Merapatkan data‐data yang berharga kecil dan merenggangkan data‐data yang berharga besar

Data contoh kasus : skewness = -0,5 0 5 (menceng kiri), kiri) maka transformasi yang mungkin adalah x2, x3, dan 10x.

Transformasi Data (pengayaan) Contoh Kasus 36

x

y = x2

87 37 59 49 69 95 83 87 39 95 83 76 83 26 6 46

7569 1369 3481 2401 4761 9025 6889 7569 1521 9025 6889 5776 6889 6 6 676 2116

transformasi

Lebih mendekati simetris (skew = 0) dibanding sebelum transformasi (skew = -0,5)

skew k = -0,18 0 18

** Ketika data ditransformasi, maka satuan dari data juga akan berubah

Referensi  Djauhari, M.A., 2001, Catatan Kuliah Analisis Data.   Walpole, Ronald E., et.al, Statistitic Walpole Ronald E et al Statistitic for Scientist and  for Scientist and

Engineering, 8th Ed., 2007.

37