Pengantar & Statistika Deskriptif MA 2081 Statistika Dasar 26 Januari J i 2012 Utriweni Mukhaiyar
Ilustrasi Berikut adalah data rata-rata curah hujan bulanan yang
diamati dari Stasiun Padaherang pada tahun 2001 – 2004. Sumber : Modul 3 Praktikum Mekanika Medium Kontinu “ Medan Gravitasi”
Tahun a u 2001 2002 2003 2004
Ja Jan 278.59 299.78 425.21 547.8
Feb eb 279.78 245.88 370.8 308.2
Mar a 355.29 266.64 300.23 388
Apr p 241.34 185.27 157.43 93
Mei e 115.9 122.22 184.96 297
Ju Jun Jul Agust Ju gust 176.9 55.32 29.08 133.1 76.78 32.4 69.93 23.28 14.39 128 47 5
Sep O Oktt Nop op Des es 43.82 313.68 508.49 267.82 26.09 169.05 461.62 415.73 17.86 275.23 433.23 456.02 87 105 389 371.6
Informasi apa yang ingin diperoleh dari data ini ? 1. Rata-rata curah hujan setiap tahun. STATISTIKA 2. Penyebaran tingkat curah hujan setiap bulan pada tahun tertentu. DESKRIPTIF 3. Bulan tertentu yang memiliki tingkat curah hujan yang khusus. 4. Signifikansi perbedaan tingkat curah hujan antara tahun-tahun yang diamati. 2
INFERENSI STATISTIKA
St ti tik dan Statistik d Statistika St ti tik Statistik : nilai-nilai ukuran data yang mudah dimengerti. Contoh : o statistik (mis. rata rata-rata) rata) nilai elevasi pasang surut air laut di selat Makassar (m), o statistik (mis. variansi) hasil pengukuran tinggi gelombang (cm) menggunakan AWLR (Automatic Water Level Recorder) o Statisitik S i i ik ((mis. i range)) nilai il i tinggi i i pasang maksimum k i d dan surut minimum (m)
Statistika : ilmu il yang berkaitan b k it dengan d cara pengumpulan, l pengolahan, analisis dan pernarikan kesimpulan atas data.
3
Jenis jenis Statistika Jenis-jenis
4
1.
Statistika i ik deskriptif: d k i if metode d yang berkaitan b k dengan pengumpulan dan penyajian data.
2.
Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi.
Populasi p dan Sampel p Populasi Sampel setiap p obyek y p populasi p memiliki m m kemungkinan/kesempatan yang sama untuk terpilih hasil pengukuran atau pengamatan
5
Sampel Acak Data
Contoh Populasi dan Sampel Akan dilakukan p pengamatan g tentangg rata-rata curah hujan j
di Jawa Barat. Populasi Seluruh titik di wilayah Jawa Barat ?
Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya
Keterwakilan sampel atas populasi ??
K id h Pengambilan Kaidah P n mbil n Sampel (Teknik Sampling)
Sampel Contoh: setiap Kabupaten/Kotamadya di Jawa Barat diambil beberapa titik pengamatan
6
Jenis-jenis Jenis jenis Observasi OBSERVASI / DATA KUALITATIF
Nominal
Ordinal/Rank
KUANTITATIF
Diskrit
Kontinu
Didasarkan pada suatu selang/interval sehingga meliputi semua bilangan riil Intensitas gempa yang terjadi setiap hari di suatu t wilayah, il h tingkat ti k t curah hujan harian di suatu daerah, dll
Tidak mengenal urutan dan operasi aritmatika
Mengenal urutan dan operasi aritmatika
Berhubungan dengan ‘proses menghitung’, dan pengamatan atas himpunan terhitung.
Jenis bencana yang j di suatu daerah terjadi (banjir, longsor, gempa, dll), jenis batuan, dll
Jenjang pendidikan (SD, SMP, SMA,...), tingkatan daerah d h (Kelurahan, (K l h Kecamatan Kab./Kota, Provinsi, Negara), dll
Banyaknya gempa yang terjadi di suatu daerah dalam 1 hari, hari banyaknya hari hujan dalam satu bulan di suatu daerah, dll
7
© 2012 by UM
St ti tik D Statistika Deskriptif k i tif
Metode pengolahan dan penyajian suatu gugus data
8
Tujuan : memberikan informasi yang berguna.
Informasi berupa : bentuk distribusi data
Karakteristik Distribusi 1. PARAMETER DISTRIBUSI
Ukuran Pemusatan Ukuran Penyebaran
2. BENTUK DISTRIBUSI
9
Berpuncak JJamak
Berpuncak gg Tunggal
# modus > 1
# modus = 1
mean, median, modus, kuartil atas, kuartil bawah dll bawah, Range, simpangan baku, variansi, jangkauan antar kuartil, dll
Kemencengan
skewness
Kelancipan
kurtosis
Simetris Menceng/skew Positif Menceng/skew g Negatif
mean = median mean > median mean < median
CONTOH KASUS Data rata-rata curah hujan bulanan yang diamati dari Stasiun Padaherang pada tahun 2001 (n = 12) 278.59
279.78
x1
355.29
241.34
x2
115.9 176.9 55.32 29.08 43.82
x7
313.68
x10
508.49 267.82
x12
Data yang diurutkan: 29.08 43.82 55.32 115.9 176.9 241.34 267.82 278.59 279.78 313.68 355.29 508.49
x(1) x(2)
X(7)
x(10)
minimum 10
Adakah perbedaan dari penyajian kedua data di atas?
x(12) maksimum
Uk Ukuran P Pemusatan t & Penyebaran P b D t Data Ukuran pemusatan data
statistik yang memberikan informasi dimana data terkumpul dengan ukuran/jumlah tertentu. C Contoh h : Mean M (rataan), ( ) kuartil k l bbawah, h kkuartill tengahh (median), kuartil atas, modus, persentil, ... Ukuran penyebaran data statistik yang memberikan informasi bagaimana data menyebar y di sekitar pusat p data. Contoh : range (jangkauan data), IQR (jangkauan antar kuartil), variansi, standar deviasi (simpangan baku), ... 11
Uk Ukuran P Pemusatan t Data D t 1.
Mean (rata-rata) ( )
1 n x xi n i 1
Contoh : x1 x2 ... x12 x 12 278.59 279.78 ... 267.82 222.17 12 12
29.08 43.82 55.32 176.9 50 % data115.9 (awal (awal) ) 241.34 267.82278.59 50%279.78 data313.68355.29 ((akhir akhir)) 508.49
X(6.5) 2. Median Nil i tengah Nilai t h yang membagi b i dua d kelompok k l k data d t sama banyak.
med = x(6.5) = x(6) + 0.5 (x(7) - x(6) )= 254.58
13
3 M 3. Modus d Nilai yang paling sering muncul. modus tidak ada
4. Kuartil 29.08 25 43.82 176.9 % 55.32 115.9 25 %241.34 267.82278.59 25 %279.78 313.68355.29 25 %508.49
q1
q3
q2 = med d Kuartil bawah (q1) : q1 x n 1 q1 x 121 x
1 3 4
4
4
1 x3 x 4 x 3 70.47 4
Kuartil tengah (q2) : q2 x 2( n 1) x n 1
q2 x 121 x(6.5) (6 5) 254.58
4
2
2
Kuartil atas (q3) : q3 x 3( n 1) 14
q3 x 3(12 1) x
4
3 9 4
x9
4
3 x10 x9 305.21 4
5. Persentil 29.08 43.82 55.32 115.9 176.9 241.34 267.82278.59 279.78 313.68355.29 508.49
p25 • Persentil ke-i :
p75
p50 = med
x i ( n 1) 100
• Persentil ke-50 : x 50( n 1) x n 1
100
2
median
• Persentil ke-25 dan Persentil ke-75? 15
kuartil bawah
kuartil atas
Ukuran Penyebaran Data Data : x1, x2, x3, ..., xn Rataan : x Ukuran penyebaran data yang melihat bagaimana SETIAP (keseluruhan) observasi terpisah dari pusat data. data n
Tidak memberikan informasi apap apa, karena : n
n
( x x ) x nx nx nx 0 i 1
16
i
i 1
i
(x x ) i
i1
Jumlah Kuadrat (JK) n
2 ( x x ) i i 1
Ukuran Penyebaran Data 1. Jangkauan data (Range) R = datamax – datamin 2. Variansi
?
1 1 2 2 s ( xi x ) n 1 i 1 n 1 n
R = 508.49 – 29.08 = 479.41
n xi n i 1 2 x i n i 1
2
s2 20663.8
JKXX
17
3 Si 3. Simpangan Baku B k ((standard d d ddeviation) i i ) s 20663.8 143.75 s = √s2 4. Jangkauan k antar k kuartill dq = q3 – q1 dq = q3 – q1 = 234.74
Data Pencilan Data yang nilainya berbeda jauh dari kelompok data yang lain. Bagaimana mendeteksi data pencilan ?? 1. Hitung dq
dq = 234.74
BBP = 70.47–(1.5)(234.74 ( )( ) = -281.65 2 Hitung BBP = q1 – k.dq 2. k dq Pilih nilai k = 3/2 (optional)
18
3 Hitung BAP = q3 + k.dq 3. k dq
BAP = 305.21 305 21 + (1,5)(234.74) (1 5)(234 74) = 657.32 657 32
4. Pencilan bawah < BBP
tidak ada pencilan bawah
5. Pencilan atas > BAP
tidak ada pencilan atas
SARI NUMERIK Count (banyak data, n) Sum (jumlah data) Average (rata-rata) Median (kuartil tengah) Mode (modus) Minimum Maximum Range Standard Deviation Variance Skewness Kurtosis 25th Percentile (persentil-25) 50th Percentile (persentil-50) 75th Percentile (persentil-75) Interquartile Range (dk) * Perhitungan dengan Mic. Excel 19
12 2666.01 222.17 254.58 29.08 508.49 479.41 143.75 20663.8 0.303* -0.181* 70.465 254.58 305.205 234.74
mean < median
Menceng kiri/negatif ???
Penyajian Data
6.
Tabel Distribusi Frekuensi Pie Chart Dot Plot Histogram Diagram Batang – Daun (stem - leaf) Diagram Kotak – Titik (box plot)
7.
dll…
1. 2. 3. 4. 5 5.
Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik.
20
Penyajian data dalam bentuk grafik dapat dilakukan secara manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.
Tabel Distribusi Frekuensi Data banyaknya y y p pelanggan gg y yang g datang g ke sebuah
mini market k d di 15 hari h tertentu pada d bulan b l Juli l 20 2011.
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 Kelas Interval
Titik Tengah Kelas
Frekuensi (f)
Frekuensi Kumulatif
21 35 21-35
28
1
1
36-50
43
4
5
51-65
58
1
6
66-80
73
2
8
81-95
88
7
15
Bagaimana bentuk histogramnya? 21
PRINSIP DASAR PELUANG
Pie Chart 9% 10%
23%
58%
Pie chart merupakan grafik yang berbentuk lingkaran yang
mana setiap ti potongannya t mewakili kili proporsii atau t persentase t suatu komponen dari sebuah kelompok data (100%). Pemakaian pie chart hanya y cocok ketika menyatakan y data dalam bentuk proporsi dari satu kelompok data. 22
Dot Plot 3,5 3
frekuens si
2,5 2 1,5 1 0,5 0 0
20
40
60
80
100
nilai
Cara menggambarkan data dalam bentuk titik, titik dengan
memperhatikan frekuensi dari data yang bersangkutan Titik ditumpuk p diatas nilai data yyangg digambarkan. g 23
Histogram
Histogram g adalah g gambar berdasarkan distribusi
frekuensi Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle) (rectangle). 24 Daerah setiap rectangle sebanding dengan frekuensinya.
Diagram Batang-Daun (St (Stem-Leaf) L f) 26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
Stem atau batang, mirip dengan grup data pada
histogram, hi t sedangkan d k leaf l f atau t daun, d mirip i i dengan d f k frekuensi. i Stem atau batang adalah digit pertama yang terpenting yang ada g y yang g membentuk harga g data, sedangkan g digit g di dalam bilangan belakangnya akan merupakan leaf atau daun. 25 Melalui stem-Leaf masih dapat dilihat nilai data mentahnya.
Diagram Kotak Kotak-Titik Titik (Box-Plot) 100 90
95
max 85
80
76
70
q2
q3 mean
60 50
47,5
40 30 20
26
q1
min
10 0
Box Plot digunakan untuk menyelidiki distribusi tanpa
menggunakan k grup d data seperti pada d histogram h dan d diagram batang daun. Box Plot terdiri dari: datamin (median) q3 , dan i , q1 , q2 (median), datamax yang disusun secara terurut dengan membentuk 26 kotak.
Pencilan pada Box Plot *
pencilan atas upper whisker q3 q2
BAP (pagar atas) maksimum mean
q1 lower whisker * * 27
pencilan bawah
minimum BBP (pagar bawah)
Kelemahan dan Keunggulan KELEMAHAN DOT PLOT
HISTOGRAM
KEUNGGULAN
Tidak efektif untuk ukuran data yang besar
C Cepat
Lama
Histogram peluang dapat memberi gambaran tentang distribusi populasi
Banyak perhitungan Nilai data tidak nampak
Nilai data asli dapat diperkirakan
Tidak menuntut ketelitian dalam mencatat setiap nilai data Cepat
BATANG-DAUN
Menuntut ketelitian mencatat daun
Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan pperhitungan g berbagai g pparameter
BOX PLOT
28
Membutuhkan perhitungan yang panjang
Box plot dapat memberi gambaran tentang bentuk distribusi populasi
Terdiri dari pparameter-parameter p dari data yang sudah diurutkan
Efektif untuk membandingkan g bentuk distribusi beberapa kelompok data sekaligus
Bentuk Distribusi Ideal N Normal l
mean = median
Memiliki bentuk distribusi yang simetris, yaitu : Skewness = 0 K t i = 3, Kurtosis 3 (d (dalam l software ft tertentu t t t kurtosis k t i normall = 0 29
Latihan 1 Suatu jenis polimer digunakan dalam sistem evakuasi pesawat terbang.
Penting diperhatikan bahwa polimer tersebut harus mampu melawan proses penuaan. Diambil dua puluh sampel polimer yang kemudian dibagi atas dua percobaan. Percobaan pertama (batch 1) yang melibatkan 10 sampell dikenakan d k k proses percepatan penuaan dengan d temperatur tinggi selama 10 hari. Sedangkan 10 sampel lainnya (batch 2) tidak dikenakan proses apa-apa. Kekuatan daya rentang (dalam psi) sampel-sampel tersebut diukur dan dicatat sebagai berikut. berikut Batch 1
227
222
218
217
225
218
216
229
228
221
Batch 2
219
214
215
211
209
218
203
204
201
205
Q: Apakah percobaan proses penuaan memberikan dampak pada kekuatan daya rentang polimer? 30
Sumber: Walpole (2006), hal.13
Latihan 1
- Keluarkan K l k sarii numerik ik yang mungkin ki Ukuran pemusatan data : MEAN, MEDIAN, KUARTIL BAWAH-ATAS Ukuran penyebaran data : RANGE, JANGKAUAN KUARTIL, VARIANSI,SIMPANGAN BAKU Lain-lain : SKEWNESS dan KURTOSIS
Apakah diperlukan???
Pilih plot yang informatif untuk menjawab pertanyaan tersebut Misal: BOXPLOT 31
SARI NUMERIK
230
226.5 221.5
220 215
216
Batch.II 209,90 42,1000 6,49 201 219 204,25 210 214,75
230
229
225
Mean Variansi Simp.Baku Min. Max. Q1 Median Q3
Batch.1 222,10 23,6556 4,86 216 229 218 221,5 226,5
218
225 220
219
215
214.75
210
210
210
205
205
204.25
200
200
201
Batch 1 195
DAPAT DISIMPULKAN?? @ UM 32APA YANG
195
Batch 2
Latihan 2 Berikut adalah data rata-rata curah hujan bulanan yang
diamati dari Stasiun Padaherang pada tahun 2002 – 2004. Sumber : Modul 3 Praktikum Mekanika Medium Kontinu “ Medan Gravitasi”
a u Tahun 2002 2003 2004
Ja Jan 299.78 425.21 547.8
eb Feb 245.88 370.8 308.2
a p e Ju Ju gust Sep O op Des es Mar Apr Mei Jun Jul Agust Oktt Nop 266.64 185.27 122.22 133.1 76.78 32.4 26.09 169.05 461.62 415.73 300.23 157.43 184.96 69.93 23.28 14.39 17.86 275.23 433.23 456.02 388 93 297 128 47 5 87 105 389 371.6
Q: Untuk tiap-tiap tahun 1. Keluarkan sari numerik data di atas. 2. Hitung variansi dengan 2 cara, bandingkan. 3. Buat box plot. 4. Ceritakan hasil olahan data Anda. Dikumpul Senin, 6 Februari 2012 33
Sumber: Walpole (2006), hal.29, NO.1.24
Transformasi Data (pengayaan) Transformasi dilakukan untuk mendapatkan bentuk distribusi
yang lebih simetris. Transformasi T f T Tangga Tk Tukey -1/x2 -1/x untuk bentuk distribusi : skewness positif
√x
log (x)
x2
data awal
Merenggangkan data‐data yang berharga kecil dan merapatkan data‐data yang berharga besar
34
x
x3
10x
untuk bentuk distribusi : skewness negatif
Merapatkan data‐data yang berharga kecil dan merenggangkan data‐data yang berharga besar
Data contoh kasus : skewness = -0,5 0 5 (menceng kiri), kiri) maka transformasi yang mungkin adalah x2, x3, dan 10x.
Transformasi Data (pengayaan) Contoh Kasus
35
x
y = x2
87 37 59 49 69 95 83 87 39 95 83 76 83 26 6 46
7569 1369 3481 2401 4761 9025 6889 7569 1521 9025 6889 5776 6889 6 6 676 2116
transformasi
Lebih mendekati simetris (skew = 0) dibanding sebelum transformasi (skew = -0,5)
skew k = -0,18 0 18
** Ketika data ditransformasi, maka satuan dari data juga akan berubah
Latihan 3 Mencari, mengumpulkan, mengolah, menganalisis
dan menarik kesimpulan atas data Anda sendiri. Sumber data: buku teks, TA, data praktikum, koran, majalah, i internet, dll (sebaiknya disesuaikan dengan permasalahan yang dll ( b ik di ik d l h mungkin dihadapi di prodi masing‐masing). Ceritakan tentang data tersebut (histori data). Tugas A diketik (Mic.Word atau Mic.Excel) dikumpul (online) Rabu, 8 Februari 2012
36
Contoh Tugas A Berikut adalah nilai UTS 1 dari 55 mahasiswa MA2181 Analisis Data Tahun
2010. 70,5 53 53 74,5 70,5
75,5 69,5 , 54 73 62
68 92,5 , 84 75 61,5
85,5 62 66 82 81
84,5 68,5 , 79 73 58,5
78,5 74,5 , 78,5 67,5 43,5
58,5 59,5 , 84 70 74,5
82 83 80,5 68 39
75,5 79,5 , 74,5 75 77
84 89,5 , 74,5 70,5 87
64,5 79 64 74,5 71
Histori data:
37
Nilai UTS 1 ini diambil dari kelas 02 tahun 2010 yang mahasiswanya adalah terdiri dari 54 mahasiswa angkatan 2009 dan 1 orang mahasiswa angkatan 2008 prodi Matematika ITB
UTS 1 dilaksanakan pada hari Rabu, 13 Oktober 2010.
Pelaksanaan ujian adalah paralel dengan kelas 01.
Soal ujian terdiri dari dua bagian, dimana Bagian I terdiri dari 4 soal Pilihan Ganda dan 2 soal Pilihan Benar-Salah, dan Bagian g II terdiri dari 3 soal ESEI. Nilai maksimum adalah 100 (Soal UTS 1 dilampirkan).
Sumber: Nilai UTS 1 MA 2181 Analisis Data, Kelas: 02, Pengajar: Utriweni Mukhaiyar
Lampiran Tugas A
38
@ UM
Referensi Djauhari, M.A., 2001, Catatan Kuliah Analisis Data. h l h l Walpole, Ronald E., et.al, Statistitic for Scientist and
Engineering, 8th Ed., 2007. Engineering, 8th Ed., 2007.
39