Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Informationen zum Programm SPSS • Grundlagen der Programmbedienung in SPSS • Befragung und Datenerstellung • Daten und Variablen • Deskriptive Analysemethoden
2
Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows
•
3
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
SPSS –
früher:
Statistical Package for Social Sciences
–
heute:
Statistical Product and Service Solution
•
Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse
•
Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem und integrierte Grafik
•
Derzeit aktuellste Version: –
SPSS Version 14.0 für Windows
–
SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel)
•
32.768 Variablen (2 hoch 15) pro Datendatei nutzbar.
•
SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen
•
Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unter Windows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen)
Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Basismodul
grundlegende Funktionen, einfache und fortgeschrittene Methoden zur Datenanalyse und umfangreiche Grafikmöglichkeiten
4
Zusatzmodule SPSS Advanced Models SPSS Categories SPSS Conjoint SPSS Data Entry Builder SPSS Exact Tests SPSS Maps SPSS Missing Value Analysis SPSS Regression Models SPSS Tables SPSS Trends ...
Statistische Auswertungsverfahren mit SPSS Warum SPSS und nicht Excel? Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Arbeiten mit großen Datensätzen möglich (32.768 Variablen (2 hoch 15) pro Datei benutzbar)
Umfangreiche Datentransformationen und -funktionen
Dokumentation und Automatisierung über SYNTAX-Sprache
Großer Umfang an statistischen Funktionen und Prozeduren Deskriptive Statistik (Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen) Inferenzstatistik (Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse) Multivariate Verfahren (Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse, Multidimensionale Skalierung etc.)
5
Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistik
beschreibende (deskriptive) Statistik - Daten sammeln - Daten präsentieren - Daten charakterisieren
6
schließende (induktive) Statistik - Schätzen - Hypothesen testen
Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Deskriptive (beschreibende) Statistik – Messwerte ordnen – Anschauliche und übersichtliche Darstellung von Daten in • Tabellen • Diagrammen – – – – – – – – – – –
•
Säulen Balken Linien Punkt Flächen Netz Stengel/Blatt Hoch-Tief Box Streu Histogramme
Induktive (schließende) Statistik – Ermittlung von Vertrauensbereichen – Überprüfung von Hypothesen
7
Statistische Auswertungsverfahren mit SPSS Statistische Methoden
Vorgehen bei analytischer Statistik (nach Petersen, 1991) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Grundgesamtheit
Schluss von der bekannten Stichprobe auf die unbekannte Grundgesamtheit
Formulierung des zu prüfenden Sachverhaltes
Ermittlung von Schätzgrößen für die Kenngrößen
Entnahme einer Stichprobe
Prüfung der Hypothesen Parametertests
Prüfung der Hypothesen Verteilungstests
Erzeugen der Analysendaten
Parameterhypothesen
Verteilungshypothesen
Aufbereitung der Daten • tabellarisch • rechnerisch • graphisch
8
Formulierung der Nullhypothesen und Alternativhypothesen
Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Variablen/Merkmale und Merkmalsausprägungen –
In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. Jedes Merkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals = Analysenergebnis)
–
Bsp.: Geschlecht - männlich / weiblich
• Unabhängige (Faktor) und abhängige Variablen –
unabhängige Variablen können die Merkmalsausprägungen von abhängigen Variablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten)
• Qualitative und quantitative Variablen –
ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein (z.B. Weinsorte, Freundlichkeit)
–
ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein (z.B. Gehalt, Semesteranzahl)
9
Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• uni-, bi- und multivariate Daten –
univariat •
–
bivariat •
–
nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben
Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi)
multivariat •
Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki) Beispiel: Beschreibung einer Kundengruppe
10
–
Alter
–
Einkommen
–
Geschlecht
–
Konsumgewohnheiten
–
Lifestyle
Statistische Auswertungsverfahren mit SPSS Starten von SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Dialogfenster Durch „Abbrechen“ kann dieses Fenster geschlossen werden
Dialogfenster in Zukunft nicht mehr anzeigen v
11
Statistische Auswertungsverfahren mit SPSS Die SPSS Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
SPSS Daten Editor
SPSS Syntax Fenster
12
SPSS Viewer
Statistische Auswertungsverfahren mit SPSS SPSS Daten-Editor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Arbeitsfläche von SPSS • Sämtliche mit SPSS durchführbare Analysen • Variablenansicht – zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.)
• Datenansicht – zeigt die Beobachtungswerte aller in der aktuellen Datendatei enthaltenen Variablen.
• Dateityp:
13
*.sav
Statistische Auswertungsverfahren mit SPSS SPSS Syntax Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Befehlseingabe für einzelne Prozeduren – ermöglicht beispielsweise Berechnen von Variablen, Transformieren von Daten, Ausführen statistischer Prozeduren u.v.m.
• SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauer bearbeitet werden • Dateityp: *.sps
14
Statistische Auswertungsverfahren mit SPSS SPSS Viewer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Ausgabe für Ergebnisse von Analysen oder Prozeduren • Wird bei jeder Analyse oder Prozedur automatisch geöffnet • Navigationsbereich – Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte
• Dateityp: *.spo
15
Statistische Auswertungsverfahren mit SPSS Definition der Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Variablentypen – String-Variablen (Zeichenketten) • Verwendung bei offener Fragestellung
– Numerische Variablen • Vercodung von möglichen Antworten (Bsp.: Bundesland) • Relative Ordnung von Merkmalen • Exakte Messung eines Merkmals
16
Statistische Auswertungsverfahren mit SPSS Qualität der Daten, Skala und Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung Gut messbare Daten z.B. Körpergröße eines Menschen
schlecht messbare Daten z.B. Motivation, Gesundheitszustand
Skala „Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragen werden können Skalenniveau Art und Weise, in der eine Eigenschaft eines Objektes in Zahlen ausgedrückt werden kann
17
Statistische Auswertungsverfahren mit SPSS Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Variablen
Qualitative Variablen
nominal skaliert
18
Quantitative Variablen
ordinal skaliert
metrisch skaliert
Statistische Auswertungsverfahren mit SPSS Skalenniveau - Nominalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Ausprägungen einer Variablen bilden nur Kategorien
•
Keinerlei Ordnungsvorschrift
•
Dient lediglich zur Unterscheidung der einzelnen Kategorien
•
Auswertungsmöglichkeiten eingeschränkt (z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!)
•
Beispiele – Geschlecht
Kategorie
– Familienstand
1
– Herkunft
2 3 4…
19
Statistische Auswertungsverfahren mit SPSS Skalenniveau - Ordinalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“)
•
Es kann eine Rangordnung erstellt werden
•
Auswertungsmöglichkeiten: (z.B. Ranglisten; Median als Mittelwert ist sinnvoll!)
•
Beispiel: – Platzierungen – Schulnoten
(streng genommen ordinal)
•
20
Keine Aussage über die Abstände zwischen den Rängen möglich!
Statistische Auswertungsverfahren mit SPSS Skalenniveau – Intervallskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
– Eigenschaften der Nominal - und Ordinalskala – die Differenzen, nicht jedoch die Quotienten sind interpretierbar – Ausprägungen werden als Vielfaches einer elementaren Maßeinheit angegeben – Beispiel • Temperatur (hat keinen natürlichen Nullpunkt) • Schulnoten (werden oft als quasi intervallskaliert behandelt)
21
Statistische Auswertungsverfahren mit SPSS Skalenniveau – Verhältnisskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
– Angabe von Differenzen und Quotienten ist sinnvoll – Beispiele • Umsatz eines Unternehmens • Alter • Einwohnerzahlen
Intervall – und Verhältnisskalen heißen metrisch skaliert, Nominal- und Ordinalskalen heißen nicht metrisch skaliert (eine Unterscheidung der beiden metrischen Niveaus kommt bei den meisten statistischen Verfahren keine Bedeutung zu) 22
Statistische Auswertungsverfahren mit SPSS Skalenniveau - Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Skala
Beispiel
Differenzierung
Kenngrößen Lagemaß
Streumaß
Nominal
A=B, A≠B
Geschlecht: männlich/weiblich
Klassifizierung bei qualitativen Merkmalen (gleich, ungleich)
•relative Häufigkeiten •Modus
Ordinal
A=B, A≠B; A
kalt < lau < warm < heiß, Schulnoten, Güteklasse
Einstufung bei qualitativen Merkmalen (kleiner / größer)
•relative Häufigkeiten •Modus •Median (x̃),
•Quantile (Q) •Spannweite (R)
Intervall
Skala mit konstanten Abständen, Addition, Subtraktion, Mittelwert
absolute Differenzen Kalenderdatum, Punkte im von quantitativen Intelligenztest Merkmalen
•relative Häufigkeiten •Modus •Median (x)̃, •arithmetisches Mittel
•Standardabweichung (s) •Varianz (s2)
•relative Häufigkeiten relative und absolute •Modus Differenzen von •Median (x)̃ quantitativen Merkmalen •arithmetisches Mittel •geometrisches Mittel
•Standardabweichung (s) •Varianz (s2)
Verhältnis
23
Information
Multiplikation, Division
Länge, Fläche
Statistische Auswertungsverfahren mit SPSS Skalenniveau - Metrische Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
– Diskrete Variablen • Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen • Anzahl der möglichen Ausprägungen ist abzählbar • Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr
– Stetige Variablen • Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen • Mehr als abzählbare Ausprägungen eines Merkmals • Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar • Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr
24
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Studenten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Praxisbeispiel: Befragung der Studenten
Ziele:
1. Erstellen eines praxisrelevanten Datensatzes 2. Auswertungen basierend auf diesen Datensatz
25
Statistische Auswertungsverfahren mit SPSS Näheres zur Variablenansicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bezeichnung der Variable
Anzahl der Zeichen
Ausschlaggebend für die Verarbeitung der Variable in SPSS
26
Bezeichnung der Variablen Unterscheidung zwischen und Werte in Datenansicht und nominal, ordinal und metrisch Ausgaben (Bisher irrelevant für SPSS)
Benutzerdefiniert fehlende Werte
Optionen für die Anzeige in der Datenansicht
Statistische Auswertungsverfahren mit SPSS Definition von Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
27
Variablenname
Datentypen
Messniveau
• muss mit Buchstaben beginnen; restliche Zeichen sind Buchstaben, Ziffern, Punkte oder folgende Sonderzeichen @, #, _, $; keine Leerzeichen! • darf nicht mit Punkt enden • soll nicht mit Unterstrich enden • auf 64 Zeichen beschränkt • Name muss eindeutig sein • Groß- und Kleinschreibung wird unterschieden • Bestimmte Namen sind reserviert z.B. ALL, AND, NOT, WITH, OR
• Numerisch
• Nominal
• Komma
• Ordinal
• Punkt
• Metrisch
• Wissenschaftliche Notation • Datum • Dollar • Andere Währung • String
Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Den einzelnen Werten werden Zahlen zugewiesen – Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von den anderen Nennungen zu trennen, geben wir ihm eine erhöhte Zahl (und trage diesen anschließend bei Fehlende Werte ein)
1
28
2
3
4
8
Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Ein Zeichen lang
Typ: Numerisch
Bezeichnung der Variable
Keine Dezimalstellen
Benutzerdefiniert fehlender Wert: 8 (Weiß nicht)
Wertelabels: 1 = sehr gut … 4 = nicht gut 8 = weiß nicht
String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3). Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung.
Anzahl der Zeichen sinnvoll wählen
29
Statistische Auswertungsverfahren mit SPSS Datenansicht am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
In der Datenansicht werden die einzelnen Interviews in Zeilen dargestellt.
•
Die Spalte a1 repräsentiert unsere neu erzeugte Variable
•
Wie man sieht, wurden die Zahlen durch das jeweilige Wertelabel ersetzt.
•
Man kann jene mit Hilfe des folgenden Buttons ein und ausblenden:
30
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
S1
1 x 2
1
31
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
A1 1 A2 1 2 8
32
2
3
4
8
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
A3
33
A4_1
1. Nennung
A4_2
2. Nennung
A4_3
3. Nennung
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
1 M1_1 M1_2 M1_3 M1_4 M1_5
34
2
3
4
5
8
9
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
M2 1 2
M3 1 2 3
35
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
B1 1 2
B2 1
B3 1 2 8
36
2
3
4
8
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
F1 F1_1 F1_2 F1_3
x F1_8 = 1
37
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
1
F2_1 F2_2
F2_3 F2_4 F2_5
38
2
3
4
5
8
9
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Jeweils mit 1 vercoden F3_
1 2 3
4 5 6
98
F3_s
7 8
Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8 nehmen den Wert “1” an.
39
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
ST_O
ST_P
ST2
ST3
ST4 1
40
2
9
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
ST5 1 2 3 4 5
41
6 7 8 9
Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
ST6 1 2 3 ST7
ST8 ST9 1
42
2
Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
V2
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation
2
Statistische Auswertungsverfahren mit SPSS Dateneingabe Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Dateneingabe und -konsolidierung • SPSS -
Definition der Datenmatrix Variablennamen, Typ, Label, Missing Values
-
Keine Fehlerprüfung möglich
• Einlesen von Textdateien -
Variablennamen in 1. Zeile
-
keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
-
Daten mit dem Assistenten für Textimport einlesen
• Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken) -
Variablennamen in 1. Zeile
-
keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
-
Daten in SPSS einlesen mit Dateityp Excel (.xls) → Option „Read Variable Names“ aktivieren
• Data Entry
3
-
Definition der Datenmatrix
-
Eingabe mit Fehlerprüfung
-
Nur bei großen Datenmengen sinnvoll
Statistische Auswertungsverfahren mit SPSS Statistik Prozeduren in SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Variablenliste
zu analysierende Variablen
Analyse durchführen Übergabe in den Syntax Editor Einstellungen zurücksetzen Übertragung der Variablen in Analyse Mit der rechten Maustaste kann die wissensbasierte Datenbank von SPSS konsultiert werden.
prozedurspezifische Steuerungsmöglichkeiten
4
Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeiten:
5
–
„Analysieren –> Deskriptive Statistik -> Häufigkeiten“
–
Die Werte können absolut oder prozentual dargestellt werden.
–
Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben.
Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeiten: –
In der Variablenliste werden alle numerischen und String-Variablen angezeigt.
–
Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben.
6
Statistische Auswertungsverfahren mit SPSS Häufigkeiten
Häufigkeiten: M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
7
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Auswertung des Fragebogens zum Kurs M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
Regelm äßige r Be such der Cafete ria
Gültig
Häuf igkeit 92 35
Prozent 71,3 27,1
Gültige Prozente 72,4 27,6
Gesamt
127
98,4
100,0
System
2 129
1,6 100,0
ja nein
Fehlend Gesamt
Kumulierte Prozente 72,4 100,0
• Nahezu 3/4 der befragten Studenten besuchen regelmäßig die Mensa der FH Ingolstadt. 8
Statistische Auswertungsverfahren mit SPSS Häufigkeiten
Auswertung des Fragebogens zum Kurs
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen?
(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
Me inung zu Rauchve rbot in der Cafete ria
Gültig
Ja, f inde ich gut Nein, lehne ich ab Is t mir im Prinzip egal 8 Gesamt
Fehlend Gesamt
9
System
Häuf igkeit 37
Proz ent 28,7
Gültige Proz ente 33,0
Kumulierte Proz ente 33,0
39
30,2
34,8
67,9
23 13
17,8 10,1
20,5 11,6
88,4 100,0
112 17
86,8 13,2
100,0
129
100,0
Statistische Auswertungsverfahren mit SPSS Häufigkeiten
Auswertung des Fragebogens zum Kurs A1. Wie gefällt es Dir in Ingolstadt? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
Bew e rtung de r Stadt Ingols tadt
Gültig
Sehr gut Gut Weniger gut Nicht gut Weiß nicht Gesamt
Fehlend Gesamt
System
Häuf igkeit 33
Proz ent 25,6
Gültige Proz ente 25,8
Kumulierte Proz ente 25,8
82 8
63,6 6,2
64,1 6,3
89,8 96,1
4 1
3,1 ,8
3,1 ,8
99,2 100,0
128
99,2
100,0
1 129
,8 100,0
• Der Mehrzahl der Befragten gefällt Ingolstadt gut oder sogar sehr gut.
10
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Häufigkeiten
Auswertung des Fragebogens zum Kurs
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
Aus gabe n fürs Wegge he n
Gültig
10 ! bis unter 30 ! 30 ! bis unter 50 ! 50 ! bis unter 70 ! 70 ! bis unter 100! 100 ! bis unter 130 ! 130 ! bis unter 150 ! 150 ! bis unter 200 !
Fehlend Gesamt
Häuf igkeit 16
Prozent 12,4
Gültige Prozente 13,3
Kumulierte Prozente 13,3
17
13,2
14,2
27,5
27 23
20,9 17,8
22,5 19,2
50,0 69,2
8 7
6,2 5,4
6,7 5,8
75,8 81,7
7
5,4
5,8
87,5
mehr als 200 ! Gesamt
15 120
11,6 93,0
12,5 100,0
100,0
System
9 129
7,0 100,0
• 30% der Probanden geben fürs Weggehen mehr als 100 € pro Abend aus. 11
Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Auswertung des Fragebogens zum Kurs ST6. Rauchst Du? (Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten)
Rauche r
Gültig
Nein, ic h rauche nic ht Ja, hin und w ieder Ja, regelmäßig
Fehlend Gesamt
Gesamt System
Häuf igkeit 65 20
Proz ent 50,4 15,5
Gültige Proz ente 52,0 16,0
Kumulierte Proz ente 52,0 68,0
40 125
31,0 96,9
32,0 100,0
100,0
4
3,1
129
100,0
• Über 50% der befragten Betriebswirtschaftsstudenten rauchen nicht. 12
Statistische Auswertungsverfahren mit SPSS Häufigkeiten
Auswertung des Fragebogens zum Kurs ST7. Wie alt bist du? (Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten) Alte r
Gültig
18 19 20 21 22
Gültige Prozente 1,6
Kumulierte Prozente 1,6
13
10,1
10,6
12,2
12 24
9,3 18,6
9,8 19,5
22,0 41,5
13
10,1
10,6
52,0
13 12
10,1 9,3
10,6 9,8
62,6 72,4
25
14 7
10,9 5,4
11,4 5,7
83,7 89,4
2
1,6
1,6
91,1
28 29
4 3
3,1 2,3
3,3 2,4
94,3 96,7
30
1 1
,8 ,8
,8 ,8
97,6 98,4
1
,8
,8
99,2
1 123
,8 95,3
,8 100,0
100,0
31 33 224 Gesamt Gesamt
Prozent 1,6
23 24 26 27
Fehle nd
Häuf ig keit 2
System
6
4,7
129
100,0
• Die Mehrzahl der Teilnehmer geben ..... 13
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 1 des Übungsblattes.
14
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation
15
Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter
Lageparameter
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte • Anwendung i.d.R. nur bei metrischen Variablen • wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden, um die Häufigkeitsverteilung zu charakterisieren.
Median • Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in zwei gleich große Hälften teilt • 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median • Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend) • Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der Einkommensvariable (Berechnung von Quartilen)
Modalwert (Modus) • Messwert, der in einem Datensatz am häufigsten vorkommt • Gibt an, wo die größte Dichte einer Verteilung liegt • nominale, ordinale und metrische Daten
16
Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Lageparameter Arithmetisches Mittel • Maßzahl zur zentralen Tendenz von Daten • Ermittlung der durchschnittlichen Merkmalsausprägung • Daten mindestens intervallskaliert (in manchen Fällen auch ordinal) • Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt • Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B. die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnung ausgeschlossen werden, indem sie als fehlende Werte definiert werden • Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einer Verteilung, wenn diese symmetrisch ist
17
Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter
Lageparameter Aus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann man Aussagen über die Form der Häufigkeitsverteilung von Variablen ableiten: 1.
2.
3.
18
Linkssteile Verteilung Die Verteilung steigt links schnell an, erreicht ihren Gipfel und fällt dann langsam ab. Modus < Median < arithmetisches Mittel Rechtssteile Verteilung Die Verteilung steigt links langsam an, erreicht ihren Gipfel und fällt rechts steil ab. arithmetisches Mittel < Median < Modus Symmetrische Verteilung Alle drei Mittelwerte fallen auf einen Punkt. arithmetisches Mittel = Median = Modalwert
• Die Form der Verteilung kann mittels SPSS festgestellt werden. Die Funktionen heißen „Schiefe“ (Welche Seite der Verteilung ist länger?) und „Kurtosis“ (Wölbung; je größer die Wölbung, desto stärker konzentrieren sich die Werte an einer bestimmten Stelle). • Schiefe: rechtssteil < 0 < linkssteil • Kurtosis: flachgipflig < 0 < hochgipflig
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
19
Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Streuungsparameter • Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert • Präzisiert die Aussage der Lageparameter • Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung).
Varianz • • • •
Nur metrische Daten Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz Die Varianz wird nicht in der Einheit der Variablenwerte gemessen
Standardabweichung • • • •
Nur metrische Daten Ermöglicht Vergleichbarkeit mit Mittelwerten Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat Die Standardabweichung wird in der Einheit der Variablenwerte gemessen
Spannweite • • •
Mindestens ordinalskalierte Daten Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe Kann durch Ausreißer stark beeinflusst werden
Standardfehler • • 20
Nur metrische Daten Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben um den Mittelwert der Grundgesamtheit
Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
21
Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 2 des Übungsblattes.
22
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation
23
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Explorative Datenanalyse •
•
•
24
Fehlerhaft erhobene oder eingegebene Daten bedeuten die Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginn der Datenanalyse zunächst einer Plausibiltätsprüfung unterzogen werden
•
Stängel-Blatt-Diagramm
•
Histogramm
Untersuchung und Begutachtung von Daten, von denen man nur geringes Wissen über deren Zusammenhänge hat
•
Perzentile
Ziele der explorativen Datenanalyse
•
M-Schätzer
1.
Überprüfung der Rohdaten und ggf. der Originalbelege
•
Ausreißer
2.
Prüfung der Verteilung der Werte und Identifikation von Ausreißern
•
Schachtel-Diagramm
•
Normalverteilungstest
3.
Bildung von Hypothesen über Gründe und Zusammenhänge, die vorher nicht erkennbar waren
4.
Hilfe zur Wahl des passenden statistischen Werkzeuges
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • •
Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
25
•
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten • Liefert einen grafischen Eindruck von der Verteilung der Werte • Erstellung per Hand – Die n Beobachtungswerte werden der Größe nach geordnet • 101, 103, 105, 111, 112, 112, 134
– Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren) • Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 … • So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10
– Beobachtungswerte durch die Blatteinheit teilen • 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4
– Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm – Den Wert hinter dem Komma als Blatt Frequency 3,00 3,00 0,00 1,00
Stem & Leaf 10 . 135 11 . 122 12 . 13 . 4
Stem width: 10,00 Each leaf: 1 case(s) 26
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm) ST8. Wie groß bist Du? (in cm) Größe Stem-and-Leaf Plot Frequency
Gibt an, um welchen Faktor die Ursprungswerte von den im Diagramm angegebenen Werten abweichen
Gibt die Anzahl der Werte an, die durch ein Blatt repräsentiert werden
27
1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00
Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 .
Gibt den ganzzahligen Teil der Werte wieder
8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56
Stem width: 10 Each leaf: 1 case(s)
Gibt den Dezimalteil der Werte wieder
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse
Histogramm
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-BlattDiagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen • Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet. • Nur metrische Daten * SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten
Wenig aussagekräftig, weil sich jeder einzelne Balken auf eine einzelne Kategorie bezieht.
28
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • •
Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
29
•
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Perzentile (auch Quantile, Fraktile) • Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle.
Das 40%-Perzentil dieser Verteilung hat den Wert 3 (0,4*15 = 6)
Das 50%-Perzentil (Median) dieser Verteilung hat den Wert 4 (0,5*15 = 7,5 → 8)
30
Fallnummer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ausprägung
1
1
2
2
2
3
3
4
5
6
6
7
8
13
26
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse
Perzentile (auch Quantile, Fraktile)
31
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Perzentile (auch Quantile, Fraktile) • Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus. Perze ntile
Gew ichtetes Mittel (Def inition 1)
A lter
Tukey-A ngelpunkte
A lter
5
10
19,00
19,00
25
Perz entile 50
75
21,00
22,00
25,00
21,00
22,00
25,00
90 27,00
95 29,00
• Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben (Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik) Statistiken Alter N
Gültig
Perzentile
Fehlend 10 20 30 40 50 60 70 80 90
32
123 6 19,00 20,00 21,00 21,00 22,00 23,00 24,00 25,00 27,00
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Ausreißeranalyse (Extremwerte) • Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt werden. Extr em w erte A lter
Größte Werte
1 2 3 4
Kleinste Werte
Fallnummer 96
Wert
71 77
33 31
51
30
5 1
50 106
29 a 18
2
104 124
18 19
119
19
114
19 b
3 4 5
a. Nur eine partielle Liste von Fällen mit dem Wert 29 w ird in der Tabelle der oberen Ex tremw erte angez eigt. b. Nur eine partielle Liste von Fällen mit dem Wert 19 w ird in der Tabelle der unteren Extremw erte angezeigt.
33
**
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse
Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht
Ausreißer (°): Extremwerte (*): 34
Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht
Ausreißer höchster Wert, der kein Ausreißer ist
75% Perzentil 50% der Fälle
Median 25% Perzentil niedrigster Wert, der kein Ausreißer ist
Ausreißer (°): Extremwerte (*): 35
Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
M-Schätzer (Maximum-Likelihood-Schätzer) • Mittelwertberechnung unter Berücksichtigung von Extremwerten • Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von den übrigen Werten abweicht, desto geringer ist das Gewicht) Datenbasis mit Fehleingaben
Berichtigte Datenbasis Statistiken
Statistiken Alter N
Gültig Fehlend
Mittelwert
Alter N
123 6 24,41
Mittelwert
M-Schätzer
Alter
M-Schätzer a nach Huber 22,48
Tukeyb Biweight 22,30
M-Schätzer c nach Hampel 22,47
a. Die Gewichtungskonstante ist 1,339. b. Die Gewichtungskonstante ist 4,685. c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500 d. Die Gewichtungskonstante ist 1,340*pi.
36
Andrewsd Welle 22,29
Gültig Fehlend
123 6 22,79
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • •
Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
37
•
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Test auf Normalverteilung • Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annähernd normalverteilt sind • SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten auf Normalverteilung zu prüfen • Normalverteilungsplots Empirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilung gegenübergestellt • Signifikanztests Errechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seien normalverteilt, fehlerhaft ist
38
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Normalverteilungsplots Theoretische Werte einer Normalverteilung
• Sind die empirischen Werte normalverteilt, müssen die einzelnen Punkte weitgehend dem Verlauf der Geraden folgen. • Gravierender ist die Stärke der Abweichung in deren Form. Folgen die Werte einem klaren Muster, weichen die Werte systematisch von der Normalverteilung ab. 39
• Diese Grafik ist geeignet um ein Muster in den Abweichungen zu erkennen • Wären die Stichprobenwerte normalverteilt, müssten die Punkte in der Grafik zufällig und nicht einem Muster folgend um die horizontale Linie streuen.
• das Alter ist in der Grundgesamtheit nicht normalverteilt
Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Signifikanztests • Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte der untersuchten Variablen seien in der Grundgesamtheit normalverteilt • Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist • Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Werte normalverteilt sind. • Kolmogorov-Smirnov: für große Stichproben geeignet • Shapiro-Wilk-Test:
ergänzend für kleine Stichproben (etwa weniger als 50)
Tests auf Normalv erteilung a
Alter
Kolmogorov-Smirnov Statistik df Signifikanz ,143 123 ,000
Statistik ,942
a. Signifikanzkorrektur nach Lilliefors
Irrtumswahrscheinlichkeit
• Annahme einer Normalverteilung ist zurückzuweisen 40
Shapiro-Wilk df Signifikanz 123 ,000
Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 3 des Übungsblattes.
41
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation
42
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung Umkodieren (Befehl: Transformieren → Umkodieren) Veränderung der Werte einer schon vorhandenen Variablen • in dieselbe Variable (alte Werte werden überschrieben) • in eine neue Variable (die alte Variable bleibt erhalten) • Sonderfall: Umkodierung in aufeinander folgende Zahlen
Berechnen (Befehl: Transformieren → Berechnen) Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten (z.B. Merkmalsausprägungen addieren, Index bilden)
43
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen (Befehl: Daten → Datei aufteilen) Analyse von unterschiedlichen Teildatenmengen
Untersuchungen anhand von kontinuierlichen Variablen (Befehl: Daten → Fälle auswählen) Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden
Gewichtung von Fällen (Befehl: Daten → Fälle gewichten) Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um die Repräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oder unterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischen Analysen berücksichtigt.
44
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung •
45
Umkodieren
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung •
46
Berechnen
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung •
47
Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung •
48
Untersuchungen anhand von kontinuierlichen Variablen
Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation und -filterung •
49
Gewichtung von Fällen
Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die restlichen Fragen des Übungsblattes.
50
Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
V3
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
2
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mehrfachantworten •
Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können • Beispiel:
x
x x
• Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neun Antwortkategorien • Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten soll aber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert • SPSS bietet zwei verschiedene Methoden an: Methode multipler Kategorien Methode multipler Dichotomien 3
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mehrfachantworten zur Analyse aufbereiten • Methode multipler Kategorien: •
Anzahl der zu ankreuzenden Antworten wurde beschränkt (z.B.: Bitte kreuzen Sie maximal 3 Antworten an) → Anzahl der Variablen entspricht der maximalen Anzahl an Antworten
•
Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahl der maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden
•
Die Kodierung erfolgt wie bei Einfachantworten
1 2 3
4 5 6 9
F3_99
4
F3_1
→ 1,2,3,4,5,6,7,8,9
F3_2
→ 1,2,3,4,5,6,7,8,9
F3_3
→ 1,2,3,4,5,6,7,8,9
7 8
F3_s
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mehrfachantworten zur Analyse aufbereiten • Methode multipler Dichotomien: • Keine Beschränkung bei der Anzahl der zu ankreuzenden Antworten → für jede Antwortmöglichkeit wird eine Variable erstellt • Häufig verwendete Codierung: „1 = wurde gewählt“, „0 = wurde nicht gewählt“ • Vorteil: klare Struktur der Kodierung • Nachteil: hohe Anzahl an Variablen
1
F3_1
/0 1
F3_2
1
F3_3 F3_99
1
/0 1 /0 1 /0
F3_4
/0
/0
F3_5 F3_6 F3_9
1
/0
/0
Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zwei Fragen formuliert werden. (1. Treibst du Sport; 2. Welches Sportangebot an der Fachhochschule Ingolstadt nutzt Du?) 5
um
F3_7 F3_8
F3_9s 1
n
re e i kod
1
/0 1
/0
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten
• Multiple Dichotomien • Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen → sehr umständlich und weniger anschaulich • Multiple Kategorien • Häufigkeitsauswertung über jede Antwortvariable → wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden Variablen gespeichert sein könnte
Lösung: Variablen zu Sets zusammenfassen
• Mehrfachantworten-Sets werden nicht mit der Datendatei gespeichert → Syntax (kein „Einfügen“ Button)
• Zusammengehörende Variablen in Sets zusammenfassen • Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden • „Analysieren > Mehrfachantworten > Sets definieren“ • Sets für multiple Dichotomien Alle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegeben werden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt) → Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt • Sets für multiple Kategorien Alle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegeben sein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.) → Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind 6
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Variablen zu Setz zusammenfassen F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
7
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
8
Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich) Häufigkeiten v on $Sportangebot_set
Fallzusammenfassung Fälle
$Sportangebot_set a
Gültig N Prozent 59 45,7%
Fehlend N Prozent 70 54,3%
N
Gesamt Prozent 129 100,0%
a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.
• Von 129 Probanden nutzen 46% das Sportangebot an der FHI • Von allen angebotenen Sportarten wird Aerobic am meisten besucht (17%) • 25% der Studenten, die das Sportangebot an der FHI nutzen, nehmen an der Sportart Aerobic teil. • Die Kategorie „mache keinen Sport“ sowie die Spezifizierung der Kategorie „Sonstige“ müssen separat ausgewertet werden. Es kann jedoch die Schlussfolgerung gezogen werden, dass die 70 fehlenden Fälle keinen Sport treiben.
Sportangebota
Basketball Fechten Fitness Fußball Lauftreff Volleyball Sonstiges Gesamt a.
Prozent der Fälle 25,4%
6 8 3
6,8% 9,1% 3,4%
10,2% 13,6% 5,1%
11
12,5%
18,6%
11 6 10 18
12,5% 6,8% 11,4% 20,5%
18,6% 10,2% 16,9% 30,5%
88
100,0%
149,2%
Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.
• Fälle, bei denen keine Set-Variable den angegebenen Wert (1) annimmt, werden als fehlend bezeichnet 9
Aerobic Badminton
Antworten N Prozent 15 17,0%
Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 1 des Übungsblattes.
10
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
11
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Kreuztabellen • Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen. Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall. • Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen • Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet • Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondern bietet auch statistische Zusammenhangstests und Zusammenhangsmaße an
Analysemöglichkeiten mit der Prozedur Kreuztabellen • Kreuztabellen (nominal- und ordinalskalierte Variablen) • Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen) Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dass zwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht • Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen) Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zum Ausdruck
12
Statistische Auswertungsverfahren mit SPSS Kreuztabellen
Kreuztabellen auswerten ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms)
13
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Kreuztabellen auswerten ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms) Raucher * Semester Kreuztabelle Anzahl
Raucher
Gesamt
14
Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig
1
20 3 7 30
3
14 2 9
Semester 5 14 5 11
25
30
7
13 7 11 31
9
4 3 1
Gesamt 65 20 39
8
124
Statistische Auswertungsverfahren mit SPSS Kreuztabellen
Kreuztabellen auswerten
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit) • Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent • prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert • prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert • prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle
15
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Raucher * SemesterKreuztabelle
20
14
Semester 5 14
15,7 30,8% 66,7%
13,1 21,5% 56,0%
16,1% 3
1 Raucher
Nein, ich rauche nicht
bei Normalverteilung beider Merkmale
Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl
Ja, hin und wieder
Anzahl Erwartete Anzahl % von Raucher % von Semester
Ja, regelmäßig
% der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester
Gesamt
% der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl
16
3
7
9 13
4
Gesamt 65
15,7 21,5% 46,7%
16,3 20,0% 41,9%
4,2 6,2% 50,0%
65,0 100,0% 52,4%
11,3% 2
11,3% 5
10,5% 7
3,2% 3
52,4% 20
4,8 15,0% 10,0%
4,0 10,0% 8,0%
4,8 25,0% 16,7%
5,0 35,0% 22,6%
1,3 15,0% 37,5%
20,0 100,0% 16,1%
2,4% 7
1,6% 9
4,0% 11
5,6% 11
2,4% 1
16,1% 39
9,4 17,9%
7,9 23,1%
9,4 28,2%
9,8 28,2%
2,5 2,6%
39,0 100,0%
23,3% 5,6% 30
36,0% 7,3% 25
36,7% 8,9% 30
35,5% 8,9% 31
12,5% ,8% 8
31,5% 31,5% 124
30,0 24,2%
25,0 20,2%
30,0 24,2%
31,0 25,0%
8,0 6,5%
124,0 100,0%
100,0% 24,2%
100,0% 20,2%
100,0% 24,2%
100,0% 25,0%
100,0% 6,5%
100,0% 100,0%
Statistische Auswertungsverfahren mit SPSS Kreuztabellen
Einsatz von Gruppen – und Schichtenvariablen
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen. ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)
17
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einsatz von Gruppen – und Schichtenvariablen ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du?
(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.) Raucher * Semester * Geschlecht Kreuztabelle Anzahl Geschlecht männlich
Raucher
weiblich
Gesamt Raucher
Gesamt
18
Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig
1
10 1 2 13 10 2 5 17
3
5 1 4 10 9 1 5 15
Semester 5 3 0 5 8 11 5 6 22
7
4 5 7 16 9 2 4 15
9
2 3 0 5 2 0 1 3
Gesamt 24 10 18 52 41 10 21 72
Statistische Auswertungsverfahren mit SPSS Kreuztabellen
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen → Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang? • Nullhypothese: In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor. • Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor. • Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es besteht kein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht.
• Drei verschiedenen Modelle: • Pearson-Test am häufigsten verwendeter Test
• Likelihood-Test liefert bei großen Stichproben das gleiche Ergebnis wie der Person-Test
• Linear mit linear misst den linearen Zusammenhang zwischen den Variablen (min. Ordinalskalierung)
• Voraussetzung für Zuverlässigkeit des Tests • erwartete Häufigkeit von mindestens 5 in jeder Zelle • nach Möglichkeit Kreuztabelle mit mehr als 5 Felder • nominal- und ordinalskalierte Daten 19
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht) Chi-Quadrat-Tests
Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle
Wert
a
Asymptotisch e Signifikanz (2-seitig)
df 8
,343
Über 0,05
8,895
8
,351
Über 0,01 bis 0,05
1,436
1
,231
Über 0,001 bis 0,01
8,991
124
a. 6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,29.
• Es besteht kein signifikanter Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semesteranzahl, da p = 0,343. • Die Nullhypothese wird angenommen und die Alternativhypothese verworfen. 20
Irrtumswahrscheinlichkeit*
Unter oder gleich 0,001
Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Zusammenhangsmaße
• Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage über die Stärke ist anhand der Zusammenhangsmaße nicht möglich. • Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig • Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit (für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt)
Zusammenhangsmaß Nominalskalierte Variablen
Besonderheiten
Ausgabe
Kontingenzkoeffizient
Werte für Tabellen mit unterschiedlicher Feldanzahl sind nur bedingt vergleichbar Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässliche Ergebnisse und ist stark abhängig von der Anzahl der Fälle Unempfindlich gegen unterschiedliche Tabellenformate und Fallzahlen Lambda ist ein eher grobes Maß und kann auch 0 annehmen, wenn eine Abhängigkeit gegeben ist
Wert zwischen 0 und 1
Phi Cramers V
BEST
E WAH
L!
Lambda, Unsicherheitskoeffizient
Ordinalskalierte Variablen Gamma, Somers d
Betrachtet eine der beiden Variablen als abhängig und eine als unabhängig
Kendalls Tau-b
Nur für quadratische Tabellen
Kendalls Tau-c
Unempfindlich gegen unterschiedliche Tabellenformate
Wert zwischen -1 und +1
Intervallskalierte Variablen
21
Eta
Abhängige Variable ist intervall- und unabhängige nominal- oder ordinalskaliert
Wert zwischen 0 und 1
Pearsons Korrelationskoeffizient
Abhängige und unabhängige Variable müssen min. intervallskaliert sein; Normalverteilung der Variablen
Wert zwischen -1 und +1
Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Zusammenhangsmaße
ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist) Symmetrische Maße
Nominal- bzgl. Nominalmaß
Phi Cramer-V Kontingenzkoeffizient
Anzahl der gültigen Fälle
Wert ,269 ,190 ,260 124
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Zusammenhangsmaß
22
0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1
Mögliche Interpretation Kein Zusammenhang Sehr schwacher Zusammenhang Schwacher Zusammenhang Mittlerer Zusammenhang Starker Zusammenhang Sehr starker Zusammenhang Perfekter Zusammenhang Orientierungshilfe; Brosius 2004, 525
Näherung sweise Signifikanz ,343 ,343 ,343
Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 2, 3, 4 und 5 des Übungsblattes.
23
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
24
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Korrelationen •
Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen)
•
Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable)
•
Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearen Zusammenhangs zweier Variablen +1 → perfekt positiver Zusammenhang 0 → kein linearer Zusammenhang -1 → perfekt negativer Zusammenhang –
Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist
–
Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearer Zusammenhang zwischen den Variablen bestehen → Streudiagramm Korrelationskoeffizient 0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1
25
Mögliche Interpretation Keine Korrelation Sehr schwache Korrelation Schwache Korrelation Mittlere Korrelation Starke Korrelation Sehr starke Korrelation Perfekte Korrelation Orientierungshilfe; Brosius 2004, 525
Statistische Auswertungsverfahren mit SPSS Korrelationen
Korrelationen
26
ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Korrelationen • •
In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen Jeder Fall wird durch einen Punkt im Diagramm dargestellt ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) 1000
Variable 1
800
600
400
200
0 -10,00
-5,00
0,00
5,00
10,00
-5000,00
0,00
Variable 2 20000
Variable 1
15000
10000
5000
0
27
-20000,00
-15000,00
-10000,00
Variable 2
Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Korrelationen •
Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab Pearsons Korrelationskoeffizient –
Die Variablen müssen mindestens intervallskaliert sein
–
Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein
Kendalls Tau-b, Spearmans Rho –
Die Variablen müssen mindestens ordinalskaliert sein
–
Die Variablen müssen nicht normalverteilt sein
Signifikanztest •
Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden
•
Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab (SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest) –
Nominalskalenniveau, z.B. Chi-Quadrat Test
–
Ordinalskalenniveau, z.B. Mann-Whitney Test
–
Metrisches Skalenniveau, z.B. T-Test (Voraussetzung: Variablen normalverteilt)
Irrtumswahrscheinlichkeit* Über 0,05 Über 0,01 bis 0,05 Über 0,001 bis 0,01 Unter oder gleich 0,001
28
Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Statistische Auswertungsverfahren mit SPSS Korrelationen
Korrelationen •
29
Analysieren > Korrelation > Bivariat ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Korrelationsmaße •
Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Tests auf Normalverteilung Kolmogorov-Smirnov Statistik ,164 ,143
Semester Alter
df
123 123
a
Signifikanz ,000 ,000
Da die Variablen nicht normalverteilt sind, kann Pearsons Korrelationskoeffizient nicht berechnet werden. In einem nächsten Schritt könnte man sich überlegen, ob trotz Test nicht doch eine Normalverteilung angenommen werden kann.
Shapiro-Wilk Statistik ,890 ,942
df
123 123
Signifikanz ,000 ,000
a. Signifikanzkorrektur nachLilliefors
Korrelationen Alter
Semester
Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N
Korrelationen
Alter
Semester ,583** nt a d ,000 un 123red 123 ,583** 1 ,000 123 125 1
Alter
Semester
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) Zweiseitiger Signifikanztest signifikant.
• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (signifikant). 30
Korrelation nach Pearson Signifikanz (1-seitig) N Korrelation nach Pearson Signifikanz (1-seitig) N
Alter
1
123 ,583** ,000 123
Semester ,583** ,000 123 1 125
**. Die Korrelation ist auf dem Niveau von 0,01 (1-seitig) Einseitiger Signifikanztest signifikant.
Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Korrelationsmaße •
Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Korrelationen Kendall-Tau-b
Semester
Alter
Spearman-Rho
Semester
Alter
Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N
**. Die Korrelation istaufdem 0,01 Niveausignifikant(zweiseitig).
• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (höchst signifikant). 31
Semester 1,000 . 125 ,517** ,000 123 1,000 . 125
Alter ,517** ,000 123 1,000 . 123 ,643** ,000 123
,643** ,000
1,000 .
123
123
Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 6 des Übungsblattes.
32
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
33
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Regressionsanalyse •
–
Beschreibung und Erklärung von Zusammenhängen
–
Durchführung von Prognosen
•
Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe der quadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Werten minimiert wird
•
Einfache lineare Regression
•
34
Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es vielseitig und flexibel eingesetzt werden kann
–
Untersuchung der Abhängigkeit einer Variablen von einer Zweiten
–
Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhang besteht
–
Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht?
Multiple Regression –
Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen
–
Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes die Kundenzufriedenheit?
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression
Regressionsgerade
Y = a +b! X y = abhängige Variable (Abiturnote) a = Konstante (Schnittpunkt mit der Y-Achse) b = Steigungsparameter x = unabhängige Variable (Alter)
Y = Abiturnote X = Alter 35
Abiturnote = a + b ! Alter
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression
Nicht erklärte Abweichung Gesamtabweichung
Erklärte Abweichung Schätzgerade für die Abiturnote
Y = Abiturnote X = Alter 36
Y = 0,449 + 0,073 ! X
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression
37
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression Aufgenommene/Entfernte Variablen
Modell 1
Aufgenomme ne Variablen Alter a
Entfernte Variablen
.
b
Modellzusammenfassung
Methode Eingeben
Modell 1
← benutzte Variablen
a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Abiturnote
Regression Residuen Gesamt
Quadrats umme 5,532 17,445 22,977
df
Mittelder Quadrate 5,532 ,150
1 116 117
F 36,781
Signifikanz ,000a
T 1,632 6,065
Signifikanz ,105 ,000
a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote Koeffizienten a
Modell 1
(Konstante) Alter
Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012
a. Abhängige Variable: Abiturnote
38
,491a
R-Quadrat ,241
a. Einflußvariablen : (Konstante), Alter
ANOVAb
Modell 1
R
Standardisie rte Koeffizienten Beta ,491
Korrigiertes R-Quadrat ,234
Standardf ehler des Schätzers ,3878
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression Modellzusammenfassung
Modell 1
R
,491a
R-Quadrat ,241
Korrigiertes R-Quadrat ,234
Standardf ehler des Schätzers ,3878
a. Einflußvariablen : (Konstante), Alter
↑ Korrigiertes R-Quadrat
R=
Regression Residuen
• Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells)
39
• Misst, wie viel Varianz der abhängigen Variable sich durch die unabhängige Variable erklären lässt • Je größer der Wert, desto besser (Wert: 0 – 1) 23,4% der Varianz in der Abiturnote lassen sich durch das „Alter“ erklären (schlechtes Ergebnis)
← Standardfehler des Schätzers • Misst, wie nahe die durch die Regressionsgleichung prognostizierten Werte an den wahren Werten liegen
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression •
Varianzanalyse für das Regressionsmodell Gesamtabweichung = nicht erklärte Abweichung + erklärte Abweichung
ANOVAb
Modell 1
Regression Residuen Gesamt
Quadrats umme 5,532 17,445 22,977
df
1 116 117
Mittelder Quadrate 5,532 ,150
a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote
R=
Regression Residuen
Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells)
• Das Regressionsmodell wird so geschätzt, dass die nicht erklärte Abweichung, die als aggregiertes Fehlermaß interpretiert werden kann, minimiert wird. 40
F 36,781
Signifikanz ,000a
Signifikanzwert sagt aus, ob die Variable Alter dazu geeignet ist, die Abiturnote vorherzusagen. Modell wäre geeignet, um die Abiturnote vorherzusagen (siehe auch korrigiertes R Quadrat)
Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Einfache lineare Regression •
Schätzfunktion in der Koeffizienten-Tabelle Koeffizienten a
Modell 1
(Konstante) Alter
Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012
Standardisie rte Koeffizienten Beta ,491
T 1,632 6,065
Signifikanz ,105 ,000
a. Abhängige Variable: Abiturnote
Y = Abiturnote X = Alter
Y = 0,449 + 0,073 ! X Steigung der Gerade
41
Achsenabschnitt
Signifikanzwert sagt aus, ob die Variable „Alter“ einen signifikanten Zusammenhang mit der „Abiturnote“ aufweist. Weist die Stärke und Richtung des Zusammenhangs aus
Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 7 des Übungsblattes.
42
Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
V4
Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
2
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Der Syntaxeditor •
Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen, sondern auch Anweisungen zum Programmablauf enthält
•
Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern, um sie zu einem späteren Zeitpunkt wieder abrufen zu können
•
Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligen Analysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax
•
SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung *.sps gespeichert werden
Vorteile:
3
•
Zeitersparnis bei wiederkehrenden Berechnungen
•
Schnellere Modifikationen von einzelnen Befehlen beim Testen von geeigneten Analyseverfahren
•
Verarbeitet Befehle, die über die grafische Benutzeroberfläche nicht erreichbar sind
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Formulieren eines Syntax Befehls 1.
Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein
Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird durch ein Befehlsschlüsselwort eingeleitet
Jeder Befehl muss mit einem Punkt abgeschlossen werden
Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten
Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestens einem Leerraum eingerückt sein
2.
Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert (den Befehl spezifizierende Unterbefehle)
Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet
3.
Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen (z.B. Variablennamen, Zahlen, Operatoren)
4
Variablennamen dürfen nicht abgekürzt werden
Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen
Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnen wurden (kein Zeilenumbruch)
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Beispiele für Syntax Befehle FREQUENCIES VARIABLES= st7 /PERCENTILES=25 50 75 /BARCHART .
Häufigkeitsauswertung über die Variable st7 (Alter) mit Angabe der 25, 50 und 75% Perzentile und eines Säulendiagramms.
*Bereichseinteiler. *st7. RECODE st7 ( MISSING = COPY ) ( LO THRU 21 =1 ) ( LO THRU 24 =2 ) ( LO THRU 27 =3 ) ( LO THRU 30 =4 ) ( LO THRU HI =5 ) ( ELSE = SYSMIS ) INTO st7kl. VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'. FORMAT st7kl (F5.0). VALUE LABELS st7kl 1 '18 - 21' 2 '22 - 24' 3 '25 - 27' 4 '28 - 30' 5 '31+'. MISSING VALUES st7kl ( ). VARIABLE LEVEL st7kl ( ORDINAL ). EXECUTE. 5
Automatische Kategoriebildung über die Variable st7 (Alter) mit der Funktion Bereichseinteiler.
• Im Syntaxeditor können Kommentare eingeflochten werden, die jedoch bei der Auswertung nicht berücksichtigt werden. • Sie beginnen mit einem „*“ und enden mit einem Punkt.
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Wichtige Befehle (verwendet im Syntaxeditor)
6
RECODE
• Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in die Zielvariable • Existierende gleichnamige Variablen werden automatisch überschrieben
VARIABLE LABELS
• Definiert für die Zielvariable ein Variablenlabel
EXECUTE
• Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen, Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebe gehalten, bis eine explizite Anweisung deren Ausführung erzwingt
COMPUTE
• Variable berechnen
VALUE LABELS
• Definiert für die Zielvariable Wertelabels
FREQUENCIES
• Erstellt Häufigkeitstabellen für eine Variable
DESCRIPTIVES
• Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite)
CROSSTABS
• Erstellt eine Kreuztabelle über zwei Variablen
EXAMINE
• Führt eine explorative Datenanalyse über eine Variable durch
DO IF
• Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällen durchgeführt werden soll
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Ausführen von Syntaxbefehlen •
Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten
•
Folgende Möglichkeiten zur Ausführung stehen zur Verfügung: •
Ausführen eines einzelnen Befehls Cursor an einer beliebigen Stelle im Syntaxbefehl positionieren Ausführen > Aktuellen Befehl
•
Ausführen mehrerer aufeinander folgender Befehle Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert sein Ausführen > Auswahl
•
Alle Befehl bis zum Ende der Syntaxdatei ausführen Cursor an einer beliebigen stelle im Syntaxbefehl positionieren Ausführen > Bis Ende
•
Alle Befehle aus der Syntaxdatei ausführen Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionieren Ausführen > Alles
7
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation mit dem Syntaxeditor Daten Transformieren • die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll COMPUTE st8_inch = st8 / 2.54 . VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' . EXECUTE. Daten Umkodieren • Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden RECODE st_p (Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000 thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru 69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9) INTO st_p1zahlig . VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'. EXECUTE . 8
Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bedingte Berechnungen mit If •
Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällen durchführen kann man mithilfe von IF (…) Kriterien festlegen
Einfache Berechnung einer Variablen IF (st7<=21) st7_kl=1 . EXECUTE . Folge von Anweisungen DO IF (st7>=18 AND st7<21) . COMPUTE st7=1 . ELSE IF (st7>=22 AND st7<25) . COMPUTE st7=2 . ELSE IF (st7>26) . COMPUTE st7=3 . END IF . EXECUTE .
9
Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgaben 1 und 2 des Übungsblattes 4.
10
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
11
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mittelwertvergleich •
Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen
•
Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen
•
Fallgruppen können durch jede beliebige Merkmalskombination definiert werden
•
Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über die betrachtete Stichprobe zu, nicht aber über die Grundgesamtheit → Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA))
Grundvoraussetzungen für den einfachen Mittelwertvergleich: •
•
Abhängige Variable –
metrisch skalierte Daten
–
Normalverteilung der Variablen in der Grundgesamtheit
Unabhängige Variable –
12
Nominal- oder ordinalskaliert (nicht metrisch)
Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mittelwertvergleich
13
Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig)
Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mittelwertvergleich
Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8)
Verarbeitete Fälle
Größe * Geschlecht
Eingeschlossen N Prozent 122 94,6%
Fälle Ausgeschlossen N Prozent 7 5,4%
N
Insgesamt Prozent 129 100,0%
Bericht Größe Geschlecht männlich weiblich Insgesamt
Mittelwert 180,9615 169,1286 174,1721
N
52 70 122
Vergleicht man die Männer mit den Frauen, kann man erkennen, dass Männer im Durchschnitt größer sind als Frauen. 14
Standardab weichung 6,72415 5,60518 8,45571
Wären die Standardabweichungen um ein Vielfaches größer als die Unterschiede zwischen den beiden Mittelwerten, würde das darauf hindeuten, dass aus den beobachteten Mittelwertunterschieden nicht auf entsprechende Unterschiede in der Grundgesamtheit geschlossen werden kann → Validierung durch den T-Test
Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgabe 3 des Übungsblattes 4.
15
Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
16
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Signifikanztests • •
Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die Grundgesamtheit anhand einer Stichprobe zu validieren Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden
Ausgangsfrage: „Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nur durch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andere erklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“
17
1.
Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese)
2.
Welche Merkmale sollen untersucht werden?
3.
Welche statistische Kennzahl soll/kann dafür verwendet werden?
4.
Wie hoch soll das Signifikanzniveau sein?
Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Klassifizierung von Signifikanztests Nichtparametrische Tests Anhand der Stichprobe wird der Typ der Zufallsverteilung überprüft, sprich wie Werte in der Grundgesamtheit verteilt sind.
Parametrische Tests Anhand der Stichprobe wird geprüft, ob konkrete Werte wie z.B. Varianzen oder Mittelwerte auch so für die Grundgesamtheit angenommen werden können.
Unterschiede in den Anforderungen an die beobachteten Variablen • keine Annahmen über die Form der zugrunde liegenden Verteilung
• Grundgesamtheit sollte annähern nomalverteilt sein
• Variablen können auch nominal skaliert sein
• Variablen müssen metrisch skaliert sein
Parametrische Tests sind den nichtparametrischen Test generell vorzuziehen, weil diese eine höhere Aussagekraft besitzen. Nichtparametrische Tests können auch mit metrischen Variablen durchgeführt werden, allerdings nimmt man durch die Herabstufung Einbußen in der Aussagekraft in Kauf 18
Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Signifikanztests für eine Stichprobe Test
Binomialtest
Chi-Quadrat Anpassungstest
Kolmogorov-Smirnov-Test
T-Test bei einer Stichprobe
19
Skalenniveau
Dichotom
Nominal
Ordinal
Metrisch
Voraussetzungen
Beschreibung
Keine Vorgabe
• •
Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten)
Keine Vorgabe
• •
Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet])
Keine Vorgabe
• •
Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung)
• •
Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?)
Normalverteilung
Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Chi-Quadrat Anpassungstest
20
•
Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der Grundgesamtheit erwartet werden können
Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Chi-Quadrat Anpassungstest
Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Raucher
Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt
Beobachtetes N 65 20
Erwartete Anzahl 41,7 41,7
Residuum 23,3 -21,7
40 125
41,7
-1,7
Statistik für Test Chi-Quadrat df
a
Raucher 24,400 2
Asymptotische Signifikanz
,000
a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7.
Mit einer Irrtumswahrscheinlichkeit von 0,0% muss die Nullhypothese (Gleichverteilung) abgelehnt werden. Die Antworten über das Rauchverhalten sind in der Grundgesamtheit nicht gleichverteilt. 21
Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgaben 4 und 5 des Übungsblattes 4.
22
Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
V5
Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
2
•
Faktorenanalyse
•
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Die Faktorenanalyse •
Dimensionsreduzierendes oder strukturentdeckendes Verfahren
•
Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“ anhand deren Korrelationen untereinander
•
Ziel:
•
Skalenniveau: metrisch
•
Vier Schritte:
Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteil der Beziehungen der gemessenen Variablen untereinander erklären sollen
1. Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination
2. Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren
3. Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen)
4. Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt.
3
Da jede Variable auch einen spezifischen Anteil enthält, kann immer nur ein Teil der Varianz aufgeklärt werden. Je größer dieser Teil ist, desto besser die Faktorenanalyse.
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Beispiel •
PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe)
Statistiken
N
4
• • • •
Gültig Fehlend
Ich fahre meistens alleine. 2373 64
Ich fahre meistens mitKindern. 2237 200
Ich befahre meistens mir unbekannte Strecken. 2301 136
2437 Datensätze Kodierung von 1 – 6 (entsprechend der Frage) keine Kodierung der fehlenden Werte Skalenniveau: ordinal / quasi metrisch
Ich telefoniere vielim Fahrzeug. 2327 110
Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. 2357 80
Ich fahre mit meinem Pkw häufig aufder Autobahn. 2360 77
Ich fahre mehrmals im Jahr mit meinem Fahrzeug insAusland. 2355 82
Ich fahre meistens mit meinem Pkw in den Urlaub. 2357 80
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse
Faktorenanalyse
5
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse
Einstellungen der Faktorenanalyse
6
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
1. Berechnung der Korrelationsmatrizen Korrelationsmatrix
cI h fahre meistens alleine. Korrelation
Ich tele foniere viel im Fahrzeug.
Ich fahre mit meinem Pkw häufig auf der Autobahn.
Ich fahre meistens mit meinem Pkw in den Urla ub.
1,000
-,201
,144
,237
,232
,197
,069
-,039
cI h fahre meistens mit Kindern.
-,201
1,000
,024
,033
-,001
-,056
,073
,109
,144
,024
1,000
,395
,009
,278
,219
,070
,237
,033
,395
1,000
,174
,415
,315
,065
cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz.
,232
-,001
,009
,174
1,000
,226
,074
,011
cI h fahre mit meinem Pkw häufig auf der Autobahn.
,197
-,056
,278
,415
,226
1,000
,327
,117
cI h fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.
,069
,073
,219
,315
,074
,327
1,000
,378
cI h fahre meistens mit meinem Pkw in den Urla ub.
-,039
,109
,070
,065
,011
,117
,378
1,000
,000
,000
,000
,000
,000
,001
,035
,138
,065
,488
,005
,000
,000
,000
,334
,000
,000
,001
,000
,000
,000
,001
,000
,000
,312
,000
,000
cI h fahre meistens alleine. cI h fahre meistens mit Kindern.
,000
cI h befahre meistens mir unbekannte Strecken.
,000
,138
cI h tele foniere vielim Fahrzeug.
,000
,065
,000
cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz.
,000
,488
,334
,000
,000
,005
,000
,000
,000
,001
,000
,000
,000
,000
,000
,035
,000
,001
,001
,312
,000
cI h fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.
7
Ich befahre meistens mir unbekannte Strecken.
Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.
cI h fahre meistens alleine.
cI h befahre meistens mir unbekannte Strecken. Ich tele foniere vielim Fahrzeug.
Signifikanz (1-seitig)
cI h fahre meistens mit Kindern.
cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz.
cI h fahre meistens mit meinem Pkw in den Urla ub.
,000
,000
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse
1. Berechnung der Korrelationsmatrizen
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden?
•
Zwei Möglichkeiten: –
Signifikanztest für alle Variablen gesammelt (Bartlett Test)
–
Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix)
Bartlett Test auf Sphärizität •
Deckt die Korrelation aller Variablen mit einer Maßzahl ab
•
Nullhypothese:
Es besteht kein Zusammenhang zwischen den beobachteten Variablen in der Grundgesamtheit KMO- und Bartlett-Test
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität
Ungefähres Chi-Quadrat df Signifikanz nach Bartlett
2020,697 28 ,000
• Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierte Korrelation in der Stichprobe, zumindest bei einem Teil der beobachteten Variablen, auch in der Grundgesamtheit vor. 8
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
1. Berechnung der Korrelationsmatrizen •
Prüfung der Güte des Faktormodells –
Anti-Image-Korrelationsmatrix Berechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweils andere Variable erklären lässt (Residuum / Anti-Image) → je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander
–
Kaiser-Mayer-Olkin-Maß (KMO) Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus. → je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell KMO-Test Richtwerte
KMO- und Bartlett-Test
Wert
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität
Ungefähres Chi-Quadrat df Signifikanz nach Bartlett
2020,697 28 ,000
Beurteilung 0,9 – 1,0
fabelhaft
0,8 bis unter 0,9
recht gut
0,7 bis unter 0,8
mittelprächtig
0,6 bis unter 0,7
mäßig
0,5 bis unter 0,6
schlecht
unter 0,5
• Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein.
9
inakzeptabel
Statistische Auswertungsverfahren mit SPSS Anti-Image-Matrizen
Faktorenanalyse I h fahre c meistens alleine.
Ich befahre meistens mir unbekannte Strecken.
I h fahre c meistens mit Kindern.
Ich tele foniere viel im Fahrzeug.
1. Berechnung der Korrelationsmatrizen Anti-Image-Kovarianz
•
I h fahre meistens c alleine.
,854
,187
I h fahre mit c meinem Pkw regelmäig zum Arbeitsplatz.
-,057
-,111
Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausla nd.
Ich fahre mit meinem Pkw häufig auf der Autobahn.
-,170
-,047
Ich fahre meistens mit meinem Pkw in den Urla ub.
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
,001
,035
,187 ,935 -,026 -,047 ,068 -,037 Anti-Image-Korrelationsmatrix und MSA-Werte (Measure of-,055Sampling Adequacy)
-,071
I h fahre meistens mit c Kindern.
–
MSA-Werte
I h befahre meistens mir c unbekannte Strecken.
-,057
-,026
,812
-,219
,087
-,097
-,055
-,005
I h tele foniere vielim c Fahrzeug.
-,111
-,055
-,219
,693
-,065
-,185
-,128
,043
-,047
,068 Anti-Image-Matrizen -,097
-,185
-,135
,739
-,145
-,022
,001
-,037
-,055
-,128
-,145
Ich fahre -,071 meistens mit Kindern.
I h befahre c meistens mir -,005 unbekannte Strecken.
Ich tele foniere viel im ,043 Fahrzeug.
,005 I h fahre mit c meinem Pkw regelmäig zum ,004 Arbeitsplatz.
I h fahre mit c meinem Pkw -,022 häufig auf der Autobahn.
Ich fahre ,735 mehrmals im Jahr mit meinem -,282 Fahrzeug ins Ausla nd.
I h fahre c meistens mit ,845 meinem Pkw in den Urla ub.
,187 ,209
-,057 -,068
-,111 -,144
-,170 -,194
-,047 -,059
,001
,035 ,042
-,026 -,030
-,055 -,069
-,047 -,051
,068 ,082
-,037 -,044
-,071 -,080
-,219 -,293
,087 ,102
-,097 -,126
-,055 -,071
-,005 -,007
-,185 -,258
-,128 -,179
,043 ,056
,005 ,007
,004 ,004 -,022 -,027
Ähnliches Maß wie der KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in der Ich fahre mit meinem Pkw regel m äig zum -,170 -,047 angezeigt ,087 -,065 Richtwertetabelle ,898 -,135KMO-Test ,005 ,004 Hauptdiagonalen derArbeitspl Anti-Image-Korrelationsmatrix wird → atz. I h fahre mit meinem Pkw c häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.
Anti-Image-Kovarianz
I h fahre meistens mit c meinem Pkw in den Urla ub. Ich h fahre fahre meistens meistens Ic all alle eine. ine. Ich h fahre fahre meistens meistens mit mit Ic Kindern. Kindern. h befahre befahre meistens meistens mir mir IIch c unbekannte Strecken. Strecken. unbekannte
Ich fahre ,035 meistens alleine. a
,854 ,659 ,187 ,209 -,057 -,068
a
,935 ,481 -,026 -,030
a
,812 ,716
h tel tele e foniere foniere viel vielim im IIch c Fahrzeug. Fahrzeug.
-,111 -,144
-,055 -,069
-,219 -,293
,693 ,702
-,065 -,082
h fahre fahre mit mit meinem meinem Pkw Pkw IIch c regelm mäig äig zum zum regel Arbeitspla atz. tz. Arbeitspl
-,170 -,194
-,047 -,051
,087 ,102
-,065 -,082
,898 ,623
-,135 -,166
-,047 -,059
,068 ,082
-,097 -,126
-,185 -,258
-,135 -,166
,739 ,744
-,145 -,197
,001 ,001
-,037 -,044
-,055 -,071
-,128 -,179
,005 ,007
-,145 -,197
,735 ,667
-,282 -,358
,035 ,042
-,071 -,080
-,005 -,007
,043 ,056
,004
-,022 -,027
-,282 -,358
,845 ,561
,209
-,068
-,144
-,194
-,059
,001
,042
-,030
-,069
-,051
,082
-,044
-,293
,102
-,126
-,071
-,258
0,9 -,179 – 1,0
fabelhaft ,056
0,8 bis unter 0,9
recht gut
h fahre fahre mit mit meinem meinem Pkw Pkw IIch c häufig auf der Autobahn. Ich h fahre fahre mehrmal mehrmals s im im Ic Jahr mit mit meinem meinem Jahr Fahrzeug ins ins Ausl Ausla and. nd. Fahrzeug I h fahre meistens mit c meinem Pkw Pkw in in den den meinem Urla a ub. ub. Url Ich fahre meistens a. Maßder Stichprobeneignung alleine. I h fahre meistens mit c Kindern.
a
,659 ,209
a
,481
a
I h befahre meistens mir c unbekannte Strecken.
-,068 -,030 • Die Residualwerte der Anti-Image-Korrelationsmatrix sind ,716 Ich tele foniere vielim -,144 -,069 -,293 durchweg gering, was für eine hohe Korrelation steht Fahrzeug. c I h fahre mit meinem Pkw → das Ergebnis des KMO-Tests wird bestätigt. regelmäig zum -,194 -,051 ,102
a
a
a
a
,702
-,082
-,082
,623
-,166
-,258
-,166
,744
-,179
,007
-,197
a
• Lediglich die Variable „Ich fahre meistens-,059 mit Kindern“ enthält Ich fahre mit meinem Pkw ,082 -,126 häufig auf der Autobahn. einen inakzeptablen MSA-Wert, weshalb ein Ausschluss dieser Ich fahre mehrmals im Jahr mit meinem ,001 -,044 -,071 Variable aus dem Faktormodell überlegt werden sollte. Fahrzeug ins Ausland. I h fahre meistens mit c meinem Pkw in den Urla ub. a. Maßder Stichprobeneignung
,042
-,080
-,007
a
a
,007
,004
-,027
-,007
Beurteilung
,004
0,7 bis unter 0,8
mittelprächtig
-,197 0,7 0,6 bis unter
-,027 mäßig
a 0,6 0,5 bis unter
schlecht
,667
unter 0,5 ,056
a
MSA Richtwerte -,080
Wert
Arbeitsplatz.
10
-,282
-,358
-,358
inakzeptabel a
,561
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse
2. Extraktion der Faktoren
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
•
Verschiedene Modelle zur Faktorextraktion
•
In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse
•
Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken (für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt)
•
11
Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
2. Extraktion der Faktoren •
Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten Erklärungsgehalt extrahiert Erklärte Gesamtvarianz
Komponente 1 2 3 4 5 6 7 8
Gesamt 2,228 1,378 1,010 ,963
Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734
,730 ,623 ,553
9,121 7,792 6,907
78,855 86,647 93,554
,516
6,446
100,000
Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694
Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n
Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten.
Faktoren Eigenwert Gibt an, welcher Betrag der Gesamtstreuung aller beobachteten Variablen durch den jeweiligen Faktor erklärt wird
12
Faktor 1 erklärt 27,8% der Gesamtstreuung
Extraktionsvorschlag • Nach dem Kaiser Kriterium (alle Faktoren mit einem Eigenwert > 1). • Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betrag der Gesamtstreuung erklärt als jede einzelne Variable selbst
Gesamtstreuung Da die Variablen im Zuge der Faktorenanalyse standardisiert wurden, hat jede Variable nun ein Standardabweichung von 1 und einen Mittelwert von 0 → Gesamtstreuung = Anzahl der Variablen (8)
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
2. Extraktion der Faktoren • •
Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahierten Variablen erklärt wird Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar Kommunalitäten Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub.
Anfänglich
Extraktion
1,000
,544
1,000
,338
1,000
,690
1,000
,626
1,000
,638
1,000
,524
1,000
,613
1,000
,643
Extraktionsmethode: Hauptkomponentenanalyse.
Bei Extraktion aller Faktoren wird die Streuung der einzelnen Variablen vollständig erklärt
13
Durch Extraktion der drei Faktoren wird nur noch ein Teil der Streuung der einzelnen Variablen erklärt
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
3. Faktorladungen •
Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen und werden bei der Interpretation der Faktoren verwendet
•
Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher die Faktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor
•
Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zur Interpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten
•
Positive und negative Werte beschreiben die Richtung des Zusammenhangs Komponentenmatrix a
Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich befahre meistens mir unbekannte Strecken.
14
Komponente 2
1
3
,743 ,718 ,632
,616 -,585 ,581 ,624 ,586
Extraktionsmethode: Hauptkomponentenanalyse. a. 3 Komponenten extrahiert
-,588
• Faktoren sind leicht zu interpretieren, wenn einige Variablen, die untereinander eine ähnliche homogene Bedeutung haben, hoch auf ihn laden und gleichzeitig die Ladungen der anderen Variablen auf diesen Faktor gering sind.
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
3. Rotation der Faktorladungen •
Ziel: Interpretationsfähigkeit der Faktoren erleichtern
•
Zwei unterschiedliche Gruppen von Rotationsverfahren –
Orthogonale Rotation (rechtwinklig) Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX)
–
Oblique Rotation (schiefwinklig) Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin) Rotierte Komponentenmatrix a
Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit Kindern.
Komponente 2
1 ,818 ,756 ,570
,801
,667
Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre meistens alleine.
15
3
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Equamax mit Kaiser-Normalisierung. a. Die Rotation ist in 5 Iterationen konvergiert.
,779 ,645
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
3. Rotation der Faktorladungen
Auslandsfahrer (fac2_1)
Allein fahrender Berufspendler (fac3_1)
• [+] Ich befahre meistens mir unbekannte Strecken.
• [+] Ich fahre meistens mit meinem PKW in den Urlaub.
• [+] Ich telefoniere viel im Fahrzeug.
• [+] Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.
• [+] Ich fahre mit meinem Pkw regelmäßig zum Arbeitsplatz.
Berufsfahrer / Außendienst (fac1_1)
• [+] Ich fahre mit meinem Pkw häufig auf der Autobahn.
16
• [+] Ich fahre meistens alleine.
Statistische Auswertungsverfahren mit SPSS Faktorenanalyse
4. Erstellung der Faktorwerte •
Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus –
hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt
–
hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt
•
Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B. Clusteranalyse) zu nutzen
•
SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung der Hauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern
•
Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt:
•
17
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
–
Zwei Kategorien: -9999 bis 0 / 0 bis 9999
–
Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999
–
Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999
–
etc.
Interpretationsalternative: Runden der Faktorwerte in der Variablenansicht –
0
→ durchschnittlich
–
<= -1
→ unterdurchschnittlich
–
>= +1
→ überdurchschnittlich
Statistische Auswertungsverfahren mit SPSS Übungsblatt 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgaben 1 des 5. Übungsblattes.
18
Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
19
•
Faktorenanalyse
•
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Clusteranalyse •
Dimensionsreduzierendes oder strukturentdeckendes Verfahren
•
Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen (Cluster) zusammengefasst
•
Ziel:
Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen aufweisen, aber zueinander möglichst heterogen sind
•
Skalenniveau:
abhängig von dem verwendeten Clusterungsverfahren
•
Vier Schritte: 1. Auswahl der Merkmale Anhand welcher Merkmale soll die Gruppenbildung durchgeführt werden
2. Aufbereitung der Daten Daten müssen den Konventionen des jeweiligen Clusterungsverfahrens entsprechen
3. Durchführung der Clusteranalyse Umsetzung in SPSS
4. Interpretation der Ergebnisse Beschreibung der Cluster und Erstellung von Clusterprofilen
20
Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Clusteranalyse •
•
•
21
Hierarchische Clusteranalyse Einzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als ein eigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden. –
Datenmenge:
klein und groß
–
Skalierung:
metrische und nicht-metrische Variablen
–
Vorteil:
sehr differenzierte Steuerung möglich
–
Nachteil:
rechenintensives Verfahren
Clusterzentrenanalyse (Quick-Cluster) Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden. –
Datenmenge:
groß
– –
Skalierung: Vorteil:
metrische Variablen vertretbarer Rechenaufwand bei großen Datenmengen → schneller
–
Nachteil:
Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich; Transparenz bei der Berechnung fehlt
Two-Step-Clusteranalyse Symbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster im ersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt –
Datenmenge:
klein und groß
–
Skalierung:
metrisch und nicht metrische Variablen
–
Vorteil:
automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern
–
Nachteil:
Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
1. Auswahl der Merkmale (Two-Step-Clusteranalyse) •
Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden?
•
Abhängig von der Problemstellung und den zur Verfügung stehenden Daten
Problemstellung: •
Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt → Gibt es Unterschiede im Nutzungsverhalten?
Ausgewählte Merkmale: •
Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3)
•
Geschlecht (ST9)
•
Alter (ST7)
•
Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport)
• Eine Variable (Sport), welche die Anzahl der in Anspruch genommenen Sportangebote enthält, muss noch errechnet werden.
22
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
2.
Aufbereitung der Daten (Two-Step-Clusteranalyse)
•
Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen
•
Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen –
Standardisierte Werte Standardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt → Mittelwert = 0; Standardabweichung = 1
–
Zufällige Sortierung der Datendatei Sortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil die Fälle sequenziell in die Clusterzuordnung einbezogen werden Syntax: SET SEED 1069800 COMPUTE zufall = UNIFORM (1) . SORT CASES BY zufall . DELETE VARIABLES zufall .
–
Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen)
•
Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test)
•
Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest)
•
Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse)
• Die Two-Step-Clusteranalyse reagiert relativ robust gegenüber Verletzungen der Verteilungsanforderungen und der Unabhängigkeitsbedingung
23
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
• Fehlende Werte bewirken, dass der betroffene Fall von der Clusteranalyse ausgeschlossen wird → F3_1 – F3_8
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
3.
Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
nur stetige Variablen → euklidische Distanz
Distanzmaße stetige und kategoriale Variablen → Log-Likelihood
24
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
3.
Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Sondert Ausreißer in der ersten Clusterstufe aus Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt, aber desto rechenaufwändiger wird das Verfahren
Gruppiertes Balkendiagramm für jede kategoriale Variable und ein Fehlerbalkendiagramm für jede stetige Variable Kreisdiagramm mit prozentualer Verteilung der Fälle auf die Cluster
Maßzahlen für die Cluster
Diagramme, welche die Bedeutung der einzelnen Variablen für die Cluster zum Ausdruck bringen. •
Kategoriale Variablen: Prüft, ob sich die Häufigkeitsverteilung einer Variable signifikant von der Häufigkeitsverteilung aller Fälle unterscheidet
•
Stetige Variablen: Prüft, ob sich der Mittelwert der Variable für ein Cluster vom Mittelwert aller Probanden unterscheidet.
•
Die senkrechte Linie zeigt den kritischen Signifikanzwert
25
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Clusterverteilung
Cluster
N
1 2 Kombiniert
Ausgeschlossene Fälle Gesamtwert
% der Kombination 52,8% 47,2% 100,0%
65 58 123 6 129
% der Gesamts umme 50,4% 45,0% 95,3% 4,7% 100,0%
Zentroide
Cluster
1 2 Kombiniert
Alter Standardab Mittelwert weichung 24,38 2,827 21,00 1,835 22,79 2,940
Anzahl der in Anspruch genommenen Sportangebote Standardab Mittelwert weichung ,4769 ,68711 ,9138 1,41774 ,6829 1,11117
Semester 1 Cluster
26
1 2 Kombiniert
3
5
7
9
Häufigkeit 1
Prozent 3,3%
Häufigkeit 0
Prozent ,0%
Häufigkeit 27
Prozent 90,0%
Häufigkeit 31
Prozent 100,0%
Häufigkeit 6
Prozent 85,7%
29 30
96,7% 100,0%
25 25
100,0% 100,0%
3 30
10,0% 100,0%
0 31
,0% 100,0%
1 7
14,3% 100,0%
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse) Mit einer Wahrscheinlichkeit von 95% liegt der Mittelwert der Grundgesamtheit in diesem Intervall
27
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Alter Geschlecht Semesteranzahl Anzahl der in Anspruch genommenen Sportangebote
Cluster 1
Cluster 2
ø 24 Jahre
ø 21 Jahre
ca. gleichverteilt
ca. gleichverteilt
überwiegend Hauptstudium (5., 7. und 9. Semester)
überwiegend Grundstudium (1. und 3. Semester)
ø 0,5 pro Proband
ø 0,9 pro Proband
Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen
28
Aerobic
15%
9%
Badminton
0%
10%
Basketball
0%
12%
Fechten
0%
3%
Fitness
11%
5%
Fußball
2%
17%
Lauftreff
3%
5%
Volleyball
2%
16%
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Übungsblatt 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die Aufgaben 2 des 5. Übungsblattes.
29
Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt
V6
Statistische Auswertungsverfahren mit SPSS Review
Skalenniveaus
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
2
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Skalenniveaus
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
• Nominal:
Merkmalsausprägungen bilden nur Kategorien und können nicht in eine Rangordnung gebracht werden (z.B. Geschlecht)
• Ordinal:
Merkmalsausprägungen können in Relation interpretiert werden und stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf)
• Metrisch:
(Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der Merkmalsausprägungen sind interpretierbar. Mittelwerte können gebildet werden (z.B. Alter)
3
Statistische Auswertungsverfahren mit SPSS Review
Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
4
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Review
Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
1 0 9
5
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Review
Häufigkeitsauswertung
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.
6
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Häufigkeitsauswertung
Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben. Meinung zu Rauchverbot in der Cafeteria Ja, finde ich gut Nein, lehne ich ab Ist mir im Prinzip egal
MeinungzuRauchverbot in der Cafeteria
Gültig
Fehlend Gesamt
Ja,finde ich gut Nein,lehne ich ab Istmir im Prinzip egal Gesamt System
Häufigkeit 37
Prozent 28,7
39 23 99 30
30,2 17,8 76,7 23,3
129
100,0
Gültige Prozente 37,4
Kumulierte Prozente 37,4
39,4 23,2 100,0
76,8 100,0
23,20% 37,40%
39,40%
7
Statistische Auswertungsverfahren mit SPSS Review
Lage- und Streuparameter
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße.
8
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Lage- und Streuparameter
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. Statistiken Alter N Mittelwert Modus Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite
9
Gültig Fehlend
123 6 22,79 21 2,940 8,643 ,821 ,218 ,611 ,433 15
Statistische Auswertungsverfahren mit SPSS Review
Lage- und Streuparameter
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. • Mittelwert
Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche Merkmalsausprägung In te rp re ta ti on Erg e bn i s
• Modalwert
Messwert, der in einem Datensatz am häufigsten vorkommt In te rp re ta ti on Erg e bn i s
• Varianz/ Standardabw.
Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringert sich, je näher die Werte um den Mittelwert liegen In te rp re ta ti on Erg e bn i s
• Schiefe
Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen Verteilung Schiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil) In te rp re ta ti on Erg e bn i s
• Kurtosis
Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlauf einer Normalverteilung Kurtosis > 0: hochgipflig; < 0: flachgipflig In te rp re ta ti on Erg e bn i s
• Spannweite
Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe In te rp re ta ti on Erg e bn i s
10
Statistische Auswertungsverfahren mit SPSS Review
Explorative Datenanalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm?
11
Statistische Auswertungsverfahren mit SPSS Review
Explorative Datenanalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm? Größe Stem-and-Leaf Plot Frequency 1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00
Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 .
8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56
Stem width: 10 Each leaf: 1 case(s)
12
Statistische Auswertungsverfahren mit SPSS Review
Explorative Datenanalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis.
13
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Explorative Datenanalyse
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis. Tests auf Normalverteilung a
Größe
Kolmogorov-Smirnov Statistik df Signifikanz ,083 122 ,040
a. Signifikanzkorrektur nachLilliefors
14
Statistik ,981
Shapiro-Wilk df 122
Signifikanz ,083
Statistische Auswertungsverfahren mit SPSS Review
Datenmodifikation
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.
15
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Datenmodifikation
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert. Größe
Gültig
158,00 160,00 162,00 163,00 164,00 165,00 166,00 167,00 168,00 169,00 170,00 171,00 172,00 173,00 174,00 175,00 176,00 177,00
Fehlend Gesamt
16
178,00 179,00 180,00 182,00 Gesamt System
Häufigkeit 1 6 1 2
Prozent 1,4 8,3 1,4 2,8
Gültige Prozente 1,4 8,6 1,4 2,9
5 7 2 2 6 3 11 2 2 5 2 2 4 1 2 1 2 1
6,9 9,7 2,8 2,8 8,3 4,2 15,3 2,8 2,8 6,9 2,8 2,8 5,6 1,4 2,8 1,4 2,8 1,4
7,1 10,0 2,9 2,9 8,6 4,3 15,7 2,9 2,9 7,1 2,9 2,9 5,7 1,4 2,9 1,4 2,9 1,4
70 2 72
97,2 2,8 100,0
100,0
Kumulierte Prozente 1,4 10,0 11,4 14,3 21,4 31,4 34,3 37,1 45,7 50,0 65,7 68,6 71,4 78,6 81,4 84,3 90,0 91,4 94,3 95,7 98,6 100,0
Statistiken Größe N
Gültig Fehlend
Mittelwert
70 2 169,1286
Statistische Auswertungsverfahren mit SPSS Review
Kreuztabelle
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?
17
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Kreuztabelle
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden? Chi-Quadrat-Tests
MeinungzuRauchverbot inder Cafeteria * Raucher Kreuztabelle
Meinung zu Rauchverbot in der Cafeteria
Ja,finde ich gut
Nein,lehne ich ab
Istmir im Prinzip egal
Gesamt
18
Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher
Nein,ich rauche nicht 30
Raucher Ja,hinund wieder
Ja, regelmäßig 5
1
Gesamt 36
83,3%
13,9%
2,8%
100,0%
69,8% 3
29,4% 8
2,8% 28
37,5% 39
7,7%
20,5%
71,8%
100,0%
7,0% 10
47,1% 4
77,8% 7
40,6% 21
47,6%
19,0%
33,3%
100,0%
23,3% 43
23,5% 17
19,4% 36
21,9% 96
44,8%
17,7%
37,5%
100,0%
100,0%
100,0%
100,0%
100,0%
Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle
Wert
a
Asymptotisch e Signifikanz (2-seitig)
df
48,355
4
,000
57,925
4
,000
13,737
1
,000
96
a. 1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 3,72.
Statistische Auswertungsverfahren mit SPSS Review
Zusammenhangsmaße
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
19
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Zusammenhangsmaße Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch). –
Nominal:
Cramers V
–
Ordinal:
Kendalls Tau-b
–
Metrisch:
Pearsons Korrelationskoeffizient
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
Symmetrische Maße
Nominal- bzgl. Nominalmaß
Phi Cramer-V
Anzahl der gültigen Fälle
Wert ,117 ,117 125
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
20
Näherung sweise Signifikanz ,428 ,428
Statistische Auswertungsverfahren mit SPSS Review
Zusammenhangsmaße Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt.
21
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS Review
Syntax Editor
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter.
22
Statistische Auswertungsverfahren mit SPSS Review
Syntax Editor
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter. RECODE st2 (MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter . VARIABLE LABELS Filter 'Filtervariable'. EXECUTE .
23
Statistische Auswertungsverfahren mit SPSS Review
Mittelwertvergleich
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist?
24
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mittelwertvergleich
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist? Bericht Größe Geschlecht männlich weiblich Insgesamt
Mittelwert 180,9615
N
169,1286 174,1721
52
Standardab weichung 6,72415
70 122
5,60518 8,45571
Test bei unabhängigenStichproben Levene-Testder Varianzgleichheit
Größe
25
Varianzen sind gleich Varianzen sind nicht gleich
F 1,170
Signifikanz ,281
T-Test für die Mittelwertgleichheit
T 10,586
df
120
Sig. (2-seitig) ,000
Mittlere Differenz 11,83297
10,306
97,950
,000
11,83297
Standardfehle r der Differenz 1,11783 1,14819
95% Konfidenzintervall der Differenz Untere Obere 9,61974 14,04619 9,55441
14,11152
Statistische Auswertungsverfahren mit SPSS Review
Parametrische und nicht-parametrische Tests
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht.
26
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Parametrische und nicht-parametrische Tests
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht. Test
Binomialtest
Chi-Quadrat Anpassungstest
Kolmogorov-Smirnov-Test
T-Test bei einer Stichprobe
27
Skalenniveau
Dichotom
Nominal
Ordinal
Metrisch
Voraussetzungen
Beschreibung
Keine Vorgabe
• •
Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten)
Keine Vorgabe
• •
Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet])
Keine Vorgabe
• •
Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung)
• •
Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?)
Normalverteilung
Statistische Auswertungsverfahren mit SPSS Review
Parametrische und nicht-parametrische Tests
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
28
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Parametrische und nicht-parametrische Tests
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
•
Chi-Quadrat-Verteilungstest
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
Statistik für Test
Raucher
Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt
29
Beobachtetes N 65 20 40 125
Erwartete Anzahl 41,7 41,7 41,7
Residuum 23,3 -21,7 -1,7
Chi-Quadrat df
a
Asymptotische Signifikanz
Raucher 24,400 2 ,000
a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7.
Statistische Auswertungsverfahren mit SPSS Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren.
30
Statistische Auswertungsverfahren mit SPSS Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren.
1.
Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination
2.
Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren
3.
Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen)
4.
Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt.
31
Statistische Auswertungsverfahren mit SPSS Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert? Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
32
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Faktoren- und Clusteranalyse Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?
Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
Erklärte Gesamtvarianz
Komponente 1 2 3 4 5 6 7 8
Gesamt 2,228 1,378 1,010 ,963 ,730 ,623 ,553 ,516
Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734 9,121 78,855 7,792 86,647 6,907 93,554 6,446 100,000
Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694
Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten.
33
Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n
Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab
Skript: V1 • • • •
Statistische Methoden / Begrifflichkeiten Skalenniveaus Datenkodierung Variablendefinition in SPSS
Skript: V2 • • • • • •
Häufigkeitsauswertungen Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm) Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis) Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler) Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung) Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern)
Skript: V3 • • •
Kodierung von Mehrfachantworten (2 Methoden) Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest) Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm)
Skript: V4 • • •
Syntax Editor Mittelwertvergleiche Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest)
Skript: V5 • •
34
Grundkenntnisse Faktorenanalyse Grundkenntnisse Clusteranalyse