Statistische Auswertungsverfahren mit SPSS

Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt

Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Informationen zum Programm SPSS • Grundlagen der Programmbedienung in SPSS • Befragung und Datenerstellung • Daten und Variablen • Deskriptive Analysemethoden

2

Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows

•

3

Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

SPSS –

früher:

Statistical Package for Social Sciences

–

heute:

Statistical Product and Service Solution

•

Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse

•

Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem und integrierte Grafik

•

Derzeit aktuellste Version: –

SPSS Version 14.0 für Windows

–

SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel)

•

32.768 Variablen (2 hoch 15) pro Datendatei nutzbar.

•

SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen

•

Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unter Windows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen)

Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Basismodul

grundlegende Funktionen, einfache und fortgeschrittene Methoden zur Datenanalyse und umfangreiche Grafikmöglichkeiten

4

Zusatzmodule SPSS Advanced Models SPSS Categories SPSS Conjoint SPSS Data Entry Builder SPSS Exact Tests SPSS Maps SPSS Missing Value Analysis SPSS Regression Models SPSS Tables SPSS Trends ...

Statistische Auswertungsverfahren mit SPSS Warum SPSS und nicht Excel? Fachhochschule Ingolstadt Prof. Dr. Andrea Raab



Arbeiten mit großen Datensätzen möglich (32.768 Variablen (2 hoch 15) pro Datei benutzbar)



Umfangreiche Datentransformationen und -funktionen



Dokumentation und Automatisierung über SYNTAX-Sprache



Großer Umfang an statistischen Funktionen und Prozeduren  Deskriptive Statistik (Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen)  Inferenzstatistik (Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse)  Multivariate Verfahren (Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse, Multidimensionale Skalierung etc.)

5

Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Statistik

beschreibende (deskriptive) Statistik - Daten sammeln - Daten präsentieren - Daten charakterisieren

6

schließende (induktive) Statistik - Schätzen - Hypothesen testen

Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

•

Deskriptive (beschreibende) Statistik – Messwerte ordnen – Anschauliche und übersichtliche Darstellung von Daten in • Tabellen • Diagrammen – – – – – – – – – – –

•

Säulen Balken Linien Punkt Flächen Netz Stengel/Blatt Hoch-Tief Box Streu Histogramme

Induktive (schließende) Statistik – Ermittlung von Vertrauensbereichen – Überprüfung von Hypothesen

7

Statistische Auswertungsverfahren mit SPSS Statistische Methoden

Vorgehen bei analytischer Statistik (nach Petersen, 1991) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Grundgesamtheit

Schluss von der bekannten Stichprobe auf die unbekannte Grundgesamtheit

Formulierung des zu prüfenden Sachverhaltes

Ermittlung von Schätzgrößen für die Kenngrößen

Entnahme einer Stichprobe

Prüfung der Hypothesen Parametertests

Prüfung der Hypothesen Verteilungstests

Erzeugen der Analysendaten

Parameterhypothesen

Verteilungshypothesen

Aufbereitung der Daten • tabellarisch • rechnerisch • graphisch

8

Formulierung der Nullhypothesen und Alternativhypothesen

Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Variablen/Merkmale und Merkmalsausprägungen –

In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. Jedes Merkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals = Analysenergebnis)

–

Bsp.: Geschlecht - männlich / weiblich

• Unabhängige (Faktor) und abhängige Variablen –

unabhängige Variablen können die Merkmalsausprägungen von abhängigen Variablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten)

• Qualitative und quantitative Variablen –

ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein (z.B. Weinsorte, Freundlichkeit)

–

ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein (z.B. Gehalt, Semesteranzahl)

9

Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• uni-, bi- und multivariate Daten –

univariat •

–

bivariat •

–

nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben

Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi)

multivariat •

Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki) Beispiel: Beschreibung einer Kundengruppe

10

–

Alter

–

Einkommen

–

Geschlecht

–

Konsumgewohnheiten

–

Lifestyle

Statistische Auswertungsverfahren mit SPSS Starten von SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Dialogfenster Durch „Abbrechen“ kann dieses Fenster geschlossen werden

Dialogfenster in Zukunft nicht mehr anzeigen v

11

Statistische Auswertungsverfahren mit SPSS Die SPSS Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

SPSS Daten Editor

SPSS Syntax Fenster

12

SPSS Viewer

Statistische Auswertungsverfahren mit SPSS SPSS Daten-Editor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Arbeitsfläche von SPSS • Sämtliche mit SPSS durchführbare Analysen • Variablenansicht – zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.)

• Datenansicht – zeigt die Beobachtungswerte aller in der aktuellen Datendatei enthaltenen Variablen.

• Dateityp:

13

*.sav

Statistische Auswertungsverfahren mit SPSS SPSS Syntax Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Befehlseingabe für einzelne Prozeduren – ermöglicht beispielsweise Berechnen von Variablen, Transformieren von Daten, Ausführen statistischer Prozeduren u.v.m.

• SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauer bearbeitet werden • Dateityp: *.sps

14

Statistische Auswertungsverfahren mit SPSS SPSS Viewer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Ausgabe für Ergebnisse von Analysen oder Prozeduren • Wird bei jeder Analyse oder Prozedur automatisch geöffnet • Navigationsbereich – Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte

• Dateityp: *.spo

15

Statistische Auswertungsverfahren mit SPSS Definition der Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Variablentypen – String-Variablen (Zeichenketten) • Verwendung bei offener Fragestellung

– Numerische Variablen • Vercodung von möglichen Antworten (Bsp.: Bundesland) • Relative Ordnung von Merkmalen • Exakte Messung eines Merkmals

16

Statistische Auswertungsverfahren mit SPSS Qualität der Daten, Skala und Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung Gut messbare Daten z.B. Körpergröße eines Menschen

schlecht messbare Daten z.B. Motivation, Gesundheitszustand

Skala „Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragen werden können Skalenniveau Art und Weise, in der eine Eigenschaft eines Objektes in Zahlen ausgedrückt werden kann

17

Statistische Auswertungsverfahren mit SPSS Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Variablen

Qualitative Variablen

nominal skaliert

18

Quantitative Variablen

ordinal skaliert

metrisch skaliert

Statistische Auswertungsverfahren mit SPSS Skalenniveau - Nominalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

•

Ausprägungen einer Variablen bilden nur Kategorien

•

Keinerlei Ordnungsvorschrift

•

Dient lediglich zur Unterscheidung der einzelnen Kategorien

•

Auswertungsmöglichkeiten eingeschränkt (z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!)

•

Beispiele – Geschlecht

Kategorie

– Familienstand

1

– Herkunft

2 3 4…

19

Statistische Auswertungsverfahren mit SPSS Skalenniveau - Ordinalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

•

Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“)

•

Es kann eine Rangordnung erstellt werden

•

Auswertungsmöglichkeiten: (z.B. Ranglisten; Median als Mittelwert ist sinnvoll!)

•

Beispiel: – Platzierungen – Schulnoten

(streng genommen ordinal)

•

20

Keine Aussage über die Abstände zwischen den Rängen möglich!

Statistische Auswertungsverfahren mit SPSS Skalenniveau – Intervallskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

– Eigenschaften der Nominal - und Ordinalskala – die Differenzen, nicht jedoch die Quotienten sind interpretierbar – Ausprägungen werden als Vielfaches einer elementaren Maßeinheit angegeben – Beispiel • Temperatur (hat keinen natürlichen Nullpunkt) • Schulnoten (werden oft als quasi intervallskaliert behandelt)

21

Statistische Auswertungsverfahren mit SPSS Skalenniveau – Verhältnisskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

– Angabe von Differenzen und Quotienten ist sinnvoll – Beispiele • Umsatz eines Unternehmens • Alter • Einwohnerzahlen

Intervall – und Verhältnisskalen heißen metrisch skaliert, Nominal- und Ordinalskalen heißen nicht metrisch skaliert (eine Unterscheidung der beiden metrischen Niveaus kommt bei den meisten statistischen Verfahren keine Bedeutung zu) 22

Statistische Auswertungsverfahren mit SPSS Skalenniveau - Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Skala

Beispiel

Differenzierung

Kenngrößen Lagemaß

Streumaß

Nominal

A=B, A≠B

Geschlecht: männlich/weiblich

Klassifizierung bei qualitativen Merkmalen (gleich, ungleich)

•relative Häufigkeiten •Modus

Ordinal

A=B, A≠B; A
kalt < lau < warm < heiß, Schulnoten, Güteklasse

Einstufung bei qualitativen Merkmalen (kleiner / größer)

•relative Häufigkeiten •Modus •Median (x̃),

•Quantile (Q) •Spannweite (R)

Intervall

Skala mit konstanten Abständen, Addition, Subtraktion, Mittelwert

absolute Differenzen Kalenderdatum, Punkte im von quantitativen Intelligenztest Merkmalen

•relative Häufigkeiten •Modus •Median (x)̃, •arithmetisches Mittel

•Standardabweichung (s) •Varianz (s2)

•relative Häufigkeiten relative und absolute •Modus Differenzen von •Median (x)̃ quantitativen Merkmalen •arithmetisches Mittel •geometrisches Mittel

•Standardabweichung (s) •Varianz (s2)

Verhältnis

23

Information

Multiplikation, Division

Länge, Fläche

Statistische Auswertungsverfahren mit SPSS Skalenniveau - Metrische Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

– Diskrete Variablen • Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen • Anzahl der möglichen Ausprägungen ist abzählbar • Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr

– Stetige Variablen • Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen • Mehr als abzählbare Ausprägungen eines Merkmals • Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar • Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr

24

Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Studenten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Praxisbeispiel: Befragung der Studenten

Ziele:

1. Erstellen eines praxisrelevanten Datensatzes 2. Auswertungen basierend auf diesen Datensatz

25

Statistische Auswertungsverfahren mit SPSS Näheres zur Variablenansicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Bezeichnung der Variable

Anzahl der Zeichen

Ausschlaggebend für die Verarbeitung der Variable in SPSS

26

Bezeichnung der Variablen Unterscheidung zwischen und Werte in Datenansicht und nominal, ordinal und metrisch Ausgaben (Bisher irrelevant für SPSS)

Benutzerdefiniert fehlende Werte

Optionen für die Anzeige in der Datenansicht

Statistische Auswertungsverfahren mit SPSS Definition von Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

27

Variablenname

Datentypen

Messniveau

• muss mit Buchstaben beginnen; restliche Zeichen sind Buchstaben, Ziffern, Punkte oder folgende Sonderzeichen @, #, _, $; keine Leerzeichen! • darf nicht mit Punkt enden • soll nicht mit Unterstrich enden • auf 64 Zeichen beschränkt • Name muss eindeutig sein • Groß- und Kleinschreibung wird unterschieden • Bestimmte Namen sind reserviert z.B. ALL, AND, NOT, WITH, OR

• Numerisch

• Nominal

• Komma

• Ordinal

• Punkt

• Metrisch

• Wissenschaftliche Notation • Datum • Dollar • Andere Währung • String

Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

•

Den einzelnen Werten werden Zahlen zugewiesen – Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von den anderen Nennungen zu trennen, geben wir ihm eine erhöhte Zahl (und trage diesen anschließend bei Fehlende Werte ein)

1

28

2

3

4

8

Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Ein Zeichen lang

Typ: Numerisch

Bezeichnung der Variable

Keine Dezimalstellen

Benutzerdefiniert fehlender Wert: 8 (Weiß nicht)

Wertelabels: 1 = sehr gut … 4 = nicht gut 8 = weiß nicht

String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3). Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung.

Anzahl der Zeichen sinnvoll wählen

29

Statistische Auswertungsverfahren mit SPSS Datenansicht am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

•

In der Datenansicht werden die einzelnen Interviews in Zeilen dargestellt.

•

Die Spalte a1 repräsentiert unsere neu erzeugte Variable

•

Wie man sieht, wurden die Zahlen durch das jeweilige Wertelabel ersetzt.

•

Man kann jene mit Hilfe des folgenden Buttons ein und ausblenden:

30

Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

S1

1 x 2

1

31


A1 1 A2 1 2 8

32

2

3

4

8


A3

33

A4_1

1. Nennung

A4_2

2. Nennung

A4_3

3. Nennung


1 M1_1 M1_2 M1_3 M1_4 M1_5

34

2

3

4

5

8

9


M2 1 2

M3 1 2 3

35


B1 1 2

B2 1

B3 1 2 8

36

2

3

4

8


F1 F1_1 F1_2 F1_3

x F1_8 = 1

37


1

F2_1 F2_2

F2_3 F2_4 F2_5

38

2

3

4

5

8

9


Jeweils mit 1 vercoden F3_

1 2 3

4 5 6

98

F3_s

7 8

Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8 nehmen den Wert “1” an.

39


ST_O

ST_P

ST2

ST3

ST4 1

40

2

9


ST5 1 2 3 4 5

41

6 7 8 9


ST6 1 2 3 ST7

ST8 ST9 1

42

2


V2

Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

• Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation

2

Statistische Auswertungsverfahren mit SPSS Dateneingabe Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Dateneingabe und -konsolidierung • SPSS -

Definition der Datenmatrix Variablennamen, Typ, Label, Missing Values

-

Keine Fehlerprüfung möglich

• Einlesen von Textdateien -

Variablennamen in 1. Zeile

-

keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.

-

Daten mit dem Assistenten für Textimport einlesen

• Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken) -

Variablennamen in 1. Zeile

-

keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.

-

Daten in SPSS einlesen mit Dateityp Excel (.xls) → Option „Read Variable Names“ aktivieren

• Data Entry

3

-

Definition der Datenmatrix

-

Eingabe mit Fehlerprüfung

-

Nur bei großen Datenmengen sinnvoll

Statistische Auswertungsverfahren mit SPSS Statistik Prozeduren in SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Variablenliste

zu analysierende Variablen

Analyse durchführen Übergabe in den Syntax Editor Einstellungen zurücksetzen Übertragung der Variablen in Analyse Mit der rechten Maustaste kann die wissensbasierte Datenbank von SPSS konsultiert werden.

prozedurspezifische Steuerungsmöglichkeiten

4

Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Häufigkeiten:

5

–

„Analysieren –> Deskriptive Statistik -> Häufigkeiten“

–

Die Werte können absolut oder prozentual dargestellt werden.

–

Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben.


Häufigkeiten: –

In der Variablenliste werden alle numerischen und String-Variablen angezeigt.

–

Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben.

6

Statistische Auswertungsverfahren mit SPSS Häufigkeiten

Häufigkeiten:  M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)

7



Auswertung des Fragebogens zum Kurs  M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)

Regelm äßige r Be such der Cafete ria

Gültig

Häuf igkeit 92 35

Prozent 71,3 27,1

Gültige Prozente 72,4 27,6

Gesamt

127

98,4

100,0

System

2 129

1,6 100,0

ja nein

Fehlend Gesamt

Kumulierte Prozente 72,4 100,0

• Nahezu 3/4 der befragten Studenten besuchen regelmäßig die Mensa der FH Ingolstadt. 8


Auswertung des Fragebogens zum Kurs


 M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen?

(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)

Me inung zu Rauchve rbot in der Cafete ria

Gültig

Ja, f inde ich gut Nein, lehne ich ab Is t mir im Prinzip egal 8 Gesamt

Fehlend Gesamt

9

System

Häuf igkeit 37

Proz ent 28,7

Gültige Proz ente 33,0

Kumulierte Proz ente 33,0

39

30,2

34,8

67,9

23 13

17,8 10,1

20,5 11,6

88,4 100,0

112 17

86,8 13,2

100,0

129

100,0


Auswertung des Fragebogens zum Kurs  A1. Wie gefällt es Dir in Ingolstadt? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)

Bew e rtung de r Stadt Ingols tadt

Gültig

Sehr gut Gut Weniger gut Nicht gut Weiß nicht Gesamt

Fehlend Gesamt

System

Häuf igkeit 33

Proz ent 25,6

Gültige Proz ente 25,8

Kumulierte Proz ente 25,8

82 8

63,6 6,2

64,1 6,3

89,8 96,1

4 1

3,1 ,8

3,1 ,8

99,2 100,0

128

99,2

100,0

1 129

,8 100,0

• Der Mehrzahl der Befragten gefällt Ingolstadt gut oder sogar sehr gut.

10



Auswertung des Fragebogens zum Kurs


 ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)

Aus gabe n fürs Wegge he n

Gültig

10 ! bis unter 30 ! 30 ! bis unter 50 ! 50 ! bis unter 70 ! 70 ! bis unter 100! 100 ! bis unter 130 ! 130 ! bis unter 150 ! 150 ! bis unter 200 !

Fehlend Gesamt

Häuf igkeit 16

Prozent 12,4

Gültige Prozente 13,3

Kumulierte Prozente 13,3

17

13,2

14,2

27,5

27 23

20,9 17,8

22,5 19,2

50,0 69,2

8 7

6,2 5,4

6,7 5,8

75,8 81,7

7

5,4

5,8

87,5

mehr als 200 ! Gesamt

15 120

11,6 93,0

12,5 100,0

100,0

System

9 129

7,0 100,0

• 30% der Probanden geben fürs Weggehen mehr als 100 € pro Abend aus. 11


Auswertung des Fragebogens zum Kurs  ST6. Rauchst Du? (Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten)

Rauche r

Gültig

Nein, ic h rauche nic ht Ja, hin und w ieder Ja, regelmäßig

Fehlend Gesamt

Gesamt System

Häuf igkeit 65 20

Proz ent 50,4 15,5

Gültige Proz ente 52,0 16,0

Kumulierte Proz ente 52,0 68,0

40 125

31,0 96,9

32,0 100,0

100,0

4

3,1

129

100,0

• Über 50% der befragten Betriebswirtschaftsstudenten rauchen nicht. 12


Auswertung des Fragebogens zum Kurs  ST7. Wie alt bist du? (Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten) Alte r

Gültig

18 19 20 21 22



13

10,1

10,6

12,2

12 24

9,3 18,6

9,8 19,5

22,0 41,5

13

10,1

10,6

52,0

13 12

10,1 9,3

10,6 9,8

62,6 72,4

25

14 7

10,9 5,4

11,4 5,7

83,7 89,4

2

1,6

1,6

91,1

28 29

4 3

3,1 2,3

3,3 2,4

94,3 96,7

30

1 1

,8 ,8

,8 ,8

97,6 98,4

1

,8

,8

99,2

1 123

,8 95,3

,8 100,0

100,0

31 33 224 Gesamt Gesamt

Prozent 1,6

23 24 26 27

Fehle nd

Häuf ig keit 2

System

6

4,7

129

100,0

• Die Mehrzahl der Teilnehmer geben ..... 13


Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Bitte bearbeiten Sie die Aufgabe 1 des Übungsblattes.

14



15

Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter

Lageparameter


• die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte • Anwendung i.d.R. nur bei metrischen Variablen • wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden, um die Häufigkeitsverteilung zu charakterisieren.

Median • Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in zwei gleich große Hälften teilt • 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median • Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend) • Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der Einkommensvariable (Berechnung von Quartilen)

Modalwert (Modus) • Messwert, der in einem Datensatz am häufigsten vorkommt • Gibt an, wo die größte Dichte einer Verteilung liegt • nominale, ordinale und metrische Daten

16

Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Lageparameter Arithmetisches Mittel • Maßzahl zur zentralen Tendenz von Daten • Ermittlung der durchschnittlichen Merkmalsausprägung • Daten mindestens intervallskaliert (in manchen Fällen auch ordinal) • Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt • Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B. die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnung ausgeschlossen werden, indem sie als fehlende Werte definiert werden • Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einer Verteilung, wenn diese symmetrisch ist

17

Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter

Lageparameter Aus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann man Aussagen über die Form der Häufigkeitsverteilung von Variablen ableiten: 1.

2.

3.

18

Linkssteile Verteilung Die Verteilung steigt links schnell an, erreicht ihren Gipfel und fällt dann langsam ab. Modus < Median < arithmetisches Mittel Rechtssteile Verteilung Die Verteilung steigt links langsam an, erreicht ihren Gipfel und fällt rechts steil ab. arithmetisches Mittel < Median < Modus Symmetrische Verteilung Alle drei Mittelwerte fallen auf einen Punkt. arithmetisches Mittel = Median = Modalwert

• Die Form der Verteilung kann mittels SPSS festgestellt werden. Die Funktionen heißen „Schiefe“ (Welche Seite der Verteilung ist länger?) und „Kurtosis“ (Wölbung; je größer die Wölbung, desto stärker konzentrieren sich die Werte an einer bestimmten Stelle). • Schiefe: rechtssteil < 0 < linkssteil • Kurtosis: flachgipflig < 0 < hochgipflig


Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

19

Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Streuungsparameter • Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert • Präzisiert die Aussage der Lageparameter • Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung).

Varianz • • • •

Nur metrische Daten Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz Die Varianz wird nicht in der Einheit der Variablenwerte gemessen

Standardabweichung • • • •

Nur metrische Daten Ermöglicht Vergleichbarkeit mit Mittelwerten Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat Die Standardabweichung wird in der Einheit der Variablenwerte gemessen

Spannweite • • •

Mindestens ordinalskalierte Daten Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe Kann durch Ausreißer stark beeinflusst werden

Standardfehler • • 20

Nur metrische Daten Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben um den Mittelwert der Grundgesamtheit

Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

21



22



23

Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Explorative Datenanalyse •

•

•

24

Fehlerhaft erhobene oder eingegebene Daten bedeuten die Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginn der Datenanalyse zunächst einer Plausibiltätsprüfung unterzogen werden

•

Stängel-Blatt-Diagramm

•

Histogramm

Untersuchung und Begutachtung von Daten, von denen man nur geringes Wissen über deren Zusammenhänge hat

•

Perzentile

Ziele der explorativen Datenanalyse

•

M-Schätzer

1.

Überprüfung der Rohdaten und ggf. der Originalbelege

•

Ausreißer

2.

Prüfung der Verteilung der Werte und Identifikation von Ausreißern

•

Schachtel-Diagramm

•

Normalverteilungstest

3.

Bildung von Hypothesen über Gründe und Zusammenhänge, die vorher nicht erkennbar waren

4.

Hilfe zur Wahl des passenden statistischen Werkzeuges


Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • •

Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm

2. Lage der Werte beschreiben


•

Histogramm

•

Perzentile

•

Ausreißer

•

Perzentile

•

Schachtel-Diagramm

•

Ausreißer-Analyse

•

M-Schätzer

•

M-Schätzer

•


3. Test auf Normalverteilung

25

•

Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse

Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)


• Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten • Liefert einen grafischen Eindruck von der Verteilung der Werte • Erstellung per Hand – Die n Beobachtungswerte werden der Größe nach geordnet • 101, 103, 105, 111, 112, 112, 134

– Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren) • Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 … • So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10

– Beobachtungswerte durch die Blatteinheit teilen • 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4

– Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm – Den Wert hinter dem Komma als Blatt Frequency 3,00 3,00 0,00 1,00

Stem & Leaf 10 . 135 11 . 122 12 . 13 . 4

Stem width: 10,00 Each leaf: 1 case(s) 26


Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)  ST8. Wie groß bist Du? (in cm) Größe Stem-and-Leaf Plot Frequency

Gibt an, um welchen Faktor die Ursprungswerte von den im Diagramm angegebenen Werten abweichen

Gibt die Anzahl der Werte an, die durch ein Blatt repräsentiert werden

27

1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00

Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 .

Gibt den ganzzahligen Teil der Werte wieder

8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56

Stem width: 10 Each leaf: 1 case(s)

Gibt den Dezimalteil der Werte wieder


Histogramm


• Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-BlattDiagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen • Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet. • Nur metrische Daten * SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten

Wenig aussagekräftig, weil sich jeder einzelne Balken auf eine einzelne Kategorie bezieht.

28






•

Histogramm

•

Perzentile

•

Ausreißer

•

Perzentile

•

Schachtel-Diagramm

•

Ausreißer-Analyse

•

M-Schätzer

•

M-Schätzer

•



29

•


Perzentile (auch Quantile, Fraktile) • Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle.

Das 40%-Perzentil dieser Verteilung hat den Wert 3 (0,4*15 = 6)

Das 50%-Perzentil (Median) dieser Verteilung hat den Wert 4 (0,5*15 = 7,5 → 8)

30

Fallnummer

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Ausprägung

1

1

2

2

2

3

3

4

5

6

6

7

8

13

26


Perzentile (auch Quantile, Fraktile)

31



Perzentile (auch Quantile, Fraktile) • Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus. Perze ntile

Gew ichtetes Mittel (Def inition 1)

A lter

Tukey-A ngelpunkte

A lter

5

10

19,00

19,00

25

Perz entile 50

75

21,00

22,00

25,00

21,00

22,00

25,00

90 27,00

95 29,00

• Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben (Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik) Statistiken Alter N

Gültig

Perzentile

Fehlend 10 20 30 40 50 60 70 80 90

32

123 6 19,00 20,00 21,00 21,00 22,00 23,00 24,00 25,00 27,00


Ausreißeranalyse (Extremwerte) • Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt werden. Extr em w erte A lter

Größte Werte

1 2 3 4

Kleinste Werte

Fallnummer 96

Wert

71 77

33 31

51

30

5 1

50 106

29 a 18

2

104 124

18 19

119

19

114

19 b

3 4 5

a. Nur eine partielle Liste von Fällen mit dem Wert 29 w ird in der Tabelle der oberen Ex tremw erte angez eigt. b. Nur eine partielle Liste von Fällen mit dem Wert 19 w ird in der Tabelle der unteren Extremw erte angezeigt.

33

**


Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht

Ausreißer (°): Extremwerte (*): 34

Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind



Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht

Ausreißer höchster Wert, der kein Ausreißer ist

75% Perzentil 50% der Fälle

Median 25% Perzentil niedrigster Wert, der kein Ausreißer ist

Ausreißer (°): Extremwerte (*): 35

Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind


M-Schätzer (Maximum-Likelihood-Schätzer) • Mittelwertberechnung unter Berücksichtigung von Extremwerten • Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von den übrigen Werten abweicht, desto geringer ist das Gewicht) Datenbasis mit Fehleingaben

Berichtigte Datenbasis Statistiken

Statistiken Alter N

Gültig Fehlend

Mittelwert

Alter N

123 6 24,41

Mittelwert

M-Schätzer

Alter

M-Schätzer a nach Huber 22,48

Tukeyb Biweight 22,30

M-Schätzer c nach Hampel 22,47

a. Die Gewichtungskonstante ist 1,339. b. Die Gewichtungskonstante ist 4,685. c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500 d. Die Gewichtungskonstante ist 1,340*pi.

36

Andrewsd Welle 22,29

Gültig Fehlend

123 6 22,79






•

Histogramm

•

Perzentile

•

Ausreißer

•

Perzentile

•

Schachtel-Diagramm

•

Ausreißer-Analyse

•

M-Schätzer

•

M-Schätzer

•



37

•


Test auf Normalverteilung • Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annähernd normalverteilt sind • SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten auf Normalverteilung zu prüfen • Normalverteilungsplots Empirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilung gegenübergestellt • Signifikanztests Errechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seien normalverteilt, fehlerhaft ist

38


Normalverteilungsplots Theoretische Werte einer Normalverteilung

• Sind die empirischen Werte normalverteilt, müssen die einzelnen Punkte weitgehend dem Verlauf der Geraden folgen. • Gravierender ist die Stärke der Abweichung in deren Form. Folgen die Werte einem klaren Muster, weichen die Werte systematisch von der Normalverteilung ab. 39

• Diese Grafik ist geeignet um ein Muster in den Abweichungen zu erkennen • Wären die Stichprobenwerte normalverteilt, müssten die Punkte in der Grafik zufällig und nicht einem Muster folgend um die horizontale Linie streuen.

• das Alter ist in der Grundgesamtheit nicht normalverteilt


Signifikanztests • Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte der untersuchten Variablen seien in der Grundgesamtheit normalverteilt • Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist • Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Werte normalverteilt sind. • Kolmogorov-Smirnov: für große Stichproben geeignet • Shapiro-Wilk-Test:

ergänzend für kleine Stichproben (etwa weniger als 50)

Tests auf Normalv erteilung a

Alter

Kolmogorov-Smirnov Statistik df Signifikanz ,143 123 ,000

Statistik ,942

a. Signifikanzkorrektur nach Lilliefors

Irrtumswahrscheinlichkeit

• Annahme einer Normalverteilung ist zurückzuweisen 40

Shapiro-Wilk df Signifikanz 123 ,000



41



42

Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Datenmodifikation und -filterung Umkodieren (Befehl: Transformieren → Umkodieren) Veränderung der Werte einer schon vorhandenen Variablen • in dieselbe Variable (alte Werte werden überschrieben) • in eine neue Variable (die alte Variable bleibt erhalten) • Sonderfall: Umkodierung in aufeinander folgende Zahlen

Berechnen (Befehl: Transformieren → Berechnen) Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten (z.B. Merkmalsausprägungen addieren, Index bilden)

43


Datenmodifikation und -filterung Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen (Befehl: Daten → Datei aufteilen) Analyse von unterschiedlichen Teildatenmengen

Untersuchungen anhand von kontinuierlichen Variablen (Befehl: Daten → Fälle auswählen) Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden

Gewichtung von Fällen (Befehl: Daten → Fälle gewichten) Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um die Repräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oder unterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischen Analysen berücksichtigt.

44


Datenmodifikation und -filterung •

45

Umkodieren



46

Berechnen



47

Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen



48

Untersuchungen anhand von kontinuierlichen Variablen



49

Gewichtung von Fällen


Bitte bearbeiten Sie die restlichen Fragen des Übungsblattes.

50


V3


2

•

Analyse von Mehrfachantworten

•

Kreuztabellen

•

Korrelationen

•

Regression

Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Mehrfachantworten •

Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können • Beispiel:

x

x x

• Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neun Antwortkategorien • Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten soll aber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert • SPSS bietet zwei verschiedene Methoden an:  Methode multipler Kategorien  Methode multipler Dichotomien 3


Mehrfachantworten zur Analyse aufbereiten • Methode multipler Kategorien: •

Anzahl der zu ankreuzenden Antworten wurde beschränkt (z.B.: Bitte kreuzen Sie maximal 3 Antworten an) → Anzahl der Variablen entspricht der maximalen Anzahl an Antworten

•

Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahl der maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden

•

Die Kodierung erfolgt wie bei Einfachantworten

1 2 3

4 5 6 9

F3_99

4

F3_1

→ 1,2,3,4,5,6,7,8,9

F3_2

→ 1,2,3,4,5,6,7,8,9

F3_3

→ 1,2,3,4,5,6,7,8,9

7 8

F3_s


Mehrfachantworten zur Analyse aufbereiten • Methode multipler Dichotomien: • Keine Beschränkung bei der Anzahl der zu ankreuzenden Antworten → für jede Antwortmöglichkeit wird eine Variable erstellt • Häufig verwendete Codierung: „1 = wurde gewählt“, „0 = wurde nicht gewählt“ • Vorteil: klare Struktur der Kodierung • Nachteil: hohe Anzahl an Variablen

1

F3_1

/0 1

F3_2

1

F3_3 F3_99

1

/0 1 /0 1 /0

F3_4

/0

/0

F3_5 F3_6 F3_9

1

/0

/0

Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zwei Fragen formuliert werden. (1. Treibst du Sport; 2. Welches Sportangebot an der Fachhochschule Ingolstadt nutzt Du?) 5

um

F3_7 F3_8

F3_9s 1

n

re e i kod

1

/0 1

/0


Häufigkeitsauswertung von Mehrfachantworten

• Multiple Dichotomien • Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen → sehr umständlich und weniger anschaulich • Multiple Kategorien • Häufigkeitsauswertung über jede Antwortvariable → wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden Variablen gespeichert sein könnte

Lösung: Variablen zu Sets zusammenfassen

• Mehrfachantworten-Sets werden nicht mit der Datendatei gespeichert → Syntax (kein „Einfügen“ Button)

• Zusammengehörende Variablen in Sets zusammenfassen • Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden • „Analysieren > Mehrfachantworten > Sets definieren“ • Sets für multiple Dichotomien Alle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegeben werden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt) → Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt • Sets für multiple Kategorien Alle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegeben sein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.) → Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind 6


Variablen zu Setz zusammenfassen  F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)

7


Häufigkeitsauswertung von Mehrfachantworten  F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)

8


Häufigkeitsauswertung von Mehrfachantworten  F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich) Häufigkeiten v on $Sportangebot_set

Fallzusammenfassung Fälle

$Sportangebot_set a

Gültig N Prozent 59 45,7%

Fehlend N Prozent 70 54,3%

N

Gesamt Prozent 129 100,0%

a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.

• Von 129 Probanden nutzen 46% das Sportangebot an der FHI • Von allen angebotenen Sportarten wird Aerobic am meisten besucht (17%) • 25% der Studenten, die das Sportangebot an der FHI nutzen, nehmen an der Sportart Aerobic teil. • Die Kategorie „mache keinen Sport“ sowie die Spezifizierung der Kategorie „Sonstige“ müssen separat ausgewertet werden. Es kann jedoch die Schlussfolgerung gezogen werden, dass die 70 fehlenden Fälle keinen Sport treiben.

Sportangebota

Basketball Fechten Fitness Fußball Lauftreff Volleyball Sonstiges Gesamt a.

Prozent der Fälle 25,4%

6 8 3

6,8% 9,1% 3,4%

10,2% 13,6% 5,1%

11

12,5%

18,6%

11 6 10 18

12,5% 6,8% 11,4% 20,5%

18,6% 10,2% 16,9% 30,5%

88

100,0%

149,2%

Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.

• Fälle, bei denen keine Set-Variable den angegebenen Wert (1) annimmt, werden als fehlend bezeichnet 9

Aerobic Badminton

Antworten N Prozent 15 17,0%



10


11

•


•

Kreuztabellen

•

Korrelationen

•

Regression

Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Kreuztabellen • Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen. Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall. • Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen • Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet • Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondern bietet auch statistische Zusammenhangstests und Zusammenhangsmaße an

Analysemöglichkeiten mit der Prozedur Kreuztabellen • Kreuztabellen (nominal- und ordinalskalierte Variablen) • Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen) Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dass zwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht • Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen) Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zum Ausdruck

12

Statistische Auswertungsverfahren mit SPSS Kreuztabellen

Kreuztabellen auswerten  ST2. Im wievielten Semester studierst Du?  ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms)

13



Kreuztabellen auswerten  ST2. Im wievielten Semester studierst Du?  ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms) Raucher * Semester Kreuztabelle Anzahl

Raucher

Gesamt

14

Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig

1

20 3 7 30

3

14 2 9

Semester 5 14 5 11

25

30

7

13 7 11 31

9

4 3 1

Gesamt 65 20 39

8

124


Kreuztabellen auswerten


• Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit) • Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent • prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert • prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert • prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle

15


Raucher * SemesterKreuztabelle

20

14

Semester 5 14

15,7 30,8% 66,7%

13,1 21,5% 56,0%

16,1% 3

1 Raucher

Nein, ich rauche nicht

bei Normalverteilung beider Merkmale

Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl

Ja, hin und wieder

Anzahl Erwartete Anzahl % von Raucher % von Semester

Ja, regelmäßig

% der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester

Gesamt

% der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl

16

3

7

9 13

4

Gesamt 65

15,7 21,5% 46,7%

16,3 20,0% 41,9%

4,2 6,2% 50,0%

65,0 100,0% 52,4%

11,3% 2

11,3% 5

10,5% 7

3,2% 3

52,4% 20

4,8 15,0% 10,0%

4,0 10,0% 8,0%

4,8 25,0% 16,7%

5,0 35,0% 22,6%

1,3 15,0% 37,5%

20,0 100,0% 16,1%

2,4% 7

1,6% 9

4,0% 11

5,6% 11

2,4% 1

16,1% 39

9,4 17,9%

7,9 23,1%

9,4 28,2%

9,8 28,2%

2,5 2,6%

39,0 100,0%

23,3% 5,6% 30

36,0% 7,3% 25

36,7% 8,9% 30

35,5% 8,9% 31

12,5% ,8% 8

31,5% 31,5% 124

30,0 24,2%

25,0 20,2%

30,0 24,2%

31,0 25,0%

8,0 6,5%

124,0 100,0%

100,0% 24,2%

100,0% 20,2%

100,0% 24,2%

100,0% 25,0%

100,0% 6,5%

100,0% 100,0%


Einsatz von Gruppen – und Schichtenvariablen


• Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen. ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)

17


Einsatz von Gruppen – und Schichtenvariablen ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du?

(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.) Raucher * Semester * Geschlecht Kreuztabelle Anzahl Geschlecht männlich

Raucher

weiblich

Gesamt Raucher

Gesamt

18

Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig

1

10 1 2 13 10 2 5 17

3

5 1 4 10 9 1 5 15

Semester 5 3 0 5 8 11 5 6 22

7

4 5 7 16 9 2 4 15

9

2 3 0 5 2 0 1 3

Gesamt 24 10 18 52 41 10 21 72


Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)


• Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen → Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang? • Nullhypothese: In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor. • Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor. • Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es besteht kein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht.

• Drei verschiedenen Modelle: • Pearson-Test am häufigsten verwendeter Test

• Likelihood-Test liefert bei großen Stichproben das gleiche Ergebnis wie der Person-Test

• Linear mit linear misst den linearen Zusammenhang zwischen den Variablen (min. Ordinalskalierung)

• Voraussetzung für Zuverlässigkeit des Tests • erwartete Häufigkeit von mindestens 5 in jeder Zelle • nach Möglichkeit Kreuztabelle mit mehr als 5 Felder • nominal- und ordinalskalierte Daten 19


Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)

ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht) Chi-Quadrat-Tests

Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle

Wert

a

Asymptotisch e Signifikanz (2-seitig)

df 8

,343

Über 0,05

8,895

8

,351

Über 0,01 bis 0,05

1,436

1

,231

Über 0,001 bis 0,01

8,991

124

a. 6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,29.

• Es besteht kein signifikanter Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semesteranzahl, da p = 0,343. • Die Nullhypothese wird angenommen und die Alternativhypothese verworfen. 20

Irrtumswahrscheinlichkeit*

Unter oder gleich 0,001

Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant

*die mit einem Zurückweisen der Nullhypothese verbunden ist.


Zusammenhangsmaße

• Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage über die Stärke ist anhand der Zusammenhangsmaße nicht möglich. • Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig • Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit (für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt)

Zusammenhangsmaß Nominalskalierte Variablen

Besonderheiten

Ausgabe

Kontingenzkoeffizient

Werte für Tabellen mit unterschiedlicher Feldanzahl sind nur bedingt vergleichbar Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässliche Ergebnisse und ist stark abhängig von der Anzahl der Fälle Unempfindlich gegen unterschiedliche Tabellenformate und Fallzahlen Lambda ist ein eher grobes Maß und kann auch 0 annehmen, wenn eine Abhängigkeit gegeben ist

Wert zwischen 0 und 1

Phi Cramers V

BEST

E WAH

L!

Lambda, Unsicherheitskoeffizient

Ordinalskalierte Variablen Gamma, Somers d

Betrachtet eine der beiden Variablen als abhängig und eine als unabhängig

Kendalls Tau-b

Nur für quadratische Tabellen

Kendalls Tau-c

Unempfindlich gegen unterschiedliche Tabellenformate

Wert zwischen -1 und +1

Intervallskalierte Variablen

21

Eta

Abhängige Variable ist intervall- und unabhängige nominal- oder ordinalskaliert

Wert zwischen 0 und 1

Pearsons Korrelationskoeffizient

Abhängige und unabhängige Variable müssen min. intervallskaliert sein; Normalverteilung der Variablen

Wert zwischen -1 und +1


Zusammenhangsmaße

ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist) Symmetrische Maße

Nominal- bzgl. Nominalmaß

Phi Cramer-V Kontingenzkoeffizient

Anzahl der gültigen Fälle

Wert ,269 ,190 ,260 124

a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.

Zusammenhangsmaß

22

0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1

Mögliche Interpretation Kein Zusammenhang Sehr schwacher Zusammenhang Schwacher Zusammenhang Mittlerer Zusammenhang Starker Zusammenhang Sehr starker Zusammenhang Perfekter Zusammenhang Orientierungshilfe; Brosius 2004, 525

Näherung sweise Signifikanz ,343 ,343 ,343


Bitte bearbeiten Sie die Aufgabe 2, 3, 4 und 5 des Übungsblattes.

23


24

•


•

Kreuztabellen

•

Korrelationen

•

Regression

Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Korrelationen •

Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen)

•

Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable)

•

Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearen Zusammenhangs zweier Variablen +1 → perfekt positiver Zusammenhang 0 → kein linearer Zusammenhang -1 → perfekt negativer Zusammenhang –

Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist

–

Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearer Zusammenhang zwischen den Variablen bestehen → Streudiagramm Korrelationskoeffizient 0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1

25

Mögliche Interpretation Keine Korrelation Sehr schwache Korrelation Schwache Korrelation Mittlere Korrelation Starke Korrelation Sehr starke Korrelation Perfekte Korrelation Orientierungshilfe; Brosius 2004, 525

Statistische Auswertungsverfahren mit SPSS Korrelationen

Korrelationen  

26

ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)



Korrelationen • •  

In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen Jeder Fall wird durch einen Punkt im Diagramm dargestellt ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) 1000

Variable 1

800

600

400

200

0 -10,00

-5,00

0,00

5,00

10,00

-5000,00

0,00

Variable 2 20000

Variable 1

15000

10000

5000

0

27

-20000,00

-15000,00

-10000,00

Variable 2


Korrelationen •

Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab Pearsons Korrelationskoeffizient –

Die Variablen müssen mindestens intervallskaliert sein

–

Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein

Kendalls Tau-b, Spearmans Rho –

Die Variablen müssen mindestens ordinalskaliert sein

–

Die Variablen müssen nicht normalverteilt sein

Signifikanztest •

Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden

•

Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab (SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest) –

Nominalskalenniveau, z.B. Chi-Quadrat Test

–

Ordinalskalenniveau, z.B. Mann-Whitney Test

–

Metrisches Skalenniveau, z.B. T-Test (Voraussetzung: Variablen normalverteilt)

Irrtumswahrscheinlichkeit* Über 0,05 Über 0,01 bis 0,05 Über 0,001 bis 0,01 Unter oder gleich 0,001

28

Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant

*die mit einem Zurückweisen der Nullhypothese verbunden ist.

Statistische Auswertungsverfahren mit SPSS Korrelationen

Korrelationen •  

29

Analysieren > Korrelation > Bivariat ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)



Korrelationsmaße •  

Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Tests auf Normalverteilung Kolmogorov-Smirnov Statistik ,164 ,143

Semester Alter

df

123 123

a

Signifikanz ,000 ,000

Da die Variablen nicht normalverteilt sind, kann Pearsons Korrelationskoeffizient nicht berechnet werden. In einem nächsten Schritt könnte man sich überlegen, ob trotz Test nicht doch eine Normalverteilung angenommen werden kann.

Shapiro-Wilk Statistik ,890 ,942

df

123 123


a. Signifikanzkorrektur nachLilliefors

Korrelationen Alter

Semester

Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N

Korrelationen

Alter

Semester ,583** nt a d ,000 un 123red 123 ,583** 1 ,000 123 125 1

Alter

Semester

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) Zweiseitiger Signifikanztest signifikant.

• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (signifikant). 30

Korrelation nach Pearson Signifikanz (1-seitig) N Korrelation nach Pearson Signifikanz (1-seitig) N

Alter

1

123 ,583** ,000 123

Semester ,583** ,000 123 1 125

**. Die Korrelation ist auf dem Niveau von 0,01 (1-seitig) Einseitiger Signifikanztest signifikant.


Korrelationsmaße •  

Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Korrelationen Kendall-Tau-b

Semester

Alter

Spearman-Rho

Semester

Alter

Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N

**. Die Korrelation istaufdem 0,01 Niveausignifikant(zweiseitig).

• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (höchst signifikant). 31

Semester 1,000 . 125 ,517** ,000 123 1,000 . 125

Alter ,517** ,000 123 1,000 . 123 ,643** ,000 123

,643** ,000

1,000 .

123

123



32


33

•


•

Kreuztabellen

•

Korrelationen

•

Regression

Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Regressionsanalyse •

–

Beschreibung und Erklärung von Zusammenhängen

–

Durchführung von Prognosen

•

Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe der quadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Werten minimiert wird

•

Einfache lineare Regression

•

34

Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es vielseitig und flexibel eingesetzt werden kann

–

Untersuchung der Abhängigkeit einer Variablen von einer Zweiten

–

Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhang besteht

–

Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht?

Multiple Regression –

Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen

–

Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes die Kundenzufriedenheit?



Regressionsgerade

Y = a +b! X y = abhängige Variable (Abiturnote) a = Konstante (Schnittpunkt mit der Y-Achse) b = Steigungsparameter x = unabhängige Variable (Alter)

Y = Abiturnote X = Alter 35

Abiturnote = a + b ! Alter



Nicht erklärte Abweichung Gesamtabweichung

Erklärte Abweichung Schätzgerade für die Abiturnote

Y = Abiturnote X = Alter 36

Y = 0,449 + 0,073 ! X



37


Einfache lineare Regression Aufgenommene/Entfernte Variablen

Modell 1

Aufgenomme ne Variablen Alter a

Entfernte Variablen

.

b

Modellzusammenfassung

Methode Eingeben

Modell 1

← benutzte Variablen

a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Abiturnote

Regression Residuen Gesamt

Quadrats umme 5,532 17,445 22,977

df

Mittelder Quadrate 5,532 ,150

1 116 117

F 36,781

Signifikanz ,000a

T 1,632 6,065


a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote Koeffizienten a

Modell 1

(Konstante) Alter

Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012

a. Abhängige Variable: Abiturnote

38

,491a

R-Quadrat ,241

a. Einflußvariablen : (Konstante), Alter

ANOVAb

Modell 1

R

Standardisie rte Koeffizienten Beta ,491

Korrigiertes R-Quadrat ,234

Standardf ehler des Schätzers ,3878


Einfache lineare Regression Modellzusammenfassung

Modell 1

R

,491a

R-Quadrat ,241

Korrigiertes R-Quadrat ,234

Standardf ehler des Schätzers ,3878

a. Einflußvariablen : (Konstante), Alter

↑ Korrigiertes R-Quadrat

R=

Regression Residuen

• Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells)

39

• Misst, wie viel Varianz der abhängigen Variable sich durch die unabhängige Variable erklären lässt • Je größer der Wert, desto besser (Wert: 0 – 1)  23,4% der Varianz in der Abiturnote lassen sich durch das „Alter“ erklären (schlechtes Ergebnis)

← Standardfehler des Schätzers • Misst, wie nahe die durch die Regressionsgleichung prognostizierten Werte an den wahren Werten liegen


Einfache lineare Regression •

Varianzanalyse für das Regressionsmodell Gesamtabweichung = nicht erklärte Abweichung + erklärte Abweichung

ANOVAb

Modell 1

Regression Residuen Gesamt

Quadrats umme 5,532 17,445 22,977

df

1 116 117

Mittelder Quadrate 5,532 ,150

a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote

R=

Regression Residuen

Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells)

• Das Regressionsmodell wird so geschätzt, dass die nicht erklärte Abweichung, die als aggregiertes Fehlermaß interpretiert werden kann, minimiert wird. 40

F 36,781

Signifikanz ,000a

Signifikanzwert sagt aus, ob die Variable Alter dazu geeignet ist, die Abiturnote vorherzusagen. Modell wäre geeignet, um die Abiturnote vorherzusagen (siehe auch korrigiertes R Quadrat)


Einfache lineare Regression •

Schätzfunktion in der Koeffizienten-Tabelle Koeffizienten a

Modell 1

(Konstante) Alter

Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012

Standardisie rte Koeffizienten Beta ,491

T 1,632 6,065


a. Abhängige Variable: Abiturnote

Y = Abiturnote X = Alter

Y = 0,449 + 0,073 ! X Steigung der Gerade

41

Achsenabschnitt

Signifikanzwert sagt aus, ob die Variable „Alter“ einen signifikanten Zusammenhang mit der „Abiturnote“ aufweist. Weist die Stärke und Richtung des Zusammenhangs aus



42


V4


2

•

Arbeiten mit dem Syntaxeditor

•

Mittelwertvergleiche

•

Nichtparametrische und parametrische Tests

Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Der Syntaxeditor •

Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen, sondern auch Anweisungen zum Programmablauf enthält

•

Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern, um sie zu einem späteren Zeitpunkt wieder abrufen zu können

•

Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligen Analysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax

•

SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung *.sps gespeichert werden

Vorteile:

3

•

Zeitersparnis bei wiederkehrenden Berechnungen

•

Schnellere Modifikationen von einzelnen Befehlen beim Testen von geeigneten Analyseverfahren

•

Verarbeitet Befehle, die über die grafische Benutzeroberfläche nicht erreichbar sind


Formulieren eines Syntax Befehls 1.

Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein



Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird durch ein Befehlsschlüsselwort eingeleitet



Jeder Befehl muss mit einem Punkt abgeschlossen werden



Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten



Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestens einem Leerraum eingerückt sein

2.

Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert (den Befehl spezifizierende Unterbefehle)



Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet

3.

Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen (z.B. Variablennamen, Zahlen, Operatoren)

4



Variablennamen dürfen nicht abgekürzt werden



Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen



Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnen wurden (kein Zeilenumbruch)


Beispiele für Syntax Befehle FREQUENCIES VARIABLES= st7 /PERCENTILES=25 50 75 /BARCHART .

Häufigkeitsauswertung über die Variable st7 (Alter) mit Angabe der 25, 50 und 75% Perzentile und eines Säulendiagramms.

*Bereichseinteiler. *st7. RECODE st7 ( MISSING = COPY ) ( LO THRU 21 =1 ) ( LO THRU 24 =2 ) ( LO THRU 27 =3 ) ( LO THRU 30 =4 ) ( LO THRU HI =5 ) ( ELSE = SYSMIS ) INTO st7kl. VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'. FORMAT st7kl (F5.0). VALUE LABELS st7kl 1 '18 - 21' 2 '22 - 24' 3 '25 - 27' 4 '28 - 30' 5 '31+'. MISSING VALUES st7kl ( ). VARIABLE LEVEL st7kl ( ORDINAL ). EXECUTE. 5

Automatische Kategoriebildung über die Variable st7 (Alter) mit der Funktion Bereichseinteiler.

• Im Syntaxeditor können Kommentare eingeflochten werden, die jedoch bei der Auswertung nicht berücksichtigt werden. • Sie beginnen mit einem „*“ und enden mit einem Punkt.


Wichtige Befehle (verwendet im Syntaxeditor)

6

RECODE

• Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in die Zielvariable • Existierende gleichnamige Variablen werden automatisch überschrieben

VARIABLE LABELS

• Definiert für die Zielvariable ein Variablenlabel

EXECUTE

• Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen, Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebe gehalten, bis eine explizite Anweisung deren Ausführung erzwingt

COMPUTE

• Variable berechnen

VALUE LABELS

• Definiert für die Zielvariable Wertelabels

FREQUENCIES

• Erstellt Häufigkeitstabellen für eine Variable

DESCRIPTIVES

• Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite)

CROSSTABS

• Erstellt eine Kreuztabelle über zwei Variablen

EXAMINE

• Führt eine explorative Datenanalyse über eine Variable durch

DO IF

• Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällen durchgeführt werden soll


Ausführen von Syntaxbefehlen •

Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten

•

Folgende Möglichkeiten zur Ausführung stehen zur Verfügung: •

Ausführen eines einzelnen Befehls Cursor an einer beliebigen Stelle im Syntaxbefehl positionieren Ausführen > Aktuellen Befehl

•

Ausführen mehrerer aufeinander folgender Befehle Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert sein Ausführen > Auswahl

•

Alle Befehl bis zum Ende der Syntaxdatei ausführen Cursor an einer beliebigen stelle im Syntaxbefehl positionieren Ausführen > Bis Ende

•

Alle Befehle aus der Syntaxdatei ausführen Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionieren Ausführen > Alles

7


Datenmodifikation mit dem Syntaxeditor Daten Transformieren • die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll COMPUTE st8_inch = st8 / 2.54 . VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' . EXECUTE. Daten Umkodieren • Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden RECODE st_p (Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000 thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru 69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9) INTO st_p1zahlig . VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'. EXECUTE . 8


Bedingte Berechnungen mit If •

Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällen durchführen kann man mithilfe von IF (…) Kriterien festlegen

Einfache Berechnung einer Variablen IF (st7<=21) st7_kl=1 . EXECUTE . Folge von Anweisungen DO IF (st7>=18 AND st7<21) . COMPUTE st7=1 . ELSE IF (st7>=22 AND st7<25) . COMPUTE st7=2 . ELSE IF (st7>26) . COMPUTE st7=3 . END IF . EXECUTE .

9


Bitte bearbeiten Sie die Aufgaben 1 und 2 des Übungsblattes 4.

10


11

•


•


•


Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Mittelwertvergleich •

Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen

•

Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen

•

Fallgruppen können durch jede beliebige Merkmalskombination definiert werden

•

Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über die betrachtete Stichprobe zu, nicht aber über die Grundgesamtheit → Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA))

Grundvoraussetzungen für den einfachen Mittelwertvergleich: •

•

Abhängige Variable –

metrisch skalierte Daten

–

Normalverteilung der Variablen in der Grundgesamtheit

Unabhängige Variable –

12

Nominal- oder ordinalskaliert (nicht metrisch)


Mittelwertvergleich 

13

Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig)


Mittelwertvergleich 

Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8)

Verarbeitete Fälle

Größe * Geschlecht

Eingeschlossen N Prozent 122 94,6%

Fälle Ausgeschlossen N Prozent 7 5,4%

N

Insgesamt Prozent 129 100,0%

Bericht Größe Geschlecht männlich weiblich Insgesamt

Mittelwert 180,9615 169,1286 174,1721

N

52 70 122

 Vergleicht man die Männer mit den Frauen, kann man erkennen, dass Männer im Durchschnitt größer sind als Frauen. 14

Standardab weichung 6,72415 5,60518 8,45571

Wären die Standardabweichungen um ein Vielfaches größer als die Unterschiede zwischen den beiden Mittelwerten, würde das darauf hindeuten, dass aus den beobachteten Mittelwertunterschieden nicht auf entsprechende Unterschiede in der Grundgesamtheit geschlossen werden kann → Validierung durch den T-Test


Bitte bearbeiten Sie die Aufgabe 3 des Übungsblattes 4.

15


16

•


•


•


Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Signifikanztests • •

Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die Grundgesamtheit anhand einer Stichprobe zu validieren Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden

Ausgangsfrage: „Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nur durch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andere erklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“

17

1.

Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese)

2.

Welche Merkmale sollen untersucht werden?

3.

Welche statistische Kennzahl soll/kann dafür verwendet werden?

4.

Wie hoch soll das Signifikanzniveau sein?


Klassifizierung von Signifikanztests Nichtparametrische Tests Anhand der Stichprobe wird der Typ der Zufallsverteilung überprüft, sprich wie Werte in der Grundgesamtheit verteilt sind.

Parametrische Tests Anhand der Stichprobe wird geprüft, ob konkrete Werte wie z.B. Varianzen oder Mittelwerte auch so für die Grundgesamtheit angenommen werden können.

Unterschiede in den Anforderungen an die beobachteten Variablen • keine Annahmen über die Form der zugrunde liegenden Verteilung

• Grundgesamtheit sollte annähern nomalverteilt sein

• Variablen können auch nominal skaliert sein

• Variablen müssen metrisch skaliert sein

 Parametrische Tests sind den nichtparametrischen Test generell vorzuziehen, weil diese eine höhere Aussagekraft besitzen.  Nichtparametrische Tests können auch mit metrischen Variablen durchgeführt werden, allerdings nimmt man durch die Herabstufung Einbußen in der Aussagekraft in Kauf 18


Signifikanztests für eine Stichprobe Test

Binomialtest

Chi-Quadrat Anpassungstest

Kolmogorov-Smirnov-Test

T-Test bei einer Stichprobe

19

Skalenniveau

Dichotom

Nominal

Ordinal

Metrisch

Voraussetzungen

Beschreibung

Keine Vorgabe

• •

Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten)

Keine Vorgabe

• •

Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet])

Keine Vorgabe

• •

Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung)

• •

Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?)

Normalverteilung



20

•

Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der Grundgesamtheit erwartet werden können



Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?


Chi-Quadrat Anpassungstest 

Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?

Raucher

Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt

Beobachtetes N 65 20

Erwartete Anzahl 41,7 41,7

Residuum 23,3 -21,7

40 125

41,7

-1,7

Statistik für Test Chi-Quadrat df

a

Raucher 24,400 2

Asymptotische Signifikanz

,000

a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7.

 Mit einer Irrtumswahrscheinlichkeit von 0,0% muss die Nullhypothese (Gleichverteilung) abgelehnt werden.  Die Antworten über das Rauchverhalten sind in der Grundgesamtheit nicht gleichverteilt. 21


Bitte bearbeiten Sie die Aufgaben 4 und 5 des Übungsblattes 4.

22


V5


2

•

Faktorenanalyse

•

Clusteranalyse

Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Die Faktorenanalyse •

Dimensionsreduzierendes oder strukturentdeckendes Verfahren

•

Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“ anhand deren Korrelationen untereinander

•

Ziel:

•

Skalenniveau: metrisch

•

Vier Schritte:

Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteil der Beziehungen der gemessenen Variablen untereinander erklären sollen

1. Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination

2. Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren

3. Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen)

4. Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt.

3

Da jede Variable auch einen spezifischen Anteil enthält, kann immer nur ein Teil der Varianz aufgeklärt werden. Je größer dieser Teil ist, desto besser die Faktorenanalyse.


Beispiel •

PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe)

Statistiken

N

4

• • • •

Gültig Fehlend

Ich fahre meistens alleine. 2373 64

Ich fahre meistens mitKindern. 2237 200

Ich befahre meistens mir unbekannte Strecken. 2301 136

2437 Datensätze Kodierung von 1 – 6 (entsprechend der Frage) keine Kodierung der fehlenden Werte Skalenniveau: ordinal / quasi metrisch

Ich telefoniere vielim Fahrzeug. 2327 110

Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. 2357 80

Ich fahre mit meinem Pkw häufig aufder Autobahn. 2360 77

Ich fahre mehrmals im Jahr mit meinem Fahrzeug insAusland. 2355 82

Ich fahre meistens mit meinem Pkw in den Urlaub. 2357 80

Statistische Auswertungsverfahren mit SPSS Faktorenanalyse

Faktorenanalyse

5



Einstellungen der Faktorenanalyse

6



1. Berechnung der Korrelationsmatrizen Korrelationsmatrix

cI h fahre meistens alleine. Korrelation

Ich tele foniere viel im Fahrzeug.

Ich fahre mit meinem Pkw häufig auf der Autobahn.

Ich fahre meistens mit meinem Pkw in den Urla ub.

1,000

-,201

,144

,237

,232

,197

,069

-,039

cI h fahre meistens mit Kindern.

-,201

1,000

,024

,033

-,001

-,056

,073

,109

,144

,024

1,000

,395

,009

,278

,219

,070

,237

,033

,395

1,000

,174

,415

,315

,065

cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz.

,232

-,001

,009

,174

1,000

,226

,074

,011

cI h fahre mit meinem Pkw häufig auf der Autobahn.

,197

-,056

,278

,415

,226

1,000

,327

,117

cI h fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.

,069

,073

,219

,315

,074

,327

1,000

,378

cI h fahre meistens mit meinem Pkw in den Urla ub.

-,039

,109

,070

,065

,011

,117

,378

1,000

,000

,000

,000

,000

,000

,001

,035

,138

,065

,488

,005

,000

,000

,000

,334

,000

,000

,001

,000

,000

,000

,001

,000

,000

,312

,000

,000

cI h fahre meistens alleine. cI h fahre meistens mit Kindern.

,000

cI h befahre meistens mir unbekannte Strecken.

,000

,138

cI h tele foniere vielim Fahrzeug.

,000

,065

,000


,000

,488

,334

,000

,000

,005

,000

,000

,000

,001

,000

,000

,000

,000

,000

,035

,000

,001

,001

,312

,000

cI h fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.

7

Ich befahre meistens mir unbekannte Strecken.

Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.

cI h fahre meistens alleine.

cI h befahre meistens mir unbekannte Strecken. Ich tele foniere vielim Fahrzeug.

Signifikanz (1-seitig)

cI h fahre meistens mit Kindern.


cI h fahre meistens mit meinem Pkw in den Urla ub.

,000

,000


1. Berechnung der Korrelationsmatrizen


•

Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden?

•

Zwei Möglichkeiten: –

Signifikanztest für alle Variablen gesammelt (Bartlett Test)

–

Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix)

Bartlett Test auf Sphärizität •

Deckt die Korrelation aller Variablen mit einer Maßzahl ab

•

Nullhypothese:

Es besteht kein Zusammenhang zwischen den beobachteten Variablen in der Grundgesamtheit KMO- und Bartlett-Test

Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df Signifikanz nach Bartlett

2020,697 28 ,000

• Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierte Korrelation in der Stichprobe, zumindest bei einem Teil der beobachteten Variablen, auch in der Grundgesamtheit vor. 8


1. Berechnung der Korrelationsmatrizen •

Prüfung der Güte des Faktormodells –

Anti-Image-Korrelationsmatrix Berechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweils andere Variable erklären lässt (Residuum / Anti-Image) → je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander

–

Kaiser-Mayer-Olkin-Maß (KMO) Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus. → je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell KMO-Test Richtwerte

KMO- und Bartlett-Test

Wert

Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df Signifikanz nach Bartlett

2020,697 28 ,000

Beurteilung 0,9 – 1,0

fabelhaft

0,8 bis unter 0,9

recht gut

0,7 bis unter 0,8

mittelprächtig

0,6 bis unter 0,7

mäßig

0,5 bis unter 0,6

schlecht

unter 0,5

• Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein.

9

inakzeptabel

Statistische Auswertungsverfahren mit SPSS Anti-Image-Matrizen

Faktorenanalyse I h fahre c meistens alleine.

Ich befahre meistens mir unbekannte Strecken.

I h fahre c meistens mit Kindern.

Ich tele foniere viel im Fahrzeug.

1. Berechnung der Korrelationsmatrizen Anti-Image-Kovarianz

•

I h fahre meistens c alleine.

,854

,187

I h fahre mit c meinem Pkw regelmäig zum Arbeitsplatz.

-,057

-,111

Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausla nd.

Ich fahre mit meinem Pkw häufig auf der Autobahn.

-,170

-,047

Ich fahre meistens mit meinem Pkw in den Urla ub.


,001

,035

,187 ,935 -,026 -,047 ,068 -,037 Anti-Image-Korrelationsmatrix und MSA-Werte (Measure of-,055Sampling Adequacy)

-,071

I h fahre meistens mit c Kindern.

–

MSA-Werte

I h befahre meistens mir c unbekannte Strecken.

-,057

-,026

,812

-,219

,087

-,097

-,055

-,005

I h tele foniere vielim c Fahrzeug.

-,111

-,055

-,219

,693

-,065

-,185

-,128

,043

-,047

,068 Anti-Image-Matrizen -,097

-,185

-,135

,739

-,145

-,022

,001

-,037

-,055

-,128

-,145

Ich fahre -,071 meistens mit Kindern.

I h befahre c meistens mir -,005 unbekannte Strecken.

Ich tele foniere viel im ,043 Fahrzeug.

,005 I h fahre mit c meinem Pkw regelmäig zum ,004 Arbeitsplatz.

I h fahre mit c meinem Pkw -,022 häufig auf der Autobahn.

Ich fahre ,735 mehrmals im Jahr mit meinem -,282 Fahrzeug ins Ausla nd.

I h fahre c meistens mit ,845 meinem Pkw in den Urla ub.

,187 ,209

-,057 -,068

-,111 -,144

-,170 -,194

-,047 -,059

,001

,035 ,042

-,026 -,030

-,055 -,069

-,047 -,051

,068 ,082

-,037 -,044

-,071 -,080

-,219 -,293

,087 ,102

-,097 -,126

-,055 -,071

-,005 -,007

-,185 -,258

-,128 -,179

,043 ,056

,005 ,007

,004 ,004 -,022 -,027

Ähnliches Maß wie der KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in der Ich fahre mit meinem Pkw regel m äig zum -,170 -,047 angezeigt ,087 -,065 Richtwertetabelle ,898 -,135KMO-Test ,005 ,004 Hauptdiagonalen derArbeitspl Anti-Image-Korrelationsmatrix wird → atz. I h fahre mit meinem Pkw c häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.

Anti-Image-Kovarianz

I h fahre meistens mit c meinem Pkw in den Urla ub. Ich h fahre fahre meistens meistens Ic all alle eine. ine. Ich h fahre fahre meistens meistens mit mit Ic Kindern. Kindern. h befahre befahre meistens meistens mir mir IIch c unbekannte Strecken. Strecken. unbekannte

Ich fahre ,035 meistens alleine. a

,854 ,659 ,187 ,209 -,057 -,068

a

,935 ,481 -,026 -,030

a

,812 ,716

h tel tele e foniere foniere viel vielim im IIch c Fahrzeug. Fahrzeug.

-,111 -,144

-,055 -,069

-,219 -,293

,693 ,702

-,065 -,082

h fahre fahre mit mit meinem meinem Pkw Pkw IIch c regelm mäig äig zum zum regel Arbeitspla atz. tz. Arbeitspl

-,170 -,194

-,047 -,051

,087 ,102

-,065 -,082

,898 ,623

-,135 -,166

-,047 -,059

,068 ,082

-,097 -,126

-,185 -,258

-,135 -,166

,739 ,744

-,145 -,197

,001 ,001

-,037 -,044

-,055 -,071

-,128 -,179

,005 ,007

-,145 -,197

,735 ,667

-,282 -,358

,035 ,042

-,071 -,080

-,005 -,007

,043 ,056

,004

-,022 -,027

-,282 -,358

,845 ,561

,209

-,068

-,144

-,194

-,059

,001

,042

-,030

-,069

-,051

,082

-,044

-,293

,102

-,126

-,071

-,258

0,9 -,179 – 1,0

fabelhaft ,056

0,8 bis unter 0,9

recht gut

h fahre fahre mit mit meinem meinem Pkw Pkw IIch c häufig auf der Autobahn. Ich h fahre fahre mehrmal mehrmals s im im Ic Jahr mit mit meinem meinem Jahr Fahrzeug ins ins Ausl Ausla and. nd. Fahrzeug I h fahre meistens mit c meinem Pkw Pkw in in den den meinem Urla a ub. ub. Url Ich fahre meistens a. Maßder Stichprobeneignung alleine. I h fahre meistens mit c Kindern.

a

,659 ,209

a

,481

a

I h befahre meistens mir c unbekannte Strecken.

-,068 -,030 • Die Residualwerte der Anti-Image-Korrelationsmatrix sind ,716 Ich tele foniere vielim -,144 -,069 -,293 durchweg gering, was für eine hohe Korrelation steht Fahrzeug. c I h fahre mit meinem Pkw → das Ergebnis des KMO-Tests wird bestätigt. regelmäig zum -,194 -,051 ,102

a

a

a

a

,702

-,082

-,082

,623

-,166

-,258

-,166

,744

-,179

,007

-,197

a

• Lediglich die Variable „Ich fahre meistens-,059 mit Kindern“ enthält Ich fahre mit meinem Pkw ,082 -,126 häufig auf der Autobahn. einen inakzeptablen MSA-Wert, weshalb ein Ausschluss dieser Ich fahre mehrmals im Jahr mit meinem ,001 -,044 -,071 Variable aus dem Faktormodell überlegt werden sollte. Fahrzeug ins Ausland. I h fahre meistens mit c meinem Pkw in den Urla ub. a. Maßder Stichprobeneignung

,042

-,080

-,007

a

a

,007

,004

-,027

-,007

Beurteilung

,004

0,7 bis unter 0,8

mittelprächtig

-,197 0,7 0,6 bis unter

-,027 mäßig

a 0,6 0,5 bis unter

schlecht

,667

unter 0,5 ,056

a

MSA Richtwerte -,080

Wert

Arbeitsplatz.

10

-,282

-,358

-,358

inakzeptabel a

,561


2. Extraktion der Faktoren


•

Verschiedene Modelle zur Faktorextraktion

•

In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse

•

Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken (für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt)

•

11

Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren


2. Extraktion der Faktoren •

Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten Erklärungsgehalt extrahiert Erklärte Gesamtvarianz

Komponente 1 2 3 4 5 6 7 8

Gesamt 2,228 1,378 1,010 ,963

Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734

,730 ,623 ,553

9,121 7,792 6,907

78,855 86,647 93,554

,516

6,446

100,000

Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694

Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n

Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten.

Faktoren Eigenwert Gibt an, welcher Betrag der Gesamtstreuung aller beobachteten Variablen durch den jeweiligen Faktor erklärt wird

12

Faktor 1 erklärt 27,8% der Gesamtstreuung

Extraktionsvorschlag • Nach dem Kaiser Kriterium (alle Faktoren mit einem Eigenwert > 1). • Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betrag der Gesamtstreuung erklärt als jede einzelne Variable selbst

Gesamtstreuung Da die Variablen im Zuge der Faktorenanalyse standardisiert wurden, hat jede Variable nun ein Standardabweichung von 1 und einen Mittelwert von 0 → Gesamtstreuung = Anzahl der Variablen (8)


2. Extraktion der Faktoren • •

Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahierten Variablen erklärt wird Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar Kommunalitäten Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub.

Anfänglich

Extraktion

1,000

,544

1,000

,338

1,000

,690

1,000

,626

1,000

,638

1,000

,524

1,000

,613

1,000

,643

Extraktionsmethode: Hauptkomponentenanalyse.

Bei Extraktion aller Faktoren wird die Streuung der einzelnen Variablen vollständig erklärt

13

Durch Extraktion der drei Faktoren wird nur noch ein Teil der Streuung der einzelnen Variablen erklärt


3. Faktorladungen •

Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen und werden bei der Interpretation der Faktoren verwendet

•

Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher die Faktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor

•

Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zur Interpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten

•

Positive und negative Werte beschreiben die Richtung des Zusammenhangs Komponentenmatrix a

Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich befahre meistens mir unbekannte Strecken.

14

Komponente 2

1

3

,743 ,718 ,632

,616 -,585 ,581 ,624 ,586

Extraktionsmethode: Hauptkomponentenanalyse. a. 3 Komponenten extrahiert

-,588

• Faktoren sind leicht zu interpretieren, wenn einige Variablen, die untereinander eine ähnliche homogene Bedeutung haben, hoch auf ihn laden und gleichzeitig die Ladungen der anderen Variablen auf diesen Faktor gering sind.


3. Rotation der Faktorladungen •

Ziel: Interpretationsfähigkeit der Faktoren erleichtern

•

Zwei unterschiedliche Gruppen von Rotationsverfahren –

Orthogonale Rotation (rechtwinklig) Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX)

–

Oblique Rotation (schiefwinklig) Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin) Rotierte Komponentenmatrix a

Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit Kindern.

Komponente 2

1 ,818 ,756 ,570

,801

,667

Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre meistens alleine.

15

3

Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Equamax mit Kaiser-Normalisierung. a. Die Rotation ist in 5 Iterationen konvergiert.

,779 ,645


3. Rotation der Faktorladungen

Auslandsfahrer (fac2_1)

Allein fahrender Berufspendler (fac3_1)

• [+] Ich befahre meistens mir unbekannte Strecken.

• [+] Ich fahre meistens mit meinem PKW in den Urlaub.

• [+] Ich telefoniere viel im Fahrzeug.

• [+] Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland.

• [+] Ich fahre mit meinem Pkw regelmäßig zum Arbeitsplatz.

Berufsfahrer / Außendienst (fac1_1)

• [+] Ich fahre mit meinem Pkw häufig auf der Autobahn.

16

• [+] Ich fahre meistens alleine.


4. Erstellung der Faktorwerte •

Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus –

hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt

–

hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt

•

Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B. Clusteranalyse) zu nutzen

•

SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung der Hauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern

•

Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt:

•

17


–

Zwei Kategorien: -9999 bis 0 / 0 bis 9999

–

Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999

–

Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999

–

etc.

Interpretationsalternative: Runden der Faktorwerte in der Variablenansicht –

0

→ durchschnittlich

–

<= -1

→ unterdurchschnittlich

–

>= +1

→ überdurchschnittlich


Bitte bearbeiten Sie die Aufgaben 1 des 5. Übungsblattes.

18


19

•

Faktorenanalyse

•

Clusteranalyse

Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Clusteranalyse •

Dimensionsreduzierendes oder strukturentdeckendes Verfahren

•

Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen (Cluster) zusammengefasst

•

Ziel:

Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen aufweisen, aber zueinander möglichst heterogen sind

•

Skalenniveau:

abhängig von dem verwendeten Clusterungsverfahren

•

Vier Schritte: 1. Auswahl der Merkmale Anhand welcher Merkmale soll die Gruppenbildung durchgeführt werden

2. Aufbereitung der Daten Daten müssen den Konventionen des jeweiligen Clusterungsverfahrens entsprechen

3. Durchführung der Clusteranalyse Umsetzung in SPSS

4. Interpretation der Ergebnisse Beschreibung der Cluster und Erstellung von Clusterprofilen

20

Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Clusteranalyse •

•

•

21

Hierarchische Clusteranalyse Einzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als ein eigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden. –

Datenmenge:

klein und groß

–

Skalierung:

metrische und nicht-metrische Variablen

–

Vorteil:

sehr differenzierte Steuerung möglich

–

Nachteil:

rechenintensives Verfahren

Clusterzentrenanalyse (Quick-Cluster) Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden. –

Datenmenge:

groß

– –

Skalierung: Vorteil:

metrische Variablen vertretbarer Rechenaufwand bei großen Datenmengen → schneller

–

Nachteil:

Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich; Transparenz bei der Berechnung fehlt

Two-Step-Clusteranalyse Symbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster im ersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt –

Datenmenge:

klein und groß

–

Skalierung:

metrisch und nicht metrische Variablen

–

Vorteil:

automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern

–

Nachteil:

Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise

Statistische Auswertungsverfahren mit SPSS Clusteranalyse

1. Auswahl der Merkmale (Two-Step-Clusteranalyse) •

Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden?

•

Abhängig von der Problemstellung und den zur Verfügung stehenden Daten

Problemstellung: •

Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt → Gibt es Unterschiede im Nutzungsverhalten?

Ausgewählte Merkmale: •

Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3)

•

Geschlecht (ST9)

•

Alter (ST7)

•

Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport)

• Eine Variable (Sport), welche die Anzahl der in Anspruch genommenen Sportangebote enthält, muss noch errechnet werden.

22



2.

Aufbereitung der Daten (Two-Step-Clusteranalyse)

•

Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen

•

Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen –

Standardisierte Werte Standardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt → Mittelwert = 0; Standardabweichung = 1

–

Zufällige Sortierung der Datendatei Sortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil die Fälle sequenziell in die Clusterzuordnung einbezogen werden Syntax: SET SEED 1069800 COMPUTE zufall = UNIFORM (1) . SORT CASES BY zufall . DELETE VARIABLES zufall .

–

Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen)



•

Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test)

•

Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest)

•

Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse)

• Die Two-Step-Clusteranalyse reagiert relativ robust gegenüber Verletzungen der Verteilungsanforderungen und der Unabhängigkeitsbedingung

23


• Fehlende Werte bewirken, dass der betroffene Fall von der Clusteranalyse ausgeschlossen wird → F3_1 – F3_8


3.

Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)

nur stetige Variablen → euklidische Distanz

Distanzmaße stetige und kategoriale Variablen → Log-Likelihood

24



3.

Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)


Sondert Ausreißer in der ersten Clusterstufe aus Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt, aber desto rechenaufwändiger wird das Verfahren

Gruppiertes Balkendiagramm für jede kategoriale Variable und ein Fehlerbalkendiagramm für jede stetige Variable Kreisdiagramm mit prozentualer Verteilung der Fälle auf die Cluster

Maßzahlen für die Cluster

Diagramme, welche die Bedeutung der einzelnen Variablen für die Cluster zum Ausdruck bringen. •

Kategoriale Variablen: Prüft, ob sich die Häufigkeitsverteilung einer Variable signifikant von der Häufigkeitsverteilung aller Fälle unterscheidet

•

Stetige Variablen: Prüft, ob sich der Mittelwert der Variable für ein Cluster vom Mittelwert aller Probanden unterscheidet.

•

Die senkrechte Linie zeigt den kritischen Signifikanzwert

25


4.

Interpretation der Ergebnisse (Two-Step-Clusteranalyse)


Clusterverteilung

Cluster

N

1 2 Kombiniert

Ausgeschlossene Fälle Gesamtwert

% der Kombination 52,8% 47,2% 100,0%

65 58 123 6 129

% der Gesamts umme 50,4% 45,0% 95,3% 4,7% 100,0%

Zentroide

Cluster

1 2 Kombiniert

Alter Standardab Mittelwert weichung 24,38 2,827 21,00 1,835 22,79 2,940

Anzahl der in Anspruch genommenen Sportangebote Standardab Mittelwert weichung ,4769 ,68711 ,9138 1,41774 ,6829 1,11117

Semester 1 Cluster

26

1 2 Kombiniert

3

5

7

9

Häufigkeit 1

Prozent 3,3%

Häufigkeit 0

Prozent ,0%

Häufigkeit 27

Prozent 90,0%

Häufigkeit 31

Prozent 100,0%

Häufigkeit 6

Prozent 85,7%

29 30

96,7% 100,0%

25 25

100,0% 100,0%

3 30

10,0% 100,0%

0 31

,0% 100,0%

1 7

14,3% 100,0%


4.

Interpretation der Ergebnisse (Two-Step-Clusteranalyse) Mit einer Wahrscheinlichkeit von 95% liegt der Mittelwert der Grundgesamtheit in diesem Intervall

27



4.

Interpretation der Ergebnisse (Two-Step-Clusteranalyse)

Alter Geschlecht Semesteranzahl Anzahl der in Anspruch genommenen Sportangebote

Cluster 1

Cluster 2

ø 24 Jahre

ø 21 Jahre

ca. gleichverteilt

ca. gleichverteilt

überwiegend Hauptstudium (5., 7. und 9. Semester)

überwiegend Grundstudium (1. und 3. Semester)

ø 0,5 pro Proband

ø 0,9 pro Proband

Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen

28

Aerobic

15%

9%

Badminton

0%

10%

Basketball

0%

12%

Fechten

0%

3%

Fitness

11%

5%

Fußball

2%

17%

Lauftreff

3%

5%

Volleyball

2%

16%



Bitte bearbeiten Sie die Aufgaben 2 des 5. Übungsblattes.

29


V6

Statistische Auswertungsverfahren mit SPSS Review

Skalenniveaus


Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!

2

Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab

Skalenniveaus

Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!

• Nominal:

Merkmalsausprägungen bilden nur Kategorien und können nicht in eine Rangordnung gebracht werden (z.B. Geschlecht)

• Ordinal:

Merkmalsausprägungen können in Relation interpretiert werden und stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf)

• Metrisch:

(Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der Merkmalsausprägungen sind interpretierbar. Mittelwerte können gebildet werden (z.B. Alter)

3


Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:

4



Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:

1 0 9

5



Häufigkeitsauswertung


Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.

6


Häufigkeitsauswertung

Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben. Meinung zu Rauchverbot in der Cafeteria Ja, finde ich gut Nein, lehne ich ab Ist mir im Prinzip egal

MeinungzuRauchverbot in der Cafeteria

Gültig

Fehlend Gesamt

Ja,finde ich gut Nein,lehne ich ab Istmir im Prinzip egal Gesamt System

Häufigkeit 37

Prozent 28,7

39 23 99 30

30,2 17,8 76,7 23,3

129

100,0



39,4 23,2 100,0

76,8 100,0

23,20% 37,40%

39,40%

7


Lage- und Streuparameter


Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße.

8



Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. Statistiken Alter N Mittelwert Modus Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite

9

Gültig Fehlend

123 6 22,79 21 2,940 8,643 ,821 ,218 ,611 ,433 15




Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. • Mittelwert

Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche Merkmalsausprägung In te rp re ta ti on Erg e bn i s

• Modalwert

Messwert, der in einem Datensatz am häufigsten vorkommt In te rp re ta ti on Erg e bn i s

• Varianz/ Standardabw.

Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringert sich, je näher die Werte um den Mittelwert liegen In te rp re ta ti on Erg e bn i s

• Schiefe

Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen Verteilung Schiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil) In te rp re ta ti on Erg e bn i s

• Kurtosis

Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlauf einer Normalverteilung Kurtosis > 0: hochgipflig; < 0: flachgipflig In te rp re ta ti on Erg e bn i s

• Spannweite

Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe In te rp re ta ti on Erg e bn i s

10


Explorative Datenanalyse


Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm?

11




Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm? Größe Stem-and-Leaf Plot Frequency 1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00

Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 .

8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56

Stem width: 10 Each leaf: 1 case(s)

12




Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis.

13



Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis. Tests auf Normalverteilung a

Größe

Kolmogorov-Smirnov Statistik df Signifikanz ,083 122 ,040

a. Signifikanzkorrektur nachLilliefors

14

Statistik ,981

Shapiro-Wilk df 122

Signifikanz ,083


Datenmodifikation


Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.

15


Datenmodifikation

Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert. Größe

Gültig

158,00 160,00 162,00 163,00 164,00 165,00 166,00 167,00 168,00 169,00 170,00 171,00 172,00 173,00 174,00 175,00 176,00 177,00

Fehlend Gesamt

16

178,00 179,00 180,00 182,00 Gesamt System

Häufigkeit 1 6 1 2

Prozent 1,4 8,3 1,4 2,8

Gültige Prozente 1,4 8,6 1,4 2,9

5 7 2 2 6 3 11 2 2 5 2 2 4 1 2 1 2 1

6,9 9,7 2,8 2,8 8,3 4,2 15,3 2,8 2,8 6,9 2,8 2,8 5,6 1,4 2,8 1,4 2,8 1,4

7,1 10,0 2,9 2,9 8,6 4,3 15,7 2,9 2,9 7,1 2,9 2,9 5,7 1,4 2,9 1,4 2,9 1,4

70 2 72

97,2 2,8 100,0

100,0

Kumulierte Prozente 1,4 10,0 11,4 14,3 21,4 31,4 34,3 37,1 45,7 50,0 65,7 68,6 71,4 78,6 81,4 84,3 90,0 91,4 94,3 95,7 98,6 100,0

Statistiken Größe N

Gültig Fehlend

Mittelwert

70 2 169,1286


Kreuztabelle


Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?

17


Kreuztabelle

Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden? Chi-Quadrat-Tests

MeinungzuRauchverbot inder Cafeteria * Raucher Kreuztabelle

Meinung zu Rauchverbot in der Cafeteria

Ja,finde ich gut

Nein,lehne ich ab

Istmir im Prinzip egal

Gesamt

18

Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher

Nein,ich rauche nicht 30

Raucher Ja,hinund wieder

Ja, regelmäßig 5

1

Gesamt 36

83,3%

13,9%

2,8%

100,0%

69,8% 3

29,4% 8

2,8% 28

37,5% 39

7,7%

20,5%

71,8%

100,0%

7,0% 10

47,1% 4

77,8% 7

40,6% 21

47,6%

19,0%

33,3%

100,0%

23,3% 43

23,5% 17

19,4% 36

21,9% 96

44,8%

17,7%

37,5%

100,0%

100,0%

100,0%

100,0%

100,0%

Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle

Wert

a

Asymptotisch e Signifikanz (2-seitig)

df

48,355

4

,000

57,925

4

,000

13,737

1

,000

96

a. 1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 3,72.


Zusammenhangsmaße


Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).

Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.

19


Zusammenhangsmaße Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch). –

Nominal:

Cramers V

–

Ordinal:

Kendalls Tau-b

–

Metrisch:

Pearsons Korrelationskoeffizient

Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.

Symmetrische Maße

Nominal- bzgl. Nominalmaß

Phi Cramer-V

Anzahl der gültigen Fälle

Wert ,117 ,117 125

a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.

20

Näherung sweise Signifikanz ,428 ,428


Zusammenhangsmaße Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt.

21



Syntax Editor


Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden.

Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter.

22


Syntax Editor


Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden.

Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter. RECODE st2 (MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter . VARIABLE LABELS Filter 'Filtervariable'. EXECUTE .

23


Mittelwertvergleich


Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist?

24


Mittelwertvergleich

Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist? Bericht Größe Geschlecht männlich weiblich Insgesamt

Mittelwert 180,9615

N

169,1286 174,1721

52

Standardab weichung 6,72415

70 122

5,60518 8,45571

Test bei unabhängigenStichproben Levene-Testder Varianzgleichheit

Größe

25

Varianzen sind gleich Varianzen sind nicht gleich

F 1,170

Signifikanz ,281

T-Test für die Mittelwertgleichheit

T 10,586

df

120

Sig. (2-seitig) ,000

Mittlere Differenz 11,83297

10,306

97,950

,000

11,83297

Standardfehle r der Differenz 1,11783 1,14819

95% Konfidenzintervall der Differenz Untere Obere 9,61974 14,04619 9,55441

14,11152


Parametrische und nicht-parametrische Tests


Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht.

26



Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht. Test

Binomialtest


Kolmogorov-Smirnov-Test

T-Test bei einer Stichprobe

27

Skalenniveau

Dichotom

Nominal

Ordinal

Metrisch

Voraussetzungen

Beschreibung

Keine Vorgabe

• •

Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten)

Keine Vorgabe

• •

Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet])

Keine Vorgabe

• •

Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung)

• •

Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?)

Normalverteilung




Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?

Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.

28



Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?

•

Chi-Quadrat-Verteilungstest

Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.

Statistik für Test

Raucher

Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt

29

Beobachtetes N 65 20 40 125

Erwartete Anzahl 41,7 41,7 41,7

Residuum 23,3 -21,7 -1,7

Chi-Quadrat df

a

Asymptotische Signifikanz

Raucher 24,400 2 ,000

a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7.


Faktoren- und Clusteranalyse


Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren.

30




Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren.

1.

Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination

2.

Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren

3.

Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen)

4.

Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt.

31




Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert? Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?

32


Faktoren- und Clusteranalyse Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?

Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?

Erklärte Gesamtvarianz

Komponente 1 2 3 4 5 6 7 8

Gesamt 2,228 1,378 1,010 ,963 ,730 ,623 ,553 ,516

Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734 9,121 78,855 7,792 86,647 6,907 93,554 6,446 100,000

Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694

Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten.

33

Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n


Skript: V1 • • • •

Statistische Methoden / Begrifflichkeiten Skalenniveaus Datenkodierung Variablendefinition in SPSS

Skript: V2 • • • • • •

Häufigkeitsauswertungen Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm) Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis) Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler) Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung) Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern)

Skript: V3 • • •

Kodierung von Mehrfachantworten (2 Methoden) Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest) Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm)

Skript: V4 • • •

Syntax Editor Mittelwertvergleiche Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest)

Skript: V5 • •

34

Grundkenntnisse Faktorenanalyse Grundkenntnisse Clusteranalyse

Statistische Auswertungsverfahren mit SPSS

Recommend Documents