Forschungsmethoden und Evaluation 2:Zusammenfassung

Aus Kognitiv Wiki - Kognition, Neuro, Bio, Psycho Wissen
Zur Navigation springen Zur Suche springen

Forschungsmethoden und Evaluation II

SS 2009

 

 

Diese Zusammenfassung inkludiert alle erforderlichen Kapitel aus dem Buch von Bortz und Döring „Forschungsmethoden und Evaluation“ (4. Auflage) samt der zusätzlichen Literatur aus dem Online-Modul und aller Selftests (inkl. richtiger Antworten) und der Fragen aus dem Online-Modul (ohne Antworten)


Inhaltsverzeichnis

6.  'Modul (Seiten 137 – 149, 154 – 157, 176 – 188, 236 – 277)'

 

4. Quantitative Methoden der Datenerhebung

 

Die Zuordnung einer Untersuchung zur Kategorie der hypothesenerkundenden oder hypothesenprüfenden Untersuchungen hängt nicht vor der Art der erhobenen Daten, sondern ausschließlich vom Stand der Forschung und von der Zielsetzung der Datenerhebung ab.

 

4.1. Zählen

 

Zählen erfordert gelegentlich eine gründliche theoretische Vorarbeit. Zum einen müssen aus der Menge aller Merkmale, die die Untersuchungsobjekte charakterisieren, diejenigen ausgewählt werden, die für die anstehende Frage von Bedeutung sein können. Zum anderen erfordert die Festlegung der Kategorien eine theoretisch begründete Einschätzung der Gewichtung aller für ein komplexes Merkmal wichtigen Teilmerkmale.

 

4.1.1. Qualitative Merkmale

 

Qualitative Merkmale sind nominalskalierte Merkmale, die dichotom (zwei Abstufungen) oder polytom (mehrere Abstufungen) auf treten können. Diese können natürlich auftreten oder künstlich erzeugt sein.

Qualitative Merkmale müssen folgende Bedingungen erfüllen:

           

- Genauigkeitskriterium: Die Kategorien müssen exakt definiert sein

Hier sind präzise definierte operationale Indikatoren für die einzelnen Kategorien nötig, deren Vorhandensein oder nicht über Zugehörigkeit entscheidet.

 

            - Exklusivitätskriterium: Die Kategorien müssen sich gegenseitig ausschließen

Verhindert, dass ein Objekt gleichzeitig mehreren Kategorien zugeordnet werden kann.

 

            - Exhaustivitätskriterium: Die Kategorien müssen das Merkmal erschöpfend

beschreiben

Kategorien müssen so geartet sein, dass jedes Untersuchungsobjekt einer Kategorie zugeordnet werden kann

 

Häufig werden Untersuchungsobjekte nicht nur bezüglich eines, sondern mehrerer Merkmale klassifiziert. Die Auszählung von Merkmalskombinationen führt zu zwei- oder mehrdimensionalen Kreuztabellen bzw. Kontingenztafeln, die darüber informieren, welche Merkmalskategorien häufig gemeinsam auftreten.

 

            4.1.2. Quantitative Merkmale

 

z.B. Körpergröße, Reaktionszeit, Testleistung, Pulsfrequenz (kardinalskalierte Merkmale)

 

Die Beschreibung quantitativer Merkmale beginnt mit eine Urliste, also mit einer Auflistung aller individuellen Merkmalesausprägungen. Um sich ein Bild von der Verteilungsform eines Merkmals zu verschaffen, ist es erforderlich, das Merkmal in Kategorien einzuteilen.

 

 

            4.1.3. Indexbildung

 

Die Zusammenfassung mehrerer Einzelindikatoren bezeichnen wir als Index. Ein Index ist ein Messwert für ein komplexes Merkmal, der aus den Messwerten mehrerer Indikatorvariablen zusammengesetzt wird.

 

Auswahl und Art der Indikatoren

 

Die Qualität eines Merkmals hängt wesentlich davon ab, ob alle relevanten Dimensionen bzw. Indikatoren ausgewählt wurden. Die Auswahl der Dimensionen erfolgt nach Maßgabe theoretischer Überlegungen und empirischer Vorkenntnisse.

 

Zusammenfassung der Indikatoren

 

- Ungewichteter additiver Index

Die einfachste Form der Indexbildung besteht darin, die Ausprägungen der Indikatorvariablen einfach zu addieren bzw. zu mitteln. Dabei legt man zugrunde, dass alle Indikatoren das komplexe Merkmal mit derselben Präzision messen und theoretisch von gleicher Bedeutung sind.

 

- Multiplikativer Index

Wenn ein Index bestimmte Mindestausprägungen auf allen Indikatorvariablen voraussetzt, die sich wechselseitig nicht kompensieren, sollten die Teilindikatoren multiplikativ u einem Gesamtindex verknüpft werden. Erhält nur einer der beiden Indikatoren den Wert Null, so ergibt sich auch für den Gesamtindex der Wert Null.

 

- Gewichteter additiver Index

Dieser ermöglicht eine differenzierte Behandlung der einzelnen Indikatoren. Dabei stehen folgende Techniken zur Verfügung:

 

            Gewichtsbestimmung durch ExpertInnenrating

            Die Gewichtung der Indikatoren wird durch ExpertInnen vorgenommen (normative

Indexbildung).

 

Empirisch-analytische Gewichtsbestimmung

Es besteht die Möglichkeit, die relative Bedeutung der einzelnen Indikatoren empirisch mit Hilfe geeigneter statistischer Analysetechniken zu bestimmen. Beispielsweise mit der Faktorenanalyse oder der multiplen Regressionsrechnung. Die explorative Faktorenanalyse geht von wechselseitigen Zusammenhängen der Einzelindikatoren aus, die als Korrelationen quantifizierbar sind. Nur wenn Variablen untereinander hoch korrelieren, ist es überhaupt sinnvoll, sie als gemeinsame Indikatoren für ein komplexes Merkmal zu verwenden. Die Faktorenanalyse extrahiert nun aus der Korrelationsmatrix einen sog. Faktor, der inhaltlich das Gemeinsame der Indikatoren zusammenfasst. Bei der multiplen Regressionsrechnung wird ermittelt, welche Bedeutung verschiedene Indikatorvariablen für ein bestimmtes Kriterium haben.

Bei beiden muss, vor allem bei kleinen Stichproben, mit ungenauen bzw. instabilen Gewichtsschätzungen gerechnet werden. Große, repräsentative Stichproben, die eine sog. Kreuzvalidierung der Gewichte ermöglichen, sind deshalb bei dieser Art der Gewichtsbestimmung von besonderem Vorteil.

 

Index als standardisierter Wert

Der Begriff „Index“ wird noch in einer zweiten Bedeutung verwendet, nämlich wenn es darum geht quantitative Angaben zu standardisieren, etwa indem man sie zu eine festgelegten Größe in Beziehung setzt. (z.B. Scheidungsindex, Fruchtbarkeitsindex, Pearl-Index = Sicherheit von Verhütungsmitteln)

 

 

4.2. Urteilen

 

Oftmals ist das menschliche Urteilsvermögen dasjenige „Messinstrument“, das allen anderen Messtechniken überlegen ist. Der Nachteil hierbei besteht darin, dass menschliche Urteile sehr subjektiv und störungsanfällig sind.

Die zu behandelnden Messverfahren nutzen die menschliche Urteilsfähigkeit in unterschiedlicher Weise, z.B. über Rangordnungen (Berufe nach Sozialprestige), Ähnlichkeitspaarvergleiche (verschied. Automarken quantitativ einstufen) oder auf der direkten, quantitativen Einstufung von Urteilsobjekten bezüglich einzelner Merkmale wie z.B. durch Verhaltensbeobachtung der Aggressivität im kindlichen Sozialverhalten. Diese Erhebungsarten verlangen subjektive Urteile und sollen deshalb als Urteils- oder Schätzverfahren bezeichnet werden.

 

Subject Centered Approach = subjektive Schätzurteile bei denen die untersuchten Personen angeben, ob bzw. in welchem Ausmaß vorgegebene Behauptungen auf sie zutreffen; informiert über den/die UrteilerIn selbst

Stimulus Centered Approach = Schätzurteile, primär Fremdurteile, d. h. Urteilsgegenstände sind nicht die UrteilerInnen selbst

 

Erfordert eine konkrete Untersuchung menschliche Urteile, sind zwei wichtige Entscheidungen zu treffen:

  1. Es muss gefragt werden, welche spezielle Urteilsleistung für die konkrete Fragestellung verlangt werden soll.
  2. Weitere Verarbeitung der Daten

 

4.2.1. Rangordnungen

 

Direkte Rangordnungen

 

Hierbei wird dem Objekt mit der stärksten Ausprägung der Rang 1 zugewiesen, dem mit der zweitstärksten Ausprägung, der Rang 2 etc. Die so ermittelten Werte stellen eine Rangskala dar.

Objekte mit gleichen Merkmalsausprägungen erhalten sog. Verbundränge.

Durch Transformation kardinaler Daten auf ordinales Datenniveau entsteht eine objektive Rangreihe.

Es wird von einer originären Rangreihe gesprochen, wenn das Merkmal nicht direkt gemessen wird, sondern indirekt durch eine spezielle Rangordnungsprozedur.

Eine subjektive (direkte) Rangreihe gewinnt man durch direkte, ordinale Einschätzung der Merkmalsausprägung.  

 

Methode der sukzessiven Intervalle

 

Übersteigt die Anzahl der zu ordnenden Objekte die Diskriminationsfähigkeit der UrteilerInnen, dann ist die „Methode der sukzessiven Intervalle“ angesagt. Hierbei werden die Objekte in Untergruppen sortiert, wobei das untersuchte Merkmal in der ersten Gruppe am stärksten, in der zweiten Gruppe am zweitstärksten etc. ausgeprägt ist. Die Abstände zwischen den Gruppen sind unerheblich.

 

„Law of Categorical Judgement“

 

Dieses Verfahren transformiert ordinale Urteile über Urteilsobjekte (gemäß der Methode der sukzessiven Intervalle) in intervallskalierte Merkmalesausprägungen der Objekte. Hierbei handelt es sich um eine der wenigen Möglichkeiten, Daten von einem niedrigen Skalenniveau auf ein höheres zu transformieren. Die Grundidee dieses Skalierungsansatzes basiert auf Thurstone (1927). Ergebnisse, die nach dem Law of Categorical Judgement erzielt werden, sind wenig durch nichtnormale Empfindungsstärkenverteilung beeinflusst, allgemein werden allgemein rechtssteile oder linkssteile Urteilsverteilungen begünstigt.

 

            4.2.4. Ratingskalen

 

Mittels Ratingskalen können Urteile erzeugt werden, die intervallskaliert interpretiert werden.

 

Varianten für Ratingskalen

 

Ratingskalen geben markierte Abschnitte eines Merkmalskontinuums vor, die die Urteilenden  als gleich groß bewerten sollen, d.h., man geht davon aus, dass die Stufen der Ratingskala eine Intervallskala bilden.

 

Unipolare Ratingskalen: z.B. Ausmaß der Belästigung durch Lärm, kein Gegensatz, nur Abstufung, vor allem bei Merkmalen mit einem natürlichem Nullpunkt

Bipolare Ratingskalen: z.B. Bewertung ob etwas positiv oder negativ ist; sind durch zwei Gegensätze definiert, höhere Präzision der Urteile, da sich die beiden gegensätzlichen Begriffe definieren

Numerische Marken: z.B. gespannt 1 – 2 – 3 – 4 – 5 gelöst; sind knapp und eindeutig, Verwendung nur sinnvoll, wenn ProbandIn abstrakte Darstellungsform versteht

Verbale Marken: verwendeten Begriffe sollen annähernd äquidistante Ausprägungen des Merkmalskontinuums markieren

-       Häufigkeit: nie – selten – gelegentlich – oft – immer

-       Intensität: gar nicht – kaum – mittelmäßig – ziemlich – außerordentlich

-       Wahrscheinlichkeit: keinesfalls – wahrsch. nicht – vielleicht – ziemlich wahrsch. – ganz sicher

-       Bewertung: völlig falsch – ziemlich falsch – unentschieden – ziemlich richtig – völlig richtig

Symbolische Marken: z.B. Smileys L K J - anschaulicher, müssen nicht erst gelesen werden, werden auf einen Blick erfasst, wirken auflockernd

Grafische Ratings: |------------x-----| verzichtet auf Merkmalsabstufungen, sofern Datenerhebung nicht am Computer erfolgt, ist Auswertung sehr erschwert

Skalenverankerung durch Beispiele: Extremposition wird beispielhaft formuliert, hier können sehr gezielt Informationen erfragt werden, häufig in Persönlichkeitspsychologie verwendet

 

Er versucht Schwierigkeiten    3 – 2 – 1- 0 – 1 – 2 – 3            Es reizt ihn,

aus dem weg zu gehen                                                                         Schwierigkeiten

                                                                                                            zu überwinden

 

Bei anderen Ratingskalen werden verschiedene Ausprägungen auch exemplarisch erklärt durch konkrete Falldarstellungen.

 

Die Anzahl der Stufen einer Ratingskala bzw. ob die Stufenanzahl geradzahlig oder ungeradzahlig sein soll, ist ein sehr häufig diskutiertes Problem. Ungeradzahlige Skalen enthalten eine neutrale Mitte und erleichtern damit bei unsicheren Urteilen das Ausweichen – zentral Tendenz. Geradzahlige Skalen erzwingen ein zumindest tendenziell in eine Richtung weisendes Urteil.

Ambivalenz-Indifferenz-Problem: Schwierigkeiten bei der Interpretation von Ratingskalen mit neutralen Antwortkategorien

 

Messtheoretische Probleme bei Ratingskalen

 

Zum Skalenniveau

Messtheoretische „Puristen“ behaupten, Ratingskalen seinen nicht intervallskaliert, folglich ist die statistische Analyse mittels parametrischer Verfahren nicht zulässig. Andere meinen, dass die Verletzungen der Intervallskaleneigenschaften bei Ratingskalen nicht so gravierend seinen, als das man gänzlich auf parametrische Verfahren verzichten müsste.

Interessanterweise kommen mehrere Studien zu dem Schluss, dass statistische Entscheidungen von der Skalenqualität des untersuchten Zahlenmaterials weitgehend unbeeinflusst bleiben.

 

Einheit und Ursprung von Ratingskalen

Für ein einheitliches Verständnis des Ursprungs einer Skala ist es hilfreich, wenn die Urteilenden vor der eigentlichen Beurteilung sämtliche Untersuchungsobjekte kennenlernen – so können die Kategorien angemessen und korrekt eingestuft werden und Ceiling- und Floor-Effekte vermieden werden.

 

Urteilsfehler beim Einsatz von Ratingskalen

 

Ein generelles Problem bei der Untersuchung von Urteilsfehlern betrifft die Trennung zwischen wahren Merkmalsausprägungen und Fehleranteilen, da die wahren Merkmalsausprägungen in der Regel unbekannt sind, ist es nicht ohne weiteres möglich, Urteilsfehler zu identifizieren.

 

Haloeffekt

Der Haloeffekt beschreibt ein Versäumnis des Urteilers/ der Urteilerin, konzeptuell unterschiedliche und potenziell unabhängige Merkmale im Urteil zu differenzieren. Treten verstärkt auf, wenn das einzuschätzende Merkmale ungewöhnlich, nur schwer beobachtbar oder schlecht definiert ist, bzw. wenn Urteile schnell getroffen werden. Kann reduziert werden, wenn die urteilenden Personen vor der Beurteilung gründliche Informationen über die Bedeutung der einzustufenden Merkmale erhalten.

 

Milde-Härte-Fehler (Leniency-Severity-Fehler)

Hier wird die zu beurteilende Person systematisch entweder zu positiv oder zu negativ eingestuft. Kann vermieden werden, wenn die UrteilerInnen zuvor auf diese Gefahr hingewiesen werden.

 

Zentrale Tendenz (Tendenz zur Mitte)

Bezieht sich auf die Tendenz, alle Urteilsobjekte im mittleren Bereich der Urteilsskala einzustufen bzw. extreme Ausprägungen zu vermeiden. Tritt vor allem auf, wenn die zu beurteilenden Objekte den UrteilerInnen nur wenig bekannt sind. Kann vermieden werden, indem Skalen an Extrembeispielen verankert werden.

 

Rater-Ratee-Interaktion

Bei Personenbeurteilungen können Urteilsverzerrungen in Abhängigkeit von der Position des/der UrteilerIn auf der zu beurteilenden Dimension entstehen. Man unterscheidet einen „Ähnlichkeitsfehler“, der auftritt, wenn UrteilerInnen mit extremer Merkmalsausprägung die Merkmalsausprägungen anderer in Richtung der eigenen verschätzen, und einen „Kontrastfehler“, bei dem UrteilerInnen mit extremer Merkmalsausprägung die Merkmalsausprägungen anderer in Richtung auf das gegensätzliche Extrem verschätzen.

 

Primacy-Recency-Effekt

Urteilsverzerrungen, die mit der sequenziellen Position der zu beurteilenden Objekte (insbesondere den Anfangs- und Endpositionen) zusammenhängen.

 

Weitere Urteilsfehler

 

-       Inter- und Intraklasseneffekt: Merkmalsunterschiede zw. Objekten werden vergrößert, wenn Objekte zu unterschiedl. Klassen/Gruppen gehören und verkleinert, wenn sie zu einer Klasse gehören

-       Fundamentaler Attributionsfehler: Gründe/Ursachen für eigenes Fehlverhalten werden in der Situation gesucht, die Gründe für das Fehlverhalten anderer in deren Charakter

-       „Self-Serving-Bias“: Selbstbeurteilungen werden mit dem Selbstkonzept in Einklang gebracht und fallen eher selbstwertstützend aus

-       „Baseline-Error“: Auftretenswahrscheinlichkeit von Ereignissen wird falsch eingeschätzt, weil man sich nicht an der objektiven Häufigkeit (Baseline) orientiert, sondern irrtümlich besonders prägnante, im Gedächtnis verfügbare oder typische Ereignisse für besonders wahrscheinlich hält

 

Verzerrungen können nicht nur irrtümlich aufgrund der menschlichen Informationsverarbeitung, sondern auch durch willkürliche, bewusst kalkulierte Antwortveränderungen bzw. durch Besonderheiten beim Antwortprozess entstehen, wie z.B. durch stereotypes Ankreuzen oder durch Akquieszenz.

 

Mehrere UrteilerInnen

 

Durchschnittliche Urteile sind reliabler und valider als Individualurteile. Weichen die Urteile verschiedener UrteilerInnen so stark voneinander ab, dass eine Zusammenfassung nicht mehr zu rechtfertigen ist, kann Vergleichbarkeit durch eine sog. z-Transformation der individuellen Urteile hergestellt werden.

 

Besondere Anwendungsformen von Ratingskalen

 

Semantisches Differential

Das semantische Differential ist eine Datenerhebungsmethode, die die konnotative Bedeutung bzw. die affektiven Qualitäten von Begriffen oder Objekten mit Hilfe eines Satzes von 20-30 bipolaren Adjektivpaaren erfasst, hinsichtlich derer das Objekt von UrteilerInnen eingeschätzt wird. Das Ergebnis ist ein für das betreffende Objekt charakteristischer Profilverlauf.

Urteilsgrundlage ist die metaphorische Beziehung bzw. gefühlsmäßige Affinität. Das Instrument eignet sich besonders für die Messung von Stereotypen.

Sprachvergleichende Untersuchungen führen in der Regel zu einem dreidimensionalen System, dem „semantischen Raum“ (EPA-Struktur) mit den Dimensionen Evaluation (Bewertung, angenehm – unangenehm), Potency (Macht, stark – schwach) und Activity (Aktivität, erregend - beruhigend).

 

Es werden neben dem universellen semantischen Differenzial auch gelegentlich kontextspezifische, auf die Besonderheiten der Untersuchungsgegenstände zugeschnittene Polaritätsprofile eingesetzt. Geht es um den Vergleich sehr unterschiedlicher Urteilsobjekte, ist ein universelles semantisches Differential vorzuziehen.

 

Erfahrungsgemäß stößt das semantische Differential bei unvorbereiteten UntersuchungsteilnehmerInnen gelegentlich auf Akzeptanzprobleme, weil die geforderten Urteile sehr ungewohnt sind (ist „Algebra“ eher „großzügig“ oder „sparsam“). Deshalb sollten die TeilnehmerInnen bei den Instruktionen „vorgewarnt“ werden.

 

Grid-Technik

Die Grid-Technik ist eine Datenerhebungsmethode, die das individuelle Konstruktsystem den ProbandInnen ermittelt. Das Ergebnis ist ein für die untersuchte Person charakteristischer Satz von Vergleichdimensionen bzw. Konstrukten, die für das Erleben ihrer personalen Umwelt relevant sind.

Die Anwendung der Standardversion erfolgt in drei Schritten:

-       Auswahl der vergleichenden Objekte: Hier wird in der Regel eine Liste mit sog. Rollen vorgegeben, für die der/die ProbandIn konkrete Personen aus dem Lebensumfeld einsetzt.

-       Erhebung der Konstrukte durch Objektvergleiche: Aus der Menge der Objekte (ca. 10-20) werden nacheinander immer je drei Objekte miteinander verglichen. Der/die ProbandIn soll angeben, in welcher Hinsicht sich zwei der Objekte ähneln und sich vom dritten Unterscheiden. Aus diesem Triadenvergleich wird also ein bipolares Konstrukt erzeugt, Pol und Kontrastpol.

-       Einschätzung jedes Objektes hinsichtlich der Konstruktausprägungen: Nachdem die für die Denkweise der/des ProbandIn typischen Konstrukte ermittelt wurde, geht der/die ProbandIn alle Objekte durch und gibt jeweils auf einer siebenstufigen Ratingskala an, wie stark das Konstrukt auf jedes Objekt zutrifft.

 

Das Erstellen eines Grids dauert pro Person ca. 2 Stunden. Auch hier ist eine sorgfältige Instruktion nötig, da die geforderten Urteile für die meisten ProbandInnen ungewohnt sein dürften.

Die Grid-Technik ist äußerst flexibel und lässt sich vielfältig variieren. Sie verbindet qualitative und quantitative Strategien: Die Konstrukte selbst werden unstandardisiert erhoben und die Merkmalsausprägungen der Objekte sind quantitative Urteile auf Ratingskalen.

Zudem kann man sog. Grid-Maße berechen: Das Salienzmaß gibt bespielsweise an, wie stark die Werte um den neutralen Nullpunkt streuen. Die sog. Schiefe gibt an, ob bei den Urteilen eher der Initialpol oder der Kontrastpol bevorzugt wurde. Mit Hilfe der formalen Begriffsanalyse können die begrifflichen Strukturen der Konstruktwelt als Liniendiagramme dargestellt werden.

 

            4.4. Befragen

 

Der wichtigste Unterschied zwischen schriftlichen und mündlichen Befragungen liegt in der Erhebungssituation. Schriftliche Befragungen erleben die Befragten als anonymer, was sich günstig auf die Bereitschaft zu ehrlichen Angaben und gründlicher Auseinandersetzung mit der erfragten Problematik auswirken kann.

 

4.4.1. Mündliche Befragung

 

Formen der mündlichen Befragung

 

Interviews unterscheiden sich

1.)   nach dem Ausmaß der Standardisierung (strukturiert – halb strukturiert - unstrukturiert)

2.)   nach dem Autoritätsanspruch des/der InterviewerIn (weich – neutral – hart)

3.)   nach der Art des Kontaktes (direkt – telefonisch – schriftlich)

4.)   nach der Anzahl der befragten Personen (Einzelinterview – Gruppeninterview – Survey)

5.)   nach Anzahl der InterviewerInnen (einE InterviewerIn – Tandem – Hearing)

6.)   nach der Funktion (ermittelnd - vermittelnd)

 

1.) Standardisierung

Standardisierte oder vollstrukturierte Interviews: Wortlaut und Abfolge gegeben und  verbindlich für InterviewerIn, präzise formulierte Fragen, möglichst kurz zu beantworten, eignet sich für klar umgrenzte Themenbereiche, über die bereits detaillierte Vorkenntnisse vorhanden sind

Halb- oder teilstandardisierte Interviews: teils offene, teils geschlossene Fragen und mit unterschiedlicher Standardisierung der Interviewdurchführung

Nichtstandardisierte (unstrukturierte/qualitative) Interviews: lediglich ein thematischer Rahmen vorgegeben, Gesprächsführung ist offen, Äußerungen der Befragten werden mitprotokolliert, Persönlichkeit des/der InterviewerIn von ausschlaggebender Bedeutung, vor allem bei explorativen Studien und bei schwierigen Themen, die den Befragten unangenehm sind, bewährt

 

2.) Autoritätsanspruch des/der InterviewerIn

Weich: basiert auf Prinzipien der Gesprächspsychotherapie, betont einfühlsame, entgegenkommende und emotional beteiligte Gesprächsführung, Hoffnung so den Befragten Hemmungen zu nehmen und aufrichtige Antworten zu erhalten

Neutral: betont die informationssuchende Funktion des Interviews sieht Befragte und InterviewerIn als gleichwertige Partner, InterviewerIn freundlich, aber distanziert

Hart: autoritär-aggressive Haltung des/der InterviewerIn, ständiges Anzweifeln der Antworten, rasche, „schnellfeuerartige“ Aufeinanderfolge von Fragen soll mögliche Abwehrmechanismen der Befragten Person überrennen und Versuche zum Leugnen von vornherein unterbinden

 

3.) Art des Interviewkontaktes

Persönliche Interviews werden auch „Face-to-Face“-Interviews bzw. „Paper-and-Pencil“-Interviews genannt. Weitere Interviewformen basieren auf telefonischem, computervermitteltem oder schriftlichen Kontakt.

Das telefonische Interview ist eine zunehmend beliebter werdende, schnelle und preiswerte Variante. Es wird als anonymer und persönlich weniger bedrängend erlebt. Methodenspezifisch konnte bisher könnte nur festgestellt werden, dass eine Tendenz besteht, sensitive Fragen im Telefoninterview seltener zu beantworten. Es sollte nicht länger als 20 Minuten dauern. Es lassen sich somit nur Gegenstandsbereiche erfragen, die sich schnell erkunden lassen.

Nachteile gegenüber dem persönlichem Interview: Anonymität bringt mit sich, dass persönliche oder die Privatsphäre betreffende Angaben seltener vermittelt werden, situative Merkmale des telefonischen Interviews sind wenig standardisierbar bzw. kontrollierbar.

 

Das Programm CATI (Computer Assisted Telephone Interviewing) stellt eine Hilfe in den Beriechen der Stichprobenauswahl dar. Durch das „Randomized-last-digits“-Verfahren können auch Menschen, die Geheimnummern haben erreicht werden. Die zufällige Auswahl einer Person im Haushalt kann über die „Last-Birthday-Methode“ getroffen werden, bei der die Person verlangt wird, die im Haushalt als letzte Geburtstag hatte.

 

4.) Anzahl der Befragten im Interview

Einzelinterview = Befragung einer Person, begrenzt strukturiert

Gruppeninterview = Befragung mehrerer Personen, eher strukturiert, kann durch konkreten Fragenkatalog schriftlich fixiert werden, erspart kosten, vereinheitlicht, schafft leicht Konkurrenzsituation

Gruppendiskussionsverfahren = Sonderform, des Gruppeninterviews, setzt aktive Gesprächsbereitschaft aller Gruppenmitglieder voraus, von InterviewerIn nur locker gesteuert.

Soziodrama = spezielle Form der Gruppendiskussion, bei der die einzelnen Gruppenmitglieder bestimmte Rollen spielen

 

5.) Anzahl der InterviewerInnen

Einzelinterview = einE InterviewerIn, einE BefragteR, am ökonomischsten, wird am häufigsten verwendet

Tandeminterviews = zwei InterviewerInnen, abwechseln bei Fragen ist möglich, zu Schulungszwecken verwendet

Hearings, Boardinterviews = wenn sich mehrere Personen oder ein Gremium über eine Person sachkundig machen wollen, alle gleich informiert, können sich ergänzen, von befragter Person häufig als belastend/inquisitorisch empfunden, vor allem wenn Bedeutung der gestellten Fragen verborgen bleibt

 

6.) Funktionen des Interviews

Informationsermittelnde Interviews = informatorische I. zur deskriptiven Erfassung von Tatsachen, ZeugenInneninterview, das analytische I. als sozialwissenschaftliches Forschungsinstrument, Panelbefragungen, das Einstellungsinterview zur Personenauswahl, MitarbeiterInnenbefragungen, das diagnostische I. 

Informationsvermittelnde Interviews = Beratungsgespräche jeglicher Art, bei denen Experten zu einem gewünschtem Themenbereich Auskünfte erteilen

 

Aufbau eines Interviews

 

Makro- und Mikroplanung

Die theoretischen Vorarbeiten zu einem Interview beginnen mit der genauen Festlegung des zu erfragenden Themenbereichs und mit dessen Ausdifferenzierung unter Berücksichtigung der einschlägigen Literatur.

Die Makroplanung legt die Abfolge der einzelnen thematischen Teilbereiche fest und bestimmt somit die Struktur des Interviews.

Die Mikroplanung spezifiziert die Inhalte, die zu den einzelnen Themenbereichen erfragt werden sollen und präzisiert in Abhängigkeit von der angestrebten Standardisierung die Fragenformulierungen.

Weiter wichtige Bestandteile der Planung betreffen die Gestaltung der Intervieweröffnung, Übergangs- und Vorbereitungsfragen, sowie Ablenkungs-, „Puffer-„ und „Filterfragen“.

 

Checkliste nach Bouchard (1976) siehe Buch Seite 244 + 245

 

Der/Die InterviewerIn

 

InterviewerInneneffekte

Damit sind Verfälschungen der Untersuchungsergebnisse gemeint, die der/die InterviewerIn – meist unbewusst – verursacht. Diese können bespielsweise Alter, Geschlecht, Aussehen, Kleidung, Einstellungen, Haarmode, Erwartungen der Antworten, etc. betreffen.

 

Der/die „gute“ InterviewerIn

-       muss des Verhalten anderer aufmerksam beobachten und verstehen können

-       muss psychisch belastbar sein

-       muss hohe Anpassungsfähigkeit verfügen

-       muss über eine gute Allgemeinbildung verfügen

-       muss selbstkritisch sein

-       muss eigenes verbales und nonverbales Verhalten unter strenger Kontrolle halten können

 

InterviewerInnenschulung

Müsste folgende Punkte betreffen:

-       Inhaltliche Kenntnisse: InterviewerIn muss über Gegenstände der Befragung gründlich informiert sein

-       Aufbau des Fragebogens: Aufbau und interne Logik des Fragebogens müssen InterviewerIn geläufig sein

-       Dokumentation der Antworten: es muss geübt werden, die Antworten zu protokollieren

-       Verweigerungen: Standardregeln sollten vermittelt werden, wie mit Verweigerungen oder Abbruch umzugehen ist

-       Probeinterviews: Verhaltensregeln sollten geübt werden, Videoaufnahmen sind eine gute Methode, Pannen sollten bei Übungen absichtlich eingebaut werden

 

Die Befragungsperson

 

Erreichbarkeit der InterviewpartnerInnen

Bei Zufallsauswahlen ist immer damit zu rechnen, dass bestimmte relevante Gruppen – möglicherweise systematisch – unerreichbar bleiben. Besonders hohe Erreichquoten erzielen im Haushalt tätige Frauen, Menschen im ländlichen Gebieten und ältere Menschen

 

Interviewverweigerung

Für mündliche Interviews ist damit zu rechnen, dass über 50% aller Ausfälle auf Verweigerung zurückzuführen sind. Zu den VerweigerInnen zählen vor allem alte Menschen, Frauen, Personen mit niedrigem Sozialstatus und geringer Schulbildung, verwitwete, kinderlose, dem Leben gegenüber negativ eingestellte und an Sozialwissenschaften weniger Interessierte.

 

Ablehnung von Fragen

Als Gründe hierfür können Verweigerung, Nichtinformiertheit, Meinungslosigkeit und Unentschlossenheit genannt werden, sowie intime Fragen bzw. Fragen, die nicht verstanden wurden. Besonders häufig kommt es zu Ablehnung von Fragen bei älteren Menschen und Personen mit niedrigem Sozialstatus.

Abhilfe bei Unentschlossenheit kann unter Umständen durch Antwortvorgaben geschaffen werden.

Eine Möglichkeit ist es gleich direkt zu erfragen, ob die frage beantwortet werden möchte, sprich eine Nichtbeantwortung zuzulassen. Der Grund für die Nonresponse bleibt zwar verborgen, aber dennoch hat diese Filtertechnik bestimmte Vorteile: Sie verringert die Abbruchgefahr und der/die InterviewerIn erfährt, welche Fragen von wie vielen Personen nicht beantwortet wurden, was bereits für sich ein wichtige Teilergebnis der Untersuchung ist. Es ist davon auszugehen, dass inhaltliche Ergebnisse, die die ausschließlich auf antwortbereiten Personen beruhen, weitaus reliabler sind, als Ergebnisse die auf zufälligen oder gar „erzwungenen“ Antworten basieren.

 

Antwortverfälschungen

Mehr oder weniger bewusste Verfälschungen können auf folgenden Gründen passieren:

-       Bemühen, dem/der InterviewerIn zu gefallen

-       Hawthorne-Effekt (Bewusstsein, bei einer wissenschaftlichen teilzunehmen)

-       Geringe Bereitschaft zur Selbstenthüllung

-       Spezifische Motive zur Selbstdarstellung und Streben nach Konsistenz

-       Antizipation mögliche negativer Konsequenzen nach bestimmten Antworten

-       Konkrete Vermutungen über AuftraggeberIn bzw. über die Untersuchungsziele

 

Es gibt auch Fehler, die direkt mit der Antwortfindung zusammenhängen. Nach Tourangeau (1984, 1987) besteht der kognitive Prozess aus vier Phasen: Interpretation – Erinnern – Urteilsbildung – Antwortformulierung – und jede dieser vier Phasen ist fehleranfällig.

Neben einer uneindeutigen Fragenformulierung sind es häufig Kontext- und Primingeffekte, die unkorrekte Antworten begünstigen, ebenso wie absichtliche Falschangaben.

 

Durchführung eines Interviews

 

Auch äußere Merkmale einer Situation beeinflussen das Interview:

-       Der Terminvereinbarung sollte gut vorbereitet sein

-       Die Umgebung sollte für den/die InterviewteN vertraut sein

-       Es sollten die situativen Bedingungen nach Möglichkeit Standardisiert werden (einheitliche Sitzordnung, gute Beleuchtung, abgeschaltete Rundfunk- und Fernsehapparate, keine ablenkenden Nebentätigkeiten)

-       Es sollte eine entspannte, aufgabenorientierte Gesprächsatmosphäre herrschen

-       Am Ende allgemeine Fragen, um Spannung zu lösen

 

4.4.2. Schriftliche Befragung

 

Schriftliche Befragungen sind kostengünstig, sehr strukturierbar und verzichten auf steuernde Eingriffe der InterviewerInnen. Der Nachteil besteht in der unkontrollierten Erhebungssituation.

 

Fragebogenkonstruktion

 

Bei der Konstruktion eines Fragebogens sind sowohl Prinzipen der Entwicklung von Tests als auch Regeln des mündlichen Interviews zu beachten. Fragebögen können (Test-)Instrumente zur Erfassung klar abgegrenzter Persönlichkeitsmerkmale oder Einstellungen sein. Bei anderen Formen geht es um die Erfassung konkreter Verhaltensweisen der UntersuchungsteilnehmerInnen, um Angaben über das Verhalten anderer Personen oder um Angaben über allgemeine Zustände oder Sachverhalte.

Auswahl der Fragen

Die sprachliche Gestaltung sollte immer auf die Sprachgewohnheiten der zu untersuchenden Zielgruppe ausgerichtet sein.

Ein Hilfsinstrument bei der Generierung von Fragebogenitems stellt die sog. „Facettenanalyse“ dar. Bei dieser Technik wird der inhaltliche Bereich, zu dem Fragen formuliert werden sollen, durch grundlegende, voneinander unabhängige Elemente oder „Facetten“ strukturiert. Aus deren Kombination ergeben sich Fragen, die den interessierenden Gegenstandsbereich vollständig, aber dennoch ökonomisch abbilden.

 

Formulierung der Fragen

Fragen mit Antwortvorgaben sind bei schriftlichen Befragungen der offenen Frageform vorzuziehen. Die Verwendung „geschlossener“ Fragen erleichtert die Auswertung der Fragebögen. Offene Fragen sind heikel hinsichtlich der Objektivität der Auswertung, aber auch aufgrund der Lesbarkeit der Handschriften und aufgrund von oft unvollständigen Antworten.

 

Zur Erkundung von Positionen, Meinungen und Einstellungen sind Behauptungen (Statements), deren Zutreffen die Befragten einzustufen haben, besser geeignet als Fragen. Für die Erkundung konkreter Sachverhalte ist die Frageform besser geeignet.

 

Untersuchungen haben gezeigt, dass ca. 70% aller Wörter wertenden Charakter haben. Es ist darauf zu achten, dass der Fragebogen nicht nur einseitig wertende Formulierungen enthält, sondern dass zum gleichen Gegenstand mehrere Fragen gestellt werden, deren Wertungen sich gegenseitig aufheben.

 

Variablen, die die Zuverlässigkeit von Eigenangaben beeinträchtigen können, sind laut Sieber (1979) Bildung und Beruf, Einstellung zum Untersuchungsthema, Bemühen, sich in einer sozial erwünschtenwerten Weise darzustellen, gefühlsmäßige Blockierungen und absichtliche Verschleierungen.

 

Checkliste und Regeln auf Seite 255

 

Aufbau des Fragebogens

Der Fragebogen sollte immer eine verständliche, die Handhabung eindeutig anleitende Instruktion enthalten. Sozialstatistische Angaben sollten üblicherweise am Anfang erhaben werden und der letzte Teil sollte einfach gehalten werden und überwiegend kurze, leicht zu beantwortende Fragen enthalten.

 

Postalische Befragung

 

Bei postalischen Befragungen müssen die Personen den Fragebogen ohne Mitwirkung des/der InterviewerIn ausfüllen, deshalb ist es notwendig, dass der Fragebogen absolut transparent und verständlich gestaltet ist. Die Anonymität ist hier sehr glaubwürdig. Es ist eine sehr kostengünstige Methode und erfordert wenig Personalaufwand. Nachteile sind die unkontrollierte Erhebungssituation und die höheren Ausfallquoten.

 

Rücklaufquote

Folgende Faktoren erhöhen die Rücklaufquote:

-       Fragebögen über aktuelle, interessante Inhalte

-       Knapp formulierte, leicht verständliche Fragen

-       Ansprechendes Layout

-       Ankündigungsschreiben oder –telefonate

-       Wen Glaubhaft gemacht werden kann, dass mögliche Konsequenzen der Untersuchung in einem Interesse liegen

-       Angabe einer Rücksende-Deadline samt frankiertem Rücksendeumschlag

-       Finanzielle Anreize (Incentives)

·      Betrag von 5 € nicht überschreiten

·      Nichtmonetäre Incentives sollten zielgruppengerecht sein – weniger wirksam als Bargeld

·      Müssen mit der ersten Versandaktion übergeben werden

·      Beschleunigen Rücklauf + tragen zur Qualitätsverbesserung der Daten bei

 

Innerhalb der ersten 10 Tage nach Versand der Fragebögen kommen 70 – 80% der antwortwilligen Befragten zurück.

 

Nach Erhalt ist eine sorgfältige quantitative und qualitative Analyse der Rückläufe nötig. Antwortende zeichnen sich tendenziell durch eine bessere Ausbildung, einen höheren Bildungsstatus, durch mehr Intelligenz und durch ein stärkeres Interesse am Untersuchungsthema aus.

 

Die vier Methoden für die qualitative Kontrolle der Rückläufe nach Binder et al. (1979)

-       Gewichtungsprozeduren (statistische Daten der AntworterInnen werden mit den statistischen Daten der Zielpopulation verglichen)

-       Sozialstatistik der NichtantworterInnen (Nachbefragungen sollten die wesentlichen Sozialdaten der NichtantworterInnen erhoben werden)

-       Vergleich von Sofort- und SpätantworterInnen (Gibt es systematische Differenzen, dann ist nicht auszuschließen, dass in weiterer Folge noch größere Unterschiede zu NichtantworterInnen bestehen)

-       Befragungen im Panel (Es wird dieselbe Stichprobe mehrmals befragt)

 

Computervermittelte Befragung

 

Über computervermittelte Befragungen lassen sich gut räumlich verstreute Personen erreichen und sind sehr kostengünstig. Onlinebefragungen lassen sich danach unterscheiden welcher Netzdienst zur Verteilung des Fragebogens eingesetzt wird – www, E-Mail, Chat – und welche Form der Stichprobenziehung erfolgt –Zufallsstichprobe, Ad-hoc-Stichprobe, Klumpenstichprobe, Vollerhebungen.

Ist man an einer Ad-hoc-Stichprobe interessiert, kann man den Fragebogen einfach in Netz stellen und alle die zufällig auf ihn stoßen, können ihn bearbeiten.

Ist mahn an einer probabilistischen Stichprobenkonstruktion interessiert, wird man den Fragebogen eher per E-Mail an gezielte Personen schicken. 

Mutmaßungen darüber, dass Personen bei Onlineumfragen besonders häufig Falschangaben machen, haben sich in Vergleichsstudien nicht bestätigt.

 

Delphi-Methode

 

Die Delphi-Methode ist eine spezielle Form der schriftlichen Befragung. Es handelt sich hierbei um eine hochstrukturierte Gruppenkommunikation, deren Ziel es ist, aus den Einzelbeiträgen der an der Kommunikation beteiligten Personen Lösungen für Probleme zu erarbeiten. Im Vordergrund steht die Nutzung der Kenntnisse mehrerer Sachverständiger zur Optimierung von Problemlösungen-

 

            4.5. Beobachten

 

Wenn dezidiert von Beobachtungsmethoden die Rede ist, dann ist damit Beobachtung im engeren Sinne als Sammeln von Erfahrung in einem nichtkommunikativen Prozess mit Hilfe sämtlicher Wahrnehmungsmöglichkeiten gemeint.

Der Vorteil von Beobachtungsmethoden gegenüber anderen Datenerhebungsmethoden kommen zum Tragen, wenn

-       man damit rechnen muss, dass verbale Selbstdarstellungen der UntersuchungsteilnehmerInnen das interessierende Verhalten bewusst oder ungewollt verfälschen

-       man befürchtet, dass die Untersuchungssituation das interessierende Verhalten beeinträchtigt

-       man in einem neuen Untersuchungsterrain erste Eindrücke und Informationen sammeln möchte

-       man für die Deutung einer Handlung das Ausdrucksgeschehen des Handelnden heranziehen will.

 

4.5.1. Alltagsbeobachtung und systematische Beobachtung

 

Kriterien der systematischen Beobachtung

 

Im Unterschied zur Alltagsbeobachtung, die nach individuellen Interessen und Werten mehr oder weniger beliebig vonstatten geht, setzt die systematische Beobachtung einen genauen Beobachtungsplan voraus, der vorschriebt

-       was zu beobachten ist

-       was für die Beobachtung unwesentlich ist,

-       ob bzw. in welcher Weise das Beobachtete gedeutet werden darf,

-       wann und wo die Beobachtung stattfindet und

-       wie das Beobachtete zu protokollieren ist

 

Wir sprechen von systematischer Beobachtung, wenn bestimmte zu beobachtende Ereignisse zum Gegenstand der Forschung gemacht und Regeln angegeben werden, die den Beobachtungsprozess so eindeutig festlegen, dass die Beobachtung zumindest theoretisch nachvollzogen werden kann.

 

Modellierungsregeln

 

Die systematische Beobachtung ist durch folgende, an inhaltsanalytischen Techniken orientierten, Regeln gekennzeichnet:

-       Selektion (Auswahl bestimmter Beobachtungsgegenstände)

-       Abstraktion (Ereignis wird aus seinem jeweiligen konkretem Umfeld herausgelöst)

-       Klassifikation (bezeichnet den Vorgang der Zuordnung von Zeichen und Symbolen zu den bestimmten Ereignis- oder Merkmalsklassen)

-       Systematisierung (besteht darin, die mit Zeichen, Zahlen oder Begriffen kodierten Einzelbeobachtungen zu einem übersichtlichen Gesamtprotokoll zusammenzustellen)

-       Relativierung (spricht Überlegungen an, die sich auf den Aussagegehalt des Untersuchungsmaterials bzw. dessen Integration in einen breiteren theoretischen Rahmen beziehen)

Der Aussagegehalt ist gefährdet, wenn

·      unvorhergesehene Ereignisse den zu beobachtenden Vorgang stark beeinflussen,

·      das beobachtete Geschehen für die eigentliche Fragestellung nur wenig typisch war,

·      der/die BeobachterIn häufig unsicher war, wie das Geschehen protokolliert werden soll,

·      die Anwesenheit des/der BeobachterIn den natürlichen Ablauf des Geschehens offensichtlich störte oder wenn

·      andere Gründe gegen die Eindeutigkeit der Untersuchungsergebnisse sprechen.

 

4.5.2. Formen der Beobachtung

 

Die systematische Beobachtung wurde bereits als die wichtigste Form der wissenschaftlichen Beobachtung dargestellt. Die unsystematische Beobachtung, also Beobachtung, die spontan ohne zuvor festgelegte Regeln abläuft, sollte nicht als von vornherein „unwissenschaftlich“ abgetan werden. Sie kann gelegentlich zu interessanten, neuartigen Ideen anregen.

Weiters unterscheidet man teilnehmende und nichtteilnehmende bzw. offene und verdeckte Beobachtungen. Von teilnehmend wird gesprochen, wenn der/die BeobachterIn selbst teil des zu beobachtenden Geschehens ist und bei offener Beobachtung, wird die Rolle als BeobachterIn nicht verborgen.

 

Teilnehmende oder nichtteilnehmende Beobachtung?

 

Wird der/die BeobachterIn als aktiver Bestandteil des Geschehens akzeptiert ist die teilnehmende Beobachtung eine gute Methode. Der Grad der Systematisierung ist bei der teilnehmenden Beobachtung  meist gering und sie kommt vor allem bei Erkundungsstudien zum Tragen.

Nichtteilnehmende Beobachtung bietet den Vorteil, dass sich der/die BeobachterIn vollständig auf das Geschehen und das Protokollieren konzentrieren kann.

 

Offene und verdeckte Beobachtung?

 

Ein Nachteil der offenen Beobachtung ist, dass die UntersuchungsteilnehmerInnen über Ziel und Zweck der Beobachtung spekulieren und sich möglicherweise konform im Sinne sozialer Erwünschtheit bzw. auch antikonform verhalten. Es empfiehlt sich hierbei in abschließenden Befragungen eventuell erlebte „reaktive Effekte“ zu erkunden.

Sind reaktive Effekte wahrscheinlich und für den Untersuchungsausgang entscheidend, muss eine verdeckte Beobachtung in Betracht gezogen werden, beispielsweise über Einwegscheiben, was allerdings ethisch problematisch ist.

 

Mehrere BeobachterInnen – Apparative, automatische und Selbstbeobachtung

 

Mehrere BeobachterInnen einsetzen, ist eine gute Maßnahme, um das Ausmaß an Subjektivität von Beobachtungen zu kontrollieren.

Apparative Hilfen (Film- und Videoaufnahmen) erleichtern Beobachtungsaufgaben sehr und können immer wieder betrachtet und in Ruhe ausgewertet werden. Problematisch ist hier, dass das Verhalten der beobachteten Personen selten von dem Vorhandensein einer Film- oder Videokamera unbeeinflusst bleibt.

Die Beobachtung computervermittelter Kommunikations- und Interaktionsprozesse ist dadurch erleichtert, dass medienbedingt eine vollständige Augzeichnung des interpersonalen Geschehens möglich ist, ohne dass die Beobachteten den Registrierungsprozess bemerken und ohne das dafür zusätzliche Technik erforderlich ist. Verwendet werden können Mailinglisten, Newsgroups, Chatforen oder Multi User Domains. Es ist eine besonders ökonomische und ökologisch valide Form der Datenerhebung, die allerdings mit etlichen ethischen Problemen behaftet ist.

Selbstbeobachtung eignet sich nicht zur Hypothesenprüfung, wohl aber zur Anregung von Hypothesen.

 

            4.5.3. Durchführung einer Beobachtungsstudie

 

Vorbereitung des Beobachtungsplanes

 

Unter einem Beobachtungsplan versteht man die nach Vorversuchen erstellte Anweisung, wie und was zu beobachten und zu protokollieren ist.

 

Freie Beobachtung

Bei der freien (offenen, unstandardisierten, qualitativen) Beobachtung verzichtet man in der Regel auf die Vorgabe von Beobachtungsrichtlinien und wird bei weitestgehend unerforschten Gebieten verwendet. Das Beobachtungsprotokoll sollte eine möglichst umfassende Dokumentation von ganzen Ereignisabläufen und von interessant erscheinenden Einzelheiten sowie eine präzise Schilderung der situativen Bedingungen enthalten. Eigene Ideen und Interpretationen sollten gesondert festgehalten werden.

 

Halbstandardisierte Beobachtung

Ist Angebracht, wenn die Umstände oder Ursachen für das Auftreten eine kritischen Ereignisses näher zu erkunden sind. Hier wird eine zentrierte Beobachtung verlangt, die auf alle mit dem kritischen Ereignis verbundenen Vorgänge abzielt. Das Beobachtungsschema enthält offene Kategorien.

 

Standardisierte Beobachtung

Dieser Plan schreibt genau vor, was zu beobachten und wie das Beobachtete zu protokollieren ist. Das zu beobachtende Geschehen ist im Prinzip bekannt und lässt sich in einzelne Elemente oder Segmente zerlegen, die ausschließlich Gegenstand der Aufmerksamkeit sind. Die Protokollführung sollte so einfach wie möglich gestaltet werden.

 

Ereignisstichprobe oder Zeitstichprobe?

 

Ereignisstichprobe

Hier wird darauf verzichtet, die beobachteten Ereignisse zeitlich zu strukturiert zu protokollieren. Hier wird nur festgestellt, ob und wie oft ein Verhalten, bzw. Verhaltenskombinationen auftreten. Vorteile sind, dass

-       die Ereignisse Bestandteile natürlicher Situationen sind und deshalb auf vergleichbare Situationen verallgemeinert werden können

-       Verhalten nicht fragmentarisch, sondern vollständig in seinem kontinuierlichem Verlauf beobachtet wird

-       Auch Ereignisse untersucht werden können, die relativ selten auftreten

 

Zeitstichprobe

Die Zeitstichprobe gliedert die Beobachtung in feste Zeitabschnitte, z.B. 5-Sekunden-Intervalle, in denen Verhalten notiert wird. Zeitstichproben stellen eine hohe Anforderung an das Konzentrationsvermögen der BeobachterInnen.

Selbsttest Auswertung Modul 6

 

1. Welche Annahmen werden getroffen, wenn "Zählen" als Erhebungsmethode eingesetzt wird?

 

Eine Ordnung der zu interessierenden Objekte bezüglich bestimmter Merkmale ergibt einen Sinn.

x

Die zu zählenden Objekte gleichen einander in bestimmten Merkmalen.

[[File:]]x

Man kann Aussagen über "Gleichheit" und "Verschiedenheit" treffen.

[[File:]]x

Es ist möglich, die interessierenden Objekte mittels Klassifikationen zu ordnen.

[[File:]]x

 

2.) Wie müssen Kategorien gestaltet sein? Sie müssen...

 

exakt definiert sein.

[[File:]]x

plausibel sein.

[[File:]]

eine Restkategorie enthalten.

[[File:]]

in einen theoretischen Kontext eingebunden sein.

[[File:]]

sich gegenseitig ausschließen.

[[File:]]x

das Merkmal erschöpfend beschreiben.

[[File:]]x

 

3.) Die Verwendung ungewichteter additiver Indizes ist an (nicht unproblematische) Annahmen geknüpft. Welche sind das?

 

Die Annahme, dass alle Indikatoren das komplexe Merkmal mit der selben Präzision messen und theoretisch von gleicher Bedeutung sind.

[[File:]]x

Die Annahme, dass sich das Merkmal auf einen einzigen Wert reduzieren lässt.

[[File:]]x

Die Annahme, dass sich die Indikatoren wechselseitig nicht kompensieren.

[[File:]]

 

4.) Was versteht man unter dem Stichwort ,Ambivalenz-Indifferenz-Problem' bei Rating-Skalen mit neutralen Antwortkategorien?

 

Dass Personen, die mittels Rating-Skala antworten sollen, mitunter überfordert sind und deswegen zu ambivalenten Aussagen neigen.

[[File:]]

Dass Personen, die mittels Rating-Skala antworten sollen, mitunter überfordert sind und deswegen zu indifferenten Aussagen neigen.

[[File:]]

Die Schwierigkeit neutrales Antwortverhalten adäquat zu interpretieren.

[[File:]]x

Dass der Untersucher nicht unterscheiden kann, ob eine neutrale Antwort "weder noch" oder "sowohl als auch" bedeutet.

[[File:]]x

 

 

5.) Welche Urteilsfehler kennen Sie bei Rating-Skalen?

 

Halo-Effekt

[[File:]]x

Milde-Härte-Fehler

[[File:]]x

Zentrale Tendenz

[[File:]]x

Primacy-Recency-Effekte

[[File:]]x

 

6.) Was versteht man unter Interviewereffekten?

 

Nicht eindeutig formulierte Fragen.

[[File:]]

Verfälschungen der Untersuchungsergebnisse, die durch die befragte Person verursacht werden.

[[File:]]

Unbewusste Verfälschungen der Untersuchungsergebnisse, die durch den Interviewer verursacht werden.

[[File:]]x

Bewusste Verfälschungen der Untersuchungsergebnisse, die durch den Interviewer verursacht werden.

[[File:]]

 

7.) Postalische Befragungen erfordern eine Analyse der eingegangenen Fragebögen, die aus mehreren Schritten bestehen kann. Welche Aspekte können bei dieser Analyse eine Rolle spielen?

 

Ein hoher Fragebogenrücklauf ist besonders wichtig, wenn man befürchten muss, dass antwortende und nichtantwortende Personen sich systematisch unterscheiden.

[[File:]]x

Die Rücklaufquote gibt Auskunft über den Eingang der zurückgesandten Fragebögen.

[[File:]]x

Die Höhe der Rücklaufquote ist vom Thema der Untersuchung abhängig.

[[File:]]x

Die Rücklaufcharakteristik beinhaltet u. a. eine Rücklaufkurve. In ihr wird ersichtlich, wie viele Fragebögen wann eingegangen sind.

[[File:]]x

Die Analyse der Zusammensetzung der Antworterstichprobe ist wesentlich, weil sie Rückschlüsse auf die Repräsentativität der Rücklaufstichprobe zulässt.

[[File:]]x

Gewichtungsprozeduren sind dann angebracht, wenn sich die Antworterstichprobe von der interessierenden Population systematisch unterscheidet und dadurch ein verzerrtes Antwortverhalten vermutet wird.

[[File:]]x

 

 

Lesen Sie folgende Aufträge und diskutieren Sie im Diskussionsforum oder in Ihrer Gruppe zwei Fragen:
A) Was ist jeweils die AV ist und wie kann diese operationalisiert werden?
B) Sie haben in der Literatur einen Einblick erhalten in die Datenerhebungsmethoden Zählen, Urteilen, Befragen und Beobachten. Außerdem haben Sie sich im Laufe Ihres Studiums ausführlich mit der Methode des Testens beschäftigt. Welche dieser Methoden erscheinen für die vorliegenden Evaluationen sinnvoll und durchführbar?

Evaluationsauftrag I
Das YESWECAN-Projekt realisiert in einer Kleinkindbetreuungsgruppe (halbtägliche Betreuung von 20-30 Kindern im Alter von 1-3 Jahre) verschiedene pädagogische Reformideen. Demnächst ist es das Ziel der Betreuerinnen und Betreuer, durch bestimmte pädagogische Maßnahmen (u.a. Sanktionierungen) Streit- und Aggressionsverhalten der Kinder zu minimieren. Sie als EvaluatorInnen sind beauftragt, diese Maßnahmen summativ zu evaluieren.

 

Evaluationsauftrag II
Eine Fahrschule bietet ein neues Schulungskonzept zur Erlangung des Motorradführerscheins an. Diese neue Schulung umfasst weniger Ausbildungs- und Übungsstunden, dennoch sollen die FahrschülerInnen danach die Verkehrsregeln besser beherrschen und sicherer fahren. Sie als EvaluatorInnen sind nun beauftragt, dieses Schulungskonzept summativ zu evaluieren.

 

Evaluationsauftrag III
Eine Postfiliale schickt ihre MitarbeiterInnen in den Fortbildungskurs Just-BE-NICE, in dem sich die Postbeamten einen freundlicheren, dienstleistungsadäquaten Umgang mit Postkunden antrainieren sollen. Wiederum ergeht an Sie der Auftrag, den Kurs summativ zu evaluieren.

 

Stellen Sie schriftlich dar, welche Erhebungsmethoden Sie in den Evaluationen einsetzen würden und wie die Datenerhebung ablaufen sollte. Setzen Sie in jeder der drei Evaluationen jeweils ZWEI verschiedene Erhebungsmethoden ein. Insgesamt sollten alle oben genannten Methoden (Zählen, Urteilen, Befragen, Beobachten, Testen) Verwendung finden.

Gehen Sie anschließend kurz noch auf folgende Fragen ein:

  • Welche Vorteile und Nachteile/Grenzen haben die einzelnen Methoden?
  • Unter welchen Rahmenbedingungen (verfügbare Zeit für die Durchführung; Anzahl relevanter Personen; Erreichbarkeit relevanter Personen etc.) ist welche Erhebungsmethode sinnvoll?

Bedenken Sie bei der Bearbeitung, dass es nicht auf den Umfang ankommt, sondern auf die Klarheit der Gedanken und die Nachvollziehbarkeit.

   

7.  'Modul (Seiten 528 – 540, 547 – 568, 600 – 608, 626 – 628, Mittelwertsvergleiche, Reliabilitätsanalyse, Faktorenanalyse)'

 

Zweigruppenpläne

 

Generell sollte bei der statistischen Überprüfung von Unterschiedshypothesen der t-Test verwendet werden, bzw. wenn die Voraussetzungen verletzt sind auf z.B. U-Test ausweichen.

 

Experimentelle Untersuchungen

Bei einem Zweigruppenplan arbeitet man mit einer zweifach gestuften unabhängigen Variablen und eine abhängigen Variablen. Der Zweigruppenplan ist der einfachste einfaktorielle Plan. Bei den zwei Gruppen kann es sich um eine Treatment und Kontrollgruppe handeln oder um zwei Treatmentgruppen.

 

Quasiexperimentelle Untersuchungen

Vor allem bei quasiexperimentellen Untersuchungen besteht die Gefahr, dass die unabhängige Variable mit anderen, für die abhängige Variable bedeutsamen Variablen konfundiert ist.

 

Extremgruppenvergleich

Eine spezielle Variante des quasiexperimentellen Zweigruppenplanes stellt der sog. Extremgruppenvergleich dar. Hierbei werden UntersuchungsteilnehmerInnen berücksichtigt, die bezüglich einer kontinuierlichen, unabhängigen Variable besonders hohe oder niedrige Ausprägungen haben. Extremgruppenvergleiche sollten nicht zu den hypothesenprüfenden Untersuchungen, sondern zu den explorativen Studien gezählt werden, denn sie erkunden letztendlich nur, ob eine unabh. Variable potentiellen Erkärungswert für eine abh. Variable hat. Sie stehen auf der gleichen Stufe wie Korrelationsstudien, die den mittleren Bereich einer Variablen außer acht lassen, folglich überschätzen ihre Ergebnisse die Bedeutung der untersuchten unabh. Variable. Hier sollte zum Auswerten nicht der t-Test, sondern ein parameterfreies Verfahren verwendet werden.

 

Mehrgruppenpläne

 

Bei einem Mehrgruppenplan arbeitet man mit einer mehrfach gestuften unabhängigen Variablen und einer abhängigen Variablen. Der Mehrgruppenplan ist ein einfaktorieller Plan. Die statistische Überprüfung erfolgt mit Hilfe der einfaktoriellen Varianzanalyse. Zusätzlich kann man mit Hilfe der sog. Einzelvergleiche oder Kontraste überprüfen, ob sich bestimmte Treatments signifikant voneinander unterscheiden. Hierbei werden A-priori-Einzelvergleiche, die die Formulierung gezielter Einzelbergleichshypothesen vor der Untersuchung voraussetzen, und A-posteriori-Einzelvergleiche unterschieden, mit denen man im Nachhinein feststellt, welche Treatments sich signifikant voneinander unterscheiden. Ist nicht nur die abh. Variablen, sondern auch die unabh. Variable intervallskaliert, können sog. Trendtests, mit denen die Hypothese überprüft werden kann, ob sich die abh. Variable linear zur unabh. Variable verändert, eingesetzt werden.

 

Faktorielle Pläne

 

Bei einem faktoriellen Plan arbeitet man mit mehr als einer unabh. Variable und einer abh. Variable. Enthält ein faktorieller Plan zwei unabh. Variablen, spricht man von einem zweifaktoriellen Plan; enthält er drei – dreifaktorieller Plan, usw. …. Faktorielle Pläne tragen insoweit zur Erhöhung der internen Validität bei, als sie die abh. Variable durch Berücksichtigung von Interaktionen besser erklären als die Haupteffekte einfaktorieller Pläne.

 

Zweifaktorielle Pläne

Kontrolliert gleichzeitig die Bedeutung von zwei unabh. Variablen  (Faktoren) für eine abh. Variable, zusätzlich informiert dieser Plan über die Kombinationswirkung (Interaktion oder Wechselwirkung) der beiden unabh. Variablen. Erste unabh. Variable q, zweite unabh. Variable p – folglich q x p mögliche Faktorstufenkombinationen.

 

Ein zweifaktorieller Plan wird mit einer zweifaktoriellen Varianzanalyse interferenzstatistisch ausgewertet. Dabei kann man Hypothese über drei Effekte prüfen: Haupteffekt A, Haupteffekt B und die Interaktion erster Ordnung A x B.

 

Haupteffekte und Interaktionen

Charakteristisch für eine Interaktion ist, dass die Wirkung eines Faktors auf die abh. Variable von der Ausprägung des andern Faktors abhängt. Ein signifikanter Interaktionseffekt AxB in der Varianzanalyse besagt, dass beide Faktoren nicht einfach additiv, sondern in anderer Weise zusammenwirken.

 

Um die Art des Zusammenwirkens zweier Faktoren sichtbar zu machen, fertigt man ergänzend zur Tabelle der Zellenmittelwerte sog. Interaktionsdiagramme an, in die jeweils alle Zellenmittelwerte einzutragen sind.

Wenn keine Interaktion vorliegt und die Faktoren „nur“ additiv zusammenwirken, sind die im Interaktionsdiagramm abgetragenen Grafen parallel. Je stärker die von der Parallelität abweichen, desto eher spricht die für das Vorliegen eines Interaktionseffektes.

 

Wenn eine Interaktion vorliegt, lassen sich drei Typen von Interaktionen unterscheiden:

- die ordinale Interaktion ist dadurch gekennzeichnet, dass die Grafen in beiden Interaktionsdiagrammen zwar nicht parallel, aber doch gleichsinnig verlaufen (z.B. beide aufsteigend, beide abfallend)

- bei der hybriden Interaktion dagegen verlaufen die Grafen nur in einem Interaktionsdiagramm gleichsinnig, im anderen nicht

- wenn in beiden Interaktionsdiagrammen die Grafen nicht gleichsinnig verlaufen, spricht man von disordinaler Interaktion.

 

Wenn keine Interaktion oder ordinale Interaktion vorliegt, darf man signifikante Haupteffekte global interpretieren und dabei über die Stufen des anderen Faktors hinweg generalisieren. Bei der hybriden Interaktion kann nämlich nur ein Faktor global interpretiert werden. Bei einer disordinalen Interaktion kann keiner der beiden Faktoren global interpretiert werden.

 

Kontrollfaktoren

Häufig steht bei zweifaktoriellen Untersuchungsplänen nur eine Hypothese im Vordergrund und der zweite Faktor wird zu Kontrollzwecken eingeführt.

 

„Randomized Block Design“ = Die UntersuchungsteilnehmerInnen werden bezüglich einer personengebundenen Störvariablen in möglichst homogene Gruppen (Blöcke) eingeteilt. Neben einem Faktor wird ein zweiter (Kotroll-)Faktor berücksichtigt. Auf Grund dessen ist derjenige Varianzanteil der abh. Variable, der auf die zweite Variable bzw. die Interaktion der beiden Faktoren zurückgeht, varianzanalytisch bestimmbar und somit nicht mehr auf die Faktoren zurückzuführen.

 

Drei- und mehrfaktorielle Pläne

In faktoriellen Plänen können auch drei oder mehr Faktoren (unabhängige Variablen) sowie deren Interaktionen simultan kontrolliert werden. Bei vollständigen, mehrfaktoriellen Plänen ist darauf zu achten, dass die Stufen eines jeden Faktors mit den Stufen aller anderen Faktoren kombiniert werden und dass unter jeder Kombination eine Zufallsstichprobe des Umfanges n untersucht wird. Die Anzahl der benötigten UntersuchungsteilnehmerInnen nimmt mit wachsender Faktorenzahl exponentiell zu (ein dreifaktorieller Plan mit jeweils zwei Stufen benötigt 2³ x n UntersuchungsteilnehmerInnen, …)

Dreifaktorielle Pläne werden ebenfalls varianzanalytisch ausgewertet und es können sieben voneinander unabhängige Hypothesen untersucht werden (drei Haupteffekte A, B, C; drei Interaktionen erster Ordnung AxB, AxC, BxC; eine Interaktion zweiter Ordnung AxBxC).

 

Wir sprechen von einer Interaktion 2. Ordnung, wenn die Art der Interaktion zwischen 2 Faktoren (Interaktion 1.Ordnung, z.B. AxB) von den Stufen eines 3.Faktors (Faktor C) abhängt.

 

Solomon-Viergruppenplan

Der Solomon-Viergruppenplan stellt eine Erweiterung des klassischen experimentellen Pretest-Posttest-Designs dar und dient dazu, die mögliche Wirkung von Pretesteffekten zu überprüfen.

Der Plan erfordert vier randomisierte Gruppen. Die erste Gruppe (PT1) ist eine „klassische“ Experimentalgruppe (Pretest, Treatment, Posttest), die zweite (PT2) ist eine „klassische“ Kontrollgruppe (Pretest-Posttest ohne Treatment), die dritte (PT3) realisiert ein One-Shot-Case-Design (nur Treatment-Posttest) und die vierte (PT4) wird nur einem Posttest unterzogen.

 

Eine Gegenüberstellung der Gruppen 1 und 2 informiert folglich über „reine“ Treatmenteffekte, ein Resultat dieses Vergleichs müsste dem Vergleich von PT3 und PT4 entsprechen.

Der Vergleich von PT2 und PT4 dient der Abschätzung von Pretesteffekten.

Wenn in Erfahrung gebracht werden möchte, ob das Treatment in Kombination mit dem Vortest anders wirkt als ohne Vortest, wären der Durchschnitt von PT2 und PT3 mit PT1 zu vergleichen.

 

Der Solomon-Viergruppenplan lässt sich auch in komplexere mehrfaktorielle Pläne einbauen.

 

            8.2.5. Veränderungshypothesen

 

Experimentelle Untersuchungen

 

Ein Treatment

Veränderungshypothesen werden experimentell, wie Unterschiedshypothesen geprüft, d.h., man stellt per Randomisierung eine Experimentalgruppe und eine Kontrollgruppe zusammen und interpretiert die nach Applikation des Treatment resultierende Differenz auf der abhängigen Variablen als verändernde Wirkung des Treatments.

Pretests sind erforderlich, wenn Zweifel an der korrekten Durchführung der Randomisierungsprozedur bestehen oder die Stichproben zu klein sind, um dem zufälligen Ausgleich personenbedingter Störvariablen in Experimental- und Kontrollgruppe trauen zu können.

 

Equivalence Testing = hiermit kann man feststellen, ob der Unterschied zwischen den Pretestwerten von Experimental- und Kontrollgruppe genügend klein ist, um von äquivalenten Vergleichgruppen sprechen zu können

 

Mehrere Treatments

Komplexere Veränderungshypothesen beziehen sich nicht nur auf die Wirkung eines Treatments, sondern auf die differentielle Wirkung mehrerer Treatments. Auch diese werden experimentell wie Unterschiedshypothesen geprüft.

 

In experimentellen Untersuchungen mit großen Stichproben ist durch die Randomisierung Äquivalenz der zu vergleichenden Gruppen gewährleistet. Man kann deshalb auf Pretestmessungen verzichten und hypothesenkonforme Posttestunterschiede als Bestätigung der Veränderungshypothese interpretieren.

 

Mehrere Messungen

Häufig reicht es nicht, die veränderte Wirkung eines Treatments mit nur einer Posttestmessung nachzuweisen, sondern es werden mehrere benötigt.

Man muss allerdings bei wiederholten Messungen einer abhängigen Variablen mit Transfereffekten (Ermüdung, Lerneffekte, Motivationsverlust etc.) rechnen, die die eigentliche Treatmentwirkung verzerren können.

Wenn bei wiederholter Untersuchung der UntersuchungsteilnehmerInnen Transfereffekte drohen, sollte ein Blockplan eingesetzt werden. Die k-fache Messung einesR UntersuchungsteilnehmerIn wird hierbei durch Einzelmessungen von k UntersuchungsteilnehmerInnen ersetzt, wobei die k UntersuchungsteilnehmerInnen eines Blocks parallelisiert sind (Matched Samples) und zufällig den k Messzeitpunkten zugeordnet werden. Die Blöcke werden zufällig der Experimental- bzw. Kontrollbedingung zugeordnet.

 

Für die statistische Auswertung dieses Blockplanes oder eines Messwiederholungsplanes wird üblicherweise eine spezielle Variante der Varianzanalyse, die Varianzanalyse mit Messwiederholung („Repeated Measurements Analysis“) eingesetzt.

 

Veränderungshypothesen, die mit zweifaktoriellen Messwiederholungsplänen überprüft werden, gelten als bestätigt, wenn der Haupteffekt „Experimental- vs. Kontrollgruppe“ signifikant ist oder die Interaktion zwischen dem Gruppierungsfaktor und dem Messwiederholungsfaktor statistisch bedeutsam ist.

 

Kontrolle von Sequenzeffekten

Durchläuft dieselbe Person nacheinander mehrer Untersuchungsbedingungen, können Sequenzeffekte auftreten. Diese Möglichkeit lässt sich durch einen Vergleich verschiedener Abfolgen der Untersuchungsbedingungen prüfen.

 

Quasiexperimentelle Untersuchungen

 

Veränderungshypothesen, die sich auf Populationen beziehen, aus denen keine äquivalenten Stichproben entnommen werden können („natürlich gewachsene“ Gruppen), überprüft man mit quasiexperimentellen Untersuchungen.

 

Fragestellungen und Probleme

Hypothesen, die behaupten, eine abhängige Variable verändere sich im Laufe der Zeit ohne eine konkret zu benennende Treatmentwirkung, werden mit einfachen Eingruppenplänen überprüft (z.B. Das Konzentrationsvermögen von Kindern ist morgens höher als abends). Für die Überprüfung derartiger Hypothesen benötigt man wiederholte Messungen eine Zufallsstichprobe aus der Population, auf dies sich die Hypothese bezieht. Die interne Validität derartiger Eingruppenpläne zur Überprüfung zeitbedingter Veränderungen ist in der Regel gering.

Ähnliche Schwierigkeiten bereiten Untersuchungen, die die Wirkung eines „Treatments“ überprüfen, von dem all potenziellen UntersuchungsteilnehmerInnen betroffen sind (z.B. gesetzgeberische Maßnahme). Hier gibt es folglich keine „nicht behandelte“ Kontrollgruppe, d.h. die interne Validität ist problematisch. Falls möglich, sollte man viele Messzeitpunkte vor und nach der Einführung der Maßnahme untersuchen und diese mit zeitanalytischen Methoden auswerten.

Ebenfalls nur quasiexperimentell können Hypothesen geprüft werden, die behaupten, dass eine Maßnahme in verschiedenen, real existierenden Populationen unterschiedlich verändernd wirkt, denn eine zufällige Zuordnung der UntersuchungsteilnehmerInnen zu diesen Populationen ist nicht möglich.

 

Vortests sind in quasiexperimentellen Untersuchungen unabdingbar, da auf Randomisierung verzichtet werden muss und somit Ausgangswerte der Stichproben nicht gleich sein müssen. Vortests in quasiexperimentellen Untersuchungen haben die Funktion, Unterschiede zwischen den Stichproben zu Beginn der Untersuchung festzustellen.

 

Will man überprüfen, ob eine Maßnahme in verschiedenen Populationen unterschiedlich wirkt, muss die abhängige Variable in den entsprechenden Stichproben vorgetestet werden. Die treatmentbedingten Veränderungen ermittelt man durch Vergleich von Pre- und Posttestmessungen. Veränderung wird damit in quasiexperimentellen Untersuchungen durch Differenzen zwischen Durchschnittswerten angezeigt, die für eine Stichprobe zu zwei oder mehr Messzeitpunkten ermittelt wurden.

 

Messung von Veränderung

Die Reliabilität von Differenzmaßen ist nicht nur von der Reliabilität der Merkmalserfassung, sondern von vier Einflussgrößen abhängig – nämlich der

Unterschiedlichkeit der wahren individuellen Veränderung (je stärker sich die wahren den di-Werten zugrunde liegenden Veränderungen in einer Stichprobe von Individuen unterscheiden, desto größer ist die Rel. der Differenzwerte; die Streuung der di-Werte ist ein wichtiger Indikator für die Rel. von Differenzmaßen),

Genauigkeit der Messungen (mit zunehmendem Messfehler bzw. mit abnehmender Rel. der Messungen sinkt die Rel. der Differenzmaße) und der

Verteilung der Messzeitpunkte (die Messungen an Anfang und am Ende des Untersuchungszeitraumes sollten häufiger wiederholt werden als im mittleren Bereich) und

Anzahl der Messzeitpunkte (die Rel. der Veränderungsmaße lässt sich drastisch verbessern, wenn die Anzahl der Messpunkte erhöht wird).

 

Das bedeutet, dass in quasiexperimentellen Untersuchungen in verstärktem Maße auf einfache Pretest-Posttest-Pläne bzw. Pläne mit zwei Messungen verzichtet und man stattdessen Untersuchungspläne mit mehr als zwei Messzeitpunkten vorsehen sollte. Am besten sollte man sich noch auf die die Messzeitpunkte am Anfang und Ende des Untersuchungszeitraumes konzentrieren (25% der gesamten Erhebungszeit sollten auf den Pretest und 75% auf den Posttest entfallen) um die Teststärke eines Pretest-Posttest-Planes beträchtlich zu erhöhen.

 

 

 

 

Regressionseffekte

Bei quasiexperimentellen Untersuchungen zur Überprüfung von Veränderungshypothesen besteht die Gefahr, dass die Ergebnisse durch sog. Regressionseffekte verfälscht werden. Extreme Pretestwerte haben die Tendenz, sich bei einer wiederholenden Messung zur Mitte der Merkmalsverteilung hin zu verändern (Regression zur Mitte) bzw. – genauer – zur größten Dichte.

Die Regression extremer Werte zur Mitte der Verteilung nimmt mit abnehmender Retestreliabilität des Merkmals zu. Die Merkmalsverteilung in der gesamten Stichprobe wird durch den Regressionseffekt nicht verändert. Die Regressionseffekte sind an die Voraussetzung geknüpft, dass die Erstmessungen mit den Veränderungsraten negativ korrelieren.

 

Für die quasiexperimentelle Überprüfung von Veränderungshypothesen lässt sich zusammenfassend feststellen, dass die einfachen Differenzen zwischen den Messungen verschiedener Messzeitpunkte sinnvolle, unverzerrte Schätzungen für „wahre“ Veränderungen darstellen.

Zur Vermeidung von Regressionseffekten sollten die in quasiexperimentellen Untersuchungen eingesetzten Stichproben zufällig aus den zu vergleichenden Populationen ausgewählt werden und die Messungen sollten kardinalskaliert sein.

Will man die differentielle Wirkung eines Treatments an Extremgruppen überprüfen, muss mit Regressionseffekten gerechnet werden.

Es ist von Messskalen abzuraten, die in extremen Merkmalsbereichen begrenzt sind. Extrem hohe Messwerte können sich dann nicht mehr vergrößern (Ceiling- oder Deckeneffekt) und extrem niedrige nicht mehr verkleinern (Floor- oder Bodeneffekt).

 

Untersuchungspläne

 

Einige häufig eingesetzte, quasiexperimentelle Untersuchungspläne:

 

Eingruppen-Pretest-Posttest-Pläne: hier wird eine repräsentative Stichprobe der interessierenden Zielpopulation einmal vor und einmal nach dem Treatment untersucht, die durchschnittliche Differenz auf der abh. Var. gilt als Indikator für die Treatmentwirkung, obwohl praktische alle Störeinflüsse die Veränderung/Nichtveränderung bewirk haben können, interne Validität ist gering, kann durch vorsorgliche Erhebung zeitabhängiger Variablen verbessert werden.

Statistische Auswertung: wird bei zwei Messungen mittels t-Test für abhängige Stichproben und bei mehr als zwei Messungen mittels einfaktorieller Varianzanalyse mit Messwiederholung (parameterfrei: regressionsanalytische Auswertungstechnik oder zeitreihenanalytische Technik) ausgewertet.

 

Zweigruppen-Pretest-Posttest-Pläne: hier wird eine Kontrollgruppe hinzugefügt, erhöht interne Validität, allerdings müssen Vortest durchgeführt werden, da keine Randomisierung durchgeführt wird, interne Validität so lange akzeptabel, solange sich die durchschnittlichen Vortestwerte aus Experimental- und Kontrollgruppe nicht allzu stark unterscheiden, bei großen Diskrepanzen besteht die Gefahr von Regressionseffekten, externe zeitliche Einflüsse, Reifungsprozesse und Testübung wird durch die mitberücksichtigte Kontrollgruppe kontrolliert.

Statistische Auswertung: zweifaktorielle Varianzanalyse mit Messwiederholungen, „Nettoeffekt“ des Treatments wird über die Differenz der Veränderung in der Experimental- und Kontrollgruppe ermittelt, ein statistisch signifikanter „Nettoeffekt“ wird durch eine signifikante Interaktion zwischen dem Gruppenfaktor und dem Messwiederholungsfaktor nachgewiesen.

 

Faktorielle Pretest-Posttest-Pläne: überprüfen differenzielle Wirkungen eines Treatments auf verschiedene Populationen, es werden zunächst aus den jeweiligen Referenzpopulationen Zufallsstichproben gezogen, jede Stichprobe wird in eine Kontroll- und eine Experimentalgruppe aufgeteilt, mit Pretests der abhängigen Var. ermittelt man für alle Gruppen die Ausgangsbedingungen, Unterschiede im Pretest zwischen Experimental- und Kontrollgruppen, die aus derselben Population stammen, sind durch Parallelisierung auszugleichen.

Statistische Auswertung: über alle Pretest und Posttestwerte wird eine dreifaktorielle Varianzanalyse mit Messwiederholung gerechnet.

 

Solomon-Viergruppenplan: mit nicht randomisierten Gruppen, also quasiexperimentell, Einbeziehung der der Gruppen 3 und 4 kann Probleme bereiten, wenn diese nicht äquivalent zu den Gruppen 3 und 4 sind.

 

Regressions-Diskontinuitäts-Analyse (RDA): hier werden Unterschiede zwischen Experimental- und Kontrollgruppe bewusst herbeigeführt, Personen, die einen bestimmten „Cut-off-Point“ einer kontinuierlichen „Assignement-“ oder „Zuweisungs“-Variablen unterschreiten, zählen zur Kontrollgruppe und Personen oberhalb dieses Wertes zur Experimentalgruppe (oder umgekehrt), die Treatmentwirkung liegt vor, wenn die Regressionsgerade zur Beschreibung des Zusammenhanges zwischen der „Zuweisungs“-Variablen und der abh. Var. am „Cut-off-Point“ diskontinuierlich verläuft und gleichzeitig die entsprechende Regression ohne Treatment einen kontinuierlichen Verlauf nimmt, bei einer RDA ist darauf zu achten, dass zwischen der „Zuweisungs“-Variablen und der abh. Var. ein Zusammenhang besteht.

 

Korrelate von Veränderung: Veränderungshypothesen, mit denen behauptet wird, dass die Veränderung eine Merkmals mit einem anderen Merkmal (Drittvariable) korreliert (z.B. Lernfortschritt von SchülerInnen hängt mit Intelligenz zusammen), es werden drei Fälle unterschieden:

·      Die Differenzen stehen in keinem Zusammenhang zu den Eingangswerten (Stärke und Richtung der Veränderung sind von den Vortestmessungen unabhängig), hier überprüft eine Korrelation zw. den Differenzwerten und der Drittvar. die Veränderungshypothese.

·      Die Veränderungen hängen von den Vortestergebnissen ab und diese Abhängigkeit soll bei der Überprüfung der Veränderungshypothese mitberücksichtigt werden, auch hier empfiehlt sich die Berechnung einer Korrelation zw. Differenzen und Drittvariable

·      Es besteht eine Abhängigkeit zwischen den Vortestergebnissen und den Veränderungen, aber diese Abhängigkeit soll unberücksichtigt bleiben, hier bestätigt eine signifikante Partialkorrelation zwischen den Differenzwerten und der Drittvariable unter Ausschaltung des Einflusses der Vortestwerte die Veränderungshypothese.

 

 

 

 

 

 

Allgemeine Designempfehlungen zur Erhöhung der internen Validität quasiexperimenteller Untersuchungen (detaillierte Beschreibung Seite 563):

·      Einsatz mehrerer abhängiger Variablen oder Wirkkriterien

·      Wiederholte Treatmentphasen

·      Wiederholte Pretestmessungen

·      Mehr als zwei Vergleichsgruppen

·      Abgestufte Treatmentintensität

·      Parallelisierung

·      Analyse der Gruppenselektion

·      Konfundierte Merkmale

 

Veränderungshypothesen für Entwicklungen

 

Defizite der quasiexperimentellen Untersuchungen kommen bei einer speziellen Kategorie, bei Untersuchungen zur Überprüfung von Entwicklungshypothesen, besonders deutlich zutage. Gemeint sind vorrangig entwicklungspsychologische Hypothesen mit denen Veränderung in Abhängigkeit vom Alter (Alterseffekte) postuliert wird (weiters auch Zeiteffekte/epochale Effekte und Generationseffekte).

 

Alterseffekte

Um Alterseffekte zu isolieren, müssen die unabh. Var. „Generation“ und „Epoche“ konstant gehalten werden, was nicht möglich ist. Entweder man untersucht Menschen verschiedenen Alters zu einem bestimmten Zeitpunkt (Epoche konstant) – Querschnittsuntersuchung – oder  man untersucht einer Generation über mehrere Altersstufen hinweg (Generation konstant) – Längsschnittuntersuchung/Longitudinalstudie.

 

Querschnittsuntersuchung = vergleicht zu einem Zeitpunkt Stichproben verschiedenen Alters, aus unterschiedlichen Generationen, hier sind Alters- und Generationseffekte konfundiert, werden soweit sie intervallskaliert sind üblicherweise mit der einfaktoriellen Varianzanalyse ausgewertet.

 

Längsschnittuntersuchung/Longitudinalstudie = Variation des Alters wird dadurch erreicht, dass man eine Generationsstichprobe zu verschiedenen Zeitpunkten (verschiedene Alter) untersucht. Führt jedoch nur zu brauchbaren Angaben, wenn epochale Effekte zu vernachlässigen sind, hier sind Alters- und Epocheneffekte konfundiert, hier werden Auswertungsmodelle, die die Abhängigkeit der Messung berücksichtigen angewandt.

 

Weitere Schwächen der Quer- und Längsschnittanalysen:

- Querschnittsuntersuchung:

- Selektive Populationsveränderung: Mit fortschreitendem Alter verändern sich die Stichproben systematisch in Bezug auf einige Merkmale.

- Vergleichbarkeit der Messinstrumente: Die Validität eines Messinstruments kann vom Alter der untersuchten Personen abhängen.

 

- Längsschnittuntersuchung:

            - Ausfälle von Untersuchungseinheiten: Drop-outs

            - Vergleichbarkeit der Messinstrumente: Mit zunehmendem Alter kann sich die

Bedeutung eines Messinstruments verändern.

- Generationsspezifische Aussagen: Die Resultate einer Längsschnittuntersuchung gelten nur für die untersuchte Generation und sind auf andere Generationen nicht ohne weiteres übertragbar.

- Testübung: Die häufige Untersuchung einer Stichprobe birgt die Gefahr, dass die Ergebnisse durch Erinnerungs-, Übungs- der Gewöhnungseffekte verfälscht sind.

- Untersuchungsaufwand: Längsschnittuntersuchungen erfordern einen erheblichen Zeitaufwand.

 

Generationseffekte

Der erste Plan variiert die Generation und hält das Alter konstant. Hierbei muss zwangsläufig auch eine Veränderung der Epochen, in denen untersucht wird, in Kauf genommen werden. Beispielweise werden 10-jährige des Jahrganges 1930 im Jahre 1940 untersucht und 10-jährige des Jahrganges 1940 im Jahre 1950 untersucht, usw. – das Vorgehen wird als Zeitwandelmethode bezeichnet. Hier sind Generation und Epoche konfundiert.

Der zweite Plan variiert Generationen und hält die Epoche (Erhebungszeitpunkt) konstant, vergleicht z.B. im Jahre 1980 Personen der Jahrgänge 1930, 1940, 1950 etc. Diese Untersuchung ist nur möglich, wenn man auch eine Variation des Alters zulässt. Damit entspricht dieser Typus der bereits behandelten Querschnittsuntersuchung.

 

Epochale Effekte

Der erste Plan variiert die Epoche und hält das Alter konstant, d.h. er untersucht z.B. die 10-jährigen im Jahre 1940, die 10-jährigen im Jahre 1959, usw.; damit variieren auch gleichzeitig die Generationen – entsprich somit der Zeitwandelmethode.

Der zweite Plan variiert Epochen und hält die Generationen konstant. Damit muss zwangsläufig auch das Alter variiert werden, so dass die bereits behandelte Längsschnittuntersuchung resultiert.

 

Keiner der sechs Pläne führt somit zu eindeutigen Resultaten, Es ist somit untersuchungstechnisch unmöglich, die Bedeutung einer der drei unabh. Var. Alter, Generation oder Epoche isoliert zu erfassen. Mit den drei „klassischen“ entwicklungspsychologischen Untersuchungsansätzen – Querschnitt, Längsschnitt und Zeitwandel – ist es nicht möglich, Effekte des Alters, der Generation und der Epoche isoliert zu erfassen.

 

Methodische Probleme bei zweifaktoriellen Plänen

Wenn man in einer entwicklungspsychologischen Untersuchung nicht nur eine, sondern zwei unabhängige Var. systematisch variiert, resultieren zweifaktorielle Pläne. Es sind dann drei verschiedene Untersuchungstypen denkbar:

 

„Cohort-Sequential Method“ = Generation und Alter wird systematisch variiert, beide Effekte sind mit epochalen Effekten konfundiert, hier sind Replikationen von Längsschnitt- und Zeitwandeluntersuchungen, Interaktion Generation x Alter kann nur interpretiert werden, wenn Epocheneffekte zu vernachlässigen sind.

 

„Time-Sequential Method“ = Epochen und Alter werden systematisch variiert, sind beide mit Generationseffekten konfundiert, es resultiert ein Plan mit mehreren Querschnitt- und Zeitwandeluntersuchungen, Interaktion Epoche x Alter kann nur interpretiert werden, wenn Generationseffekte zu vernachlässigen sind.

 

„Cross-Sequential Method“ = Epoche und Generation werden systematisch variiert, was zu replizierten Längsschnitt- und Querschnittuntersuchungen führt, Interaktion Epoche x Generation kann nur interpretiert werden, wenn Alterseffekte zu vernachlässigen sind.

 

9. Richtlinien für die interferenzstatistische Auswertung von Grundlagenforschung und Evaluationsforschung

 

Statistische Signifikanz kann nicht allein als Gradmesser des Aussagegehaltes hypothesenprüfender Untersuchungen angesehen werden. Bedeutsame empirische Ergebnisse müssen für Populationsverhältnisse sprechen, die in einer für die Praxis nicht zu vernachlässigenden Weise von den in der H0 behaupteten Populationsverhältnissen abweichen – kurz: signifikante Ergebnisse müssen auch praktisch bedeutsam sein.

 

Der für die Planung empirischer Untersuchungen so wichtige Zusammenhang zwischen der Wahl eines angemessenen Stichprobenumfanges und der Teststärke, also der Wahrscheinlichkeit, eine praktisch bedeutsame H1, auch statistisch absichern zu können, steht im Mittelpunkt der folgenden Ausführungen.

 

Die Nullhypothese ist bei großen Stichproben nicht nur chancenlos, sondern auch in der Regel reine Fiktion (in Forschungsmethoden u Evaluation I behandelt). Eine Hypothese, die behauptet, es gäbe überhaupt keinen Zusammenhang/Unterschied/Wirkung ist eigentlich von vornherein falsch, mit der Folge, dass die Ablehnung einer H0 immer richtig ist, es also keinen α–Fehler gibt.

 

Diese Überlegungen haben zu Good-enough-Prinzip geführt, in dessen Rahmen es wieder Sinn macht von einem α–Fehler zu sprechen. Die Nullhypothese ist hier nämlich keine genau auf „Null“ festgelegt Punkthypothese, sondern eine Bereichshypothese, zu der all jene Parameter zählen, die für eine Bestätigung der Alternativhypothese „nicht gut genug“ sind („Minimum-Effekt-Nullhypothesen“). Diese sind keineswegs bei großen Stichproben chancenlos, denn diese Nullhypothesen sind keine reine Fiktion. Sie können tatsächlich richtig sein, womit auch das α–Fehler-Konzept wieder sinnvoll ist.

 

Bei den Richtlinien für die interferenzstatistische Auswertung von Grundlagenforschung und Evaluationsforschung orientieren wir uns an den Richtlinien, die eine „Task Force on Statistical Inference“ erarbeitet hat. Diese Task-Force wurde von der American Psychological Association eingesetzt und die Ergebnisse sind zusammengefasst im „Publication Manual of the American Psychological Association“. Anlass für die Task-Force war eine jahrzehntelange Kritik am Signifikanztest. Diese Kritik gipfelte in dem Vorwurf, der Signifikanztest sei dafür verantwortlich, dass sich die Psychologie nicht zu einer kumulativen Wissenschaft entwickeln konnte.

 

Unsere Leitlinie wird es sein, den traditionellen Signifikanztest zu ergänzen durch die Angabe von Effektgrößen und deren Konfidenzintervalle, sowie durch A-priori-Teststärkeanalysen.

 

9.1 Statistische Signifikanz und praktische Bedeutsamkeit

 

9.1.1 Teststärke

 

Teststärke ist diejenige Wahrscheinlichkeit, mit der ein Signifikanztest zugunsten von H1 entscheidet, wenn die H1 richtig ist. Es handelt sich also um die Wahrscheinlichkeit eines signifikanten Ergebnisses bei Gültigkeit von H1.

 

 

 

Einflussgrößen, die die Teststärke beeinflussen:

 

-       Signifikanzniveau (erhöht durch die Wahl eines „liberalen“ Niveaus – 0,05 statt 00,1)

-       Effektgröße (erhöht durch größere statt kleineren Effekten)

-       Stichprobenumfang (erhöht durch Untersuchung möglichst großer Stichproben)

 

Wenn das Vorzeichen des Effektes hypothesenkonform ist, hat der einseitige Test eine höhere Teststärke als der zweiseitige.

 

Die H0: μA = μB wird durch jeder Mittelwertsdifferenz xA - xB ≠ 0 (Querstriche für Mittelwert über x fehlen) verworfen, wenn der Stichprobenumfang (n) genügend groß ist. Will man die H0 jedoch nur aufgrund einer praktisch bedeutsamen Differenz vom Betrage xA - xB = d (Querstriche für Mittelwert über x fehlen)  verwerfen, ist es naheliegend, für die Untersuchung einen Stichprobenumfang zu wählen, der gerade die praktisch bedeutsame Differenz d (bzw. alle größeren Differenzen, aber keine kleineren Differenzen) signifikant werden lässt. Der Stichprobenumfang bestimmt bei konstanter Populationsstreuung den Standardmessfehler der Mittelwertsdifferenz. Der Stichprobenumfang ist also so festzulegen, dass ein Standardmessfehler resultiert, der bei einseitige, Test mit α=5% zu einer standardisierten Mittelwertsdifferenz von z=1,65 führt.

Untersuchen wir sehr große Stichproben (die zu einem sehr kleinen Standardmessfehler führen), sind Differenzen denkbar, die weder mit der H0 noch mit der H1 zu vereinbaren sind, weil nicht nur die α-Fehler-Wahrscheinlichkeit, sondern auch die β-Fehler-Wahrscheinlichkeit unter 5% liegen.

 

            9.1.2 Theorie „optimaler“ Stichprobenumfänge

 

Stichprobenumfänge lassen sich reduzieren, wenn aufgrund inhaltlicher Überlegungen ein größeres β-Fehler-Risiko toleriert werden kann. Cohen (1988) ging davon aus, dass die Konsequenzen eines α-Fehlers in der Regel etwas viermal so gravierend sind wie die Konsequenzen eines β-Fehlers. Er empfiehlt ein α/β-Fehler-Verhältnis von 1:4, z.B. α=5% und β=20% - damit resultiert eine Teststärke von 80%.

 

Zusammenfassend: Durch die Festlegung einer Effektgröße sind wir in der Lage, neben dem H0-Parameter auch einen H1-Parameter zu spezifizieren. Damit wird bei einem nichtsignifikanten Ergebnis die β-Fehler-Wahrscheinlichkeit bzw. bei einem signifikanten Ergebnis die α-Fehler-Wahrscheinlichkeit kalkulierbar. Die β-Fehler-Wahrscheinlichkeit bzw. die Teststärke 1 – β hängen jedoch bei vorgegebenem α-Fehler-Niveau und vorgegebener Effektgröße vom Stichprobenumfang ab. Wir wählen eine Stichprobenumfang, der dem Signifikanztest eine Teststärke von 1 – β = 0,8 bzw. 80% verleiht.

 

Ein optimaler Stichprobenumfang gewährleistet, dass ein Signifikanztest mit einer Wahrscheinlichkeit von 80% zu einem signifikanten Ergebnis führt, wenn die spezifische H1 den Populationsverhältnissen entspricht. Das Risiko einer Fehlentscheidung bei Annahme dieser H1 aufgrund eines signifikanten Ergebnisses entspricht hierbei dem Signifikanzniveau (5% bzw. 1%)

 

 

 

 

 

            9.2 Festlegung von Effektgrößen und Stichprobenumfängen

 

9.2.1 Effektgrößen der wichtigsten Signifikanztests und deren Konfidenzintervalle

 

Bedeutung der Effektgrößen – t-Test für unabhängige Stichproben

 

Auf eine Schätzung der Effektgrößen aufgrund der Untersuchungsergebnisse sollte niemals verzichtet werden (Ex-post-Bestimmung von Effektgrößen)

 

Effektgröße für den t-Test für unabhängige Stichproben: δ = (μA – μB ) / σ (siehe Tab. 9.1.)

 

 

 

DIE GENAUE ERMITTLUNG DER EFFEKTGRÖßEN UND KONFIDENZINTERVALLE IST AUF DEN BUCHSEITEN 606 – 608 BESCHRIEBEN – IST ZU MÜHSAM UM HIER NOCHMALS ZUSAMMENGEFASST ZU WERDEN

 

 

 

Klassifikation der Effektgrößen

 

Cohen (1988, 1992) hat eine an der empirischen Forschungspraxis orientierte Klassifikation von Effektgrößen vorgeschlagen. Diese Klassifikation erleichtert die Arbeit erheblich, denn man muss lediglich entscheiden, ob die zu prüfende Maßnahme vermutlich einen kleinen (δ = 0,2), mittleren (δ = 0,5) oder starken (δ = 0,8) Effekt auslöst. Falls auch hierüber keine Klarheit besteht, sollte man sich im Zweifelsfalle für einen kleinen bis mittleren Effekt und den hierfür in Tabelle 9.7 angegeben erforderlichen Stichprobenumfang entscheiden.

 

Das Signifikanzniveau (α) die Teststärke (1 – β), die Effektgröße sowie der Stichprobenumfang (n) sind alle vier wechselseitig funktional verknüpft. Bei drei gegebenen Bestimmungsstücken, kann das vierte berechnet werden. Praktisch muss nur der Stichprobenumfang ermittelt werden, das die anderen drei per Konvention festgelegt sind (α = 0,01/0,05; 1 – β = 0,80; Effektgrößen = klein, mittel, groß).

 

 

[[File:]]

[[File:]]

 

Zusatzfiles: Mittelwertsvergleiche, Reliabilitätsanalyse, Faktorenanalyse

 

Laut Online-Modul: „Da Sie in grundlegenden Analysen in SPSS vielleicht noch nicht sattelfest sind, stellen wir Ihnen im Folgenden zusätzliche Literatur zu Verfügung, die jedoch nicht Pflichtlektüre ist.“

 

Diese Zusatzfiles sind kopierte Buchseiten aus Bühl, A. & Zöfel, P. (2002). SPSS 11 - Einführung in die moderne Datenanalyse unter Windows. (8., überarb. und erw. Aufl.). München: Pearson Studium.

Sie enthalten Informationen zur Berechnung von Mittelwertsvergleichen, Reliabilitätsanalysen und  Faktorenanalysen im SPSS.

 

 

Selbsttest Auswertung Modul 7

 

1. Bortz und Döring (2006) weisen auf die Wichtigkeit hin zwischen statistischer und praktischer Bedeutsamkeit zu unterscheiden. Welche der folgenden Größen stehen diesbezüglich im Signifikanztest in wechselseitiger Beziehung?

 

Signifikanzniveau

[[File:]]

Testreliabilität

[[File:]]

Teststärke

[[File:]]

Effektgröße

[[File:]]

Stichprobenumfang

[[File:]]

Itemanzahl

[[File:]]

 

2. Ein Signifikanztest wird umso eher signifikant, je...

 

...größer der Effekt.

[[File:]]

...kleiner der Effekt

[[File:]]

...kleiner die Teststärke

[[File:]]

...kleiner der Stichprobenumfang

[[File:]]

...kleiner das Signifikanzniveau

[[File:]]

...größer der Stichprobenumfang

[[File:]]

...größer das Signifikanzniveau

[[File:]]

 

 

 

 

3. Welche der folgenden Schritte halten Bortz und Döring (2006) für die Planungsphase jeder hypothesenprüfenden Untersuchung für unerlässlich?

 

Festlegung des optimalen Konfidenzintervalls

[[File:]]

Festlegung von Signifikanzniveau und Teststärke

[[File:]]

Festlegung der zu prüfenden Nullhypothese oder der Minimum-Effekt-Hypothese

[[File:]]

 

4. Was versteht man unter Teststärke?

 

Einen Wert, um verschiedene Messinstrumente hinsichtlich ihrer Gütekriterien miteinander vergleichen zu können.

[[File:]]

Die Wahrscheinlichkeit mit der ein Signifikanztest zu Gunsten der Alternativhypothese entscheidet, wenn die Alternativhypothese richtig ist.

[[File:]]

Die Robustheit eines Tests gegenüber Verletzungen von Datenvoraussetzungen (z.B. Normalverteilung)

[[File:]]

 

5. Beim t-Test für unabhängige Stichproben interessiert man sich für Mittelwertunterschiede zwischen zwei Gruppen in einem bestimmten Merkmal. Zu wie viel Prozent überschneiden sich diese beiden Merkmalsverteilungen bei einem großen Effekt (d = 0.8)?

 

84 Prozent

[[File:]]

69 Prozent

[[File:]]

48 Prozent

[[File:]]

23 Prozent

[[File:]]

 

6. Welche der folgenden Schritte halten Bortz und Döring (2006) für die Ergebnisdarstellung jeder hypothesenprüfenden Untersuchung für unerlässlich?

 

Darstellung des Resultats des Signifikanztests (Teststatistik, Irrtumswahrscheinlichkeit)

[[File:]]

Darstellung der Mittelwerte der abhängigen Variablen für die Gesamtstichprobe

[[File:]]

Darstellung des ermittelten Effektes, auch unter metaanalytischen Gesichtspunkten

[[File:]]

Soweit möglich, Darstellung des Konfidenzintervalls für den gefundenen Effekt

[[File:]]

 

 

 

 

 

 

 

 

 

7. Der so genannte "Nettoeffekt" eines Treatments...

 

...wird ermittelt, indem man die Differenz der Veränderung in der Experimental- und der Kontrollgruppe berechnet.

[[File:]]

...ist bei einer Pretest/Posttest-Untersuchung mit Experimental- und Kontrollgruppe bedeutender als die alleinige Entwicklung der AV in der Experimentalgruppe.

[[File:]]

...entspricht bei einer Pretest/Posttest-Untersuchung mit Experimental- und Kontrollgruppe dem Interaktionseffekt Testzeitpunkt*Gruppe.

[[File:]]

 

8. Was versteht man unter einer Minimum-Effekt-Nullhypothese?

 

Eine Bereichshypothese, zu der all diejenigen Parameter zählen, die für eine Bestätigung der Alternativhypothese "nicht gut genug" sind.

[[File:]]

Eine Hypothese die behauptet, dass es einen Unterschied, einen Zusammenhang oder eine Maßnahmenwirkung gäbe, die jedoch praktisch zu vernachlässigen ist.

[[File:]]

Eine genau auf Null festgelegte Punkthypothese.

[[File:]]

 

9. Der einseitige Signifikanztest...

 

...hat eine höhere Teststärke als der 2-seitige. (Wenn das Vorzeichen des Effekts der Hypothesenrichtung entspricht.)

[[File:]]

...hat eine niedrigere Teststärke als der 2-seitige. (Wenn das Vorzeichen des Effekts der Hypothesenrichtung entspricht.)

[[File:]]

...ist bei zu evaluierenden Maßnahmen gerechtfertigt, da es möglich sein müsste die Wirkungsrichtung der Maßnahme a priori anzunehmen.

[[File:]]

 

10. Welche der folgenden Festlegungen empfiehlt die Scientific Community laut Bortz und Döring (2006) zur Berechnung der optimalen Stichprobengröße?

 

Teststärke: 0.80

[[File:]]

Signifikanzniveau: 0.05

[[File:]]

ß-Fehler-Niveau: 0.20

[[File:]]

 

11. Stellen Sie sich vor, im Zuge einer Evaluationsstudie soll ein "neues Training gegen Nikotinsucht" von Ihnen mit dem bisher gängigen "Anti-Nikotinsucht-Training" verglichen werden. Das Versuchsdesign sieht drei Gruppen vor: "neues Training gegen Nikotinsucht", "Anti-Nikotinsucht-Training" und "kein Training". In allen drei Gruppen sind Raucher, deren Zigarettenkonsum seit Jahren konstant und auf vergleichbarem Niveau ist. Als abhängige Variable wird die retrospektiv erhobene Verringerung des Zigarettenkonsums herangezogen. Aufgrund von vorangegangenen Studien ist bekannt, dass bei "Trainings gegen Nikotinsucht" mit einem mittleren Effekt gerechnet werden kann. Weiters wird das Signifikanzniveau mit 0.05 und Teststärke mit 0.80 angenommen. Lesen Sie in den Tabellen 9.1 und 9.7 von Bortz und Döring (2006) nach, welche der folgenden Werte für die Effektgröße und die optimalen Stichprobengröße die richtigen sind.

 

Optimaler Stichprobenumfang pro Gruppe = 21

[[File:]]

Effektgröße = 0.40

[[File:]]

Optimaler Stichprobenumfang pro Gruppe = 322

[[File:]]

Effektgröße = 0.25

[[File:]]

Optimaler Stichprobenumfang pro Gruppe = 52

[[File:]]

 

Schritt eins beinhaltet wieder das Reflektieren über die Literatur, wie in allen bisherigen Modulen.

In Schritt zwei sollen Sie die Datenauswertung vorbereiten.

Hier finden Sie einen Datensatz (im Online-Modul). Zum Umgang mit diesem Datensatz benötigen Sie SPSS.

Sehen Sie sich im "SPSS Daten-Editor" die Daten einmal an! Sie können hierbei zwischen einer Datenansicht und einer Variablenansicht wechseln. Machen Sie sich mit diesen beiden unterschiedlichen Darstellungen vertraut. Insbesondere die Begriffe "Variablenlabel" (variable label) und "Wertelabels" (value labels) sollten Sie beherrschen.

Beschäftigen Sie sich eine Zeitlang nur mit der Variablenansicht:

  • Welche Variablen sind im Datensatz enthalten?
  • Mit welcher Überschrift würden Sie diesen Datensatz versehen?
  • Entstammt dieser Datensatz einer Querschnitt- oder einer Längsschnittstudie?

Wenn Sie einen ausreichenden Überblick über den Datensatz haben, formulieren Sie einige (3-5) konkrete Fragestellungen, die sich mit diesen Daten untersuchen lassen.

Schritt drei beinhaltet die eigentliche Datenauswertung.

In Schritt 2 haben Sie konkrete Fragestellungen formuliert. Mit der Datenauswertung beginnt nun die Beantwortung dieser Fragestellungen.

Sie haben im Laufe des Studiums verschiedene statistische Auswertungsverfahren kennen gelernt, deren erschöpfende Wiederholung den Rahmen des Moduls sprengen würde.

Überlegen Sie selbst, welche Verfahren Ihnen noch in Erinnerung sind. Welche Verfahren würden Sie selbst als die Wichtigsten bezeichnen? Wir denken, es sind u.a. die beiden t-Tests, beide parameterfreie Tests für den Vergleich zweier Stichproben (U-Test und Wilcoxon) sowie die parametrischen und parameterfreien Varianzanalysen.

Entscheiden Sie, welche dieser (oder andere der Ihnen bekannten) Verfahren zur Beantwortung Ihrer Hypothesen geeignet sind. Führen Sie diese Verfahren in SPSS zur Auswertung der Daten durch. Berichten Sie dann über folgende Aspekte Ihrer Arbeit (max. 2 Seiten):

 

  • Fragestellungen
  • verwendete Verfahren
  • Ergebnisse
  • Beantwortung der Fragestellungen

Bitte bedenken Sie, dass Sie zwar Auswertungsverfahren wählen sollen, die dem Skalenniveau ihrer Daten entsprechen, in der Fachliteratur/Praxis jedoch unterschiedliche Meinungen darüber bestehen, ob z.B. Antworten in einem Fragebogen nun Ordinal- oder Intervallskalenniveau haben. Wenn Sie ihr Vorgehen entsprechend nachvollziehbar begründen, sind in der Bearbeitung dieser Task daher mehrere Vorgehensweise als richtig zu bewerten. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8. Modul (4 Texte aus dem Online-Modul)

 

Weiters enthält das Online-Modul Links zu einer Homepage mit dem Hinweis „zur persönlichen Vertiefung“ – keine Ahnung, ob diese Prüfungsrelevant sind:

Aus dem Online-Modul: Haben Sie die Literatur zum Thema Unterschieds- (S. 528-540) und Veränderungshypothesen (S. 547-568) aus Modul 7 (Bortz & Dörng, 2006) gelesen, verstanden und noch in Erinnerung behalten? Für die Interpretation einiger Beispiele unserer Tasks werden wir sie brauchen.

Die Interpretation von Interaktionen in faktoriellen Designs stellt ein nicht triviales Kapitel dar. Um Ihnen dies in verständlicher Weise näher zu bringen, verweisen wir zusätzlich zur persönlichen Vertiefung (in Ergänzung zur gelesenen Modul-Literatur) auf folgende WebSeite:
Interaktionen (Jakobs, 2005) >> (Einige empirische Beispiele für Wechselwirkungen; Konstruiere Interaktionen)

Links:

http://www.phil.uni-sb.de/~jakobs/seminar/vpl/mehrfak/interact.htm

http://www.phil.uni-sb.de/~jakobs/seminar/vpl/mehrfak/empbeispiele/beispielinteraktionen.htm

http://www.phil.uni-sb.de/~jakobs/seminar/vpl/mehrfak/dointeract.htm

 

 

Wilkinson, L. & the Task Force on Statistical Inference (1999). Statistical Methods in Psychology Journals. American Psychologist, 54(8), 594-604.

 

Method:

-       Design: Make clear at the outset what type of study you are doing.

-       Population: The interpretation of the result of any study depends on the characteristics of the population intended for analysis. Define the population clearly. If control or comparison groups are part of the design, present how they are defined.

-       Sample: Describe the sampling procedures and emphasize any inclusion or exclusion criteria. Note the proposed sample size for each subgroup.

Assignment:

-       Random assignment: If random assignment is planned, provide enough information to show that the process for making the actual assignment is random.

-       Nonrandom assignment: In such cases, we need to minimize effects of variables that affect the observed relationship between a causal variable and an outcome.

Measurement:

-       Variables: Explicitly define the variables in the study, show how they are related to the goals of the study, and explain how they are measured.

-       Instruments: If a questionnaire is used to collect data, summarize the psychometric properties of its scores with specific regard to the way the instrument is used in a population. If a physical apparatus is used, provide enough information to allow another experimenter to replicate your measurement process.

-       Procedure: Describe any anticipated sources of attrition due to noncompliance, dropout, death other the factors. Indicate how such attrition may affect the generalizability of the results. Clearly describe the conditions under which measurements are taken. Describe the specific methods used to deal with experimenter bias, especially if you collected the data yourself.

-       Power and sample size: Provide information on sample size and the process that led to sample size decisions. Document the effect sizes, sampling and measurement assumptions, as well as analytic procedures used in power calculations. It is important to show how effect-size estimates have been derived from previous research an theory in order to dispel suspicions that they might have been taken from data used in the study, or even worse, constructed to justify a particular sample size.

Results:

-       Complications: These include missing data, attrition and nonresponse. Discuss analytic techniques devised to ameliorate these problems. Describe nonrepresentativeness statistically by reporting patterns and distributions of missing data and contaminations. Document how the actual analysis differs from the analysis planned before complications arouse. The use of techniques to ensure that the reported results are not produced by anomalies in the data should be a standard component of all analyses.

Analysis:

-       Choosing a minimal sufficient analysis: Do not choose an analytic method to impress your readers or to deflect criticism. If the assumptions and strength of a simpler method are reasonable for your data and research problem, use it.

-       Computer programs: More important than choosing a specific statistical package is verifying your results, understanding what they mean, and knowing how they are computed. If you cannot verify your results by intelligent “guesstimates”, you should check them against the output of another program. 

-       Assumptions: You should take efforts to assure that the underlying assumptions required for the analysis are reasonable given the data. Examine residuals carefully. Do not use distributional test and statistical indexes of shape as a substitute for examining your residuals graphically.

-       Hypothesis tests: It is hard to imagine a situation in which a dichotomous accept-reject decision is better than reporting an actual p value or, better still, a confidence interval. Never use the unfortunate expression “accept the null hypothesis”. Always provide some effect-size estimate when reporting a p value.

-       Effect sizes: Always present effect sizes for primary outcomes.

-       Interval estimates: Interval estimates should be given for any effect sizes involving principal outcomes. Provide intervals for correlations and other coefficients of association or variation whenever possible.

-       Multiplicities: Multiple outcomes require special handling. It is your responsibility to define and justify the methods used.

-       Causality: Inferring causality from nonrandomized designs is a risky enterprise. Researchers using nonrandomized designs have an extra obligation to explain the logic behind covariates included in their designs and to alert the reader to plausible rival hypotheses that might explain their results. Even in randomized experiments, attributing causal effects to any one aspect of the treatment condition requires support from additional experimentation.

-       Tables and figures: Figures attract the reader’s eye and help convey global results. Because individuals have different preferences for processing complex information, it often helps to provide both tables and figures. This works best when figures are kept small enough to allow space for both formats. Avoid complex figures when simpler ones will do. In all figures, include graphical representation of interval estimates whenever possible.

Discussion:

-       Interpretation: When you interpret effects, think of credibility, generalizability and robustness. Are the effects credible, given the results of previous studies and theory? Do the features of the design and analysis suggest the results are generalizable? Are the design and analytic methods robust enough to support strong conclusions?

-       Conclusions: Speculation may be appropriate, but use it sparingly and explicitly. Note the shortcomings of your study. Remember however, that acknowledging limitations is for the purpose of qualifying results and avoiding pitfalls in future research. Confession should not have the goal of disarming criticism. Recommendations for future research should be thoughtful and grounded in present and previous findings. Do not interpret a single study’s result as having importance independent of the effects reported elsewhere in the relevant literature.

 

 

 

Drummond, G. B. (1998). Methoden. In G. M. Hall (Hrsg.), Publish or Perish. Wie man einen wissenschaftlichen Beitrag schreibt, ohne die Leser zu langweilen oder die Daten zu verfälschen (S. 25-30). Bern: Huber.

 

Dieser Abschnitt beschäftigt sich damit, wie die Studie geplant und durchgeführt wurde und auf welche Art und Weise Daten analysiert wurden.

 

Hypothesen testen

 

In den Methodik-Abschnitt gehört:

 

Wie die Studie geplant wurde:

 

-       kurze Beschreiung

-       erklären, wie randomisiert wurde

-       verschiedene Studienphasen sollten mit Namen gekennzeichnet sein

 

Wie die Studie durchgeführt wurde:

 

-       beschreiben, wie Personen ausgewählt und erfasst wurden

-       Ausschlusskriterien

-       Erwähnung ethischer Aspekte

-       Details der verwendeten Materialien, genaue Angaben

-       „Behandlungsplan“ und Informationen über ungewöhnliche technische Apparate detailliert angeben

 

Wie die Daten analysiert wurden:

 

-       p-Wert zur Widerlegung der Nullhypothese angeben

-       Schätzwert für die Power (Teststärke) der Studie angeben (Wahrscheinlichkeit einer falsch negativen Schlussfolgerung, β-Fehler - wird gewöhnlich mit höchstens 0,2 angesetzt)

-       Genaue Tests für die statistische Analyse angeben (die vor Studienbeginn festgelegt wurden) – Angabe ob Computer benutzt wurde, inkl. der Software, ob parametrische oder parameterfreie Verfahren eingesetzt wurden

Studiendesign

 

Hier sollten die Gruppen und die zu messenden Ereignisse behandelt werden, also ob die Gruppen z.B. unabhängig oder parallel waren und ob die Testpersonen bezüglich bestimmter Parameter „gepaart“ waren. Das einfachste Studiendesign ist die „randomisierte Parallelstudie“ bei der die Ergebnisse von zwei Gruppen verglichen werden. Es sollte die Randomisierung erwähnt werden,  bzw. besondere Verfahren, wie eine begrenzte Randomisierung oder eine geschichtete Zufallsauswahl. Bei einer Blindstudie sollte beschrieben werden, wie es geschafft wurde, dass die Leitende Person an der Kenntnis des Verfahrens gehindert wurde. Bei komplizierten Designs sind Diagramme sehr hilfereich.

 

Personen und Materialen

 

Hier solle behandelt werden, wie die Patienten und die Kontrollgruppe ausgewählt und erfasst wurden. Es sollten alle Einschluss- und Ausschlusskriterien erwähnt werden, sowie die ethischen Gesichtpunkte. Bei Medikamenten sollte z.B. die genaue Dosierung angegeben werden. Die exakte Art der Behandlung muss so beschrieben werden, dass eine Wiederholung leicht möglich ist. Methoden, die unüblich oder einmalig sind, müssen ausführlich beschrieben und mit Literaturangaben versehen werden und die Gerätschaften sollten ausführlich beschrieben sein. Jeder Aspekt muss womöglich separat überprüft werden.

 

 

'Norman, J. (1998). Ergebnisse. 'In G. M. Hall (Hrsg.), Publish or Perish. Wie man einen wissenschaftlichen Beitrag schreibt, ohne die Leser zu langweilen oder die Daten zu verfälschen (S. 31-42). Bern: Huber.

 

Im Abschnitt “Ergebnisse” werden Antworten auf Fragen gegeben, die in der Einleitung gestellt wurden – am besten durch eine gute Mischung aus Text, Tabellen, und Abbildungen. Üblicherweise werden zu Beginn der „Ergebnisse“ die Beschaffenheit und die Vergleichbarkeit der untersuchten Gruppen nochmals ausgeführt (wurden schon im Methodik-Teil erwähnt). Es sollen auch unerwartete Ergebnisse beschrieben werden und alle Ergebnisse sollten nicht genauer angegeben werden, als die Meßmethode sie erfassen konnte. Wenn die Gruppen weniger als 100 Personen umfassen, sollten Prozentangaben vermieden werden. Tabellen und Abbildungen sollten mit Legenden versehen sein und entsprechend den Hinweisen für AutorInnen angefertigt werden. Bei der „Verdichtung“ von Ergebnissen sollte die Anzahl der Personen, der Durchschnitt (Mittelwert ± SD) und die Streubreite angegeben werden (Konfidenzintervalle für den Mittelwert) und bei Varianzanalysen sollen Freiheitsgrade und F-Werte angegeben werden.

 

 

Spence, A. A. (1998). Diskussion. In G. M. Hall (Hrsg.), Publish or Perish. 'Wie man einen wissenschaftlichen Beitrag schreibt, ohne die Leser zu langweilen oder die Daten zu verfälschen (S. 43-46). Bern: Huber.)

 

In der Diskussion sollten die wichtigsten Ergebnisse der Studie und Aspekte der Methoden erwähnt werden. Es sollten weiters aktuelle Arbeiten aus dem Forschungsbereich erwähnt werden und es sollte auf Unterschiede zwischen der eigenen Arbeit und den vorangegangenen näher eingegangen werden. Letztendlich sollte ein Ausblick auf die möglichen Konsequenzen für die Praxis, die durch die Arbeit entstehen könnten eingegangen werden.

Danksagungen sollten an alle ergehen, die durch finanzielle Unterstützung und praktische Arbeit die Arbeit vorangebracht haben.

Selbsttest Auswertung Modul 8

 

1. Was sollte das Kapitel "method" enthalten?

Die Beschreibung des Designs.

[[File:]]

Die Beschreibung der Stichprobe.

[[File:]]

Die Beschreibung der Stichprobenziehung.

[[File:]]

Die Beschreibung der Messinstrumente.

[[File:]]

Die Beschreibung der Ergebnisse.

[[File:]]

Eine ausführliche Diskussion.

[[File:]]

 

2. In welchem Zusammenhang stehen sample und population zueinander?

 

sample repräsentiert die population

[[File:]]

population repräsentiert das sample

[[File:]]

sample sollte immer randomisiert sein

[[File:]]

Die Untersuchung der population ist ökonomischer als die Untersuchung des samples

[[File:]]

Die Untersuchung des samples ist ökonomischer als die Untersuchung der population

[[File:]]

 

3. Wobei ist auf Effekte von konfundierenden Variablen und Kovariaten verstärkt zu achten?

 

Bei nonrandom assignment

[[File:]]

Bei random assignment

[[File:]]

 

4. Was sollte im Abschnitt "procedure" enthalten sein?

 

Jede Form von Datenschwund

[[File:]]

Die Stichprobe

[[File:]]

Untersuchungsbedingungen

[[File:]]

Informationen zur Population

[[File:]]

Ergebnisse

[[File:]]

Mögliche Verzerrungen, etwa durch Versuchsleitereffekte

[[File:]]

 

 

5. Sehen Sie sich noch mal figure 1 (Wilkinson & Task Force, 1999, p. 597) an. Welche der folgenden Aussagen müssten Sie aufgrund der Grafik treffen?

 

Mehrere KlientInnen sind 99 Jahre alt.

[[File:]]

Es gibt einen positiven Zusammenhang zwischen Alter (AGE) und Dauer der Beziehung (TOGETHER).

[[File:]]

Einige Personen befinden sich schon länger in einer Beziehung, als Sie überhaupt leben.

[[File:]]

Es gibt signifikante Unterschiede zwischen Männern und Frauen (SEX) bezüglich ihres Alters (AGE).

[[File:]]

Die Mehrzahl der Personen befinden sich nicht oder erst kurz in einer Beziehung.

[[File:]]

 

6. Was sollte beachtet werden, wenn Daten auf die notwendigen Voraussetzungen (eines statistischen Tests/Modells) überprüft werden?

 

Statistische Kennzahlen sollten durch graphische Darstellungen ergänzt werden.

[[File:]]

Verfahren zum Prüfen der Voraussetzungen sind weniger robust als Verfahren zum Prüfen eines Modells.

[[File:]]

Voraussetzungen sind nicht wichtig, entscheidend ist die Stichprobengröße.

[[File:]]

Verfahren zum Prüfen der Voraussetzungen sind robust und führen zu eindeutigen Ergebnissen.

[[File:]]

 

7. Was sollte im Bereich der "discussion" (interpretation und conclusions) beachtet bzw. vermieden werden?

 

Betrachtung der Effekte im Lichte bisheriger Studien!

[[File:]]

Überlegung, inwiefern die Ergebnisse generalisiert werden können.

[[File:]]

Überlegung, ob das Design und die Analysen gut genug sind, um weitgehende Schlussfolgerungen zu treffen.

[[File:]]

Vergleiche selbst ermittelter Effekte mit den Effekten bisheriger Arbeiten.

[[File:]]

Keinesfalls dürfen die Ergebnisse generalisiert werden.

[[File:]]

Schlussfolgerungen sollten eher vage bleiben, weil sie ja nur ein "Blick in die Zukunft" darstellen.

[[File:]]

Interpretation eines einzelnen Ergebnisses nicht unabhängig von anderen Untersuchungen.

[[File:]]

 

 

 

 

Schritt eins dient der Übung und hilft Ihnen zu reflektieren, wie gut Sie die Literatur verstanden haben.

In Modul 7 und 8 haben Sie schon eine ganze Menge über Unterschieds- und Veränderungshypothesen sowie Interaktionen in faktoriellen Designs kennengelernt. Sie sind nun fit das Wissen anzuwenden und auch selbst inhaltliche Beispiele zu generieren.

A)
1. Überlegen Sie sich je ein inhaltliches Beispiel einer typischen Unterschiedshypothese (faktorielles Design 2x2) und einer typischen Veränderungshypothese, welches auch eine einfache Wechselwirkung beinhaltet.
2. Erstellen Sie je eine Tabelle (auf Mittelwertsebene) und fertigen Sie zu Ihrem Beispiel eine Grafik an, die die Interaktion zeigt. Achten Sie auch auf die Beschriftung der Grafik.
3. Geben Sie eine Interpretation Ihres Beispiels (basierend auf Ihrer Grafik), die den Interaktionseffekt inhaltlich verbal beschreibt. Bedenken Sie die unterschiedlichen Fragestellungen bei Unterschieds- und Veränderungshypothesen (was ist relevant?)

B)
Beantworten Sie mit eigenen Worten:
1. Was ist unter dem Regressionseffekt zu verstehen?
2. Im Interaktionsdiagramm, das die Veränderung für eine Treatment- und eine Kontrollgruppe zwischen Prä- und Posttest darstellt, überschneiden sich die Grafen nicht. Wie ist das mit Blick auf das Vorliegen einer Interaktion und einer möglichen Treatmentwirkung zu interpretieren?

Schritt zwei beinhaltet natürlich wieder das Reflektieren über die neue Modul-Literatur.

Sie wissen schon: Sich selbst Fragen zum gelesenen Text stellen, über diese nachdenken etc. ... das ist gerade in diesem Modul nicht banal. Immerhin haben Sie es bei dem englischen Artikel mit keinem ganz einfachen Beitrag zu tun. Wenn es Ihnen gelingt, die wesentlichen Gedanken hierin zu verstehen und "mitzunehmen", werden Sie für jede weitere Lektüre empirischer Fachliteratur (aber gleichsam auch für das Verfassen ebensolcher) viel profitieren!

Schritt drei dient der gedanklichen Vorbereitung der Berichtlegung.

In Modul 7 haben sie mit einem konkreten Datensatz (zu „Bullying in der Volksschule“) gearbeitet und zu verschiedenen Fragestellungen Ergebnisse ausgewertet.

Nehmen Sie sich Ihre Bearbeitung von Modul 7 erneut vor. Überlegen Sie, welche Informationen eine außenstehende Person benötigt, um Ihr Vorgehen und Ihre Ergebnisse nachvollziehen und verstehen zu können.

Nach dem aktuellen Literaturstudium wissen Sie, was in einem wissenschaftlichen Fachartikel zu beachten ist.

Informieren Sie potenzielle Leserinnen und Leser ausreichend über Ihre Arbeit zu Modul 7. Orientieren Sie sich hierbei an den Aspekten, die von Wilkinson und der Task Force (1999) als relevant genannt werden. Diejenigen Aspekte, zu denen Sie genügend Informationen haben, sollten Sie schriftlich (in vollständigen Sätzen) bearbeiten. Dort, wo Ihnen die nötigen Informationen fehlen, schreiben Sie einfach "keine Informationen vorhanden"! Ein Maximalumfang für Ihre Ausführungen wird hier nicht vorgegeben - folgen Sie aber trotz notwendiger Konkretheit und Präzisierung dem "miss"-Prinzip ("make it short & simple"). Folgende Aspekte sind (schriftlich auf deutsch) zu bearbeiten:

1

Method

1.1

Design

1.2

Population

1.3

Sample

1.4

Assignment

1.5

Measurement

1.5.1

Variables

1.5.2

Instruments

1.5.3

Procedure

1.5.4

Power and sample size

2

Results

2.1

Complications

2.2

Analysis

3

Discussion

3.1

Interpretation

3.2

Conclusions

Erstellen Sie zudem eine korrekte Tabelle oder Abbildung, die entweder zusammenfassend mehrere Ergebnisse oder aber ein einziges spezielles Ergebnis Ihrer Auswertungen präsentiert. (Unter "Ergebnisse" verstehen wir inferenzstatistische, hypothesenprüfende Ergebnisse, d.h. keine deskriptiven Ergebnisse.)

 

 

 

 

 

 

 

 

 

 

 

9. Modul (3 Texte aus dem Online-Modul)

Merker, N., Kress, B., Manz, R. & Kirch, W. (2002). Evaluation eines Ernährungserziehungsprogramms für Kinder. Zeitschrift für Pädagogische Psychologie, 16, 43-50.

Klein, S., König, C. J. & Kleinmann, M. (2003). Sind Selbstmanagement-Trainings effektiv? Zwei Trainingsansätze im Vergleich. Zeitschrift für Personalpsychologie, 2, 157-168.

Diese beiden Texte sind nur zwei veröffentliche Artikel zum Lesen.

 

Dt. Gesellschaft für Evaluation (Hrsg.). (2002). Standards für Evaluation. Köln: DeGEval.

Die Deutsche Gesellschaft für Evaluation (DeGEval) hat insgesamt 25 Standards formuliert. Diese 25 Standards bestehen aus einem Standard-Namen und einer Standard-Formulierung. Diese besteht aus bis zu drei Sollensaussagen. Sie richten sich sowohl an EvaluatorInnen als auch an Personen und Einrichtungen, die Evaluationen in Auftrag geben, sowie an Beteiligte und Betroffene. Die Standards sollen die Qualität von Evaluationen sichern und entwickeln helfen, fachliche Bezugspunkt für den Austausch sein, Orientierung bei Planung und Durchführung von Evaluationen geben, Anknüpfungspunkte bieten für Aus- und Weiterbildung und Transparenz über Evaluation als professionelle Praxis gegenüber einer breiteren Öffentlichkeit schaffen.

 

Evaluation ist die systematische Untersuchung des Nutzens oder Wertes eines Gegenstandes. Professionelle Evaluation zielt auf eine nachvollziehbare Bewertung ihres jeweiligen Gegenstandes, so dass dessen Güte und /oder Nutzen möglichst genau bestimmt werden kann. Evaluation erfolgt systematisch, ist datengestützt und arbeitet mit einer Bandbreite empirisch-wissenschaftlicher Methoden, sollte nachvollziehbar und kritisierbar sein. Ihre Grundlagen sollten dokumentiert sein und sie kann unterschiedliche Leistungsschwerpunkte haben (Formative/Summative Evaluation).

Es gibt auch Evaluationen, in denen die einzelnen Standards nicht anwendbar sind. Die Nicht-Anwendung eines Standards soll dann kurz begründet werden.

 

Die vier Kategorien sind:

Nützlichkeit (8)

Durchführbarkeit (3)

Fairness (5)

Genauigkeit (9)

 

Im Online-Modul gibt es detailierte Files als Lang- und Kurzform der Erläuterungen der 25 Standards.

 

 

 

 

 

Selbsttest Auswertung Modul 9

 

1. Was sind die einzelnen Schritte einer Hypothesenprüfung?

Literaturrecherche

[[File:]]

Zusammenfassung der Literaturbefunde

[[File:]]

Bestimmung einer wissenschaftlichen Hypothese

[[File:]]

Bestimmung eines Signifikanztests

[[File:]]

Datenerhebung

[[File:]]

Statistische Testung durch direkte Prüfung der H0, dadurch Feststellung, ob Ergebnis hypothesenkonform ist

[[File:]]

2. Wann spricht man von Merkmal? Wann von einer Variable?

Eine Variable ist die Menge der Ausprägungen eines Merkmals

[[File:]]

Im inhaltlichen Kontext spricht man von einem Merkmal

[[File:]]

Im methodischen Kontext spricht man von einer Variable

[[File:]]

Beide Begriffe sind austauschbar

[[File:]]

3. Was ist der Unterschied zwischen Grundlagenforschung und Evaluation?

Ziel der Grundlagenforschung ist die Generierung von Hintergrundwissen, Ziel einer Evaluation ist die Bewertung psychosozialer Maßnahmen

[[File:]]

Beide dienen zur Generierung von Hintergrundwissen

[[File:]]

Beide dienen zur Bewertung psychosozialer Maßnahmen

[[File:]]

Im Einzelfall kann eine Evaluationsstudie auch Teil von Grundlagenforschung sein

[[File:]]

Den Ergebnissen einer Evaluationsstudie sollten klare Handlungsanweisungen folgen

[[File:]]

Den Ergebnissen von Grundlagenforschung sollten klare Handlungsanweisungen folgen

[[File:]]

4. Welches Ziel verfolgt eine explorative Untersuchung?

Hypothesen zu generieren

[[File:]]

Hypothesen zu prüfen

[[File:]]

Untersuchungsergebnisse zusammenzufassen

[[File:]]

5. Was ist der Unterschied zwischen formativer und summativer Evaluation?

Formative Evaluation beurteilt zusammenfassend die Wirksamkeit einer Interventionsmethode

[[File:]]

Summative Evaluation beurteilt zusammenfassend die Wirksamkeit einer Interventionsmethode

[[File:]]

Summative Evaluation ist vor allem dort angebracht, wo die Implementierung einer Maßnahme genau analysiert wird

[[File:]]

Formative Evaluation ist vor allem dort angebracht, wo die Implementierung einer Maßnahme genau analysiert wird

[[File:]]

Formative Evaluation wird zur Prozessoptimierung verwendet

[[File:]]

Summative Evaluation wird meistens zur Prozessoptimierung verwendet

[[File:]]

 

6. Was ist interne Validität und was externe Validität?

 

Interne Validität betrifft die Generalisierbarkeit der Untersuchungsergebnisse

[[File:]]

Externe Validität betrifft die Generalisierbarkeit der Untersuchungsergebnisse

[[File:]]

Intern valide sind Untersuchungsergebnisse dann, wenn sie eindeutig für oder gegen die Hypothese sprechen

[[File:]]

Extern valide sind Untersuchungsergebnisse dann, wenn sie eindeutig für oder gegen die Hypothese sprechen

[[File:]]

Extern valide sind Untersuchungsergebnisse dann, wenn sie sich auch auf Bedingungen außerhalb des Labors übertragen lassen

[[File:]]

Intern valide sind Untersuchungsergebnisse dann, wenn sie sich auch auf Bedingungen außerhalb des Labors übertragen lassen

[[File:]]

7. Um Ergebnisse einer hypothesenprüfenden Untersuchung möglichst eindeutig interpretieren zu können, müssen ...

... die Hypothesen präzise formuliert sein

[[File:]]

... die Daten mit einem angemessenen Untersuchungsdesign erhoben werden

[[File:]]

... die interessierenden Merkmale angemessen operationalisiert werden

[[File:]]

...die Daten korrekt inferenzstatistisch ausgewertet werden

[[File:]]

8. Welche Arten von Hypothesen gibt es?

Zusammenhangshypothesen

[[File:]]

Unterschiedshypothesen

[[File:]]

Kanonische Hypothesen

[[File:]]

Veränderungshypothesen

[[File:]]

Hierarchische Hypothesen

[[File:]]

9. Nach der Deutschen Gesellschaft für Evaluation (2002) sollen die "Durchführbarkeitsstandards" sicherstellen, dass ...

... in einer Evaluation respektvoll und fair mit den betroffenen Personen und Gruppen umgegangen wird.

[[File:]]

... die Evaluation sich an den geklärten Evaluationszwecken sowie am Informationsbedarf der vorgesehenen NutzerInnen ausrichtet.

[[File:]]

... eine Evaluation gültige Informationen und Ergebnisse zu dem jeweiligen Evaluationsgegenstand und den Evaluationsfragestellungen hervor bringt und vermittelt.

[[File:]]

... eine Evaluation idealistisch, gut operationalisiert und kompetent geplant und ausgeführt wird.

[[File:]]

10. Denken Sie nochmals an die Struktur eines wissenschaftlichen Beitrags (Artikels). Was sollte das Kapitel "Method" enthalten?

Die Beschreibung des Designs

[[File:]]

Die Beschreibung der Stichprobe

[[File:]]

Die Beschreibung der Stichprobenziehung

[[File:]]

Die Beschreibung der Messinstrumente

[[File:]]

Die Beschreibung der Ergebnisse

[[File:]]

Eine ausführliche Diskussion

[[File:]]

 

Lesen Sie die angegebenen Texte. Eignen Sie sich die Inhalte mit Hilfe verschiedener Techniken (Notizen machen, sich selbst Fragen stellen, usw.) an.

Sie haben zwei Evaluationsstudien sowie die "Standards für Evaluation" der DeGEval gelesen.

Bewerten Sie die beiden Studien dahin gehend, inwiefern diese die Standards N6, G1, G4, G7 und G8 erfüllen. Erläutern Sie zu jedem dieser Standards, ob die beiden Studien ihn jeweils "gut", "mittelmäßig" oder nur "schlecht" realisieren. Begründen Sie Ihre Bewertungen und belegen Sie Ihre Begründung gegebenenfalls durch Textzitate aus den Studien.

Geben Sie abschließend aufgrund Ihrer Bewertungen der Einzelstandards ein Gesamturteil ab, welche der beiden Studien die "bessere" Evaluationsstudie ist.

Angenommen, Sie evaluieren die verpflichtenden Nachschulungskurse (zur Wiedererlangung der Fahrerlaubnis) für alkoholauffällige Kraftfahrer. Ihr Evaluationsdesign sieht drei Messzeitpunkte vor: Eine Datenerhebung vor dem Kurs, eine direkt nach dem Kurs sowie eine Follow-up-Erhebung 6 Monate nach Beendigung des Kurses.

Beschreiben Sie, wie Sie in dieser Evaluationsstudie eine Facette des Standards F2, nämlich die Gewährleistung der Anonymität der Daten, realisieren würden.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10. Modul (4 Texte + 3 weiterführende Literatur)

 

Auszug aus Ulrich, S. & Wenzel, F. M. (2003). Partizipative Evaluation. Ein Konzept für die politische Bildung. Gütersloh: Verlag Bertelsmann Stiftung.  

Im gängigen Verständnis ist Evaluation eine ziel- und zweckgerichtete Handlung, die keine generellen Aussagen trifft, sondern etwas über eine konkrete Praxis aussagt.

Es können drei Funktionen unterscheiden werden:

-       Erkenntnisfunktion

-       Legitimationsfunktion

-       Optimierungsfunktion

Historische Entwicklung

Vier Generationen – das Augenmerk bezog sich jeweils auf:

  1. Messbarkeit von Abläufen und Kennzahlen: EvaluatorIn als externeR DatensammlerIn
  2. Beschreibung der Phänomene: EvaluatorIn als neutraleR BeobachterIn 
  3. Urteil über Beobachtungen: EvaluatorIn als RichterIn
  4. Aushandeln: EvaluatorIn als ModeratorIn - Fourth Generation Evaluation: Sie versucht ein übergreifendes Verständnis und eine besondere Bezugnahme auf menschliche, politische, soziale, kulturelle und kontextuelle Elemente des Evaluationsprozesses. Dies geschieht, indem die Betroffenen und Beteiligten (stakeholder) mit ihren unterschiedlichen Interessen von den Evaluatoren in einen demokratischen Aushandlungsprozess eingebunden werden, an dessen Ende die Einigung über die Interpretation der erhobenen Daten zu einer besonders hohen Relevanz der Resultate führt.

Die Entstehung von Evaluationsstandards

Die Qualität einer Evaluation bemisst sich im gängigen Verständnis vor allem in der Qualität der Datenerhebung und –auswertung, d.h. sie hängt davon ab, ob sie den Gütekriterien quantitativer (Objektivität, Reliabilität, Validität) bzw. qualitativer Forschung genügt.

Im Falle qualitativer Forschung/Evaluation gehen die Meinungen die Gütekriterien stark auseinander und lassen sich vereinfacht in drei Grundpositionen zuordnen:

  1. Die quantitativen Kriterien gelten auch für die qualitativer Forschung/Evaluation
  2. Es werden eigene Kriterien für die Evaluation aufgestellt
  3. Aus einer postmodernen oder konstruktivistischen Haltung heraus werden Gütekriterien abgelehnt

In den 1980ern hat in den USA das Joint Committee on Standards for Educational Evaluation Standards zur Durchführung von Evaluationen entwickelt. In Deutschland hat die DeGEval davon adaptierte Standards veröffentlicht mit vier Hauptforderungen: Nützlichkeit, Durchführbarkeit, Fairness, Genauigkeit. (siehe letztes Kapitel)

Partizipative Evaluation

Partizipative Evaluation bedeutet, konstruktiv mit konflikthaften Perspektiven umzugehen. Das Augenmerk liegt so vorrangig auf dem Prozess der Evaluation und nicht auf der Beantwortung vordefinierter Fragen. Erhobene Daten und die aus ihnen gezogenen Schlussfolgerungen müssen immer wieder in den Aushandlungsprozess der unterschiedlichen stakeholder gebracht werden. Am Ende des Prozesses steht nicht die Veröffentlichung im Vordergrund, sondern eine sinnvolle gemeinsame Konstruktion, die aus der demokratischen Aushandlung der verschiedenen Sichtweisen erwachsen ist.

[[File:]]

Die Rolle des/der Evaluators/Evaluatorin

Bei der partizipativen Evaluation kommen zu den regulären Aufgaben neue hinzu: EvaluatorInnen müssen möglichst viele Beteiligte und Betroffene sowie ihre Perspektiven in einen kommunikativen Aushandlungsprozess bringen. EvaluatorInnen erkennen und thematisieren Konflikte, Verhandlungskompetenzen sind ausschlaggebend für das Gesamtergebnis. Sie müssen aktivierend wirken und methodische Angebote machen. EvaluatorInnen werden zu Advokaten unterschiedlicher gleichberechtigter Perspektiven und müssen eine erhöhte Sensibilität für die verschiedenen (Macht-)Positionen, Hierarchien und blinden Flecke aufbringen.

Kompetenzen und Aufgaben der EvaluatorInnen - zusammengefasst:

-       Anwaltschaft

-       Theoretische Rekonstruktion (theoretische Implikationen)

-       Verhandlungskompetenz

-       Methodenkompetenz

-       Demokratiekompetenz

-       Ästhetische Kompetenz (Abschlussbericht)

 

 

Qualität und Standards

Folgende Standards sollen einen sinnvollen Rahmen bieten, um demokratisch und partizipativ vorzugehen:

-       Fairness – die verschiedenen Perspektiven werden im Evaluationsbericht berücksichtigt

-       Weiterentwicklung – die Verfeinerung und das komplexe Verständnis der eigenen Perspektive der Beteiligten im Rahmen des Evaluationsprozesses wird ermöglicht

-       Fortbildung – das erweiterte Verständnis für die Bewertungen und Perspektiven der jeweils anderen am Evaluationsprozess Beteiligten wird gesichert

-       Relevanz – die Verwertbarkeit der Ergebnisse und die Relevanz der Evaluationen für die Beteiligten führt zu Handlungskonsequenzen

-       Ermächtigung – die erkannten Handlungskonsequenzen können von den Beteiligten im Rahmen ihres institutionellen Kontextes auch durchgeführt werden

-       Glaubwürdigkeit – die Evaluation geht authentisch und umfassend partizipativ vor, und der Prozess als solcher wird von den Beteiligten akzeptiert

 

Spiel, C., Gradinger, P. &  Lüftenegger, M. (in Druck). Grundlagen der Evaluationsforschung. In H. Holling. &  B. Schmitz (Hrsg.), Handbuch der Psychologischen Methoden und Evaluation.Göttingen: Hogrefe.

Es wird nur dann von Evaluationsforschung oder wissenschaftlicher Evaluation gesprochen, wenn die Bewertung eines Gegenstandes systematisch oder unter Verwendung wissenschaftlicher Methoden erfolgt.

Evaluationsforschung untersucht wissenschaftsgestützt unter Berücksichtigung geltender Standards die Effektivität und Effizienz von Gegenständen. (Spiel, 2003)

Einteilung von Evaluationen

…nach Zielen:

-       Baseline-Evaluation: IST-Stand Analyse zur Beschreibung der Ausgangssituation, wichtig für Vergleich mit Situation nach Maßnahme

-       Prospektive Evaluation: Bewertung der Konzeption zur Abschätzung der Realisierbarkeit und möglicher Nebeneffekte

-       Formative Evaluation: Beschreibung und Bewertung von Programmimplementation, Zielsetzung und Umsetzung, gezielte Rückmeldung zur Programmoptimierung

-       Summative Evaluation: Prüft Wirksamkeit nach Programmabschluss

-       Evaluation der Programmeffizienz: Bewertung der Ökonomie

-       Impact Evaluation: Bewertung nachhaltiger Effekte; geht weit über direkte Ziele hinaus

 

 

… nach Rolle des/der Evaluators/Evaluatorin:

-       Selbstevaluation: Mitglieder einer Institution/Organisation bewerten ihre Maßnahme selbst

-       Fremdevaluation: Bewertung durch Dritte

-       Interne Evaluation: EvaluatorInnen kommen aus der gleiche Einrichtung, jedoch nicht direkt an Maßnahme beteiligt

-       Externe Evaluation: Bewertung durch unabhängige ExpertInnen, die in keiner Beziehung zur Einrichtung/Maßnahme stehen

Die Vorteile der internen Evaluation sind die Nachteile der externen Evaluation und umgekehrt. Interne Evaluationen haben den Vorteil, dass die EvaluatorInnen mit dem Gegenstand gut vertraut sind, wodurch die Evaluation ökonomisch ist und i.A. auch hohes Commitment vorliegt. Nachteilig sind die Gefahr der Parteilichkeit und Urteilsverfälschung, sowie die häufig fehlende methodische Expertise. Aus diesen Gründen wird häufig eine Kombination von interner und externer Evaluation vorgenommen.

Funktionen und Nutzung von Evaluationen

Gruppen von Funktionen von Evaluationen: 

-       Evaluation als Bewertung ohne klare Zielsetzung

-       Evaluation als Entscheidungsunterstützung

-       Evaluation als Optimierungsgrundlage

-       Evaluation als strategisches Instrument (z.B. Erhöhung von Motivation oder Leistung, Durchsetzungshilfe)

4 Ebenen von Evaluationen

Die Ebenen sind hierarchisch zu verstehen, mit höherer Ebene steigen Aufwand, Kosten, Komplexität aber auch Informations- und Lerngewinn.

-       Ebene 1 – Reaktion: Erfassung der Akzeptanz einer Maßnahme, Akzeptanz ist zumeist Voraussetzung für Lernen

-       Ebene 2 – Lernen: Erfassung des Ausmaßes, in dem TeilnehmerInnen an einer Maßnahme als direkte Folge der Teilnahme ihr Wissen bzw. ihre Fertigkeiten erweitert oder ihre Einstellungen verändert haben

-       Ebene 3 – Verhalten: Erfassung des Transfers des Gelernten auf Alltags-Situationen

-       Ebene 4 – Ergebnisse: Erfassung der Veränderungen auf Organisations- bzw. Systemebene

 

Fetterman, D. M. (1994). Empowerment Evaluation. Evaluation Practice, 15(1), 1-15.

Definition: Empowerment Evaluation is the use of evaluation concepts and techniques to foster self-determination. The focus is on helping people help themselves. This evaluation approach focuses on improvement, is collaborative, and requires both qualitative and quantitative methodologies. It is also highly flexible and can be applied to evaluation in any area.

Patton, M. Q. (1994). Developmental Evaluation. Evaluation Practice, 15(3), 311-319.

Definition: Evaluation processes and activities that support program, project product, personnel and/or organizational development (usually the latter). The evaluator is part of a team whose members collaborate to conceptualize, design, and test new approaches in a long-term, on-going process of continuous improvement, adaption, and intentional change. The evaluator’s primary function in the team is to elucidate team discussion with evaluative data and logic, and to facilitate data-based decision-making in the developmental process.

!!! Die beiden letzten Texte geben Definitionen und Beispiele für die jeweilige Evaluationsform. Es ist in meinen Augen nicht viel prüfungsrelevante Information vorhanden – deshalb habe ich jeweils nur die Definition angegeben, damit man allgemein weiß, worum es geht. !!!

Da die folgenden Texte als „weiterführende Literatur“ angegeben sind, gehe ich nicht davon aus, dass sie Prüfungsstoff sind.

weiterführende Literatur:
- Cousins, J. B., & Whitmore, E. (1998). Framing participatory evaluation. New Directions for Evaluation, 80, 5-23.
- Moosbrugger, H. & Schweizer, K. (2002). Evaluationsforschung in der Psychologie. Zeitschrift für Evaluation, 19-37.
- Ulrich, S. & Wenzel, F.M. (2003). Partizipative Evaluation. Ein Konzept für die politische Bildung. Gütersloh: Verlag Bertelsmann Stiftung.

 

 

 

 

 

 

Selbsttest Auswertung Modul 10

 

1. Welche Funktionen von Evaluation können laut Ulrich und Wenzel (2003) bzw. Kinast (1998) unterschieden werden?

Erkenntnisfunktion

[[File:]]

Moderatorfunktion

[[File:]]

Legitimationsfunktion

[[File:]]

Optimierungsfunktion

[[File:]]

Beschreibungsfunktion

[[File:]]

2. Guba und Lincoln (1989) unterteilen die Geschichte der Evaluation in 4 Paradigmen (Generationen). Welche Tätigkeit steht im aktuellen "Fourth-Generation-Evaluation"-Paradigma im Vordergrund?

Beschreiben

[[File:]]

Kritisieren

[[File:]]

Urteilen

[[File:]]

Aushandeln

[[File:]]

Messen

[[File:]]

Vergleichen

[[File:]]

3. Welchen Generationenablauf identifizieren Guba und Lincoln (1989) in der Geschichte der Evaluation? Der Evaluator ...

als Moderator, als Richter, als externer Datensammler, als neutraler Beobachter

[[File:]]

als Richter, als neutraler Beobachter, als Moderator, als externer Datensammler

[[File:]]

als externer Datensammler, als neutraler Beobachter, als Richter, als Moderator

[[File:]]

als neutraler Beobachter, als Moderator, als externer Datensammler, als Richter

[[File:]]

4. Zu den von der Deutschen Gesellschaft für Evaluation (DeGEval) veröffentlichten Standards gehören die Hauptforderungen nach ....

Nützlichkeit

[[File:]]

Durchführbarkeit

[[File:]]

Fairness

[[File:]]

Genauigkeit

[[File:]]

Objektivität

[[File:]]

Messbarkeit

[[File:]]

Demokratie

[[File:]]

Relevanz

[[File:]]

5. Unter "stakeholder" versteht man ...

an der Evaluation beteiligte Personen mit einem Interesse

[[File:]]

eine eingerichtete Begleitgruppe

[[File:]]

von der Maßnahme ausgeschlossene Personen

[[File:]]

Personen die ihre Sichtweise einbringen können

[[File:]]

die an der Datenerhebung beteiligten Personen

[[File:]]

6. Über welche Kompetenzen und Aufgaben muss eine Evaluatorin/ein Evaluator bei der Durchführung einer Partizipativen Evaluation laut Ulrich und Wenzel (2003)verfügen?

Anwaltschaft

[[File:]]

Theoretische Rekonstruktion

[[File:]]

Verhandlungskompetenz

[[File:]]

Methodenkompetenz

[[File:]]

Demokratiekompetenz

[[File:]]

Ästhetische Kompetenz

[[File:]]

7. "Evaluation muss zu politischer Bildung passen" schreiben Ulrich und Wenzel (2003, S. 30). Welche Evaluationsform passt zu Politischer Bildung?

Summative Evaluation

[[File:]]

Produkt Evaluation

[[File:]]

Partizipative Evaluation

[[File:]]

Formative Evaluation

[[File:]]

8. Welche Chancen bieten sich laut Ulrich und Wenzel (2003) durch die Partizipative Evaluation?

Erhöhte Messbarkeit der Prozesse

[[File:]]

Erweiterte Pluralität

[[File:]]

Anstöße für erweiterte Reflexionen

[[File:]]

Erweiterte Aussagen über Kausalitäten

[[File:]]

Erweiterte Partizipation

[[File:]]

9. Ulrich und Wenzel (2003) unterteilen Partizipative Evaluation in 4 Phasen. Was passiert in der Explorationsphase?

Suche nach Stakeholdern

[[File:]]

Festlegung von Zielkriterien

[[File:]]

Einrichtung der Begleitgruppe

[[File:]]

Bestimmung der Ausgangsfrage

[[File:]]

Aushandlungsprozess

[[File:]]

10. Worin sehen Ulrich und Wenzel (2003) das/die Hauptproblem/e bei der Evaluation (im Sinne von Messen, Beschreiben oder Urteilen) von Politischer Bildung?

Externe Datenerhebung

[[File:]]

Bewertung aus einer einzigen Perspektive

[[File:]]

 

Lesen Sie in Ulrich & Wenzel (2003) nochmals das Kapitel 'Historische Entwicklung' (S. 16). Hier werden die verschiedenen Generationen von Evaluationen beschrieben. Dabei handelt es sich um die Beschreibung bestimmter gedanklicher Modelle (Paradigmen).

Diskutieren Sie in der Gruppe die vier Paradigmen hinsichtlich folgender Aspekte:

  • Was zeichnet das jeweilige Paradigma aus?
  • Welche Rolle hat die Evaluatorin/der Evaluator innerhalb des jeweiligen Paradigmas?
  • Nehmen Sie die Ausgangsfrage in der Tabelle auf S. 15 ("Wie viel toleranter sind Teilnehmer eines Toleranzseminars geworden?") und überlegen Sie, wie diese Fragestellung in jedem der vier Paradigmen bearbeitet werden würde?

Verschriftlichen Sie Ihr Diskussionsergebnis zum letzten Punkt (Fragestellung in jedem der vier Paradigmen) auf max. 1 Seite.

Sie haben bereits in der letzten Meet-the-Expert (VI) Einheit schon einiges über moderne Ansätze der Evaluationsforschung gehört. Man könnte Sie auch als Formen von Evaluationskultur auffassen. Die angegebene Literatur im aktuellen Modul hilft Ihnen sich mit dem Thema noch tiefergehend auseinanderzusetzen. Lesen Sie dazu nochmals die Artikel mit Sicht auf die Merkmale und die Rolle des Evaluators im jeweiligen Evaluationsansatz.

Versuchen Sie stichwortartig bzw. als Liste die zentralen Merkmale, als auch die Rolle des Evaluators in der Partizipativen Evaluation und in der Empowerment Evaluation zusammenzufassen.

Diskutieren Sie in Ihrer Gruppe oder im Diskussionsforum was beide Evaluationsansätze gemeinsam haben und in welchen Punkten (evtl. anhand von Beispielen) sie nicht miteinander vereinbar wären.