Der inflationäre Gebrauch von Online-Umfragen in der rettungswissenschaftlichen Forschung
In den letzten Jahren haben Online-Umfragen in der rettungswissenschaftlichen Forschung, wie auch in vielen anderen Bereichen, stark an Frequenz zugenommen. Die einfache Verfügbarkeit von Befragungsplattformen und sozialen Medien lässt die Anzahl an Umfragepublikationen schnell steigen. Paramedicine-Experten wie Simpson (2025) warnen jedoch davor, dass die Qualität dieser Forschung oft zu wünschen übriglässt. So stellt Simpson in einem aktuellen Editorial fest, dass viele Umfragen im Rettungsdienst häufig durch kleine oder nicht repräsentative Stichproben gekennzeichnet sind und betont, dass die Gestaltung einer Umfrage „ebenso herausfordernd wie jedes andere hochwertige Forschungsprojekt“ sein kann (Simpson, 2025). Studien zeigen allgemein, dass die Berichterstattung zu Umfragen sehr uneinheitlich ist (Sharma et al., 2021). Gibt man bei PubMed-Suche „survey“ ein, so generiert man 1.988.425 Treffer (Stand 05.07.2025). Trotz dieser Fülle fehlt es häufig an standardisierten Vorgehensweisen und an einer soliden Methodik. In vielen Fällen führte das Fehlen klarer Richtlinien dazu, dass Umfragebefunde in Hinblick auf Validität und Zuverlässigkeit kaum überprüfbar sind (Sharma et al., 2021; Simpson, 2025).
Die Rettungswissenschaft steht damit vor einem Paradox, einerseits ermöglichen Online-Umfragen ein schnelles, kostengünstiges Erreichen geografisch weit verstreuter Teilnehmer:innen und können so beispielsweise besser statistische Repräsentativität erreichen sowie statistische Power steigern. Andererseits wachsen mit ihrer Verbreitung die Risiken von Übersimplifizierung, methodischen Schwächen und unbrauchbaren Ergebnissen. In diesem Blogbeitrag soll es darum gehen, dass Umfrageforschung deutlich komplexer ist, als oft angenommen, welche Gütekriterien dabei gelten und wo validierte Fragebögen zu finden sind. Abschließend folgt ein Appell an Studierende und Lehrende der Rettungswissenschaften, Umfrageprojekte mit wissenschaftlicher Sorgfalt anzugehen und bestehende Qualitätsstandards (z. B. CROSS, Leitlinien zur Testkonstruktion) konsequent einzuhalten.
Komplexität und Fallstricke von Umfrageforschung
Umfragegestützte Studien sind nie trivial. Schon der Weg vom Forschungsziel zur konkreten Surveyfrage führt über viele Feinheiten. Die Teilnehmenden müssen die Frage zunächst verstehen, dann relevante Informationen aus dem Gedächtnis abrufen, daraus ein Urteil bilden und schließlich eine passende Antwort auswählen. Dabei hängt die Qualität der Antworten stark von der Formulierung der Fragen ab. Komplizierte Wörter oder verschachtelte Sätze können bereits dazu führen, dass Befragte die Frage nicht im intendierten Sinne verstehen. In der Praxis bedeutet dies etwa: Formulieren Sie Fragen so, dass sie für Ihre Zielgruppeeinfach und eindeutig sind (Porst, 2015). Bei komplexen medizinischen oder rettungsdienstlichen Themen kann das sehr anspruchsvoll sein. Zu komplexe Fragen führen oft zu missverständlichen Antworten und verzerrten Ergebnissen.
Typische Fallstricke sind dabei beispielsweise kleine oder nicht-repräsentative Stichproben, mangelnde Rücklaufquoten und Selbstselektionsbias, fehlende Pretests und unklare Fragen. Solche Verzerrungen erschweren es, die Ergebnisse auf die gesamte Zielpopulation zu übertragen. Hinzu kommen oft übermäßig verkürzte Antwortkategorien oder Suggestivfragen, die ohnehin verzerrte Urteile provozieren. Manche Umfrage wird darüber hinaus als ausgesprochen „einfach“ wahrgenommen – und verfängt dann doch nur an der Umsetzung. Beispielsweise kann eine scheinbar einfache Frage „Hatten Sie schon einmal eine Entlastungspunktionsnadel benutzt?“ je nach Kontext sehr unterschiedlich interpretiert werden (wie zählen Ausbildungssituationen oder anderes Equipment zur Pleuraentlastung?) Solche Unklarheiten zeigen, dass selbst einfache Fragen in der Umfragekonstruktion knifflig sein können (Porst, 2015).
Beispielhafte Probleme im Fragebogen-Design:
- Komplexität unterschätzt: Es ist falsch anzunehmen, dass Fragen automatisch in der intendierten Weise verstanden werden. Kleine Unterschiede in der Wortwahl können die Antworten stark beeinflussen.
- Kognitive Verzerrungen: Ohne sorgfältige Kontrolle können Vorfragen oder Antwortalternativen (z. B. Verneinungen, doppelte Stimuli) Kontexteffekte erzeugen. Porst weist darauf hin, dass man ohne gezielte Pretests meist nur spekulieren kann, welche Fragen die Beantwortung nachfolgender Fragen beeinflussen.
- Selbstselektionsbias und Repräsentativität: Online-Umfragen erreichen oft nur diejenigen, die technisch versiert und freiwillig teilnehmen möchten, was systematisch bestimmte Gruppen ausschließt. Solche methodischen Schwächen gefährden die Validität der Schlussfolgerungen.
- Fehlende Validierung: Viele Studien erfinden eigene Items oder Skalen, ohne sie psychometrisch zu prüfen. Wenn ein Fragebogen nicht auf Validität (gilt er für das Merkmal?) und Reliabilität (messen mehrere Items das Gleiche?) geprüft wurde, sind die Ergebnisse unzuverlässig.
Diese und weitere Faktoren machen deutlich: Umfrageforschung ist anspruchsvoll und birgt zahlreiche Fallstricke. Es gilt festzuhalten, dass der Entwurf eines guten Fragebogens die gleiche Sorgfalt benötigt, wie jede andere hochwertige Studie. Wer dies nicht berücksichtigt, riskiert, mit unbrauchbaren Daten zu arbeiten und wertvolle Forschungskapazitäten zu verschwenden.
Qualitätskriterien für Umfragen
Damit Umfrageergebnisse belastbar und reproduzierbar sind, müssen klare Qualitätskriterien erfüllt sein. In der Testtheorie nennt man diese „Gütekriterien“. Moosbrugger und Kelava (2012) betonen, dass die wissenschaftliche Gültigkeit eines Fragebogens darauf beruht, dass möglichst viele dieser Kriterien erfüllt werden. Für Forschende und Studierende sind vor allem die spezifischen, testtheoriebasierten Kriterien zentral:
- Objektivität (Unabhängigkeit der Ergebnisse): Objektivität liegt vor, wenn die Ergebnisse einer Umfrage unabhängig davon sind, wer die Befragung durchführt, auswertet oder interpretiert. Man unterscheidet dabei zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität. Besonders bei Onlineumfragen ist die Durchführungsobjektivität meist gegeben, da alle Teilnehmenden denselben digitalen Fragebogen erhalten. Schwieriger wird es bei offenen Fragen oder manuellen Auswertungen, wo individuelle Interpretationen Einfluss nehmen können (Hier sind Auswertungen mittels qualitativen Methoden notwendig). Auch tendenziöse Fragestellungen oder voreingenommene Antwortoptionengefährden die Objektivität, etwa wenn bestimmte Antworten durch suggestive Formulierungen als sozial erwünscht erscheinen oder andere Antworten implizit abgewertet werden. Hohe Objektivität erfordert daher standardisierte Instruktionen, eindeutige und neutrale Frageformulierungen, ausgewogene Antwortskalen sowie klare Regeln zur Datenauswertung, um Verzerrungen zu vermeiden und die Vergleichbarkeit zu sichern.
- Reliabilität (Zuverlässigkeit): Wie präzise misst das Instrument? Hohe Reliabilität bedeutet, dass wiederholte Messungen unter gleichen Bedingungen ähnliche Ergebnisse liefern. Im Kontext von Fragebögen reicht dies von interner Konsistenz (z. B. Cronbachs Alpha) bis zu Test-Retest-Übereinstimmung.
- Validität (Gültigkeit): Misst der Fragebogen tatsächlich das, was er messen soll? Moosbrugger & Kelava (2020) unterscheiden z. B. Kriteriumsvalidität (eignet sich der Test, um Schlussfolgerungen auf ein Kriterium außerhalb der Messung zu ziehen?) und Konstruktvalidität (lässt sich die angenommene Struktur eines Merkmals bestätigen?). Validität sichert die Aussagekraft der Umfrageergebnisse.
Diese Kernbegriffe definieren Moosbrugger & Kelava (2012) so: „Die Reliabilität befasst sich mit der Messgenauigkeit und die Validität mit der Frage, ob ein Test das Merkmal auch wirklich misst, und vor allem, ob die auf einem Testergebnis aufbauenden Interpretationen belastbar sind“. Eine niedrige Reliabilität führt also zu unscharfen Ergebnissen, eine fehlende Validität macht Schlussfolgerungen grundsätzlich ungültig.
Darüber hinaus sind Inhalts- und Konstruktvalidität zu beachten. Der Fragebogen muss inhaltlich alle Facetten des Merkmals erfassen (Inhaltsvalidität) und zeigt idealerweise das vorgesehene Faktorengerüst (Konstruktvalidität). Praktiker sollten zudem auf Fairness achten, etwa dass Fragen für alle Teilgruppen verständlich sind. Insgesamt sind demnach neben reliablen Messoperationen auch eine klare theoretische Verankerung und ausführliche Dokumentation elementar.
Ein weiteres unverzichtbares Qualitätsinstrument ist das Pretesting des Fragebogens, etwa mittels kognitiver Interviews oder gezielter Pilotbefragungen. Porst (2015) warnt, dass viele Fragen ohne Pretest nur spekulativ beurteilt werden können. So sagt er: „Erst ein Pretest oder – im schlechtesten Falle – erst die Daten der Befragung selbst [geben] Auskunft“ über Probleme und Kontext-Effekte. Erst durch systematische Voruntersuchungen lassen sich etwa unbeabsichtigte Wechselwirkungen zwischen Fragen aufdecken. In der CROSS-Checkliste (Sharma et al., 2021) wird deshalb ausdrücklich gefordert, Informationen zum Pretest bereitzustellen (Methode, Teilnehmer, Ähnlichkeit zur Zielpopulation).
Schließlich muss die Frageformulierung selbst hohen Anforderungen genügen. Porst (2015) hat dafür anschaulich zehn „Gebote der Frageformulierung“ aufgestellt. Diese lauten:
- Du sollst einfache, unzweideutige Begriffe verwenden, die von allen Befragten in gleicher Weise verstanden werden!
- Du sollst lange und komplexe Fragen vermeiden!
- Du sollst hypothetische Fragen vermeiden!
- Du sollst doppelte Stimuli und Verneinungen vermeiden!
- Du sollst Unterstellungen und suggestive Fragen vermeiden!
- Du sollst Fragen vermeiden, die auf Informationen abzielen, über die viele Befragte mutmaßlich nicht verfügen!
- Du sollst Fragen mit eindeutigem zeitlichen Bezug verwenden!
- Du sollst Antwortkategorien verwenden, die erschöpfend und überschneidungsfrei sind!
- Du sollst sicherstellen, dass der Kontext einer Frage sich nicht (unkontrolliert) auf deren Beantwortung auswirkt!
- Du sollst unklare Begriffe definieren!
Diese Regeln lassen sich nicht immer komplett einhalten, aber sie verdeutlichen: Gute Fragen zu formulieren ist eine Kunst für sich. Verletzungen dieser Prinzipien führen erfahrungsgemäß direkt zu Messfehlern oder zur Notwendigkeit nachträglicher Korrekturen.
Zusammengefasst empfehlen Experten und Methodiker, dass Befragungsstudien nur mit dem gleichen Anspruch wie quantitative Experimente geplant werden sollten. Reporting-Standards wie die CROSS-Checkliste fordern explizit, dass in Publikationen sowohl Instrumentendetails (Zielpopulation, Validitäts- und Reliabilitätsnachweise) als auch Pretests und deren Ergebnisse offengelegt werden . Diese Vorgehensweisen müssen jedoch aktiv angewendet werden – mangelnde Anwendung erklärt die vielen Mängel in der Praxis (Sharma et al., 2021).
Validierte Fragebögen finden
Angesichts dieser Anforderungen stellt sich oft die Frage: Muss man das Rad für jeden Umfragezweck neu erfinden? Zum Glück gibt es zahlreiche frei verfügbare, validierte Fragebögen und Messinstrumente, die man nutzen oder adaptieren kann. Vor allem folgende Ressourcen sind hier zu nennen:
- GESIS – Zentrale Item- und Skalenbank (ZIS): GESIS, das Leibniz-Institut für Sozialwissenschaften, bietet mit dem „ZIS“ ein Repository an, in dem erprobte (auch deutsch- und mehrsprachige) Messinstrumente dokumentiert sind. Dort finden Forscher:innen geprüfte Items, Skalen und Fragebögen aus den Sozial- und Verhaltenswissenschaften. Alle Instrumente im ZIS sind nach wissenschaftlichen Qualitätsstandards beschrieben. Statt selbst einen Fragebogen zu basteln, kann man validierte Items übernehmen, was Reliabilität und Vergleichbarkeit erhöht. ➡️ https://zis.gesis.org/
- PSYNDEX-Testarchiv / Open Test Archive: Das Leibniz-Zentrum für Psychologische Information (ZPID) stellt über PSYNDEX ein öffentlich zugängliches Testarchiv bereit. Dieses „Open Test Archive“ enthält derzeit über 200 (Stand 2025) frei nutzbare psychologische Testverfahren, die in der Forschung entwickelt und validiert wurden. Die Verfahren sind oft inklusive Dokumentation und Normen verfügbar, quasi als Open-Access-Download. Damit lassen sich beispielsweise Fragebögen zu Stress, Persönlichkeit oder Gesundheitsverhalten problemlos einsetzen oder anpassen, ohne von Null beginnen zu müssen. ➡️ https://psyndex.de/tests/testarchiv/
- ZPID-Testarchiv: Parallel zu PSYNDEX betreibt das ZPID auch eine eigene Plattform, auf der aktuell 249 offene Testverfahren gelistet sind. Auch hier findet man nach Fachbereichen sortierte psychologische Inventare und Fragebögen, die unter Creative-Commons-Lizenzen stehen. Das Portal betont, dass alle gelisteten Verfahren für Forschungszwecke geeignet sind und das Archiv kontinuierlich erweitert wird. ➡️ https://www.testarchiv.eu
Zusätzlich gibt es themenspezifische Datenbanken und internationale Quellen. Der Nutzen solcher Quellen liegt auf der Hand: Durch Nutzung vorhandener Instrumente steigert man die methodische Qualität. Man profitiert von der Vorarbeit anderer (Validierungsstudien, Pretests, Normierung) und erhöht die Vergleichbarkeit mit anderer Forschung. Auch Studierende sollten sich diese Ressourcen vor ihrem eigenen Datensammlungsvorhaben anschauen, oft genügt es, einen bereits existierenden Fragebogen geschickt mit soziodemografischen Daten zu kombinieren, statt komplett neu zu fragen.
In diesem Text werden nur einige Aspekte der Umfrageforschung detailliert besprochen. Um den Umfang der Komplexität noch deutlicher zu machen, sollen hier weitere relevante Aspekte Stichpunktartig dargestellt werden:
- Passendes Studiendesign: Es gibt eine ganze Reihe anderer Studiendesigns die Forschungsfragen aus der Rettungswissenschaft beantworten können (z.B. Routinedatenanalyse oder Experimente).
- Theorie- und Hypothesenbezug: Häufig mangelt es an Theoriebezug in rettungswissenschaftlichen Umfragen. Ohne theoretische Fundierung gelingt in der Regel eine Operationalisierung nur unzureichend, was zu schlechten Survey-Fragen und letztendlich zu nicht verwertbaren Ergebnissen führt.
- Datenqualität & Betrug: Wie werden mögliche Mehrfachteilnahmen, Bots oder „schnelles“ Durchklicken adressiert?
- Qualitätschecks einbauen: Setze nicht-reaktive Indikatoren (Seiten-/Gesamt-Bearbeitungszeit mit Speed-Index; Erkennung von Straightlining) und 2–3 reaktive Checks (Instructed-Response- oder Bogus-Items) ein, definiere Cut-offs vorab und dokumentiere Ausschlüsse transparent. Bearbeitungszeit ist in Web-Surveys der verlässlichste Prädiktor für sorgloses Antworten, Bogus-Items erhöhen die Trefferquote weiter (Leiner, 2019)
- Ethik und Datenschutz: Viele Umfragen für den Rettungsdienst haben keine einführende Informationen, benannte Ansprechpersonen, Erklärungen zu Ethik und Datenschutz.
Fazit
Der weit verbreitete Einsatz von Online-Umfragen in der Rettungswissenschaft birgt große Chancen, etwa in der Messung von Einstellungen, Kompetenzen oder regionalen Unterschieden im Rettungsdienst. Gleichzeitig ist aber klar, wer Umfragen durchführt, muss den wissenschaftlichen Ansprüchen genügen, die man auch an andere quantitative Methoden stellt. Es geht nicht darum, Umfragen vermeiden zu wollen, sondern sie ernst zu nehmen.
Studierende, Lehrende und Praktiker:innen sollten sich daher bewusst machen, dass jeder Fragebogen ein komplexes Instrument ist. Seine Planung erfordert Definition der Zielgruppe, klare Forschungsfragen und fundierte Operationalisierung und Konstruktionsschritte. Bereits in der hochschulischen Ausbildung müssen Grundlagen der Umfrageforschung vermittelt werden, damit Forschung nicht zum bloßen Ausfüllen von Online-Formularen verkommt. Lehrende sollten Fallstricke thematisieren und auf bewährte Quellen verweisen.
Gleichzeitig kann ein offener Appell lauten: Nutzt die Qualitätsstandards und Checklisten, die es bereits gibt! Leitlinien wie die CROSS-Checkliste oder die Testkonstruktionsregeln von Moosbrugger & Kelava sind nicht willkürliche Vorschläge, sondern hieb- und stichfeste Empfehlungen, um Umfrageforschung belastbar zu machen. Vor allem Studierende sollten umfragebasierte Projekte nicht auf die leichte Schulter nehmen. Nur so kann gewährleistet werden, dass die gewonnenen Daten verwertbare Erkenntnisse über rettungswissenschaftliche Themen liefern.
Nehmt Umfrageforschung so ernst wie jedes andere Forschungsdesign! Plant die Datenerhebung sorgfältig, nutzt geprüfte Fragebögen und führt immer mindestens Pretests durch. Achtet auf reliabel und valide Konstrukte und haltet etablierte Gütekriterien ein. So kann der inflationäre Einsatz von Online-Umfragen in der rettungswissenschaftlichen Forschung zu einem echten Gewinn werden, statt zu einem Qualitätsproblem. Nur durch strenge Methodik und Transparenz erhält man Forschungsergebnisse, auf die man uns verlassen können.
Quellen
Leiner, D. J. (2019). Too fast, too straight, too weird: Non-reactive indicators for meaningless data in internet surveys. Survey Research Methods, 13(3), 229–248. https://doi.org/10.18148/srm/2019.v13i3.7403
Moosbrugger, H., & Kelava, A. (2012). Testtheorie und Fragebogenkonstruktion (2.). Springer-Verlag.
Porst, R. (2015). Fragebogenkonstruktion (II) – „Question Wording“ und was sonst noch wichtig ist. GWP – Gesellschaft. Wirtschaft. Politik, 64(3), 381–392. https://doi.org/10.3224/gwp.v64i3.20757
Sharma, A., Minh Duc, N. T., Luu Lam Thang, T., Nam, N. H., Ng, S. J., Abbas, K. S., Huy, N. T., Marušić, A., Paul, C. L., Kwok, J., Karbwang, J., de Waure, C., Drummond, F. J., Kizawa, Y., Taal, E., Vermeulen, J., Lee, G. H. M., Gyedu, A., To, K. G., … Karamouzian, M. (2021). A Consensus-Based Checklist for Reporting of Survey Studies (CROSS). Journal of General Internal Medicine, 36(10), 3179–3187. https://doi.org/10.1007/s11606-021-06737-1
Simpson, P. (2025). Doing better with survey-based research in paramedicine. Paramedicine. https://doi.org/10.1177/27536386251318443