Gute Zahlen, schlechte Messung? Warum Objektivität, Reliabilität und Validität in der Rettungswissenschaft wichtiger sind als viele denken

März 10, 2026 Thomas Kommentare 0 Kommentare

In der (Rettungs-)Wissenschaft wird gerne mit Zahlen argumentiert. Das ist zunächst ein gutes Zeichen. Wo Zahlen erhoben, verglichen und interpretiert werden, besteht zumindest der Anspruch, systematisch und nachvollziehbar zu arbeiten. Man möchte wissen, ob eine Intervention wirkt, ob ein neues Ausbildungskonzept sinnvoll ist, ob ein Fragebogen geeignet ist oder ob Patient:innen von einer Maßnahme tatsächlich profitieren. Doch genau an dieser Stelle beginnt ein Problem, das in vielen Diskussionen erstaunlich wenig Aufmerksamkeit findet: Nicht jede Zahl ist automatisch ein guter Befund.

Denn bevor man aus Zahlen Schlussfolgerungen zieht, muss man eine viel grundlegendere Frage beantworten: „Wurde überhaupt gut gemessen?“ Genau hier kommen die klassischen Gütekriterien der quantitativen Forschung ins Spiel: Objektivität, Reliabilität und Validität. Sie gehören zu den methodischen Grundlagen empirischer Forschung und entscheiden letztlich darüber, ob ein Messergebnis belastbar ist oder nur den Anschein von Genauigkeit erzeugt (American Educational Research Association, 2014; de Vet et al., 2011).

Gerade für die Rettungswissenschaft ist das hochrelevant. Die Disziplin beschäftigt sich mit vielen Phänomenen, die sich nicht unmittelbar und eindeutig erfassen lassen, beispielsweise Schmerz, Belastung, Teamarbeit, Handlungssicherheit, Kompetenz, Entscheidungsqualität oder Patientenzufriedenheit. Solche Eigenschaften, auch latente Merkmale genannt, lassen sich nicht wie eine Körpertemperatur einfach ablesen. Man braucht Skalen, Fragebögen, Ratings oder standardisierte Beobachtungen. Und genau diese Instrumente müssen methodisch überzeugen. Sie sollen möglichst unabhängig von der erhebenden Person funktionieren, zuverlässig messen und tatsächlich das erfassen, was sie messen vorgeben.

Wichtig ist dabei eine klare Begrenzung, der folgende Beitrag bezieht sich auf quantitative Forschung. Die drei Gütekriterien stammen aus der Logik standardisierter Messung und werden in dieser Tradition diskutiert. Qualitative Forschung folgt anderen Qualitätsmaßstäben. Wer beides unsauber vermischt, macht es meist nicht differenzierter, sondern nur unklarer.

Ein einfaches Beispiel: Was eine Waage mit Wissenschaft zu tun hat

Bevor man über Fragebögen, Schmerzskalen und rettungswissenschaftliche Konstrukte spricht, hilft ein sehr einfaches Alltagsbeispiel: eine Personenwaage.

Angenommen, man möchte das Körpergewicht einer Person messen:

Objektivität bedeutet hier: Das Messergebnis sollte nicht davon abhängen, wer die Waage benutzt. Wenn drei Personen dieselbe Person unter denselben Bedingungen wiegen, sollte dieselbe Zahl herauskommen. Das Ergebnis darf also nicht davon abhängen, ob jemand besonders sorgfältig, besonders nachlässig oder besonders suggestiv vorgeht. Bei einer guten Waage ist die Messung weitgehend unabhängig von der messenden Person.

Reliabilität bedeutet: Die Waage sollte zuverlässig und reproduzierbar messen. Wenn dieselbe Person innerhalb weniger Minuten mehrfach auf die Waage steigt, sollte das Ergebnis sehr ähnlich sein, solange sich das tatsächliche Gewicht nicht geändert hat. Springt die Waage bei drei Messungen auf 72, 76 und 69 Kilogramm, ist sie offensichtlich nicht reliabel (zuverlässig).

Validität bedeutet: Die Waage sollte wirklich das Körpergewicht messen. Wenn sie systematisch immer fünf Kilogramm zu viel anzeigt, dann ist sie vielleicht objektiv und reliabel, alle messen dasselbe und die Werte sind bei Wiederholung stabil, aber eben nicht valide, weil sie nicht das richtige Gewicht abbildet. Stellen sich die Zuwiegenden mit Kleidung und einer Tasche auf die Waage, wird auch ein Gewicht gemessen, aber eben nicht (nur) das Körpergewicht. Auch diese Messung ist nicht valide.

Dieses Beispiel zeigt den Zusammenhang sehr anschaulich. Eine Messung kann objektiv und reliabel sein, ohne jedoch valide zu sein. Wenn die Waage immer denselben falschen Wert liefert, misst sie zwar präzise, aber nicht richtig. Umgekehrt wird eine Messung kaum überzeugend valide sein können, wenn sie bereits nicht reliabel ist. Eine Waage, die bei jeder Messung wild schwankt, kann schwerlich als gutes Instrument gelten.

Genau dieser Zusammenhang gilt auch in der Forschung. Nur sind die Dinge dort oft weniger offensichtlich als bei einer Waage. Vor allem in der Rettungswissenschaft geht es häufig nicht um direkt beobachtbare Größen, sondern um latente Konstrukte und Merkmale, die erst theoretisch bestimmt und anschließend operationalisiert werden müssen.

Die drei Gütekriterien etwas präziser

Objektivität bedeutet in der Methodik die Unabhängigkeit des Ergebnisses von der erhebenden, auswertenden oder interpretierenden Person. In der deutschsprachigen Tradition wird häufig zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität unterschieden. Dahinter steht der Gedanke, dass gute Messung standardisiert erfolgen sollte und nicht vom Stil einzelner Forschender abhängen darf (American Educational Research Association, 2014).

Reliabilität bezeichnet die Zuverlässigkeit einer Messung. Ein reliables Instrument misst mit möglichst wenigen Zufallsfehlern. Wenn sich das zu messende Merkmal nicht verändert hat, sollten unter vergleichbaren Bedingungen ähnliche Werte entstehen. Reliabilität ist damit eine Frage der Präzision und Konsistenz der Messung (de Vet et al., 2011).

Validität bezeichnet schließlich den Grad, zu dem Evidenz und Theorie die beabsichtigte Interpretation der Messwerte stützen. Im Gesundheitsbereich wird häufig formuliert, dass ein Instrument dann valide ist, wenn es das Konstrukt misst, das es zu messen vorgibt (American Educational Research Association, 2014; Mokkink et al., 2010). Validität ist also nicht einfach eine Eigenschaft, die man einem Fragebogen einmal verleiht, sondern ein argumentativ zu begründender Anspruch.

Gerade bei der Validität zeigt sich, wie anspruchsvoll quantitative Forschung eigentlich ist. In der Praxis wird oft so getan, als sei Validität eine Art letzter Qualitätsstempel: Man hat ein paar Items formuliert, ein paar Kennwerte berechnet, und dann ist das Instrument eben „validiert“. Diese Vorstellung ist zu simpel.

Vor allem Inhaltsvalidität und Konstruktvalidität setzen in der Regel voraus, dass halbwegs klar ist, was das Zielkonstrukt überhaupt ist. Inhaltsvalidität fragt, ob die Inhalte eines Instruments das interessierende Merkmal angemessen abbilden. Beispielsweise ob die Inhalte relevant, vollständig und verständlich sind. Konstruktvalidität fragt, ob sich das Instrument im Einklang mit theoretischen Annahmen verhält, wie man es für dieses Konstrukt erwarten würde (Mokkink et al., 2010; Terwee et al., 2018).

Genau hier liegt für die Rettungswissenschaft eine besondere Herausforderung. In vielen Bereichen der Disziplin existieren bislang noch keine besonders stabilen, breit akzeptierten Theorien, auf die man sich bei der Konstruktion und Prüfung von Messinstrumenten selbstverständlich stützen könnte. Das ist kein Makel einer jungen Disziplin, aber methodisch folgenreich. Wer etwa „klinische Handlungssicherheit“, „professionelle Entscheidungsfähigkeit“, „Kompetenz von Notfallsanitäter:innen“ oder „Belastung im Einsatz“ messen will, braucht mehr als alltagssprachliche Plausibilität. Man braucht eine theoretisch begründete Vorstellung davon, was genau zu diesem Konstrukt gehört und was nicht.

Fehlt eine solche theoretische Basis, wird es schwierig, Inhaltsvalidität und Konstruktvalidität überzeugend zu begründen. Dann besteht die Gefahr, dass Instrumente eher aus pragmatischen Annahmen, berufspolitischen Überzeugungen oder alltagsnahen Vermutungen herausgebaut werden als aus einer stabilen theoretischen Fundierung. Das muss nicht zwangsläufig zu schlechten Instrumenten führen, aber es macht ihre Validitätsargumentation deutlich fragiler. Gerade in einer sich entwickelnden Disziplin wie der Rettungswissenschaft ist das ein zentraler Punkt, denn die Messung ist nie stärker als das theoretische Verständnis dessen, was gemessen werden soll.

Warum das in der Rettungswissenschaft so wichtig ist

Die Rettungswissenschaft untersucht viele Sachverhalte, die in hohem Maße anwendungsnah sind (Prescher et al., 2023). Das ist ein wesentliches konstituierendes Merkmal. Aber diese Praxisnähe verführt manchmal dazu, zu glauben, dass man komplexe Phänomene schon deshalb gut messen könne, weil sie im Alltag sehr präsent sind. Genau das ist ein weitreichender Irrtum.

Dass Notfallsanitäter:innen im Einsatz „Belastung“ erleben, ist unstrittig. Dass Patient:innen Schmerzen haben, ebenfalls. Dass Teams im Rettungsdienst unterschiedlich gut kommunizieren, ebenso. Doch aus der Alltagserfahrung folgt noch nicht, dass diese Merkmale bereits klar theoretisch bestimmt und methodisch sauber operationalisiert und damit messbar sind. Gerade weil die Phänomene vertraut erscheinen, wird leicht unterschätzt, wie viel begriffliche und theoretische Vorarbeit gute quantitative Messung braucht.

Beispiel 1: Fragebogenforschung im Rettungsdienst

Nehmen wir eine typische Studie: Eine Bachelorandin möchte erheben, wie sicher sich Notfallsanitäter:innen bei der Anwendung rettungsdienstlicher Sonographie fühlen. Dazu wird ein Fragebogen entwickelt, der auf einer fünfstufigen Skala beantwortet wird.

Schon bei der Objektivität beginnt die methodische Arbeit. Bekommen alle Teilnehmenden exakt denselben Fragebogen mit derselben Einleitung? Erfolgt die Befragung anonym und unter vergleichbaren Bedingungen? Oder wird der Fragebogen in manchen Kursen von Lehrpersonen erläutert und in anderen einfach per Link verschickt? Wenn Durchführung und Instruktion variieren, sinkt die Objektivität. Unterschiede in den Antworten könnten dann nicht nur auf Unterschiede in der Handlungssicherheit, sondern auch auf Unterschiede in der Erhebungssituation zurückgehen (American Educational Research Association, 2014).

Dann stellt sich die Frage der Reliabilität. Passen die Items zusammen? Häufig werden in solchen Instrumenten sehr unterschiedliche Aspekte vermischt, beispielsweise Sicherheit in der Durchführung mit theoretischem Wissen, Interesse an Sonographie, Innovationsbereitschaft und Zustimmung zur Technik. Solche Items mögen thematisch verwandt erscheinen, messen aber nicht dasselbe. Die Skala wird dadurch unpräzise. Man erhält dann vielleicht einen Summenwert, weiß aber nicht mehr genau, welches Merkmal dieser eigentlich repräsentiert. Reliabilität ist unter solchen Bedingungen gefährdet, weil das Instrument nicht konsistent auf ein klar abgegrenztes Konstrukt abzielt (de Vet et al., 2011).

Am entscheidendsten ist jedoch die Validität. Misst der Fragebogen wirklich subjektive Handlungssicherheit? Oder eher allgemeines Selbstvertrauen, theoretisches Wissen oder eine positive Einstellung zur Sonographie? Genau an diesem Punkt wird die theoretische Schwäche vieler junger Forschungsfelder sichtbar. Wenn nicht präzise bestimmt ist, was unter Handlungssicherheit verstanden wird, wird auch die Auswahl geeigneter Items unsicher. Die Inhaltsvalidität bleibt dann angreifbar. Und wenn keine stabile Theorie vorhanden ist, die etwa Zusammenhänge zu Erfahrung, Training, Entscheidungssicherheit oder Performanz plausibel macht, wird auch die Konstruktvalidität schwer überzeugend zu begründen.

Das Problem ist nicht akademische Spitzfindigkeit, sondern betrifft die Aussagekraft der Studie direkt. Die Behauptung „Fortgebildete berichten mehr Handlungssicherheit“ klingt nur dann überzeugend, wenn man sicher sein kann, dass tatsächlich Handlungssicherheit und nicht etwas anderes gemessen wurde.

Beispiel 2: Schmerzmessung im Rettungsdienst

Das zweite Beispiel ist die Schmerzmessung. Im Rettungsdienst wird häufig mit numerischen Ratingskalen (NRS) gearbeitet, in der Regel von 0 bis 10. Solche Skalen sind klinisch sinnvoll, praktikabel und gut etabliert. Für die Erfassung subjektiver Schmerzintensität bei Erwachsenen wurden sie breit untersucht und empfohlen (Hjermstad et al., 2011).

Aber auch hier gilt, dass eine Zahl nicht automatisch selbsterklärend ist. Objektivität setzt voraus, dass die Skala standardisiert eingesetzt wird. Wer unterschiedlich fragt,unterschiedlich erklärt oder auf bestimmte Antworten hinlenkt, erzeugt vermeidbare Verzerrungen. Ein Effekt, der bereits gut untersucht ist (McDonald et al., 2009). Gerade in hektischen, lauten und emotional belastenden rettungsdienstlichen Situationen ist das keine theoretische Kleinigkeit.

Reliabilität ist bei Schmerzen komplizierter, weil sich Schmerzen real verändern können. Wenn eine Person nach der Analgesie weniger Schmerzen angibt, ist das keine Unzuverlässigkeit der Skala, sondern möglicherweise ein echter Effekt. Dennoch bleibt die Frage, ob das Instrument unter vergleichbaren Bedingungen hinreichend konsistent misst. Jensen & McFarland (1993) konnten zeigen, dass einzelne Schmerzangaben nur begrenzt geeignet sind, die durchschnittliche Schmerzintensität zu schätzen, und dass mehrere Messungen die Zuverlässigkeit und Validität verbessern können. Auch das ist für rettungswissenschaftliche Forschung lehrreich. Denn nicht nur das Instrument selbst, sondern auch die Art seiner Anwendung entscheidet über die Qualität der Daten.

Und die Validität? Eine NRS misst nicht „Schmerz an sich“ im absoluten, naturwissenschaftlichen Sinne, sondern die subjektiv berichtete Schmerzintensität. Das ist ein valider und klinisch relevanter Zugang, aber nur, wenn man die Grenzen der Interpretation kennt. Angst, Erschöpfung, Kommunikationsbarrieren oder situative Überforderung können beeinflussen, wie Schmerzen eingeschätzt und geäußert werden. Die Zahl auf der Skala ist also kein roher Naturwert, sondern ein standardisiertes subjektives Urteil. Genau deshalb muss man auch bei scheinbar einfachen Instrumenten sehr genau wissen, was sie leisten und was nicht (Hjermstad et al., 2011).

Was man aus beiden Beispielen lernen kann

Sowohl beim Fragebogen als auch bei der Schmerzskala zeigt sich derselbe Zusammenhang: Gute quantitative Forschung hängt nicht nur davon ab, dass gemessen wird, sondern wie gemessen wird und auf welcher theoretischen Grundlage diese Messung beruht.

Objektivität sorgt dafür, dass Ergebnisse möglichst unabhängig von der erhebenden Person zustande kommen. Reliabilität sorgt dafür, dass die Messung nicht von Zufallsschwankungen dominiert wird. Validität sorgt dafür, dass die gezogenen Schlussfolgerungen inhaltlich tragfähig sind. Vor allem aber macht die Validität deutlich, dass quantitative Forschung kein rein technischer Vorgang ist. Sie hängt an theoretischen Annahmen darüber, was ein Konstrukt ist, wie es sich zeigt und wie es erfasst werden kann.

Gerade deshalb ist der Hinweis auf die Theorielage in der Rettungswissenschaft so wichtig. Eine junge Disziplin muss nicht zuerst perfekte Theorien besitzen, bevor sie messen darf. Aber sie sollte sich darüber im Klaren sein, dass schwach entwickelte Theorien oder Theorien aus anderen Disziplinen die Begründung von Inhalts- und Konstruktvalidität erschweren. Wer in der Rettungswissenschaft valide messen will, muss deshalb nicht nur bessere Instrumente entwickeln, sondern auch an der begrifflichen und theoretischen Fundierung der Disziplin arbeiten. Ein wesentlicher Grund, warum die junge Disziplin der Rettungswissenschaft aktuell eher von qualitativer als von quantitativer Forschung profitieren dürfte.

Das eigentliche Problem: Zahlen verleihen Autorität

Vielleicht liegt hier der entscheidende blinde Fleck vieler Debatten. Zahlen wirken zuverlässig. Ein Mittelwert, ein Konfidenzintervall oder eine signifikante Differenz suggeriert Präzision. Doch diese Präzision ist nur so gut wie der Weg, auf dem die Zahlen entstanden sind. Ein Fragebogen mit schöner Statistik bleibt schwach, wenn unklar ist, was seine Items eigentlich messen. Eine Schmerzskala bleibt interpretationsbedürftig, wenn der Kontext ihrer Anwendung ignoriert wird. Und ein neues Instrument zur Messung der „Kompetenz von Notfallsanitäter:innen“ wird nicht deshalb überzeugend, weil es numerische Werte erzeugt.

Fazit

Die Rettungswissenschaft braucht nicht nur mehr Daten, sondern bessere Messlogik. Wer Objektivität, Reliabilität und Validität für bloße Methodenvokabeln hält, unterschätzt den Kern quantitativer Forschung. Gute Studien entstehen nicht dadurch, dass man Variablen sammelt und Statistik darüber berechnet. Sie entstehen dadurch, dass man weiß, was gemessen werden soll, warum genau dieses Instrument dafür geeignet ist und welche Interpretation der Ergebnisse tatsächlich gerechtfertigt ist.

Und noch schärfer: Eine junge Disziplin, die ihre theoretischen Grundlagen nur schwach entwickelt, kann zwar viele Zahlen produzieren, aber sie wird Mühe haben, starke Validitätsansprüche zu begründen. Genau deshalb ist Theoriebildung keine akademische Nebensache, sondern eine Voraussetzung dafür, dass quantitative Rettungswissenschaft mehr wird als methodisch ordentlich verpackte Plausibilität.

Nicht jede Zahl ist Erkenntnis. Nicht jede Skala ist ein gutes Instrument. Und nicht jede quantitative Studie ist automatisch gute Wissenschaft. Wer das akzeptiert, hat nicht weniger Respekt vor Daten, sondern mehr.

Quellen

American Educational Research Association. (2014). Standards for educational and psychological testing. American Educational Research Association & American Psychological Association & National Council on Measurement in Education.

de Vet, H. C. W., Terwee, C. B., Mokkink, L. B., & Knol, D. L. (2011). Measurement in Medicine. Cambridge University Press. https://doi.org/10.1017/CBO9780511996214

Hjermstad, M. J., Fayers, P. M., Haugen, D. F., Caraceni, A., Hanks, G. W., Loge, J. H., Fainsinger, R., Aass, N., & Kaasa, S. (2011). Studies Comparing Numerical Rating Scales, Verbal Rating Scales, and Visual Analogue Scales for Assessment of Pain Intensity in Adults: A Systematic Literature Review. Journal of Pain and Symptom Management, 41(6), 1073–1093. https://doi.org/10.1016/j.jpainsymman.2010.08.016

Jensen, M. P., & McFarland, C. A. (1993). Increasing the reliability and validity of pain intensity measurement in chronic pain patients. Pain, 55(2), 195–203. https://doi.org/10.1016/0304-3959(93)90148-I

McDonald, D. D., Shea, M., Rose, L., & Fedo, J. (2009). The Effect of Pain Question Phrasing on Older Adult Pain Information. Journal of Pain and Symptom Management, 37(6), 1050–1060. https://doi.org/10.1016/j.jpainsymman.2008.06.008

Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L., Bouter, L. M., & de Vet, H. C. W. (2010). The COSMIN study reached international consensus on taxonomy, terminology, and definitions of measurement properties for health-related patient-reported outcomes. Journal of Clinical Epidemiology, 63(7), 737–745. https://doi.org/10.1016/j.jclinepi.2010.02.006

Prescher, T., Bauer, C., Hofmann, T., & Koch, S. (2023). Modell einer entstehenden Disziplin: Forschungsfelder und Gegenstandstheorien der Rettungswissenschaft. In T. Prescher, C. Bauer, R. Dubb, T. Hofmann, & S. Koch (Eds.), Rettungswissenschaft: Grundlagen, Theorien und Perspektiven (1st ed., pp. 13–32). Kohlhammer.

Terwee, C. B., Prinsen, C. A. C., Chiarotto, A., Westerman, M. J., Patrick, D. L., Alonso, J., Bouter, L. M., de Vet, H. C. W., & Mokkink, L. B. (2018). COSMIN methodology for evaluating the content validity of patient-reported outcome measures: a Delphi study. Quality of Life Research, 27(5), 1159–1170. https://doi.org/10.1007/s11136-018-1829-0