Evaluation

Bewertung ist eine eine systematische Bestimmung des Wertes und der Bedeutung eines Gegenstandes anhand von Kriterien, die durch eine Reihe von Standards bestimmt werden. Sie kann eine Organisation, ein Programm, einen Entwurf, ein Projekt oder eine andere Maßnahme oder Initiative dabei unterstützen, ein Ziel, ein realisierbares Konzept/einen realisierbaren Vorschlag oder eine Alternative zu bewerten, um die Entscheidungsfindung zu erleichtern, oder um den Grad der Verwirklichung oder den Wert im Hinblick auf die Ziele und die Ergebnisse einer solchen abgeschlossenen Maßnahme zu ermitteln. Der Hauptzweck der Evaluierung besteht neben der Gewinnung von Erkenntnissen über frühere oder bestehende Initiativen darin, eine Reflexion zu ermöglichen und bei der Ermittlung künftiger Veränderungen zu helfen. Die Evaluierung wird häufig zur Charakterisierung und Bewertung von Themen verwendet, die in einem breiten Spektrum menschlicher Unternehmungen von Interesse sind, z. B. in den Bereichen Kunst, Strafjustiz, Stiftungen, Non-Profit-Organisationen, Regierung, Gesundheitswesen und andere menschliche Dienstleistungen. Sie ist langfristig angelegt und wird am Ende eines bestimmten Zeitraums durchgeführt. ⓘ

Dieser Artikel wurde im Portal Wissenschaft zur Verbesserung eingetragen. Hilf mit, ihn zu bearbeiten, und beteilige dich an der Diskussion! ⓘ

Evaluation oder Evaluierung, aus lateinisch valere „stark, wert sein“, bedeutet sach- und fachgerechte Untersuchung und Bewertung. ⓘ

Definition

Evaluationen in der Entwicklungszusammenarbeit haben bereits eine lange Tradition. Der Schwerpunkt liegt dabei auf Evaluationen von Projekten und Programmen. ⓘ

Die ausgeprägte Evaluationskultur innerhalb der Entwicklungszusammenarbeit ist vor allem darin begründet, dass die im Rahmen von Projekten und Programmen eingesetzten Mittel stets gegenüber den Geldgebern gerechtfertigt werden mussten und müssen. ⓘ

Evaluationsansätze in der Entwicklungszusammenarbeit werden darüber hinaus stark durch internationale Abmachungen, insbesondere der Millenniumserklärung und der Pariser Erklärung geformt. Die sog. „Harmonisierung“ als durchgängiges Prinzip der Entwicklungszusammenarbeit schlägt sich beispielsweise in der Forderung nach Gemeinschaftsevaluierungen der Akteure nieder. In Deutschland haben sich staatliche Organisationen der „Entwicklungszusammenarbeit aus einem Guss“ verpflichtet und streben auch bei Evaluationen ein einheitliches Vorgehen an. Partnerländer übernehmen zunehmend die Rollen des Auftraggebers und des Durchführenden von Evaluation. ⓘ

Was die Evaluationsgegenstände betrifft, so verlagert sich der Fokus immer mehr von der Output-Evaluation als Leistungsnachweis hin zu Evaluation der Wirkungen (Outcomes und Impacts) von Projekten und Programmen auf dem Gebiet der Entwicklungszusammenarbeit. Man arbeitet mit Wirkungsketten und ausgefeilten Evaluationsdesigns, wie z. B. der Logical Framework Matrix („Logframe“). ⓘ

Traditionelle Evaluationskonzepte- und methoden, die auf linearen Kausalitätsmodellen beruhen, werden jedoch zunehmend hinterfragt und durch kybernetische Ansätze ergänzt oder gar verdrängt. Eine ähnliche Entwicklung, wie sie derzeit auch im Bereich der Organisationsentwicklung und -evaluation stattfindet. Neben der Suche nach innovativen (Selbst-)Evaluationsmethoden (z. B. Lernhelix) erscheint die (Weiter-)Entwicklung wissenschaftlich fundierter Konzepte als Grundlagen für Evaluation – wie z. B. das Dienstleistungsqualitäts- oder das Lebensqualitätskonzept – als besonders wichtig. Im Vergleich zu anderen Branchen, wie z. B. dem Bildungs- oder dem Gesundheits- und Sozialwesen, findet in der Entwicklungszusammenarbeit vergleichsweise wenig wissenschaftliches Knowhow („evidence base“) Eingang in die Evaluation. ⓘ

Evaluation ist die strukturierte Interpretation und Bedeutungsgebung der vorhergesagten oder tatsächlichen Auswirkungen von Vorschlägen oder Ergebnissen. Sie befasst sich mit den ursprünglichen Zielen und mit dem, was entweder vorhergesagt oder erreicht wurde und wie es erreicht wurde. Die Evaluierung kann also formativ sein, d. h. sie findet während der Entwicklung eines Konzepts, eines Vorschlags, eines Projekts oder einer Organisation statt, mit der Absicht, den Wert oder die Wirksamkeit des Vorschlags, des Projekts oder der Organisation zu verbessern. Sie kann auch summativ sein, d. h. aus einer abgeschlossenen Maßnahme oder einem Projekt oder einer Organisation zu einem späteren Zeitpunkt oder unter anderen Umständen Lehren ziehen. ⓘ

Zweck

Der Hauptzweck einer Programmevaluation kann darin bestehen, "die Qualität eines Programms durch die Formulierung eines Urteils zu bestimmen" (Marthe Hurteau, Sylvain Houle, Stéphanie Mongiat (2009)). Eine alternative Sichtweise ist, dass "Projekte, Bewerter und andere Beteiligte (einschließlich Geldgeber) alle potenziell unterschiedliche Vorstellungen davon haben, wie ein Projekt am besten zu bewerten ist, da jeder eine andere Definition von 'Leistung' haben kann. Der Kern des Problems besteht also darin, zu definieren, was von Wert ist. Aus dieser Perspektive ist Evaluation "ein umstrittener Begriff", da "Evaluatoren" den Begriff Evaluation verwenden, um eine Bewertung oder Untersuchung eines Programms zu beschreiben, während andere Evaluation einfach als Synonym für angewandte Forschung verstehen. ⓘ

Es gibt zwei Funktionen in Bezug auf den Evaluationszweck Formative Evaluationen liefern Informationen über die Verbesserung eines Produkts oder eines Prozesses Summative Evaluationen liefern Informationen über die kurzfristige Wirksamkeit oder die langfristigen Auswirkungen, um über die Annahme eines Produkts oder Prozesses zu entscheiden. ⓘ

Nicht alle Evaluierungen dienen demselben Zweck, einige Evaluierungen haben eher eine Überwachungsfunktion, als dass sie sich ausschließlich auf messbare Programmergebnisse oder Evaluierungsergebnisse konzentrieren, und es wäre schwierig, eine vollständige Liste aller Arten von Evaluierungen zusammenzustellen. Dies liegt daran, dass die Evaluierung nicht Teil eines einheitlichen theoretischen Rahmens ist, sondern sich auf eine Reihe von Disziplinen stützt, zu denen Management- und Organisationstheorie, Politikanalyse, Bildung, Soziologie, Sozialanthropologie und sozialer Wandel gehören. ⓘ

Diskussion

Das strikte Festhalten an einer Reihe von methodischen Annahmen mag den Bereich der Evaluierung für ein Mainstream-Publikum akzeptabler machen, aber dieses Festhalten wird die Evaluatoren daran hindern, neue Strategien für den Umgang mit den unzähligen Problemen zu entwickeln, mit denen die Programme konfrontiert sind. Es wird behauptet, dass nur eine Minderheit der Evaluierungsberichte von den Evaluierenden (Auftraggebern) genutzt wird (Datta, 2006). Eine Begründung dafür ist, dass "wenn Evaluierungsergebnisse in Frage gestellt werden oder die Nutzung gescheitert ist, dann deshalb, weil die Beteiligten und Kunden die Schlussfolgerungen für schwach oder die Begründungen für nicht überzeugend hielten" (Fournier und Smith, 1993). Einige Gründe für diese Situation können darin liegen, dass es dem Evaluator nicht gelungen ist, eine Reihe gemeinsamer Ziele mit dem Evaluanden festzulegen, oder dass er sich zu ehrgeizige Ziele gesetzt hat, und dass es ihm nicht gelungen ist, Kompromisse zu schließen und die kulturellen Unterschiede von Einzelpersonen und Programmen in die Evaluationsziele und den Evaluationsprozess einzubeziehen. Keines dieser Probleme ist auf das Fehlen einer Definition von Evaluation zurückzuführen, sondern vielmehr darauf, dass Evaluatoren versuchen, den Auftraggebern vorgefasste Vorstellungen und Definitionen von Evaluation aufzuzwingen. Der Hauptgrund für die unzureichende Nutzung von Evaluierungen liegt wohl in der mangelnden Anpassung von Evaluierungen an die Bedürfnisse des Auftraggebers, die auf eine vordefinierte Vorstellung (oder Definition) davon zurückzuführen ist, was eine Evaluierung ist, und nicht auf die Bedürfnisse des Auftraggebers (House, 1980). Die Entwicklung einer Standardmethodik für die Evaluierung setzt voraus, dass anwendbare Methoden für die Beantwortung und Angabe der Ergebnisse von Fragen zu ethischen Aspekten wie Auftraggeber, Datenschutz, Definition der Interessengruppen, beschränkte Haftung und "Könnte das Geld sinnvoller ausgegeben werden? ⓘ

Normen

Je nach Thema gibt es Berufsgruppen, die die Qualität und Strenge von Evaluierungsprozessen überprüfen. ⓘ

Die Bewertung von Programmen und Projekten im Hinblick auf ihren Wert und ihre Auswirkungen in dem Kontext, in dem sie durchgeführt werden, kann eine ethische Herausforderung darstellen. Evaluatoren können auf komplexe, kulturspezifische Systeme stoßen, die einer externen Evaluierung widerstehen. Darüber hinaus können die Projektorganisation oder andere Interessengruppen an einem bestimmten Evaluierungsergebnis interessiert sein. Schließlich können die Evaluatoren selbst in einen "Interessenkonflikt" geraten oder unter Druck geraten, Ergebnisse zu präsentieren, die eine bestimmte Bewertung unterstützen. ⓘ

Allgemeine berufliche Verhaltensregeln, wie sie von der anstellenden Organisation festgelegt werden, decken in der Regel drei weit gefasste Aspekte von Verhaltensstandards ab und umfassen interkollegiale Beziehungen (z. B. Achtung der Vielfalt und der Privatsphäre), betriebliche Fragen (ordnungsgemäße Kompetenz, korrekte Dokumentation und angemessene Nutzung von Ressourcen) und Interessenkonflikte (Vetternwirtschaft, Annahme von Geschenken und andere Arten von Günstlingswirtschaft). Es bedarf jedoch spezifischer Richtlinien für die Rolle des Evaluators, die bei der Bewältigung besonderer ethischer Herausforderungen eingesetzt werden können. Das Joint Committee on Standards for Educational Evaluation hat Standards für die Bewertung von Programmen, Personal und Studierenden entwickelt. Die Standards des Gemeinsamen Ausschusses sind in vier Abschnitte unterteilt: Nützlichkeit, Durchführbarkeit, Angemessenheit und Genauigkeit. Verschiedene europäische Institutionen haben auch ihre eigenen Standards ausgearbeitet, die mehr oder weniger mit denen des Gemeinsamen Ausschusses verwandt sind. Sie enthalten Richtlinien für Werturteile, die auf einer systematischen Untersuchung, der Kompetenz und Integrität der Bewerter, dem Respekt vor den Menschen und der Rücksichtnahme auf das allgemeine und öffentliche Wohl beruhen. ⓘ

Die American Evaluation Association hat eine Reihe von Leitprinzipien für Evaluatoren aufgestellt. Die Reihenfolge dieser Grundsätze bedeutet nicht, dass sie Vorrang haben; die Priorität hängt von der Situation und der Rolle des Bewerters ab. Die Grundsätze lauten wie folgt:

Systematische Untersuchung: Evaluatoren führen systematische, datengestützte Untersuchungen über den zu evaluierenden Sachverhalt durch. Dies erfordert eine qualitativ hochwertige Datenerhebung, einschließlich einer vertretbaren Auswahl von Indikatoren, die den Ergebnissen Glaubwürdigkeit verleihen. Die Ergebnisse sind glaubwürdig, wenn sie nachweislich evidenzbasiert, zuverlässig und gültig sind. Dies gilt auch für die Wahl der angewandten Methodik, die mit den Zielen der Evaluierung übereinstimmen und zuverlässige Daten liefern muss. Darüber hinaus ist die Verwertbarkeit der Ergebnisse von entscheidender Bedeutung, so dass die durch die Evaluierung gewonnenen Informationen umfassend und zeitnah sind und somit den Interessengruppen einen maximalen Nutzen und Nutzen bringen.
Kompetenz: Evaluatoren erbringen kompetente Leistungen für die Beteiligten. Dies setzt voraus, dass die Evaluierungsteams eine geeignete Kombination von Kompetenzen aufweisen, so dass vielfältige und angemessene Fachkenntnisse für den Evaluierungsprozess zur Verfügung stehen und die Evaluatoren im Rahmen ihrer Möglichkeiten arbeiten.
Integrität/Ehrlichkeit: Die Evaluatoren gewährleisten die Ehrlichkeit und Integrität des gesamten Evaluierungsprozesses. Ein Schlüsselelement dieses Grundsatzes ist die Freiheit von Voreingenommenheit bei der Bewertung, die durch drei Grundsätze unterstrichen wird: Unparteilichkeit, Unabhängigkeit und Transparenz. ⓘ

Die Unabhängigkeit wird dadurch erreicht, dass die Unabhängigkeit des Urteils gewahrt wird, so dass die Schlussfolgerungen nicht von einer anderen Partei beeinflusst oder unter Druck gesetzt werden, und die Vermeidung von Interessenkonflikts, so dass der Evaluator kein Interesse an einer bestimmten Schlussfolgerung hat. Ein Interessenkonflikt Interessenkonflikt ist vor allem dann ein Thema, wenn die Finanzierung von Evaluierungen durch bestimmte Stellen erfolgt die ein Interesse an den Schlussfolgerungen der Evaluierung haben, und dies wird als potenzielle Beeinträchtigung der Unabhängigkeit des Evaluators gefährdet. Es wird zwar eingeräumt, dass die Evaluatoren mit den Agenturen oder Projekten vertraut sein können, die sie zu bewerten haben, erfordert die Unabhängigkeit, dass sie nicht an der Planung oder Durchführung des Projekts beteiligt gewesen sein. Eine Interessenerklärung sollte Interessenserklärung abgegeben werden, wenn Vorteile oder eine Verbindung zum Projekt angegeben werden. Die Unabhängigkeit des Urteils ist muss gegenüber jeglichem Druck, der auf die Bewerter ausgeübt wird, gewahrt werden, z. B. durch Druck auf die Evaluatoren ausgeübt wird, z. B. von Projektfinanzierern, die die Evaluierung so verändern wollen, dass das Projekt wirksamer erscheint, als die
die Ergebnisse belegen können. ⓘ

Unparteilichkeit bezieht sich darauf, dass die Ergebnisse eine faire und gründliche Bewertung der Stärken und Schwächen eines Projekts oder Programms. Dies erfordert, dass alle beteiligten Akteure angemessen einbezogen werden und eine unvoreingenommene Darstellung der Ergebnisse sowie eine transparente, verhältnismäßige und überzeugende Verbindung zwischen Ergebnissen und Empfehlungen. Daher müssen Evaluatoren ihre Ergebnisse auf folgende Punkte beschränken Beweise. Ein Mechanismus zur Gewährleistung der Unparteilichkeit ist die externe und interne Überprüfung. Eine solche Überprüfung ist ist bei bedeutenden Evaluierungen (gemessen an den Kosten oder der Sensibilität) erforderlich. Die Überprüfung erfolgt basiert auf der Qualität der Arbeit und dem Ausmaß, in dem eine nachweisbare Verbindung zwischen den Ergebnissen
und Empfehlungen besteht. ⓘ

Die Transparenz setzt voraus, dass die Beteiligten den Grund für die Bewertung, die Kriterien die Kriterien, nach denen die Bewertung erfolgt, und die Zwecke, für die die Ergebnisse verwendet werden, bekannt sind. Der Zugang zum Evaluierungsdokument sollte dadurch erleichtert werden, dass die Ergebnisse leicht lesbar sind, mit klaren Erklärungen zu den Bewertungsmethoden, Ansätzen, Informationsquellen und Kosten
entstanden sind. ⓘ

Respekt für die Menschen: Die Evaluatoren respektieren die Sicherheit, die Würde und das Selbstwertgefühl der Befragten, Programmteilnehmer, Kunden und anderer Beteiligter, mit denen sie zu tun haben, insbesondere derjenigen, die von den Ergebnissen der Evaluierung betroffen sind. Der Schutz von Personen beinhaltet die Sicherstellung der informierten Zustimmung der an der Evaluierung Beteiligten, die Wahrung der Vertraulichkeit und die Sicherstellung, dass die Identität derjenigen, die möglicherweise sensible Informationen für die Programmevaluierung bereitstellen, geschützt wird. Die Evaluatoren sind ethisch verpflichtet, die Bräuche und Überzeugungen derjenigen zu respektieren, die von der Evaluierung oder den Programmaktivitäten betroffen sind. Dieser Respekt zeigt sich beispielsweise darin, dass sie die örtlichen Gepflogenheiten, z. B. die Kleiderordnung, respektieren, die Privatsphäre achten und die Zeit anderer so wenig wie möglich in Anspruch nehmen. Wenn Interessengruppen Einwände gegen die Evaluierungsergebnisse erheben wollen, sollte ein solches Verfahren über das örtliche Büro der Evaluierungsorganisation erleichtert werden, und die Verfahren für die Einreichung von Beschwerden oder Rückfragen sollten zugänglich und klar sein.
Verantwortlichkeiten für das allgemeine und öffentliche Wohl: Die Evaluatoren artikulieren und berücksichtigen die Vielfalt der Interessen und Werte, die mit dem allgemeinen und öffentlichen Wohl verbunden sein können. Der Zugang der breiten Öffentlichkeit zu Evaluierungsdokumenten sollte erleichtert werden, damit Diskussionen und Rückmeldungen möglich sind. ⓘ

Außerdem verfügen internationale Organisationen wie die IMF und die Weltbank über unabhängige Evaluierungsfunktionen. Die verschiedenen Fonds, Programme und Organisationen der Vereinten Nationen verfügen über eine Mischung aus unabhängigen, halb-unabhängigen und Selbstevaluierungsfunktionen, die sich in einer systemweiten UN-Evaluierungsgruppe (UNEG) organisiert haben, die gemeinsam an der Stärkung der Funktion und der Festlegung von UN-Normen und Standards für die Evaluierung arbeitet. Auch innerhalb des OECD-DAC gibt es eine Evaluierungsgruppe, die sich um die Verbesserung der Standards für die Entwicklungsevaluierung bemüht. Die unabhängigen Evaluierungseinheiten der großen multinationalen Entwicklungsbanken (MDBs) haben außerdem die Evaluation Cooperation Group gegründet, um den Einsatz von Evaluierungen für eine größere Effektivität und Rechenschaftspflicht der MDBs zu stärken, Erfahrungen aus MDB-Evaluierungen auszutauschen und die Harmonisierung und Zusammenarbeit bei Evaluierungen zu fördern. ⓘ

Perspektiven

Das Wort "Evaluierung" hat für verschiedene Menschen unterschiedliche Konnotationen, die Fragen im Zusammenhang mit diesem Prozess aufwerfen, z. B. welche Art von Evaluierung durchgeführt werden sollte, warum es einen Evaluierungsprozess geben sollte und wie die Evaluierung in ein Programm integriert wird, um mehr Wissen und Bewusstsein zu erlangen. Es gibt auch verschiedene Faktoren, die dem Evaluierungsprozess innewohnen, z. B. die kritische Untersuchung von Einflüssen innerhalb eines Programms, die das Sammeln und Analysieren von relativen Informationen über ein Programm beinhaltet. ⓘ

Michael Quinn Patton begründete das Konzept, dass das Evaluierungsverfahren darauf ausgerichtet sein sollte:

Aktivitäten
Merkmale
Ergebnisse
Urteilsbildung über ein Programm
Verbesserung seiner Wirksamkeit,
Informierte Programmierungsentscheidungen ⓘ

In Anlehnung an eine andere Bewertungsperspektive von Thomson und Hoffman (2003) ist es möglich, dass eine Situation eintritt, in der der Prozess nicht als ratsam angesehen werden kann, z. B. wenn ein Programm unvorhersehbar oder nicht fundiert ist. Dies wäre z. B. der Fall, wenn es keine einheitliche Routine gibt oder wenn sich die beteiligten Parteien nicht über den Zweck des Programms einigen können. Darüber hinaus weigert sich ein Beeinflusser oder Manager, relevante, wichtige zentrale Themen in die Evaluation einzubeziehen. ⓘ

Ansätze

Es gibt mehrere konzeptionell unterschiedliche Ansätze für die Planung und Durchführung von Evaluierungen. Viele der heute gebräuchlichen Evaluierungsansätze leisten wirklich einzigartige Beiträge zur Lösung wichtiger Probleme, während andere bestehende Ansätze in irgendeiner Weise verfeinern. ⓘ

Klassifizierung von Ansätzen

Zwei Klassifizierungen von Evaluierungsansätzen durch House und Stufflebeam und Webster lassen sich zu einer überschaubaren Anzahl von Ansätzen zusammenfassen, was ihre einzigartigen und wichtigen Grundprinzipien betrifft. ⓘ

House geht davon aus, dass alle wichtigen Evaluierungsansätze auf einer gemeinsamen Ideologie namens liberale Demokratie beruhen. Wichtige Grundsätze dieser Ideologie sind die Wahlfreiheit, die Einzigartigkeit des Individuums und die empirische Untersuchung auf der Grundlage der Objektivität. Er behauptet auch, dass sie alle auf einer subjektivistischen Ethik beruhen, bei der das ethische Verhalten auf der subjektiven oder intuitiven Erfahrung eines Einzelnen oder einer Gruppe beruht. Eine Form der subjektivistischen Ethik ist die utilitaristische, bei der "das Gute" durch das bestimmt wird, was eine einzige, explizite Interpretation des Glücks für die Gesellschaft als Ganzes maximiert. Eine andere Form der subjektivistischen Ethik ist die intuitionistische/pluralistische, bei der keine einzige Interpretation des "Guten" vorausgesetzt wird und solche Interpretationen weder explizit angegeben noch begründet werden müssen. ⓘ

Diese ethischen Positionen haben entsprechende Erkenntnistheorien - Philosophien zur Gewinnung von Wissen. Die objektivistische Erkenntnistheorie wird mit der utilitaristischen Ethik in Verbindung gebracht; sie dient im Allgemeinen dem Erwerb von Wissen, das durch öffentlich zugängliche Methoden und Daten extern überprüft werden kann (intersubjektive Übereinstimmung). Die subjektivistische Erkenntnistheorie wird mit der intuitionistischen/pluralistischen Ethik in Verbindung gebracht und dient dem Erwerb neuen Wissens auf der Grundlage vorhandenen persönlichen Wissens sowie von Erfahrungen, die (explizit) oder nicht (stillschweigend) für die Öffentlichkeit zugänglich sind. House unterteilt dann jeden erkenntnistheoretischen Ansatz in zwei politische Hauptperspektiven. Erstens können die Ansätze eine Elitenperspektive einnehmen, bei der die Interessen von Managern und Fachleuten im Mittelpunkt stehen, oder sie können auch eine Massenperspektive einnehmen, bei der die Verbraucher und partizipative Ansätze im Mittelpunkt stehen. ⓘ

Stufflebeam und Webster ordnen die Ansätze einer von drei Gruppen zu, je nach ihrer Ausrichtung auf die Rolle von Werten und ethischen Erwägungen. Die politische Orientierung fördert eine positive oder negative Sicht auf ein Objekt, unabhängig davon, welchen Wert es tatsächlich hat und haben könnte - sie nennen dies Pseudo-Bewertung. Die Frageorientierung umfasst Ansätze, die Antworten geben können oder auch nicht, die sich speziell auf den Wert eines Objekts beziehen - sie nennen dies Quasi-Evaluierung. Die Werteorientierung umfasst Ansätze, die in erster Linie darauf abzielen, den Wert eines Objekts zu bestimmen - sie nennen dies echte Bewertung. ⓘ

Bei gleichzeitiger Betrachtung der oben genannten Konzepte lassen sich fünfzehn Evaluierungsansätze in Bezug auf die Erkenntnistheorie, die Hauptperspektive (von House) und die Ausrichtung identifizieren. Zwei Pseudo-Evaluierungsansätze, politisch kontrollierte und Public-Relations-Studien, sind vertreten. Sie beruhen auf einer objektivistischen Erkenntnistheorie aus einer Elitenperspektive. Sechs Quasi-Evaluationsansätze verwenden eine objektivistische Erkenntnistheorie. Fünf von ihnen - experimentelle Forschung, Managementinformationssysteme, Testprogramme, zielorientierte Studien und Inhaltsanalyse - nehmen eine elitäre Perspektive ein. Die Rechenschaftspflicht nimmt eine Massenperspektive ein. Sieben echte Evaluierungsansätze sind enthalten. Zwei Ansätze, entscheidungsorientierte und politische Studien, beruhen auf einer objektivistischen Erkenntnistheorie aus einer Elite-Perspektive. Verbraucherorientierte Studien beruhen auf einer objektivistischen Erkenntnistheorie aus einer Massenperspektive. Zwei Ansätze - Akkreditierungs-/Zertifizierungs- und Kennerstudien - beruhen auf einer subjektivistischen Erkenntnistheorie aus einer Elite-Perspektive. Die gegnerischen und klientenzentrierten Studien schließlich basieren auf einer subjektivistischen Erkenntnistheorie aus einer Massenperspektive. ⓘ

Zusammenfassung der Ansätze

In der folgenden Tabelle werden die einzelnen Ansätze anhand von vier Attributen - Organisator, Zweck, Stärken und Schwächen - zusammengefasst. Der Organisator steht für die wichtigsten Überlegungen oder Anhaltspunkte, die Praktiker zur Organisation einer Studie verwenden. Der Zweck stellt das gewünschte Ergebnis einer Studie auf einer sehr allgemeinen Ebene dar. Die Stärken und Schwächen stellen andere Attribute dar, die bei der Entscheidung über die Verwendung des Ansatzes für eine bestimmte Studie berücksichtigt werden sollten. In der folgenden Darstellung werden die Unterschiede zwischen den einzelnen Ansätzen hervorgehoben. ⓘ

Zusammenfassung der Ansätze für die Durchführung von Evaluationen ⓘ
Ansatz	Attribut
Ansatz	Organisator	Zweck	Wichtigste Stärken	Wesentliche Schwächen
Politisch kontrolliert	Bedrohungen	Einfluss, Macht oder Geld erhalten, behalten oder vermehren.	Sicherung von Beweisen, die für den Klienten in einem Konflikt von Vorteil sind.	Verstößt gegen den Grundsatz der vollständigen und offenen Offenlegung.
Öffentlichkeitsarbeit	Propaganda muss	Schaffung eines positiven öffentlichen Images.	Sicherung von Beweisen, die am ehesten die öffentliche Unterstützung stärken.	Verstößt gegen die Grundsätze einer ausgewogenen Berichterstattung, begründeter Schlussfolgerungen und Objektivität.
Experimentelle Forschung	Kausale Beziehungen	Bestimmen Sie kausale Beziehungen zwischen Variablen.	Stärkstes Paradigma zur Bestimmung kausaler Beziehungen.	Erfordert eine kontrollierte Umgebung, schränkt die Bandbreite der Beweise ein, konzentriert sich hauptsächlich auf die Ergebnisse.
Management-Informationssysteme	Wissenschaftliche Effizienz	Liefern kontinuierlich die für die Finanzierung, Steuerung und Kontrolle von Programmen erforderlichen Daten.	Bieten Managern detaillierte Informationen über komplexe Programme.	Humandienstleistungsvariablen lassen sich nur selten mit den erforderlichen engen, quantitativen Definitionen erfassen.
Testen von Programmen	Individuelle Unterschiede	Vergleich von Testergebnissen von Einzelpersonen und Gruppen mit ausgewählten Normen.	Erzeugt gültige und zuverlässige Nachweise in vielen Leistungsbereichen. Der Öffentlichkeit sehr vertraut.	Die Daten beziehen sich in der Regel nur auf die Leistung der Prüflinge, betonen zu sehr die Fähigkeiten, einen Test zu bestehen, und können ein schlechtes Beispiel dafür sein, was gelehrt oder erwartet wird.
Zielorientiert	Ziele	Bezieht die Ergebnisse auf die Ziele.	Appell an den gesunden Menschenverstand, weit verbreitet, nutzt verhaltensbezogene Ziele und Testtechnologien.	Führt zu Endnachweisen, die oft zu eng gefasst sind, um eine Grundlage für die Beurteilung des Wertes eines Programms zu bieten.
Inhaltsanalyse	Inhalt einer Kommunikation	Beschreibt und zieht Schlussfolgerungen über eine Kommunikation.	Ermöglicht eine unauffällige Analyse großer Mengen unstrukturierten, symbolischen Materials.	Die Stichprobe kann nicht repräsentativ, aber vom Umfang her überwältigend sein. Das Analysedesign ist für die Fragestellung oft zu simpel.
Rechenschaftspflicht	Erwartungen an die Leistung	Den Wählern eine genaue Buchführung über die Ergebnisse zukommen lassen.	Beliebt bei den Wählerinnen und Wählern. Zielt auf die Verbesserung der Qualität von Produkten und Dienstleistungen ab.	Sorgt für Unruhe zwischen Fachleuten und Verbrauchern. Die Politik erzwingt oft verfrühte Studien.
Entscheidungsorientiert	Entscheidungen	Bieten eine Wissens- und Wertebasis, um Entscheidungen zu treffen und zu verteidigen.	Ermutigt zur Nutzung von Evaluierungen für die Planung und Umsetzung benötigter Programme. Hilft, Entscheidungen über Pläne und Maßnahmen zu rechtfertigen.	Die notwendige Zusammenarbeit zwischen Evaluator und Entscheidungsträger bietet die Möglichkeit, die Ergebnisse zu beeinflussen.
Politische Studien	Allgemeine Themen	Identifizierung und Bewertung potenzieller Kosten und Vorteile konkurrierender Maßnahmen.	Geben eine allgemeine Richtung für breit angelegte Maßnahmen vor.	Werden oft durch politisch motivierte Aktionen der Teilnehmer verfälscht oder unterlaufen.
Verbraucherorientiert	Verallgemeinerte Bedürfnisse und Werte, Auswirkungen	Beurteilung der relativen Vorzüge alternativer Waren und Dienstleistungen.	Unabhängige Bewertung zum Schutz von Fachleuten und Verbrauchern vor minderwertigen Produkten und Dienstleistungen. Hohe öffentliche Glaubwürdigkeit.	Hilft Praktikern möglicherweise nicht, bessere Arbeit zu leisten. Erfordert glaubwürdige und kompetente Bewerter.
Akkreditierung/Zertifizierung	Normen und Richtlinien	Legen fest, ob Institutionen, Programme und Personal für die Ausübung bestimmter Funktionen zugelassen werden sollten.	Hilft der Öffentlichkeit, fundierte Entscheidungen über die Qualität von Organisationen und die Qualifikation des Personals zu treffen.	Standards und Richtlinien betonen in der Regel intrinsische Kriterien unter Ausschluss von Ergebnismessungen.
Kenner	Kritische Wegweiser	Beschreiben, bewerten und beleuchten ein Objekt kritisch.	Nutzt hochentwickeltes Fachwissen zum Thema des Interesses. Kann andere zu aufschlussreicheren Bemühungen inspirieren.	Hängt von einer kleinen Anzahl von Experten ab, was die Bewertung anfällig für Subjektivität, Voreingenommenheit und Korruption macht.
Bewertung des Gegners	"Heiße" Themen	Präsentiert die Vor- und Nachteile eines Themas.	Gewährleistet eine ausgewogene Darstellung der vertretenen Perspektiven.	Kann die Zusammenarbeit erschweren und Animositäten verstärken.
Klientenzentriert	Spezifische Anliegen & Themen	Förderung des Verständnisses von Aktivitäten und deren Bewertung in einem bestimmten Umfeld und aus verschiedenen Perspektiven.	Praktiker werden dabei unterstützt, ihre eigene Bewertung vorzunehmen.	Geringe externe Glaubwürdigkeit, anfällig für Voreingenommenheit zu Gunsten der Teilnehmer.
Anmerkung. Angepasst und gekürzt hauptsächlich von House (1978) und Stufflebeam & Webster (1980).

Pseudo-Evaluierung

Politisch kontrollierte Studien und Studien über Öffentlichkeitsarbeit beruhen auf einer objektivistischen Erkenntnistheorie aus der Perspektive einer Elite. Obwohl beide Ansätze darauf abzielen, Wertinterpretationen über ein Objekt falsch darzustellen, funktionieren sie unterschiedlich. Informationen, die durch politisch kontrollierte Studien gewonnen werden, werden freigegeben oder zurückgehalten, um den besonderen Interessen des Inhabers zu entsprechen, während Informationen aus der Öffentlichkeitsarbeit unabhängig von der tatsächlichen Situation ein positives Bild eines Objekts vermitteln. Trotz der Anwendung beider Studien in realen Szenarien ist keiner der beiden Ansätze in der Bewertungspraxis akzeptabel. ⓘ

Objektivistische, elitäre, Quasi-Evaluation

Als Gruppe stellen diese fünf Ansätze eine hoch angesehene Sammlung von disziplinierten Untersuchungsansätzen dar. Sie werden als Quasi-Evaluationsansätze betrachtet, weil bestimmte Studien sich legitimerweise nur auf Wissensfragen konzentrieren können, ohne sich mit Wertfragen zu befassen. Solche Studien sind per Definition keine Evaluierungen. Diese Ansätze können Charakterisierungen hervorbringen, ohne Bewertungen zu produzieren, obwohl bestimmte Studien beides hervorbringen können. Jeder dieser Ansätze erfüllt seinen Zweck gut. Sie werden grob in der Reihenfolge erörtert, in der sie dem objektivistischen Ideal am nächsten kommen.

Die experimentelle Forschung ist der beste Ansatz, um kausale Beziehungen zwischen Variablen zu ermitteln. Das potenzielle Problem bei der Verwendung dieses Ansatzes als Evaluierungsmethode besteht darin, dass seine stark kontrollierte und stilisierte Methodik möglicherweise nicht ausreichend auf die sich dynamisch verändernden Bedürfnisse der meisten Humandienstleistungsprogramme eingeht.
Managementinformationssysteme (MIS) können detaillierte Informationen über die dynamischen Abläufe komplexer Programme liefern. Diese Informationen beschränken sich jedoch auf leicht quantifizierbare Daten, die in der Regel in regelmäßigen Abständen verfügbar sind.
Testprogramme sind so gut wie jedem bekannt, der eine Schule besucht, beim Militär gedient oder in einem großen Unternehmen gearbeitet hat. Diese Programme eignen sich gut für den Vergleich von Einzelpersonen oder Gruppen mit ausgewählten Normen in einer Reihe von Fachbereichen oder mit einer Reihe von Leistungsstandards. Sie konzentrieren sich jedoch nur auf die Leistung der Prüflinge und bilden möglicherweise nicht angemessen ab, was gelehrt oder erwartet wird.
Bei zielorientierten Ansätzen werden die Ergebnisse mit vorgegebenen Zielen in Beziehung gesetzt, so dass eine Beurteilung des Leistungsniveaus möglich ist. Leider erweisen sich die Ziele oft nicht als wichtig oder sie konzentrieren sich auf Ergebnisse, die zu eng gefasst sind, um die Grundlage für die Bestimmung des Wertes eines Objekts zu bilden.
Die Inhaltsanalyse ist ein Quasi-Evaluierungsansatz, da die Urteile der Inhaltsanalyse nicht auf Wertaussagen beruhen müssen. Stattdessen können sie auf Wissen beruhen. Solche Inhaltsanalysen sind keine Bewertungen. Wenn inhaltsanalytische Urteile hingegen auf Werten beruhen, sind solche Studien Evaluationen. ⓘ

Objektivistisch, massenhaft, Quasi-Evaluation

Die Rechenschaftspflicht ist bei den Wählern beliebt, weil sie eine genaue Buchführung über die Ergebnisse liefern soll, die die Qualität von Produkten und Dienstleistungen verbessern kann. Dieser Ansatz kann jedoch schnell dazu führen, dass Praktiker und Verbraucher zu Gegnern werden, wenn er auf plumpe Art und Weise umgesetzt wird. ⓘ

Objektivistische, elitäre, echte Bewertung

Entscheidungsorientierte Studien sollen eine Wissensgrundlage für die Entscheidungsfindung und -verteidigung liefern. Dieser Ansatz erfordert in der Regel eine enge Zusammenarbeit zwischen einem Bewerter und einem Entscheidungsträger, wodurch er anfällig für Korruption und Voreingenommenheit ist.
Politikstudien bieten allgemeine Orientierungshilfen zu allgemeinen Fragen, indem sie die potenziellen Kosten und Vorteile konkurrierender Maßnahmen ermitteln und bewerten. Der Nachteil ist, dass diese Studien durch die politisch motivierten Handlungen der Teilnehmer korrumpiert oder untergraben werden können. ⓘ

Objektivistische, massenhafte, echte Bewertung

Verbraucherorientierte Studien dienen dazu, die relativen Vorzüge von Waren und Dienstleistungen auf der Grundlage allgemeiner Bedürfnisse und Werte sowie einer umfassenden Palette von Auswirkungen zu beurteilen. Dieser Ansatz hilft den Praktikern jedoch nicht unbedingt, ihre Arbeit zu verbessern, und er erfordert einen sehr guten und glaubwürdigen Bewerter, um ihn gut durchzuführen. ⓘ

Subjektivistische, elitäre, echte Evaluierung

Akkreditierungs-/Zertifizierungsprogramme beruhen auf Selbststudien und Peer-Reviews von Organisationen, Programmen und Personal. Sie stützen sich auf die Erkenntnisse, Erfahrungen und das Fachwissen qualifizierter Personen, die anhand festgelegter Richtlinien entscheiden, ob der Antragsteller für die Ausübung bestimmter Funktionen zugelassen werden sollte. Wenn jedoch keine leistungsbasierten Standards verwendet werden, werden die Eigenschaften der Bewerber und die von ihnen durchgeführten Prozesse im Vergleich zu den Ergebnissen oder Wirkungen oft überbewertet.
Kennerstudien nutzen die hochgradig verfeinerten Fähigkeiten von Personen, die mit dem Evaluationsgegenstand bestens vertraut sind, um ihn kritisch zu charakterisieren und zu bewerten. Dieser Ansatz kann anderen helfen, Programme in einem neuen Licht zu sehen, aber es ist schwierig, einen qualifizierten und unvoreingenommenen Kenner zu finden. ⓘ

Gegenstand, Masse, echte Bewertung

Der gegnerische Ansatz konzentriert sich darauf, die Vor- und Nachteile kontroverser Themen durch quasi-juristische Verfahren herauszuarbeiten. Dies trägt zu einer ausgewogenen Darstellung der verschiedenen Sichtweisen auf die Themen bei, kann aber auch die spätere Zusammenarbeit erschweren und die Animositäten zwischen den streitenden Parteien verstärken, wenn sich "Gewinner" und "Verlierer" herauskristallisieren. ⓘ

Klientenzentriert

Klientenzentrierte Studien befassen sich mit spezifischen Anliegen und Problemen von Praktikern und anderen Klienten der Studie in einem bestimmten Umfeld. Diese Studien helfen dabei, die beteiligten Aktivitäten und Werte aus einer Vielzahl von Perspektiven zu verstehen. Dieser Ansatz kann jedoch zu einer geringen externen Glaubwürdigkeit und einer Voreingenommenheit gegenüber den Studienteilnehmern führen. ⓘ

Methoden und Techniken

Die Evaluierung ist methodisch vielfältig. Die Methoden können qualitativ oder quantitativ sein und umfassen Fallstudien, Umfrageforschung, statistische Analysen, Modellbildung und vieles mehr:

Beschleunigte Alterung
Aktionsforschung
Fortgeschrittene Planung der Produktqualität
Alternative Bewertung
Wertschätzende Befragung
Bewertung
Axiomatischer Entwurf
Benchmarking
Fallstudie
Veränderungsmanagement
Klinische Studie
Kohortenstudie
Analyse von Wettbewerbern
Konsensorientierte Entscheidungsfindung
Konsensorientierte Entscheidungsfindung
Inhaltsanalyse
Gesprächsanalyse
Kosten-Nutzen-Analyse
Data Mining
Delphi-Technik
Designorientierte Bewertung
Diskurs-Analyse
Pädagogische Akkreditierung
Elektronisches Portfolio
Umwelt-Scanning
Ethnographie
Versuch
Experimentelle Techniken
Faktorenanalyse
Faktorielles Experiment
Durchführbarkeitsstudie
Feldversuch
Vorrichtungsloser In-Circuit-Test
Fokus-Gruppe
Kraftfeld-Analyse
Spieltheorie
Zielfreie Bewertung
Benotung
Historische Methode
Befragung
Befragung
Iterativer Entwurf
Marketing-Forschung
Meta-Analyse
Metriken
Technik der signifikantesten Veränderung
Multivariate Statistik
Naturalistische Beobachtung
Beobachtungstechniken
Meinungsbefragung
Organisatorisches Lernen
Ergebnis-Kartierung
Ergebnistheorie
Teilnehmende Beobachtung
Teilnehmende Analyse der Wirkungspfade
Politische Analyse
Bewertung nach der Belegung
Prozessverbesserung
Projektleitung
Qualitative Forschung
Qualitätsaudit
Qualitätszirkel
Qualitätskontrolle
Qualitätsmanagement
Qualitätsmanagementsystem
Quantitative Forschung
Fragebogen
Konstruktion des Fragebogens
Überprüfung
Analyse der Grundursache
Rubriken
Stichprobe
Selbstbeurteilung
Sechs Sigma
Standardisierte Prüfung
Statistische Prozesskontrolle
Statistische Erhebung
Statistik
Strategische Planung
Strukturierte Befragung
Systemtheorie
Studentische Tests
Theorie der Veränderung
Vollständiges Qualitätsmanagement
Dreiecksbeziehung
Zauberer von Oz-Experiment ⓘ

Bortz & Döring unterscheiden drei Typen von Methoden: Populationsbeschreibend ⓘ

Sie „ermöglichen eine Abschätzung der Verbreitung und der Hintergründe eines Sachverhaltes und erleichtern die Definition der Zielpopulation.“ ⓘ

Explorativ ⓘ

Sie „dienen der Erkundung von Interventionsprozessen und deren Wirkungen. Sie zielen auf die Formulierung bzw. Konkretisierung von Wirkhypothesen ab und tragen dazu bei, die relevanten Variablen zu identifizieren und zu operationalisieren.“ ⓘ

Hypothesenprüfend ⓘ

Sie „testen den Einfluss der untersuchten Intervention auf sinnvoll operationalisierte Wirkkriterien.“ ⓘ

Wortherkunft

Das Wort Evaluation (Bewertung, Auswertung) wurde zuerst im 19. Jahrhundert im Französischen verwendet, mit Beginn des 20. Jahrhunderts auch im Englischen. In den USA ist es im modernen Verständnis seit den 1930er Jahren gebräuchlich (seit der Eight-Years-Study 1933–1941 von Ralph W. Tyler u. a.). Tylers verhaltensorientiertes Konzept wurde nach dem Sputnikschock 1957 in der danach einsetzenden Bildungsreform kritisiert und verändert. In Deutschland wurde das englische Wort Evaluation Ende der 1960er Jahre aus dieser amerikanischen Tradition übernommen; wichtig dafür wurde eine von Christoph Wulf herausgegebene Sammlung von Übersetzungen englischsprachiger Publikationen v. a. im Kontext der Curriculumsforschung. Die Wortbedeutung „Bewertung“ wurde dabei zunächst verengt auf die Bewertung insbesondere der Arbeit von Bildungsinstitutionen (die Curriculum-Entwicklung seit den 1930er-Jahren). Inzwischen wird, wie in den USA seit langer Zeit, auch in anderen sozialen Handlungsbereichen in Deutschland „evaluiert“. ⓘ

Abgrenzung

Professionell durchgeführte Evaluationen unterscheiden sich nach Balzer durch folgende Kriterien von alltäglicher Bewertung:

auf klar definierten Gegenstand bezogen
von Experten durchgeführt
Bewertung anhand präzise festgelegter und offengelegter Kriterien (Evaluations‐/Bewertungskriterien)
Informationsgewinnung durch empirische Datenerhebung
Systematische Informationsbewertung anhand bestimmter Regeln ⓘ

Balzer unterscheidet: „Evaluation ist ein Prozess, … bei dem nach zuvor festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien ein Evaluationsgegenstand bewertet wird. Dies geschieht unter Zuhilfenahme sozialwissenschaftlicher Methoden durch Personen, welche hierfür besonders qualifiziert sind. Das Produkt eines Evaluationsprozesses besteht in der Rückmeldung verwertbarer Ergebnisse in Form von Beschreibungen, begründeten Interpretationen und Empfehlungen an möglichst viele Beteiligte und Betroffene, um den Evaluationsgegenstand zu optimieren und zukünftiges Handeln zu unterstützen.“ ⓘ

Die Beurteilung von Personen oder Institutionen, die mit (oftmals negativen) Sanktionen verbunden ist, ist zu unterscheiden von der Beurteilung von Maßnahmen, die auf ihre Wirksamkeit hin untersucht werden und als Evaluation im eigentlichen Sinne bezeichnet werden können. Auf der Basis einer Zielvereinbarung wird eine Ausgangserhebung durchgeführt, es werden daraufhin Maßnahmen geplant, mit denen die Ziele erreicht werden sollen. Dann müssen Messinstrumente / Beurteilungskriterien entwickelt werden, mit denen man überprüfen kann, ob die Maßnahmen zum Erfolg geführt haben. Eventuell nach Zwischenerhebungen während der Durchführung wird in einer Schlusserhebung der Erfolg der Maßnahme überprüft, um daraus neue Zielvereinbarungen zu treffen und erneut in den Kreislauf einzutreten. Betroffene sollen zu Beteiligten werden, so dass der Prozess konsensual verläuft und nicht durch fremde Interessen und unklare Kriterien bestimmt wird. ⓘ

Modelle

Es gibt im Wesentlichen drei verschiedene Richtungen in der Evaluation: Methodenorientiert

Objectives-Oriented Evaluation (Ralph W. Tyler)
The methodological View (Donald T. Campbell)
Evaluative Research (E. A. Suchman)
Causal Generalization (T. Cook)
Theory Driven Evaluation (H.-T. Chen)
Evaluation as Art (L. J. Cronbach) ⓘ

Nutzenorientiert

CIPP Model (D. L. Stufflebeam)
Evaluation Research, Political Context & Enlightment (C. H. Weiss)
Utilization-focused Evaluation (M. Q. Patton)
The Four Levels (Donald Kirkpatrick)
Empowerment Evaluation (D. Fettermann) ⓘ

Bewertungsorientiert

Valuing (M. Scriven)
Responsive Evaluation (R. E. Stake)
4th Generation – Constructivist Evaluation (Guba & Lincoln)
Adversery Evaluation (Owens & Wolf)
Connoisseurship Model (E. W. Eisner) ⓘ

Standards

Andreas Gruschka formuliert 1976 anlässlich eines Kollegstufenversuchs in Nordrhein-Westfalen, was seither in die Handbücher Eingang gefunden hat: „Gütekriterien der Evaluation sind nicht mehr primär Validität, Reliabilität und Objektivität, sondern Kommunikation, Intervention, Transparenz und Relevanz.“ ⓘ

Die Deutsche Gesellschaft für Evaluation hat Evaluationsstandards erarbeitet, die eine objektive Vergleichbarkeit von Evaluationsergebnissen gewährleisten und Konflikten vorbeugen soll. Sie unterscheidet dabei vier Standards, die jeweils durch Richtlinien präzisiert werden. Nützlichkeitsstandards sollen sicherstellen, dass sich die Evaluationen an den geklärten Zielen und am Informationsbedarf der vorgesehenen Nutzer ausrichten. Die Regeln der Durchführbarkeitsstandards dienen dazu, Schaden vom Evaluationsgegenstand abzuwenden und dadurch Belastungen der Beteiligten zu reduzieren, und schließlich dem Kosten-Nutzen-Verhältnis der Evaluation ein ausgewogenes Maß zukommen zu lassen. Sie sollen somit eine gut geplante, realistische, diplomatische und kostenbewusste Ausführung einer Evaluation gewährleisten. Die Standards der Fairness sollen gewährleisten, dass der Umgang zwischen den beteiligten Personen fair und respektvoll abläuft. Die Aufgabe von Genauigkeitsstandards ist sicherzustellen, dass Evaluationen fachlich angebrachte Informationen über die Güte und die Möglichkeit der Verwendung des evaluierten Programms hervorbringen und übermitteln. ⓘ

Bereiche

Wichtige Anwendungsbereiche sind z. B. ⓘ

Qualitätsmanagement

Evaluation hat im Qualitätsmanagement (TQM, ISO 9000, 2Q, Q2E) schon lange einen festen Platz. Im EFQM-Modell wird Evaluation z. B. gefordert, um die Ergebnisse (der Arbeit) bei Kunden, Mitarbeitern und der Gesellschaft zu erfassen. Evaluation fungiert hier als Rückkopplungselement für die Prozesssteuerung im Rahmen der Organisations- und Qualitätsentwicklung. Es wird dabei überprüft, ob die Interventionen auch tatsächlich die gewünschten Ergebnisse bzw. Wirkungen produzieren (Ursache-Wirkungs-Beziehung). Erfasst werden sowohl subjektive Daten über die Wahrnehmung der Betroffenen, also der Mitarbeiter und Kunden, als auch objektive Leistungsindikatoren, die intern im Unternehmen erfasst werden können. ⓘ

Neben der Evaluation der Ergebnisse fordert das EFQM-Modell auch die direkte Evaluation der Abläufe, Interventionen und Maßnahmen in den Bereichen Führung, Strategie und Personal. Hier kommt die Methode der Selbstevaluation zur Anwendung, um die Prozesse zu bewerten und schließlich zu verbessern. Die Führungskräfte und Mitarbeiter des Unternehmens evaluieren sich, ihre Teams und ihre Organisation selbst anhand vorgegebener Kriterien. Sie nutzen dazu eigens für das Qualitätsmanagement (QM) entwickelte, möglichst objektive, verlässliche und valide Instrumente und Methoden. Auf Basis der gewonnenen Daten, Einschätzungen und Belege werden Handlungsempfehlungen und Veränderungsmaßnahmen abgeleitet. ⓘ

Sowohl die Selbst- als auch Fremd-Evaluationen können durch Benchmarking ergänzt und damit aussagekräftiger gemacht werden. Als Benchmarks dienen Daten aus anderen vergleichbaren Organisationen. Sie liefern Maßstäbe für die Bewertung und die Interpretation der eigenen Werte und damit der eigenen Situation. Im Idealfall kann auch die konkrete Kontaktaufnahme mit den Besten der Branche ein gemeinsames Lernen ermöglichen. ⓘ

Neben diesen rein internen Evaluationen werden zu Zertifizierungszwecken auch externe Evaluationen gefordert: externe unabhängige Auditoren evaluieren die Organisation anhand derselben Kriterien und geben ihre Bewertung ab. Die traditionellen Ansätze von EFQM oder ISO9000 beruhen meist auf sehr linearen Ursache-Wirkungsmodellen. Beispiele für andere Herangehensweisen sind zum Beispiel die kybernetischen Ansätze von Fredmund Malik. ⓘ

Bildung

Als pädagogischer bzw. andragogischer Fachbegriff bedeutet Evaluation „das methodische Erfassen und das begründete Bewerten von Prozessen und Ergebnissen zum besseren Verstehen und Gestalten einer Praxis-Maßnahme im Bildungsbereich durch Wirkungskontrolle, Steuerung und Reflexion.“ Gegenstand von Evaluation können Prozesse und Ergebnisse aus dem Bereich der Mikrodidaktik sowie der Makrodidaktik sein. Des Weiteren können gesamte Programme evaluiert werden. ⓘ

Umwelt

Der Umweltschutz gehört bisher weder in den USA noch in Europa zu den zentralen Anwendungsgebieten der Evaluation. Sozialwissenschaftliche Studien zur Evaluation von Umweltproblemen sind abgesehen von einigen Ausnahmen vor allem im Bereich des Energieverbrauchs, des Lärmschutzes und der Abfallproduktion selbst im Rahmen größerer politischer Programme eher selten. ⓘ

Eine Ursache ist sicherlich in der vergleichsweise geringen Anerkennung der Sozialwissenschaften als kompetente Ansprechpartner in Umweltfragen zu sehen, was sich erst angesichts mangelnder Erfolge von Maßnahmen zur Steigerung des Umweltbewusstseins in den neunziger Jahren grundlegend verändert hat. Nachdem die Formel Umweltaufklärung schafft Umweltbewusstsein und Umweltbewusstsein führt zu einem entsprechenden Verhalten durch eine Vielzahl sozialwissenschaftlicher Studien widerlegt und auf die Bedeutung sozialer Faktoren für das umweltrelevante Individualverhalten hingewiesen wurde, begann sich die Umweltdiskussion auch für sozialwissenschaftliche Fragestellungen zu öffnen und verabschiedete sich zunehmend von der Auffassung, dass Umweltprobleme rein durch technische Lösungen zu bewältigen seien. ⓘ

Gegenwärtig ist die Nachfrage nach Umweltevaluationen sehr stark durch öffentliche Auftraggeber bestimmt. Die Aufträge beziehen sich vorrangig auf die Bewertung politischer Programme oder einzelner Projekte. Insbesondere bei internationalen Organisationen sind dabei Tendenzen zur Entwicklung von Qualitätsanforderungen, die eine Einführung von Umweltevaluationen als Regelverfahren bei der Durchführung politischer Verfahren vorbereiten sollen, zu erkennen. In Deutschland sind auf Bundes- und Landesebene bei den politischen Instanzen bisher bestenfalls erste Ansätze in dieser Richtung wahrzunehmen. Durch den großen Stellenwert von Evaluationen bei der Stadt- und Raumplanung ist eine Etablierung von sozialwissenschaftlichen Umweltevaluationen durch Einbindung in bestehende, eher technisch orientierte (Planungs-)Verfahren wie z. B. die Umweltverträglichkeitsprüfung sogar eher auf regionaler und kommunaler Ebene zu erwarten. Die private Nachfrage nach Umweltevaluationen sowohl durch Unternehmen als auch durch Verbände und zivilgesellschaftliche Organisationen ist dagegen noch sehr gering. Trotz der Entwicklung von Umweltmanagementsystemen (z. B. EMAS) ist eine Einbindung der Erkenntnisse der sozialwissenschaftlichen Evaluation in die Qualitätsmanagementsysteme der Betriebe bisher nicht gelungen. ⓘ

Auf der Angebotsseite dominieren zumindest teilweise staatlich finanzierte Forschungsinstitute den Markt. Institute, die sich ausschließlich auf die Durchführung von Umweltevaluationen spezialisiert haben, gibt es dabei jedoch nicht. Am weitesten geht hier die Entwicklung beim Centrum für Evaluation der Universität des Saarlandes und dem Centre for Sustainable Management (CSM) der Universität Lüneburg. ⓘ

Auch bei den privaten Consultings haben nur wenige den Schwerpunkt ihrer Tätigkeiten auf sozialwissenschaftliche Umweltevaluationen gelegt. Hier sind als Beispiele das Institut für sozial-ökologische Forschung (ISOE) und das Institut für ökologische Wirtschaftsforschung (IÖW) zu erwähnen. Darüber hinaus haben auch eingeführte Umweltwissenschaftliche Institute wie das Wuppertal-Institut, das Öko-Institut in Freiburg oder das IFEU-Institut in Heidelberg ihr Angebot in Richtung sozialwissenschaftlicher Forschungsarbeiten erweitert, ohne hierin jedoch ein primäres Geschäftsfeld zu sehen und entsprechende Aufbauarbeiten zu leisten. Angesichts der steigenden Anforderungen, die sich durch das Leitbild der „nachhaltigen Entwicklung“ für die Einführung entsprechender Maßnahmen ergeben, ist allerdings trotz der schwierigen Ausgangslage auch im Umweltbereich eine expansive Entwicklung des Evaluationsmarktes und eine fortschreitende Professionalisierung des Angebots zu erwarten. ⓘ

Organisationen

Im internationalen Bereich haben Organisationen wie die UN, EU, OECD, der IWF, die GIZ usw. eigene Evaluations-Abteilungen, welche jeweils neben der Bearbeitung konkreter Fragestellungen auch allgemeine Standards und Methoden sammeln, entwickeln und aufbereiten. ⓘ

Im deutschsprachigen Raum gibt es die Deutsche Gesellschaft für Evaluation, DeGeVal. Sie hat zahlreiche methodische und sektorale Arbeitskreise und gibt Standards, Empfehlungen und Handreichungen zur Planung und Durchführung von Evaluationen heraus. Ihre Mitglieder stammen überwiegend aus Deutschland und Österreich. Daneben sind Forschungsorganisationen wie das Centrum für Evaluation im Saarland oder die proEval in Österreich an der Professionalisierung des Themas Evaluation beteiligt. ⓘ