Im vergangenen Monat veröffentlichte GOV.UK still und leise die Ergebnisse seines Testprojekts mit KI-Programmierassistenten. Keine große Ankündigung. Keine Pressekonferenz des Ministers. Nur fundierte Daten, die belegen, dass über 1.000 Entwickler in 50 Ministerien durch den Einsatz von KI-Tools fast eine Stunde pro Tag eingespart hatten.
Nachdem ich über das 54.000-Pfund-Debakel um Microsoft Copilot geschrieben hatte, das „äußerst geringe“ Produktivitätssteigerungen brachte, kam mir das hier etwas anders vor. Dieselbe Regierung, die eine KI-Einführung in einem Bereich vermasselt hatte, hatte gleichzeitig eine andere auf den Punkt gebracht.
Was haben sie also anders gemacht?
Die Testphase des AI Coding Assistant (AICA) lief von November 2024 bis Februar 2025. Im Gegensatz zum breit angelegten Copilot-Ansatz war diese Maßnahme zielgerichtet: 2.500 Lizenzen wurden Entwicklern angeboten, die ihren Lebensunterhalt tatsächlich mit Programmieren verdienen. Die Ergebnisse waren beachtlich.
Die Zeitersparnis betrug durchschnittlich 56 Minuten pro Arbeitstag. Das entspricht einer Ersparnis von 28 Arbeitstagen pro Entwickler und Jahr. Nicht 2,2 Stunden pro Woche wie bei anderen Tests – sondern fast eine Stunde jeden einzelnen Tag.
Noch wichtiger ist jedoch, dass die Zufriedenheitskennzahlen ein ganz anderes Bild zeigten:
- 72 % gaben an, dass die Tools für ihr Unternehmen ein gutes Preis-Leistungs-Verhältnis bieten
- 58 % möchten nicht mehr ohne KI-Unterstützung arbeiten
- 65 % erledigten ihre Aufgaben schneller, 56 % lösten Probleme effizienter
Im Vergleich dazu nutzten bei der allgemeinen Copilot-Testphase nur 30 % die Funktion täglich, und die meisten konnten nicht erkennen, wann die KI sich Dinge ausdachte.
Was sie richtig gemacht haben: Die Grundlagen
Sie haben die richtigen Leute ausgewählt. Anstatt wahllos Beamte auszuwählen und auf das Beste zu hoffen, haben sie gezielt Entwickler angesprochen – Menschen, die sich bereits mit Code-Review, Fehlerbehebung und Qualitätskontrolle auskannten. Diese Nutzer verfügten über die nötigen Fähigkeiten, um KI-Ergebnisse kritisch zu bewerten.
Sie wählten geeignete Tools aus. GitHub, Copilot und Google Gemini Code Assist sind zwar nicht perfekt, aber speziell für Programmieraufgaben entwickelt. Die Tools waren für die jeweilige Aufgabe geeignet, im Gegensatz zu Allzweck-Chatbots, von denen erwartet wird, dass sie alles revolutionieren.
Sie haben gemessen, worauf es wirklich ankam. Anstelle vager Produktivitätsversprechen haben sie konkrete Kennzahlen erfasst: die Zeitersparnis bei der Code-Erstellung, -Analyse und -Überprüfung. Die Daten zeigen, dass Entwickler allein bei der Programmierung und Analyse täglich 24 Minuten eingespart haben.
Sie hielten an den Qualitätsstandards fest. Nur 15,8 % des von der KI vorgeschlagenen Codes wurden ohne Änderungen übernommen. Das zeigt, dass die Entwickler ihre Arbeit ordnungsgemäß erledigten und die Ergebnisse der KI überprüften und verbesserten, anstatt sie blind zu übernehmen.
Der menschliche Faktor bleibt erhalten
Einer der auffälligsten Unterschiede bei diesem Versuch besteht darin, dass nicht versucht wurde, Entwickler zu ersetzen. Der Schwerpunkt lag vielmehr darauf, ihre vorhandenen Fähigkeiten zu erweitern.
Die 39 % der Nutzer, die angaben, von der KI vorgeschlagenen Code übernommen zu haben, trafen dennoch fundierte Entscheidungen darüber, was sie übernehmen, ändern oder ablehnen wollten. Die KI fungierte als ausgefeilte Autovervollständigungsfunktion, nicht als Ersatz für einen Programmierer.
Wie die Experten der Gen AI Academy es formulieren:
„Die besten KI-Anwendungen ersetzen das menschliche Urteilsvermögen nicht – sie liefern den Menschen vielmehr besseres Ausgangsmaterial für ihre Arbeit.“ Erik Schwartz
„Die meisten Erfolge, die ich bei Unternehmen auf diesem Weg beobachtet habe, beruhen darauf, dass man bei den Nutzern ansetzt – bei den Problemen, mit denen sie zu kämpfen haben, oder den Dingen, die ihnen fehlen – und ihnen durch Schulungen und Anleitung hilft, die richtigen Werkzeuge einzusetzen. Mit klaren Grundregeln und Zielen können sie dazu beitragen und ihre Fortschritte daran messen.“ Hugo MC Pinto
Dieser Versuch war gerade deshalb erfolgreich, weil er den menschlichen Faktor bewahrt hat, der eine gute Softwareentwicklung erst möglich macht: kritisches Denken, Qualitätsprüfung und Kontextverständnis.
Warum dies über den staatlichen Bereich hinaus von Bedeutung ist
Der Programmierwettbewerb liefert eine Blaupause für die erfolgreiche Einführung von KI in jedem Bereich:
Beginnen Sie mit erfahrenen Anwendern. Erwarten Sie nicht, dass KI unerfahrene Personen auf magische Weise zu Experten macht. Setzen Sie sie bei Personen ein, die sich in dem Fachgebiet bereits auskennen und die Ergebnisse beurteilen können.
Wähle die richtigen Werkzeuge für die jeweiligen Aufgaben. Hör auf, allgemeine KI für alles einsetzen zu wollen. Spezialisierte Werkzeuge eignen sich besser für spezielle Aufgaben.
Messen Sie konkrete Ergebnisse. „Gesteigerte Produktivität“ ist bedeutungslos. „24 Minuten Zeitersparnis bei der Code-Erstellung“ sind verwertbare Daten.
Rechnen Sie mit menschlicher Überprüfung. Wenn 85 % der KI-Ergebnisse überarbeitet werden müssen, ist das kein Fehler – das System funktioniert wie vorgesehen.
Die unbequeme Wahrheit über den Erfolg der KI
Das Programmier-Pilotprojekt der Regierung war erfolgreich, weil es so unspektakulär war. Keine großspurigen Versprechungen über eine grundlegende Umgestaltung. Keine Behauptungen, ganze Abteilungen ersetzen zu wollen. Nur eine einfache Frage: Kann KI Entwicklern helfen, schneller zu programmieren?
Die Antwort lautete: Ja, bei richtiger Umsetzung, Schulung und realistischen Erwartungen.
Die meisten Unternehmen scheitern bei der KI, weil sie versuchen, das falsche Problem zu lösen. Sie wollen, dass KI ihre Missstände behebt, ihren Schulungsbedarf überflüssig macht oder ihre Unternehmenskultur verändert. Das Programmierprojekt der Regierung war erfolgreich, weil es ein einfaches Ziel verfolgte: gute Entwickler noch ein bisschen effizienter zu machen.
Wie geht es weiter?
Die Ergebnisse der Pilotphase haben keinen Einfluss auf künftige Beschaffungsentscheidungen – offenbar liegt diese Entscheidung in der Zuständigkeit einer anderen Regierungsstelle. Der Erfolg liefert jedoch ein Modell, das andere Ministerien (und Organisationen) sorgfältig prüfen sollten.
Der Unterschied zwischen diesem Versuch und dem Scheitern von Copilot liegt vor allem in der Umsetzung, der Auswahl der Nutzer sowie darin, realistische und überprüfbare Erwartungen daran zu haben, was KI tatsächlich leisten kann.
Als ich über das Copilot-Pilotprojekt schrieb, fragten mich mehrere Leute, ob ich glaube, dass KI im öffentlichen Dienst zum Scheitern verurteilt sei. Dieses Programmier-Pilotprojekt legt nahe, dass dies nicht der Fall ist – doch Erfolg setzt voraus, dass man die Arbeit ordentlich macht, anstatt darauf zu hoffen, dass die Technologie allein organisatorische Probleme löst.
Die Regierung hat den richtigen Ansatz für KI gewählt, indem sie diese als anspruchsvolles Werkzeug betrachtet, das qualifizierte Anwender erfordert, und nicht als Zaubermittel, das jeden zum Experten macht. Das ist eine Lektion, die sich jeder zu Herzen nehmen sollte, der KI einsetzt – sei es in Whitehall oder in Ihrem lokalen Start-up.
Helena McAleer ist Mitbegründerin von thegenAIacademy.com . Sie bringt Unternehmen, die KI implementieren, mit Experten aus der Praxis zusammen, die wissen, wie man auf die richtige Art und Weise Ergebnisse erzielt – und ja, sie verwendet immer noch den Gedankenstrich!
Mach mit bei der Diskussion und teile hier deine Meinung mit