Wer in den letzten Jahren Penetrationstests beauftragt hat, kennt das Ritual: Wochen Vorlauf für Scoping und Vertragsabstimmung, ein Testfenster von wenigen Tagen, ein dicker PDF-Bericht kurz vor Weihnachten und bis zur nächsten Prüfung bleibt die Sicherheitslage weitgehend im Dunkeln. Dieses Modell ist nicht falsch, aber es ist strukturell blind für das, was zwischen zwei Prüfungszeitpunkten passiert. Und in modernen, agilen IT-Umgebungen kann das bedeuten: Man validiert eine Infrastruktur, die zum Zeitpunkt des Reports bereits zwei Dutzend Deployments weiterentwickelt wurde.
Genau hier setzt die nächste Evolutionsstufe an. Seit 2024 hat sich der Markt für automatisierte und KI-gestützte Penetrationstests mit einer Geschwindigkeit entwickelt, die selbst erfahrene Security-Berater überrascht. Was noch vor drei Jahren als akademisches Experiment galt, ist heute kommerziell verfügbar, produktionsreif und regulatorisch anerkannt.
Das Grundprinzip des sogenannten Agentic Penetration Testing ist einfach: Statt eines menschlichen Testers, der sequenziell Angriffsvektoren abarbeitet, orchestrieren autonome KI-Agenten den gesamten Testprozess. Systeme wie PentAGI koordinieren mehrere spezialisierte Agenten mit Rollen wie Researcher, Developer und Executor, integrieren über zwanzig professionelle Sicherheitswerkzeuge darunter Nmap, Metasploit und SQLmap und führen den gesamten Prozess in isolierten Docker-Umgebungen durch. Die KI plant nicht nur den nächsten Angriffschritt, sie lernt aus dem Verlauf des Tests und passt ihre Strategie dynamisch an, wenn Verteidigungsmaßnahmen greifen.
Multi-Agenten-Systeme koordinieren heute eine Vielzahl parallel laufender Angriffsszenarien und adaptieren ihre Strategie, wenn die Verteidigung reagiert. Was früher einen erfahrenen Pentester mit Stunden manueller Arbeit beschäftigt hätte, erledigen diese Systeme in Minuten. Plattformen wie Aikido Attack versprechen den Start eines vollständigen Pentests innerhalb von Minuten nach Verbindung zum Ziel, mit prüffähigen Berichten, die den Anforderungen von SOC 2 und ISO 27001 entsprechen.
Faktor Mensch
Das klingt verführerisch. Und es ist teilweise wahr. KI schlägt menschliche Tester in einem spezifischen Bereich deutlich: Geschwindigkeit, Konsistenz und Skalierung. In einer kontrollierten Capture-the-Flag-Umgebung übertraf ein KI-Agent neun von zehn menschlichen Penetrationstestern und identifizierte valide Schwachstellen mit einer Präzision von 82 Prozent. Das sind keine trivialen Zahlen.
Trotzdem wäre es ein Fehler, daraus zu schließen, dass menschliche Expertise obsolet wird. Obwohl KI bei Geschwindigkeit, Skalierung und Mustererkennung klar punktet, gewinnen menschliche Tester bei der Ausnutzung komplexer Schwachstellen, insbesondere in Szenarien, die menschliche Intuition und kontextuelles Entscheidungsvermögen erfordern. Business-Logic-Fehler, ungewöhnliche Autorisierungskonstellationen in mehrstufigen Prozessen oder die strategische Interpretation eines Angriffspfads im Kontext eines spezifischen Unternehmens bleiben menschliche Domänen. Wer eine KI auf ein Kernbankensystem oder ein medizinisches Informationssystem loslässt und dabei glaubt, ein vollständiges Red-Team-Assessment ersetzt zu haben, irrt grundlegend.
Das führt zum sinnvollsten Modell für die Praxis: dem Hybrid. Die Zukunft des Penetrationstestings liegt nicht in der Ablösung menschlicher Expertise durch KI, sondern in der Augmentation. Erfolgreiche Organisationen setzen auf hybride Modelle, in denen KI die initiale Schwachstellenerkennung und Angriffspfadanalyse übernimmt, während menschliche Experten die kritischsten Findings validieren und in strategische Handlungsempfehlungen übersetzen.
Dieser Ansatz hat auch einen Namen, der sich am Markt durchgesetzt hat: Penetration Testing as a Service, kurz PTaaS. PTaaS-Plattformen kombinieren automatisierte Testwerkzeuge mit menschlicher Expertise und liefern skalierbare, kosteneffektive Sicherheitsbewertungen auf Abruf. Anstatt einmal jährlich ein punktuelles Bild zu erzeugen, ermöglicht PTaaS eine kontinuierliche Validierung der Sicherheitslage, ideal für Umgebungen mit häufigen Code-Deployments, Cloud-Migrationen oder sich verändernden Angriffsflächen.
Background
Die regulatorische Dimension ist dabei nicht zu unterschätzen. DORA verpflichtet EU-Finanzinstitute zu jährlichen Resilienztests und alle drei Jahre zu einem Threat-Led Penetration Testing (TLPT). NIS-2 schreibt für wesentliche und wichtige Einrichtungen regelmäßige Schwachstellenbewertungen und Sicherheitstests vor. Der entscheidende Shift: Regulatoren bewegen sich weg von der jährlichen Stichtagsbetrachtung hin zur Erwartung kontinuierlicher Nachweise. PTaaS liefert genau diese Evidenz, lückenlos und auditierbar.
Für ISO-27001-zertifizierte Unternehmen gilt: ISO 27001 schreibt keinen Penetrationstest explizit vor, aber Auditoren erwarten ihn zunehmend als Nachweis der Wirksamkeit der implementierten Kontrollen. Die Norm selbst adressiert über Annex A 8.8 das Schwachstellenmanagement und über 5.36 die Konformitätsbewertung, beides Bereiche, in denen ein gut dokumentierter Pentest-Zyklus erheblich zur Audit-Readiness beiträgt. Wer die Ergebnisse zudem direkt in sein Risikoregister und die Statement of Applicability zurückspiegelt, hat ein geschlossenes Kontrollsystem, das keinen Prüfer kalt lässt.
Interessant ist dabei auch der Blick auf den Motivationsshift in der Praxis. Laut dem State of Pentesting Report 2025 von Pentera führen nur noch 29 Prozent aller Organisationen Penetrationstests primär zur Erfüllung von Compliance-Anforderungen durch. Stattdessen dominieren Kontrollvalidierung, Priorisierung von Sicherheitsinvestitionen und die Bewertung potenzieller Angriffsauswirkungen als Beweggründe. Das ist eine gesunde Entwicklung. Wer Pentests als reines Compliance-Instrument betrachtet, unterschätzt ihren strategischen Wert als kontinuierliches Lagelagebild.
Risiko
Ein letzter Aspekt, der in vielen Diskussionen untergeht: die KI als Angriffsziel. Mit der Integration von Large Language Models in Produktionssysteme entsteht eine neue Klasse von Schwachstellen. Prompt Injection, Datenlecks über Plugin-Integrationen, übermäßiges Vertrauen in Modellvorhersagen oder Denial-of-Service-Angriffe gegen KI-Modelle sind reale Bedrohungen, die das OWASP Top 10 für LLM-Anwendungen adressiert. Wer heute KI-gestützte Prozesse betreibt, muss diese auch explizit in den Scope seiner Sicherheitstests aufnehmen.
Automatisiertes und KI-gestütztes Penetrationstesting ist kein Hype, sondern ein ernstzunehmender operativer Reifegrad, den gut geführte Sicherheitsorganisationen heute erschließen sollten. Der jährliche Einzel-Pentest bleibt für komplexe, szenariobasierte Red-Team-Übungen relevant, verliert aber als alleinige Maßnahme seine normative und praktische Überzeugungskraft.
Thilo Noack ist seit über 25 Jahren im Bereich Datenschutz sowie der IT- und Informationssicherheit tätig. Im Rahmen seiner beratenden Tätigkeit betreut er international mehr als 250 Unternehmen und Konzerne aus verschiedensten Branchen. Seine Arbeit konzentriert sich auf die praxisnahe Umsetzung gesetzlicher Anforderungen, den Aufbau von Managementsystemen sowie die Begleitung komplexer IT- und Compliance-Projekte.











