AI vs. red teamer umano: dove l'autonomia paga davvero
Una valutazione onesta da chi costruisce sia campagne AI sia campagne human-led. Spezziamo l'offensive security in otto fasi e guardiamo esattamente dove un agente AI batte un pentester senior, dove no, e dove la risposta corretta è ibrida.
Ogni vendor che vende "AI security" ti dirà che l'AI è meglio. Ogni pentester senior ti dirà di no. Noi costruiamo e usiamo entrambe. Questa è la mappa onesta.
Il workflow di offensive security si scompone in circa otto fasi. Ogni fase ha una risposta diversa alla domanda "AI o umano?". Chi ti vende una risposta unica per tutta la pipeline ti sta vendendo qualcosa.
Le otto fasi
In ordine.
1. Recon e asset discovery
Vince l'AI, in modo netto. Uno sciame di 10 agenti che eseguono in parallelo port scan, enumerazione DNS, OSINT, certificate transparency e fingerprinting passivo supera in scoperta qualunque team umano sul footprint del perimetro. È lavoro noioso e parallelo — esattamente per cui esistono le macchine. Un pentester senior che fa recon a mano è un pentester senior sprecato.
Il lavoro interessante per gli umani inizia dopo che la mappa degli asset esiste.
2. Threat modelling e definizione dello scope
Vince l'umano, in modo netto. Chiedersi "cosa farebbe davvero male a questo business?" è una valutazione su soldi, regolamentazione, supply chain, fiducia dei clienti. L'AI non sa che il tuo CFO è sostituibile ma il COO no, o che un outage del sistema di order-entry alle 02:00 di venerdì è catastrofico mentre alle 02:00 di domenica è solo imbarazzante.
Non abbiamo visto nessuna AI di cui ci fidiamo a fare questa cosa. Se l'AI del tuo vendor dichiara di farlo, fai domande dure su come acquisisce il contesto di business — e se quel contesto viene spedito su un cloud.
3. Identificazione delle vulnerabilità
Vince l'AI, di poco. Incrociare feed CVE con versioni fingerprintate, scorare con EPSS, classificare con KEV — è veloce e meccanico, l'AI è più veloce. Il vantaggio umano qui è trovare problemi inediti per cui non è stato aperto un CVE, cosa che conta sui target ad alto valore ma non accade nella maggior parte degli engagement.
4. Sviluppo di exploit
Misto. Per i percorsi a vuln nota, l'AI che genera codice di exploit fresco per ogni target (non recuperato da ExploitDB) è più veloce e pulita dell'umano. Per percorsi davvero inediti — il bug di logica concatenato, il bypass dell'auth che esiste solo se questi tre flag sono attivi — il pentester umano resta nettamente migliore. L'AI sta migliorando, ma non è ancora al livello di un senior offensive engineer.
5. Lateral movement e pivoting
Vince l'AI. È enumerativo e graph-like. Mappare ogni host raggiungibile da ogni posizione compromessa, pesare gli attack path per probabilità × impatto, schedulare la mossa successiva. Gli umani sono più lenti perché devono ridisegnare il modello mentale ogni volta che la rete cambia. Gli agenti AI aggiornano il grafo in automatico.
Lo abbiamo misurato su un lab interno da 247 host: l'AI ha esplorato l'intero grafo in 38 minuti; il team umano ne ha impiegate 6 ore e ha perso due percorsi.
6. Detection ed OPSEC
Misto, con vantaggio umano. Sapere quanto è troppo rumore, quando rallentare, quando cambiare canale C2, quando una regola EDR è stata aggiunta nell'ultima ora — è skill di giudizio che gli umani sviluppano in anni. Gli agenti AI si configurano per stealth, ma tendono a essere o troppo cauti (campagne lente) o troppo sicuri (intercettati dal blue team). Ci stiamo lavorando e il gap si sta chiudendo, ma oggi è reale.
7. Reportistica e guidance di remediation
Vince l'AI, in modo netto. Scrivere un report chiaro, strutturato, audit-ready — con linguaggio business-impact, cross-mapping ai framework, priorità di remediation per severity × exploitability × impatto compliance — è esattamente il tipo di task LLM che è migliorato più in fretta. Anche qui: un pentester senior che scrive report è sprecato. Falli rivedere e firmare; che la bozza la scriva l'AI.
Firmiamo ogni report con ECDSA, così la firma umana ha un significato, non è cerimoniale.
8. Packaging delle evidenze di compliance
Vince l'AI, in modo netto. Mappare ogni finding al linguaggio dei controlli NIS2 / ISO 27001 / SOC 2 / PCI-DSS / DORA, generare matrici di referenza cross-framework, costruire chain-of-custody per ogni artefatto — burocrazia pura. Nessun umano dovrebbe farlo nel 2026.
Il punteggio onesto
Otto fasi, scorate:
- AI meglio: recon, identificazione vulnerabilità, lateral movement, reporting, evidenze di compliance. 5 fasi.
- Umano meglio: threat modelling, OPSEC. 2 fasi.
- Sostanzialmente pari / ibrido: sviluppo di exploit. 1 fase.
È un 5-2-1 a favore dell'automazione, con le due fasi a dominio umano che richiedono giudizio di business e istinto da adversary. Nota cosa non è dalla parte umana: il lavoro tecnico.
Cosa significa per come dovresti comprare
Tre conseguenze operative.
Uno. Se la tua spesa in offensive security va interamente in ore di consulenza umana, stai pagando persone senior per fare lavoro che un'AI fa meglio, e probabilmente sotto-finanzi il lavoro che gli umani fanno davvero meglio (threat modelling, OPSEC).
Due. Il deployment corretto è ibrido. L'AI gira in continuo, genera finding, scrive bozze di report. Un senior umano rivede, firma e conduce le campagne threat-led che richiedono giudizio (è anche come il framework DORA TLPT si aspetta che tu operi, comunque).
Tre. La scelta del vendor conta. Un'AI che spedisce la tua topologia di rete in cloud (vedi l'altro nostro pezzo sull'argomento) non è un modello ibrido — è una dipendenza SaaS travestita da AI. AI on-prem + senior in casa è una forma diversa.
Come Zero Hunt è configurata per l'ibrido
Zero Hunt fa girare in automatico e on-premise le cinque fasi a dominio AI. Le due fasi a dominio umano ricevono tooling, non automazione: il Trust Center espone i dati di campagna, i report scritti dall'AI sono presentati come bozze pronte per la firma umana, e la Red Team Chat interattiva permette a un operatore senior di lanciare attacchi mirati su ipotesi specifiche senza rifare il lavoro di recon che l'AI ha già fatto.
Effetto netto: i pentester senior spendono le ore dove sono unici. Il resto del workflow gira in background, sempre, con una chain-of-custody consegnabile a un auditor. La sezione funzionalità elenca i building block (AI Gym, RAG knowledge engine, Trust Center, campagne schedulate); la matrice di confronto mette il modello ibrido contro le alternative tool-only; richiedi una demo se vuoi vedere come si incastra col tuo red team attuale.
Non è un'AI che sostituisce i red teamer umani. È un'AI che fa il lavoro che li stava sprecando.