Revue de code par IA : donnez le design doc à l'agent

À retenir

La revue de code par IA est généralisée : plus de 60 M de revues Copilot et 44 % d’adoption en équipe (GitHub Blog, 2025 ; JetBrains, 2025).

Une revue IA générique repère le style. Une revue guidée par la spécification, où l’agent lit votre design doc, repère les violations de conception.

Une fois les design docs fournis, notre agent a bloqué des PR pour un time.Sleep qui gèle le controller, un mauvais groupe d’API RBAC et trois bugs d’authentification.

La revue IA n’est pas une revue de sécurité : 45 % du code généré par IA échoue aux contrôles OWASP (Veracode, 2025). Un humain reste maître du merge.

GitHub a enregistré plus de 60 millions de revues de code Copilot lors de sa première année, et plus d’une revue sur cinq sur la plateforme implique désormais un agent IA (GitHub Blog, 2025). L’adoption est actée. La vraie question n’est plus de savoir si les équipes utilisent l’IA pour relire leur code, mais ce que vous lui donnez à examiner. La plupart des configurations remettent à l’agent un diff brut et posent une question vague : est-ce que ça a l’air correct ? Nous avons tenté une approche plus ciblée sur une vraie base de code de platform engineering. Nous avons donné les design docs à un agent IA, puis l’avons laissé émettre un véritable verdict REQUEST_CHANGES ou APPROVE sur des pull requests en production. Les résultats ont changé notre façon de penser les portes de revue.

À quel point la revue de code par IA est-elle répandue en 2026 ?

La revue de code par IA est passée du gadget au réglage par défaut. GitHub fait état de plus de 60 millions de revues Copilot depuis le lancement, avec un usage multiplié par dix et plus de 12 000 organisations qui relisent désormais automatiquement chaque pull request (GitHub Blog, 2025). Environ 44 % des développeurs utilisent déjà l’IA spécifiquement pour la revue de code (JetBrains, 2025).

L’adoption penche vers les équipes qui livrent le plus de logiciels. Les développeurs web déclarent 52 % d’adoption de la revue par IA et les ingénieurs DevOps 49 %, tous deux au-dessus de la moyenne de 44 % (JetBrains, 2025). En prenant du recul sur l’outillage en général, les chiffres grimpent encore. Près de 90 % des développeurs utilisent désormais régulièrement au moins un outil de codage assisté par IA (JetBrains, 2026). À cela s’ajoutent 84 % qui utilisent ou prévoient d’utiliser des outils d’IA dans leur workflow (Stack Overflow, 2025).

Voici l’écart qui compte vraiment. L’essentiel de cette adoption relève de la revue générique. L’agent lit un diff, repère les défauts évidents et commente le style. Mais un diff seul vous dit-il jamais si le changement fait bien ce que l’équipe s’était mise d’accord pour construire ? C’est un travail utile, et ce n’est pas ce que nous cherchions à tester.

L’expérience : laisser un agent approuver ou bloquer de vraies PR

La plupart des revues IA notent le code par rapport à lui-même. La nôtre l’a noté par rapport à une spécification. Alors que 84 % des développeurs utilisent ou prévoient d’utiliser des outils d’IA (Stack Overflow, 2025), le facteur différenciant n’est plus le modèle, c’est le contexte que vous lui fournissez. Nous avons donné trois choses à l’agent : les design docs, le diff de la PR et les identifiants des user stories que le changement devait satisfaire.

Puis nous lui avons confié une autorité que la plupart des équipes retiennent. L’agent a utilisé l’API pull request de GitHub pour récupérer le diff et les fichiers référencés, confronté le changement aux exigences énoncées dans les documents d’architecture et de user stories, puis soumis sa propre revue directement à GitHub. Pas un résumé renvoyé dans la fenêtre de chat : des commentaires en ligne accompagnés d’un verdict explicite REQUEST_CHANGES ou APPROVE, publié comme une revue à part entière sur la PR.

Pour les lots plus importants, l’agent se déployait en éventail, lançant un fil d’investigation par PR afin de lire plusieurs diffs et zones de la base de code en parallèle. Cela maintenait une file de pull requests en mouvement sans qu’un humain ait à trier chacune d’elles au préalable.

Définition. La revue guidée par la spécification signifie que le relecteur tient à la fois le diff et le design doc dans le même contexte : « ce changement respecte-t-il la section 4 du document d’architecture » devient alors une question vérifiable mécaniquement. Le verdict peut citer la section exacte qu’un changement enfreint.

Qu’a détecté l’agent qu’une lecture humaine rapide aurait manqué ?

Les détections les plus précieuses de l’agent portaient sur des bugs d’exécution qui passent une relecture visuelle. Sur un lot de pull requests de controller et de frontend, il a émis des REQUEST_CHANGES sur plusieurs changements qu’un relecteur humain avait survolés sous la pression du temps. Trois défauts se sont démarqués, et aucun ne paraît erroné dans le diff.

Imaginez le contexte. Il est tard un vendredi, la PR touche douze fichiers, la CI est au vert et un collègue attend le merge. Vous survolez le diff, le code se lit proprement, alors vous approuvez. Le bug bloquant se trouvait à la ligne 40 du neuvième fichier. C’est exactement la situation où un relecteur infatigable qui suit la sémantique, et pas seulement les lignes, justifie son existence.

Le reconciler qui aurait gelé tout le controller

L’agent a signalé un time.Sleep bloquant avec récursion à l’intérieur d’un reconciler Kubernetes. C’est un anti-pattern classique de controller-runtime. Un reconciler s’exécute sur un pool de workers partagé : y dormir ne met donc pas en pause une seule ressource, cela immobilise un worker pendant toute la durée et affame toutes les autres réconciliations.

// Anti-pattern the agent blocked: sleeping inside Reconcile
func (r *Reconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
    if !resourceReady(ctx) {
        time.Sleep(30 * time.Minute) // stalls a shared worker for 30 minutes
        return r.Reconcile(ctx, req) // recursion instead of a requeue
    }
    // ...
}

À la place, la forme correcte rend la main à la work queue et laisse le manager planifier la nouvelle tentative :

    if !resourceReady(ctx) {
        return ctrl.Result{RequeueAfter: time.Minute}, nil
    }

Le diff compilait, passait la revue au premier coup d’œil, et aurait dégradé tout le controller en production. Le repérer exige quelqu’un, ou quelque chose, qui confronte la sémantique d’exécution au modèle de concurrence de controller-runtime, et pas seulement qui lise les lignes.

Le groupe RBAC qui refusait silencieusement tout accès

L’agent a détecté un mauvais groupe d’API RBAC : une ressource rattachée à platform.example.io alors que le controller servait en réalité labs.platform.example.io. Rien n’échoue au déploiement. Le manifeste s’applique proprement. En conséquence, à l’exécution, le controller se voit refuser silencieusement chaque appel d’API qu’il tente, et la panne se manifeste sous forme d’erreurs d’autorisation intermittentes et déroutantes, loin de la coquille qui les a causées.

Trois bugs d’authentification qui cassaient le flux de connexion

Sur une autre PR, l’agent a trouvé trois bugs qui, ensemble, rendaient un flux de connexion OIDC non fonctionnel. D’abord, un fichier de middleware que le framework n’invoquait jamais réellement. Ensuite, un token de session envoyé sous forme de header au lieu d’être transmis comme cookie. Enfin, une URL de fournisseur d’identité exposée directement au navigateur. Chacun n’est qu’une seule ligne à l’air plausible. Ensemble, ils faisaient que personne ne pouvait se connecter.

Pourquoi le design doc change-t-il tout ?

Le design doc recadre toute la question. En mars 2026, GitHub a fait passer la revue Copilot d’une comparaison ligne à ligne à un tool-calling agentique qui explore le dépôt et suit les dépendances entre fichiers (GitHub changelog, 2026). Ce virage du secteur et notre expérience pointent dans la même direction : la qualité de la revue est bornée par le contexte, pas par la taille du modèle.

La revue générique répond à « est-ce que ce code a l’air correct ». La revue guidée par la spécification répond à « est-ce que ce code fait ce dont nous avons convenu ». Ce sont deux questions différentes, avec des modes de défaillance différents. Un changement peut être idiomatique, bien testé et proprement formaté tout en implémentant discrètement la mauvaise fonctionnalité. Dans notre lot, l’agent a bloqué un formulaire qui ciblait le mauvais objet métier parce que la user story en exigeait explicitement un autre. Aucun contrôle de style ne détecte cela. Seule la spécification le fait.

Le recadrage. Les design docs cessent d’être un matériau de référence passif pour devenir une porte active. Une PR est notée par rapport à l’exigence qu’elle prétend satisfaire, et le verdict peut citer la section du document qu’elle enfreint. C’est un contrat, pas une évaluation à l’intuition.

Où la revue de code par IA montre-t-elle ses limites ?

La revue IA n’est pas une revue de sécurité, et confondre les deux est dangereux. Un verdict IA favorable devrait-il donc jamais tenir lieu de scan de sécurité ? Non. Veracode a constaté que 45 % du code généré par IA échoue aux contrôles de l’OWASP Top 10, et que 29,1 % du Python généré comporte une faiblesse de sécurité (Veracode, 2025). Par exemple, un agent entraîné sur des schémas qui produisent du code vulnérable ne signalera pas de façon fiable la même classe de vulnérabilité lorsqu’il la relit.

Mais notre propre essai révèle une limite plus tranchante. L’agent ne connaît que ce qui figure dans le diff et les documents. Il ne peut pas exécuter le code. Plusieurs verdicts se sont soldés par un « Request Changes, mineur » sur des PR qui se sont ensuite révélées porteuses de vrais bugs bloquants, car les confirmer exigeait d’exécuter réellement le changement. L’agent raisonne sur l’intention et la sémantique ; il n’observe pas le comportement à l’exécution.

Traitez donc les verdicts de l’agent comme une porte consultative, pas comme une autorité de merge. L’humain reste maître du bouton de merge. En pratique, cela signifie que le REQUEST_CHANGES de l’agent ne bloque rien à lui seul : il signale, cite et oriente. Une personne confirme, exécute le code là où cela compte, et décide. La valeur réside dans le tri et la conformité à la conception à grande échelle, pas dans une approbation autonome.

Comment mettre en place une revue guidée par la spécification ?

Avec 90 % des développeurs qui utilisent déjà régulièrement au moins un outil de codage assisté par IA (JetBrains, 2026), le coût de mise en place est faible et l’outillage est familier. Quatre éléments séparent une revue guidée par la spécification utile d’un simple commentaire de diff générique : des documents dans le dépôt, un prompt structuré, une grille de verdict explicite, et une intégration CI qui reste consultative.

Gardez les design docs dans le dépôt

L’agent ne peut citer que ce qu’il peut lire. Gardez les documents d’architecture, les user stories et les contrats d’interface versionnés à côté du code, afin que le document servant à noter la PR se déplace avec la branche. À l’inverse, une spécification dans un wiki séparé se désynchronise et ne donne au relecteur aucun point d’ancrage.

Structurez le prompt de revue

Orientez l’agent vers trois entrées explicites : l’URL de la PR, les sections précises du design doc concernées, et les identifiants des user stories que le changement doit satisfaire. Demandez-lui de confronter le diff à ces exigences d’abord, puis à la qualité générale ensuite. L’ordre compte, car la conformité à la conception est la valeur que vous ajoutez par rapport à une revue clé en main.

Définissez une grille de verdict

Donnez à l’agent une grille brève et sans ambiguïté. REQUEST_CHANGES lorsqu’un changement enfreint une exigence énoncée ou introduit un motif qui casse l’exécution. APPROVE lorsqu’il satisfait la user story référencée et passe les contrôles de qualité. Commentaire seul lorsque la préoccupation est stylistique. Une grille claire rend les verdicts comparables d’une PR et d’un relecteur à l’autre.

Intégrez-la à la CI, en mode consultatif uniquement

Déclenchez la revue sur les événements de pull request, publiez le verdict sous forme de check, et n’en faites jamais un statut bloquant obligatoire. Maintenez en place la porte de merge humaine.

name: spec-aware-review
on:
  pull_request:
    types: [opened, synchronize]
jobs:
  ai-review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Run agent review against design docs
        run: ./scripts/review-against-spec.sh
        env:
          PR_URL: ${{ github.event.pull_request.html_url }}
          DESIGN_DOCS: docs/architecture,docs/user-stories
      # Verdict is posted as a comment, not a required status check.

À retenir

La revue IA générique est déjà un prérequis de base, avec 60 millions de revues Copilot et 44 % d’adoption en équipe au compteur (GitHub Blog, 2025 ; JetBrains, 2025). Le facteur différenciant, c’est ce que vous donnez à l’agent. Donnez-lui le design doc, et la revue passe de « est-ce que ça a l’air correct » à « est-ce que ça fait ce dont nous avons convenu ». C’est ce basculement qui a fait remonter un time.Sleep qui gelait le controller, une mauvaise configuration RBAC silencieuse et trois bugs d’authentification cassant la connexion, avant le merge. Gardez les garde-fous honnêtes : associez-la à un vrai scan de sécurité, et gardez un humain sur le bouton de merge. Utilisée ainsi, la revue guidée par la spécification est l’un des ajouts au meilleur rendement qu’une équipe plateforme puisse faire cette année.

Réponses directes

Questions fréquentes

Un agent IA remplace-t-il les relecteurs humains ?

Non. Dans notre expérience, l'agent a joué le rôle de porte consultative, pas d'autorité de merge. Il ne peut pas exécuter le code : plusieurs verdicts sur des PR réellement boguées sont revenus comme des préoccupations mineures que seul un humain exécutant le changement pouvait confirmer. Une personne reste maître de la décision de merge.

Qu'est-ce que la revue de code guidée par la spécification ?

La revue guidée par la spécification donne à l'agent le diff de la pull request et les documents de conception dans le même contexte. Au lieu de demander si le code a l'air correct, elle demande s'il fait ce que dit la spécification. L'agent peut citer la section exacte du design doc qu'un changement enfreint.

La revue de code par IA équivaut-elle à un scan de sécurité ?

Non, et les traiter comme équivalents est risqué. Veracode a constaté que 45 % du code généré par IA échoue aux contrôles de l'OWASP Top 10. Un agent de revue généraliste ne remplace pas un SAST dédié, un scan de dépendances ou un ingénieur sécurité. Faites tourner l'outillage de sécurité en parallèle, jamais à sa place.

Quelle part du secteur utilise réellement l'IA pour les revues ?

L'adoption est désormais généralisée. GitHub fait état de plus de 60 millions de revues Copilot et de plus d'une revue sur cinq impliquant l'IA, tandis que 44 % des développeurs utilisent l'IA spécifiquement pour la revue de code. La question ouverte porte sur la qualité du contexte, pas sur le fait de savoir si les équipes ont commencé.