Progrès en Codage avec Claude 3.5

Des progrès significatifs en codage, notamment avec le modèle amélioré Claude 3.5 Sonnet.

  • Sonnet affiche des améliorations considérables dans les tâches de codage, surpassant tous les modèles accessibles au public, y compris les modèles de raisonnement comme OpenAI o1-preview et les systèmes spécialisés pour le codage agentique.
  • Il obtient un score de 49,0% sur SWE-bench Verified, une nette augmentation par rapport à son prédécesseur qui avait un score de 33,4%.
  • Les retours des clients confirment ces progrès : GitLab a constaté un raisonnement plus performant (jusqu’à 10% d’amélioration) dans les tâches DevSecOps, et Cognition a observé des améliorations substantielles en codage, planification et résolution de problèmes.

Claude 3.5 Haiku, bien que plus axé sur la vitesse et l’abordabilité, excelle également en codage.

  • Il obtient un score de 40,6% sur SWE-bench Verified, dépassant ainsi de nombreux agents utilisant des modèles de pointe disponibles publiquement, y compris le Claude 3.5 Sonnet original et GPT-4o.

Ces résultats indiquent que les deux modèles Claude 3.5, chacun à sa manière, contribuent à l’avancement du codage assisté par l’IA.