Progrès en Codage avec Claude 3.5

Patrick · Octobre 24, 2024, 5:02

Des progrès significatifs en codage, notamment avec le modèle amélioré Claude 3.5 Sonnet.

Sonnet affiche des améliorations considérables dans les tâches de codage, surpassant tous les modèles accessibles au public, y compris les modèles de raisonnement comme OpenAI o1-preview et les systèmes spécialisés pour le codage agentique.
Il obtient un score de 49,0% sur SWE-bench Verified, une nette augmentation par rapport à son prédécesseur qui avait un score de 33,4%.
Les retours des clients confirment ces progrès : GitLab a constaté un raisonnement plus performant (jusqu’à 10% d’amélioration) dans les tâches DevSecOps, et Cognition a observé des améliorations substantielles en codage, planification et résolution de problèmes.

Claude 3.5 Haiku, bien que plus axé sur la vitesse et l’abordabilité, excelle également en codage.

Il obtient un score de 40,6% sur SWE-bench Verified, dépassant ainsi de nombreux agents utilisant des modèles de pointe disponibles publiquement, y compris le Claude 3.5 Sonnet original et GPT-4o.

Ces résultats indiquent que les deux modèles Claude 3.5, chacun à sa manière, contribuent à l’avancement du codage assisté par l’IA.