Des progrès significatifs en codage, notamment avec le modèle amélioré Claude 3.5 Sonnet.
- Sonnet affiche des améliorations considérables dans les tâches de codage, surpassant tous les modèles accessibles au public, y compris les modèles de raisonnement comme OpenAI o1-preview et les systèmes spécialisés pour le codage agentique.
- Il obtient un score de 49,0% sur SWE-bench Verified, une nette augmentation par rapport à son prédécesseur qui avait un score de 33,4%.
- Les retours des clients confirment ces progrès : GitLab a constaté un raisonnement plus performant (jusqu’à 10% d’amélioration) dans les tâches DevSecOps, et Cognition a observé des améliorations substantielles en codage, planification et résolution de problèmes.
Claude 3.5 Haiku, bien que plus axé sur la vitesse et l’abordabilité, excelle également en codage.
- Il obtient un score de 40,6% sur SWE-bench Verified, dépassant ainsi de nombreux agents utilisant des modèles de pointe disponibles publiquement, y compris le Claude 3.5 Sonnet original et GPT-4o.
Ces résultats indiquent que les deux modèles Claude 3.5, chacun à sa manière, contribuent à l’avancement du codage assisté par l’IA.