Du côté de l’IA, nous apprenons que l’entrainement de Llama 3 de Meta n’a pas été un long fleuve tranquille. En effet, les H100 ont été à l’origine de nombreux plantages en parti à cause d’une mémoire défectueuse. Par ailleurs, précisons que l’entrainement de cet IA a duré 54 jours.
Les H100 de NVIDIA ont donné du fil à retordre à Meta !
Pour la petite histoire, l’entraînement de Llama 3 a été effectué avec un nombre astronomique de cartes graphiques. On parle ici d’un cluster de 16 384, toutes des H100 de NVIDIA, la carte la plus performante actuellement dans ce secteur.
Pour rappel, on parle d’une carte graphique équipée d’un GPU GH100 embarquant 80 Go de mémoire HBM3. Quant au GPU, suivant la variante utilisée, il est question de 114 ou 132 SM, soit un nombre de cuda core de 14 592 ou 16 896 suivant s’il s’agit d’une carte PCIe ou SXM5.
Bref, durant cet entrainement qui a duré 54 jour, quand même, il y a eu une grosse quantité de problèmes. Effectivement, on parle ici de près d’un millier de problèmes. Nos confrères indiquent :
- 419 échecs inattendus
- 47 interruptions planifiées liées à des maintenances
- 466 pannes
Cela nous laisse donc un total de 885 erreurs en lien avec le matériel qui se composent comme suit : 30,1 % en lien avec le NVLink et 17,2% à cause de la mémoire HBM3 des cartes. Enfin, cela ne laisse la place qu’à deux erreurs en lien avec les CPU… Deux erreurs en 54 jours d’entrainement, c’est fou !