Jadis composé d’un seul morceau de silicium, les processeurs des ordinateurs et serveurs vont, de plus, en plus devenir des compositions de blocs logiques collés ou empilés les uns avec les autres. Focus sur ce qui est non pas une tendance, mais bel et bien une condition nécessaire à la poursuite de la course aux performances pour l’industrie des puces .
La nouvelle puce Meteor Lake qu’Intel vient de présenter en détails lors de son salon Innovation, ne ressemble à aucune autre puce que le géant américain a jamais lancé. Ce processeur qui prendra corps à partir du 14 décembre prochain dans des PC portables sous le nom de Core Ultra rompt en effet avec la tradition monolithique de l’entreprise. Pas besoin de microscope pour s’apercevoir que la puce est un « collage » de plusieurs « morceaux » de puces. Si on devait faire une analogie viticole ; le géant Intel, qui ne produisait jusqu’ici que des Bourgognes mono-cépages s’est converti à l’assemblage pour devenir un producteur de Bordeaux !
On pourrait se contenter de dire que l’arrivée de son nouveau PDG Pat Gelsinger en 2021 a été le début de moult changements chez Intel qui, avec sa stratégie IDM 2.0, fait sa révolution dans plusieurs de ses branches. Ce serait ne pas voir qu’AMD joue au Lego depuis un moment déjà, qu’Apple a déjà collé des M1 Max pour en faire des M1 Ultra. Ou que de nombreuses rumeurs font état de la conversion prochaine de Nvidia. La question est donc moins de savoir pourquoi Intel a changé, mais plutôt qu’est-ce qui est en train de forcer les producteurs de puces haute puissance à concevoir des puces comme des jeux de briques ?
Foveros et Chiplets : Optimiser les coûts au maximum
La première et principale raison, nous l’avions évoqué lors de la présentation même de la puce Meteor Lake, est celle des coûts. Le fait que AMD et Intel désormais conçoivent leurs puces à la carte est avant tout un moyen d’économiser de l’argent. Pourquoi graver la partie des entrées/sorties (IO die dans le jargon) en 4 nm si on peut se contenter du 7-8 nm ? Si la juste finesse de gravure est une donne d’importance, il y a aussi et surtout derrière une logique industrielle autour des rendements. Et pour comprendre cette logique, il faut se plonger un peu dans le merveilleux monde de la production de semi-conducteurs. Qui commencent leur vie sur un wafer, cette galette primordiale de silicium de 300 mm de diamètre et quelques microns d’épaisseur.
Après moult bains chimiques couplés à de multiples d’expositions au laser de scanners qui impriment les circuits, les composants électroniques sont découpés et testés. Testés en effet, car lors de la conception même des puces, de nombreux défauts peuvent apparaître à la surface du wafer, rendant le plus souvent les parties touchées inopérantes. Imaginez ainsi un wafer avec 10 erreurs réparties à sa surface. Si vous découpez de grandes puces de 3×4 cm, vous vous retrouvez avec un taux de déchet très élevé. Prenez le même wafer et découpez des blocs de 8×6 mm, et votre taux de rendement explose. Cette différence de rendement explique en grande partie pourquoi plus les composants sont grands, plus ils sont exponentiellement chers.
Si assembler des puces à partir de morceaux se paye en argent comme en technique (lire plus loin), ce mécanisme permet donc de faire baisser le prix final d’une puce composée. A ce gain potentiel d’argent basé sur les rendements purs, s’ajoute celui de la capacité à limiter les coûts d’amorce des nouveaux nodes de production. En effet, la production d’un nouveau composant prend un temps de calibrage des machines et des procédés, une période de lancement qui coûte cher. Maximiser les rendements lors de l’introduction d’un nouveau process permet de limiter les coûts de lancement de manière significative. Une fois le procédé maîtrisé et les rendements de pointe atteints avec de petits processeurs (ou bouts de puces), il est bien plus facile (et moins coûteux !) d’appliquer la même recette à des composants plus grands dont le taux de déchet est naturellement plus élevé.
Cela, on le constate depuis des années avec les puces de smartphones : avec leurs volumes délirants, leurs marges plus importantes et leurs puces plus petites, nos téléphones intelligents profitent de nodes de gravure les plus fins. Le lancement début septembre de l’iPhone 15 Pro et sa puce A17 Pro gravée en 3 nm nous le rappelle – il s’agit de la première puce produite en masse dans cette finesse de gravure. Et il faut se réjouir ici que les incroyables volumes de production des ventes des SoC mobiles finance en partie les puces informatiques de demain !
Notez bien que l’ère de l’assemblage des chiplets ne signifie pas la disparition totale des grosses puces. Pour s’en convaincre, il suffit de regarder la taille du méga processeur Cerebras qui fait littéralement la taille d’un wafer découpé en carré (d’où son nom de wafer scale engine ou moteur de la taille d’un wafer en français) ! Certaines puces professionnelles comme les Xeon ou les EPIC, dont certaines sont déjà composées, ont tout de même des morceaux de puces assez énormes. Ce afin de garantir un maximum de performances. Car la conception désagrégée emporte avec elle des limites et des contraintes, comme une plus grande latence entre certains éléments de la puce par exemple. Mais ces petites pertes peuvent être en partie limitée.
Faciliter la diversification du portfolio de puces
Une fois la donne des rendements admise comme la raison principale du « grand jeu de briques », s’ajoute ensuite la recherche d’optimisation des coûts lié au portfolio de l’offre de chaque concepteur. Intel, AMD et les autres développent en effet des centaines de références de puces tous les ans. Des puces d’entrée, de milieu ou haut de gamme, des puces basse consommation ou haute puissance : entre les besoins clients et les effets de gamme, les vendeurs de processeurs ont un besoin de variété.
Dans l’approche classiques des processeurs monolithiques, une des astuces pour créer des puces différentes est de les qualifier différemment. Selon les erreurs à la surface du wafer, selon les besoins de la segmentation marketing, il s’agit de voir les fréquences à la baisse ou désactiver un ou plusieurs cœurs CPU ou GPU – contrôler le nombre de cœurs actif des différents blocs logiques est un moyen efficace de jouer sur les performances des puces. Ce qui explique donc pourquoi physiquement, le Core i5 le moins cher ressemble souvent à un Core i9. Dans ce dernier cas, la puce a passé tous les tests hauts la main et s’avère être la version ultime du design. Dans le premier cas, il s’agit d’un die qui tenait moins la route dans les hautes fréquences et se retrouvait amputé d’un ou deux cœurs.
L’assemblage des blocs logiques a ici une grande force : la possibilité pour les concepteurs de puces de réaliser des puces très complexes et/ou à la carte. Le tout sans avoir à passer par la case de la qualification d’un nouveau design de puce monolithique. Avec de plus, la possibilité de répondre précisément à un client qui, ça veut plus de cœurs CPU, là veut une partie graphique intégrée moins puissante et moins chère.
Dépasser les limites bidimensionnelles
Concevoir le schéma des puces est une entreprise d’une telle complexité qu’il faut désormais s’épauler de l’IA pour rechercher les meilleurs routages de l’information au sein des circuits. Des circuits dont il faut réaliser qu’ils sont tridimensionnels. Une profondeur qui apporte un élément de complexité, non seulement durant la phase de design, mais qui apporte surtout des limites pendant les phases de lithogravure (et de test !). Ainsi, il y a une limite au nombre de couches de circuits que l’on peut graver à la surface du wafer, une limite qui oblige à s’étaler. Un étalement peu compatible avec les besoins de compacité de nos appareils électronique, smartphones comme PC.
Le « grand jeu de blocs » apporte là encore une nouvelle piste pour contourner ces limites : empiler les modules. Il vous suffit d’aller chez votre cybermarchand préféré pour acheter de telles puces chez AMD. Affublés de la mention « X3D », les processeurs du type Ryzen 9 7900X3D sont des puces classiques sur lesquelles AMD (et TSMC !) ont ajouté, à la surface, de la mémoire cache afin de favoriser l’exécution de certaines tâche (ici, les jeux vidéo). Pourquoi de la mémoire cache ? Car celle-ci est composée de cellules d’une mémoire appelée SRAM qui a comme limite de ne pas se miniaturiser aussi bien que les transistors des blocs logiques que sont les CPU et GPU. Pour une surface donnée, les ingénieurs réfléchissent bien la quantité de mémoire cache dont ils ont besoin, chaque kilo-octet consommant une surface précieuse. Bien qu’impliquant des limites, notamment thermiques – il y a une couche qui chauffe en plus par-dessus une autre, ce qui explique les fréquences un peu à la baisse des processeurs AMD ainsi conçus – coller de la mémoire est une méthode astucieuse pour profiter de plus de mémoire à peu de frais.
Notez ici que le couple AMD/TSMC n’est pas le seul à savoir empiler les blocs : Intel fut le premier avec son processeur Lakefield (2020), une puce très basse consommation qui empilait 6 couches (substrat et support mémoire inclus) dont la dernière n’était rien de moins que la mémoire vive (RAM) ! Lors de la session de questions/réponses à la presse du forum Innovation le 18 septembre dernier, le PDG d’Intel Pat Gelsinger a d’ailleurs garanti que l’empilement de mémoire cache n’était pas propre à AMD et qu’Intel devrait proposer des solutions similaires en utilisant ses propres méthodes.
Assemblage : Intel et TSMC mènent la danse
Si vous suivez l’actualité des semiconducteurs, vous avez sans doute entendu parler de certains de ces acronymes : EMIB, CO-EMIB ou encore Foveros chez Intel ou encore CoWoS chez TSMC. Ces différentes technologies de « packaging » c’est-à-dire d’intégration de morceaux de die les uns avec les autres sur un substrat, sont les armes fatales de ces deux titans des puces pour repousser les limites actuelles du silicium. Qu’il s’agisse des énormes EPYC ou des petits Core Ultra, aucun de ces produits n’aurait jamais pu voir le jour dans ces conditions sans un savoir-faire de pointe d’interconnexion au micron près.
Est-ce à dire que ces deux entreprises sont les seules à savoir assembler ou empiler les morceaux de die ? Certes pas : outre les savoir-faire des Samsung, STMicroelectronics, Sony (notamment pour les capteurs empilés) ou Global Foundries, il faut aussi compter sur des acteurs comme les Taïwanais ASE Technology Holdings qui sont uniquement spécialisés dans ce domaine du packaging (et du test). Mais Intel et TSMC sont, de loin les plus avancées, non seulement en termes de savoir-faire avec des technologies de pointe, mais aussi en capacités de production. Il s’agit en effet d’un autre type de savoir-faire que la gravure qui requiert, en plus de connaissances supplémentaires, d’usines et de machines spécifiques. Les deux titans s’affrontent ainsi à coup de dizaines de milliards de dollars. Rien qu’à lui tout seul, Intel a ainsi investi 7 et 3,5 milliards de dollars entre ses usines malaisienne et Penang et américaine du Nouveau Mexique (USA). Et TSMC fait de même sur ses terres, avec le futur site de Tongluo à 2,9 milliards de dollars, sis dans le comté de Miaoli, au nord-ouest de l’île.
Un autre avantage de l’empilement des blocs est la possibilité de créer des puces jadis inconcevables pour des raisons de rendement comme on l’a vu. Avec l’amélioration des techniques de refroidissement – généralisation du watercooling dans les supercalculateurs – les concepteurs de puces ont pu créer des monstres comme la puce graphique « Datacenter GPU Max » (nom de code Ponte Vecchio). Avec ici une autre limite : celle du substrat.
Ce support pour les dies et les chiplets – la « plaque » sur lesquels on colle, empile et relie les blocs entre eux – devient une nouvelle frontière. Et c’est, une fois encore, Intel qui pourrait venir repousser les limites actuelles du substrat organique sur lequel les fabricants posent et connectent les bouts de puces. Actuellement basé sur une fibre de verre laminée, ce matériau hétérogène ne peut pas être utilisé pour composer les puces géantes dont l’industrie aurait besoin. Et la densité des trous – qui permettent le passage des circuits d’interconnexion entre les différents « morceaux » de puces – est limitée. Voilà pourquoi Intel développe des années un nouveau substrat homogène en verre, un support qui devrait voir le jour dans des applications commerciales d’ici à la fin de la décennie. Un substrat qui qui va lui permettre d’entasser plus de briques – de des briques de plus en plus grosses par-dessus le marché.
Si la réduction de la finesse des circuits va devenir de plus en contraignante à mesure que l’on s’approche des limites physiques, le jeu d’assemblage auxquels les industriels s’adonnent aujourd’hui, avec la promesse de puces géantes qu’il porte avec lui, promet de faire vivre, quelques années encore, la célèbre loi de Moore. Et d’assouvir ainsi, l’inextinguible soif de puissance de calcul des Hommes.
Chouette dossier.
AMD avait un graphique montrant pour quoi les nodes avancé ne présentait plus d’avantages, autres que pour les coeurs en eux-mêmes, et l’intéraît de choisir la bonne gravure pour chaque partie
https://cdn.mos.cms.futurecdn.net/6Z22Qhi7J7fD5JhJPfYTWQ.jpg
Les limites de cet approche sont les latences, et donc les performances, ainsi que la consommation. C’est pour ça qu’AMD continue toujours dans la voie du design monolitique pour ces APU mobile. Ils continuent de garder une petite tête d’avance sur la conso.
Commentaires fermés