La Quantification ou comment compresser les LLMs pour un usage plus responsable.
Les modèles de langage (LLM) comme LLAMA3, dans sa version de 70 milliards de paramètres (70B) font une taille de plusieurs dizaines de Giga Octets: 163 Go pour ce modèle par exemple.
Aujourd’hui, les meilleurs GPUs disposent de 141GB (Nvidia H200) de RAM dédiée. Pour charger et utiliser le modèle LLAMA3, il faut donc deux H200. A 60 000 € la carte (prix public) le budget devient vite conséquent.
De la même manière que la compression audio ou vidéo, un principe similaire permet de “compresser” un LLM: la quantification (ou quantization en Anglais). Cette opération permet de réduire la taille des modèles pour un usage plus responsable des ressources (hardware et énergie)
Cette présentation abordera, dans un premier temps, les principes de la quantification des LLMs, puis, dans un second temps, l’impact de cette quantification sur la taille finale des modèles et leur performance, en incluant des exemples concrets d’utilisation.