Suite aux conférences Microsoft Build et Google I/O, Apple était sous pression pour démontrer sa puissance en matière d’IA embarquée lors de la Worldwide Developers Conference 2024. Les démonstrations ont montré qu’Apple a intégré de manière impressionnante l’IA générative dans l’expérience utilisateur sur tous ses appareils.
Modèle de 3 milliards de paramètres
Lors de la présentation « State of the Union » et dans un article de blog publié le 10 juin, Apple a annoncé utiliser un modèle de 3 milliards de paramètres. Bien qu’Apple n’ait pas explicitement précisé quel modèle est utilisé comme base, il a récemment publié plusieurs modèles open-source, y compris la famille OpenELM de modèles de langage, qui comprend une version de 3 milliards de paramètres.
OpenELM a été optimisé pour les appareils avec des ressources limitées, en modifiant le modèle de transformateur sous-jacent pour améliorer la qualité sans augmenter le nombre de paramètres. Le modèle utilisé sur les appareils Apple pourrait être une version spécialisée de l’OpenELM-3B (VentureBeat).
Techniques d’optimisation
Apple utilise plusieurs techniques pour améliorer les capacités des modèles tout en les rendant efficaces en termes de ressources. Le modèle de base utilise la « grouped query attention » (GQA), développée par Google Research, qui accélère l’inférence sans augmenter de manière exponentielle les besoins en mémoire et en calcul. De plus, Apple mentionne l’utilisation de techniques de compression comme la « palletization » et la « quantization », qui réduisent le nombre de bits par paramètre.
Performances et personnalisation
Les modèles sont optimisés pour fonctionner sur les MacBooks équipés de puces M1 et ultérieures, ainsi que sur les iPhone 15 Pro et Pro Max avec la puce A17 Pro. Cela suggère l’utilisation de techniques d’optimisation spécialement adaptées aux puces Apple, comme le modèle de langage large (LLM) en mode flash introduit l’année dernière.
Les résultats rapportés sur un iPhone 15 Pro montrent une latence de 0,6 millisecondes par token de prompt et un taux de génération de 30 tokens par seconde, ce qui est une performance très raisonnable (VentureBeat).
Pour éviter de stocker plusieurs copies du modèle, Apple utilise des adaptateurs LoRA (low-rank adaptation) qui stockent les poids LoRA et les combinent avec le modèle de base lors de l’inférence, permettant de stocker et d’utiliser plusieurs adaptateurs pour différentes tâches, comme la relecture, la synthèse, les réponses aux e-mails, etc.
Conclusion
L’IA embarquée d’Apple montre les progrès possibles lorsque l’on combine de petits modèles avec des techniques d’optimisation adéquates, des données de qualité et un matériel performant. Apple a fait de grands efforts pour trouver le bon équilibre entre précision et expérience utilisateur optimale. Il sera intéressant de voir comment cette technologie sera accueillie lors de son déploiement à l’automne.
source : venturebeat.com