LLMLingua est un outil de compression de prompts qui permet d'accélérer l'inférence des grands modèles de langage jusqu'à 20 fois, tout en préservant les performances. Il offre des gains significatifs en termes de coûts et de temps de (...) -- LLMLingua-2, exemples, documentation, A tester ici