Groq

Groq fournit une inférence IA ultra-rapide propulsée par du matériel LPU (Language Processing Unit) personnalisé. Groq n'entraîne pas ses propres modèles -- à la place, il exécute des modèles open-source populaires à des vitesses nettement supérieures à l'infrastructure GPU traditionnelle. Plusieurs modèles sont disponibles gratuitement avec des limites de débit.

Obtenir une Clé API

Visitez console.groq.com/keys
Connectez-vous ou créez un compte (gratuit)
Générez une nouvelle clé API (commence par gsk_...)
Collez la clé dans AI Supreme Council sous Paramètres > Modèle IA > Groq

Niveau Gratuit

Groq offre un niveau gratuit avec des limites de débit généreuses. Aucune carte de crédit n'est requise pour créer un compte et commencer à utiliser les modèles gratuits.

Les clés API sont stockées localement dans votre navigateur (localStorage) et ne sont jamais incluses dans les URL de bots partagés.

Modèles Pris en Charge

Modèles Gratuits

Modèle	Fenêtre de Contexte	Sortie Max	Capacités
Llama 3.3 70B	128K	32K	Outils, code, streaming
DeepSeek R1 Distill 70B	128K	16K	Raisonnement, code, streaming
Compound Beta	128K	32K	Outils, raisonnement, streaming
Llama 3.1 8B Instant	128K	8K	Outils, code, streaming
Gemma 2 9B	8K	8K	Streaming

Modèles Payants

Modèle	Fenêtre de Contexte	Sortie Max	Prix Entrée	Prix Sortie	Capacités
Llama 4 Scout	128K	8K	0,11$/MTok	0,34$/MTok	Vision, outils, code
Llama 4 Maverick	128K	8K	0,50$/MTok	0,77$/MTok	Vision, outils, code
Qwen3 32B	128K	8K	0,29$/MTok	0,59$/MTok	Outils, raisonnement

Les prix sont par million de jetons (MTok).

Limites de Débit des Modèles Gratuits

Les modèles gratuits ont des limites de débit qui varient selon le modèle et le niveau de compte. Les limites typiques sont :

Requêtes par minute : 30
Jetons par minute : 6 000-15 000
Requêtes par jour : 1 000-14 400

Consultez console.groq.com pour les limites actuelles de votre compte.

Pourquoi Groq est Rapide

Groq utilise des puces LPU (Language Processing Unit) conçues sur mesure au lieu de GPU. Les LPU sont conçus spécifiquement pour la génération séquentielle de jetons, qui est le goulot d'étranglement dans l'inférence LLM. Résultat :

Temps jusqu'au premier jeton : Souvent moins de 100ms
Vitesse de génération de jetons : 500-800+ jetons/seconde sur de nombreux modèles
Latence cohérente : Performance prévisible sans la variabilité du traitement par lots GPU

Cela rend Groq idéal pour les applications où la vitesse de réponse compte plus que la taille du modèle.

Support Raisonnement

DeepSeek R1 Distill 70B et Compound Beta prennent en charge le raisonnement, montrant une réflexion étape par étape avant de livrer une réponse finale. Qwen3 32B (payant) prend également en charge le raisonnement.

Comme Groq utilise le format d'API compatible OpenAI, la sortie de raisonnement est diffusée comme reasoning_content et apparaît dans un bloc de réflexion réductible dans le chat.

Compound Beta (IA Agentique)

Compound Beta est le système d'IA composée de Groq qui combine raisonnement et utilisation d'outils. Il peut exécuter des tâches multi-étapes en planifiant, raisonnant et utilisant des outils en séquence. Ce modèle est gratuit et disponible avec une clé API Groq.

Support Vision

Les modèles payants Llama 4 Scout et Llama 4 Maverick prennent en charge l'entrée vision. Vous pouvez coller, télécharger ou glisser-déposer des images pour ces modèles.

Les modèles gratuits sur Groq ne prennent pas actuellement en charge la vision.

Appel d'Outils

La plupart des modèles Groq prennent en charge l'appel de fonctions/outils via le format compatible OpenAI. Cela inclut les modèles gratuits Llama 3.3 70B et Compound Beta.

API Compatible OpenAI

Groq utilise une API entièrement compatible OpenAI :

Point de terminaison standard POST /openai/v1/chat/completions sur api.groq.com
Authentification par jeton Bearer
Streaming SSE
Appel de fonctions/outils

Aucune configuration spéciale n'est nécessaire.

Configuration

Lors de la création d'un profil de bot, sélectionnez Groq comme fournisseur et choisissez votre modèle préféré. Vous pouvez définir une clé API par bot dans le panneau de configuration du bot pour remplacer la clé globale.

Le fournisseur Groq utilise l'API Chat Completions sur api.groq.com/openai/v1/chat/completions.

Idéal Pour

Cas d'Usage	Modèle Recommandé
Chat critique en vitesse	Llama 3.3 70B (gratuit)
Raisonnement rapide	DeepSeek R1 Distill 70B (gratuit)
Flux de travail agentiques	Compound Beta (gratuit)
Tâches légères	Llama 3.1 8B Instant (gratuit)
Tâches de vision	Llama 4 Scout ou Maverick (payant)
Code + raisonnement	Qwen3 32B (payant)

Conseils pour de Meilleurs Résultats

Utilisez Groq quand la vitesse compte. Si vous avez besoin des réponses les plus rapides possibles et pouvez travailler avec des modèles open-source, Groq est le meilleur choix.
Commencez avec Llama 3.3 70B. Il est gratuit, rapide et capable -- le meilleur modèle polyvalent gratuit sur Groq.
Utilisez DeepSeek R1 Distill pour le raisonnement. Il fournit un fort raisonnement par chaîne de pensée gratuitement, aux vitesses Groq.
Associez avec d'autres fournisseurs dans les conseils. La vitesse de Groq en fait un excellent membre à réponse rapide dans les conseils multi-modèles, où il peut fournir des réponses initiales rapides que des modèles plus lents et plus puissants affinent.
Soyez attentif aux limites de débit. Les limites du niveau gratuit peuvent être atteintes rapidement en utilisation intensive. Répartissez les requêtes dans le temps ou passez à un plan payant pour des limites plus élevées.

Obtenir une Clé API​

Modèles Pris en Charge​

Modèles Gratuits​

Modèles Payants​

Pourquoi Groq est Rapide​

Support Raisonnement​

Compound Beta (IA Agentique)​

Support Vision​

Appel d'Outils​

API Compatible OpenAI​

Configuration​

Idéal Pour​

Conseils pour de Meilleurs Résultats​