Groq
Groq fournit une inférence IA ultra-rapide propulsée par du matériel LPU (Language Processing Unit) personnalisé. Groq n'entraîne pas ses propres modèles -- à la place, il exécute des modèles open-source populaires à des vitesses nettement supérieures à l'infrastructure GPU traditionnelle. Plusieurs modèles sont disponibles gratuitement avec des limites de débit.
Obtenir une Clé API
- Visitez console.groq.com/keys
- Connectez-vous ou créez un compte (gratuit)
- Générez une nouvelle clé API (commence par
gsk_...) - Collez la clé dans AI Supreme Council sous Paramètres > Modèle IA > Groq
Groq offre un niveau gratuit avec des limites de débit généreuses. Aucune carte de crédit n'est requise pour créer un compte et commencer à utiliser les modèles gratuits.
Les clés API sont stockées localement dans votre navigateur (localStorage) et ne sont jamais incluses dans les URL de bots partagés.
Modèles Pris en Charge
Modèles Gratuits
| Modèle | Fenêtre de Contexte | Sortie Max | Capacités |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | Outils, code, streaming |
| DeepSeek R1 Distill 70B | 128K | 16K | Raisonnement, code, streaming |
| Compound Beta | 128K | 32K | Outils, raisonnement, streaming |
| Llama 3.1 8B Instant | 128K | 8K | Outils, code, streaming |
| Gemma 2 9B | 8K | 8K | Streaming |
Modèles Payants
| Modèle | Fenêtre de Contexte | Sortie Max | Prix Entrée | Prix Sortie | Capacités |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | 0,11$/MTok | 0,34$/MTok | Vision, outils, code |
| Llama 4 Maverick | 128K | 8K | 0,50$/MTok | 0,77$/MTok | Vision, outils, code |
| Qwen3 32B | 128K | 8K | 0,29$/MTok | 0,59$/MTok | Outils, raisonnement |
Les prix sont par million de jetons (MTok).
Les modèles gratuits ont des limites de débit qui varient selon le modèle et le niveau de compte. Les limites typiques sont :
- Requêtes par minute : 30
- Jetons par minute : 6 000-15 000
- Requêtes par jour : 1 000-14 400
Consultez console.groq.com pour les limites actuelles de votre compte.
Pourquoi Groq est Rapide
Groq utilise des puces LPU (Language Processing Unit) conçues sur mesure au lieu de GPU. Les LPU sont conçus spécifiquement pour la génération séquentielle de jetons, qui est le goulot d'étranglement dans l'inférence LLM. Résultat :
- Temps jusqu'au premier jeton : Souvent moins de 100ms
- Vitesse de génération de jetons : 500-800+ jetons/seconde sur de nombreux modèles
- Latence cohérente : Performance prévisible sans la variabilité du traitement par lots GPU
Cela rend Groq idéal pour les applications où la vitesse de réponse compte plus que la taille du modèle.
Support Raisonnement
DeepSeek R1 Distill 70B et Compound Beta prennent en charge le raisonnement, montrant une réflexion étape par étape avant de livrer une réponse finale. Qwen3 32B (payant) prend également en charge le raisonnement.
Comme Groq utilise le format d'API compatible OpenAI, la sortie de raisonnement est diffusée comme reasoning_content et apparaît dans un bloc de réflexion réductible dans le chat.
Compound Beta (IA Agentique)
Compound Beta est le système d'IA composée de Groq qui combine raisonnement et utilisation d'outils. Il peut exécuter des tâches multi-étapes en planifiant, raisonnant et utilisant des outils en séquence. Ce modèle est gratuit et disponible avec une clé API Groq.
Support Vision
Les modèles payants Llama 4 Scout et Llama 4 Maverick prennent en charge l'entrée vision. Vous pouvez coller, télécharger ou glisser-déposer des images pour ces modèles.
Les modèles gratuits sur Groq ne prennent pas actuellement en charge la vision.
Appel d'Outils
La plupart des modèles Groq prennent en charge l'appel de fonctions/outils via le format compatible OpenAI. Cela inclut les modèles gratuits Llama 3.3 70B et Compound Beta.
API Compatible OpenAI
Groq utilise une API entièrement compatible OpenAI :
- Point de terminaison standard
POST /openai/v1/chat/completionssurapi.groq.com - Authentification par jeton Bearer
- Streaming SSE
- Appel de fonctions/outils
Aucune configuration spéciale n'est nécessaire.
Configuration
Lors de la création d'un profil de bot, sélectionnez Groq comme fournisseur et choisissez votre modèle préféré. Vous pouvez définir une clé API par bot dans le panneau de configuration du bot pour remplacer la clé globale.
Le fournisseur Groq utilise l'API Chat Completions sur api.groq.com/openai/v1/chat/completions.
Idéal Pour
| Cas d'Usage | Modèle Recommandé |
|---|---|
| Chat critique en vitesse | Llama 3.3 70B (gratuit) |
| Raisonnement rapide | DeepSeek R1 Distill 70B (gratuit) |
| Flux de travail agentiques | Compound Beta (gratuit) |
| Tâches légères | Llama 3.1 8B Instant (gratuit) |
| Tâches de vision | Llama 4 Scout ou Maverick (payant) |
| Code + raisonnement | Qwen3 32B (payant) |
Conseils pour de Meilleurs Résultats
- Utilisez Groq quand la vitesse compte. Si vous avez besoin des réponses les plus rapides possibles et pouvez travailler avec des modèles open-source, Groq est le meilleur choix.
- Commencez avec Llama 3.3 70B. Il est gratuit, rapide et capable -- le meilleur modèle polyvalent gratuit sur Groq.
- Utilisez DeepSeek R1 Distill pour le raisonnement. Il fournit un fort raisonnement par chaîne de pensée gratuitement, aux vitesses Groq.
- Associez avec d'autres fournisseurs dans les conseils. La vitesse de Groq en fait un excellent membre à réponse rapide dans les conseils multi-modèles, où il peut fournir des réponses initiales rapides que des modèles plus lents et plus puissants affinent.
- Soyez attentif aux limites de débit. Les limites du niveau gratuit peuvent être atteintes rapidement en utilisation intensive. Répartissez les requêtes dans le temps ou passez à un plan payant pour des limites plus élevées.