Ollama (Local)

Ollama vous permet d'exécuter des LLM open-source localement sur votre propre machine. AI Supreme Council se connecte à votre instance Ollama locale directement depuis le navigateur -- aucune clé API cloud requise, et vos données ne quittent jamais votre appareil.

Pourquoi Exécuter Localement ?

Confidentialité totale -- vos conversations ne quittent jamais votre machine
Pas de coûts API -- gratuit à utiliser, pas de facturation par jeton
Pas de limites de débit -- limité uniquement par votre matériel
Fonctionne hors ligne -- aucune connexion internet nécessaire après le téléchargement du modèle
Pas de clé API -- rien à gérer ou à faire pivoter

Installation d'Ollama

Téléchargez et installez Ollama depuis ollama.com
Téléchargez au moins un modèle :

# Modèles polyvalents populaires
ollama pull llama3.3          # Meta Llama 3.3 (70B)
ollama pull llama3.2          # Meta Llama 3.2 (3B, léger)
ollama pull mistral           # Mistral 7B
ollama pull gemma2            # Google Gemma 2

# Modèles axés code
ollama pull codellama         # Meta Code Llama
ollama pull deepseek-coder    # DeepSeek Coder
ollama pull qwen2.5-coder     # Alibaba Qwen 2.5 Coder

# Modèles de raisonnement
ollama pull deepseek-r1       # DeepSeek R1 (diverses tailles)

# Modèles de vision
ollama pull llava             # LLaVA (vision + langage)
ollama pull llama3.2-vision   # Llama 3.2 Vision

Démarrez le serveur Ollama (il s'exécute automatiquement après l'installation sur la plupart des systèmes) :

ollama serve

Le serveur s'exécute sur http://localhost:11434 par défaut.

Configuration CORS

Étape Requise

Les navigateurs appliquent des restrictions cross-origin, vous devez donc autoriser l'origine AI Supreme Council avant qu'Ollama ne fonctionne. Définissez la variable d'environnement OLLAMA_ORIGINS avant de démarrer Ollama :

macOS / Linux :

OLLAMA_ORIGINS=* ollama serve

Pour le rendre permanent (macOS/Linux), ajoutez à votre profil shell (~/.bashrc, ~/.zshrc) :

export OLLAMA_ORIGINS=*

Windows (PowerShell) :

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (permanent) : Définissez OLLAMA_ORIGINS comme variable d'environnement système via Propriétés système > Variables d'environnement.

Sans ce paramètre, le navigateur bloquera toutes les requêtes vers l'API Ollama avec une erreur CORS.

Pas de Clé API Nécessaire

Ollama ne nécessite pas de clé API. AI Supreme Council utilise une valeur interne fictive (ollama) pour le champ de clé. Vous n'avez pas besoin d'entrer quoi que ce soit dans les paramètres de clé API.

Détection Automatique des Modèles

Au chargement de la page, AI Supreme Council interroge GET /api/tags sur le point de terminaison Ollama pour découvrir tous les modèles installés localement. Ces modèles apparaissent automatiquement dans le sélecteur de modèles lorsque vous choisissez Ollama comme fournisseur.

Aucun modèle n'est codé en dur -- tout ce que vous avez téléchargé localement sera disponible. Si vous téléchargez de nouveaux modèles pendant que l'application est ouverte, rechargez la page pour les détecter.

Point de Terminaison Personnalisé

Si Ollama s'exécute sur une adresse non par défaut (par exemple, un port différent, une machine distante ou derrière un proxy inverse), vous pouvez configurer le point de terminaison :

Ouvrez Paramètres > Modèle IA
Trouvez la section Ollama
Entrez votre URL de point de terminaison personnalisé (par exemple, http://192.168.1.100:11434)

Le point de terminaison personnalisé est conservé dans localStorage sous la clé ais-ollama-endpoint.

Accès Distant

Si vous exécutez Ollama sur une machine distante, assurez-vous :

Que le serveur Ollama se lie à 0.0.0.0 (pas seulement localhost) : OLLAMA_HOST=0.0.0.0 ollama serve
Que OLLAMA_ORIGINS=* est défini sur la machine distante
Que le port (défaut 11434) est accessible depuis le réseau de votre navigateur

Modèles Pris en Charge

Tout modèle disponible dans la bibliothèque de modèles Ollama peut être utilisé. Les choix populaires incluent :

Catégorie	Modèles	Description
Général	Llama 3.3, Mistral, Gemma 2, Phi-3	Chat et raisonnement polyvalents
Code	CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder	Génération et analyse de code
Raisonnement	DeepSeek R1, Qwen2.5	Raisonnement par chaîne de pensée
Vision	LLaVA, Llama 3.2 Vision	Compréhension d'images
Petits	Phi-3 Mini, Gemma 2B, TinyLlama	Appareils à faibles ressources

Configuration Matérielle Requise

La performance d'Ollama dépend entièrement de votre matériel local :

Taille Modèle	RAM Requise	GPU Recommandé	Exemples de Modèles
1-3B	4 Go	Optionnel	TinyLlama, Phi-3 Mini
7-8B	8 Go	6+ Go VRAM	Mistral 7B, Llama 3.1 8B
13B	16 Go	8+ Go VRAM	CodeLlama 13B
70B	64 Go	40+ Go VRAM	Llama 3.3 70B

astuce

Pour la meilleure expérience, utilisez un modèle qui rentre dans la VRAM de votre GPU. L'inférence CPU uniquement fonctionne mais est nettement plus lente. Les modèles quantifiés à 4 bits (Q4) nécessitent environ la moitié de la RAM des versions pleine précision.

Configuration

Lors de la création d'un profil de bot, sélectionnez Ollama comme fournisseur et choisissez parmi vos modèles disponibles localement. Ollama utilise l'API Chat Completions compatible OpenAI avec streaming SSE, donc il se comporte de manière identique aux fournisseurs cloud du point de vue de l'interface de chat.

Limitations

Ollama doit être en cours d'exécution et accessible depuis le navigateur
La qualité et la vitesse du modèle dépendent entièrement de votre matériel local
Le support vision et appel d'outils varie selon le modèle -- tous les modèles Ollama ne prennent pas en charge ces fonctionnalités
La première réponse après le chargement du modèle peut être lente (le modèle se charge en mémoire à la première utilisation)
Pas d'intégration UI de réflexion/raisonnement pour les modèles de raisonnement locaux (la sortie de raisonnement apparaît en ligne)

Dépannage

Problème	Solution
"Failed to fetch" ou erreur CORS	Définissez `OLLAMA_ORIGINS=*` et redémarrez Ollama
Aucun modèle dans le menu déroulant	Assurez-vous que `ollama serve` s'exécute et que vous avez téléchargé au moins un modèle
Réponses très lentes	Le modèle peut ne pas rentrer dans la VRAM GPU ; essayez un modèle plus petit ou une version quantifiée
Connexion refusée	Vérifiez qu'Ollama s'exécute sur le port attendu (défaut : 11434)
Point de terminaison personnalisé ne fonctionnant pas	Assurez-vous que l'URL inclut le protocole (`http://`) et pas de barre oblique finale

Pourquoi Exécuter Localement ?​

Installation d'Ollama​

Configuration CORS​

Pas de Clé API Nécessaire​

Détection Automatique des Modèles​

Point de Terminaison Personnalisé​

Modèles Pris en Charge​

Configuration Matérielle Requise​

Configuration​

Limitations​

Dépannage​