Aller au contenu principal

Ollama (Local)

Ollama vous permet d'exécuter des LLM open-source localement sur votre propre machine. AI Supreme Council se connecte à votre instance Ollama locale directement depuis le navigateur -- aucune clé API cloud requise, et vos données ne quittent jamais votre appareil.

Pourquoi Exécuter Localement ?

  • Confidentialité totale -- vos conversations ne quittent jamais votre machine
  • Pas de coûts API -- gratuit à utiliser, pas de facturation par jeton
  • Pas de limites de débit -- limité uniquement par votre matériel
  • Fonctionne hors ligne -- aucune connexion internet nécessaire après le téléchargement du modèle
  • Pas de clé API -- rien à gérer ou à faire pivoter

Installation d'Ollama

  1. Téléchargez et installez Ollama depuis ollama.com
  2. Téléchargez au moins un modèle :
# Modèles polyvalents populaires
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, léger)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# Modèles axés code
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder

# Modèles de raisonnement
ollama pull deepseek-r1 # DeepSeek R1 (diverses tailles)

# Modèles de vision
ollama pull llava # LLaVA (vision + langage)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. Démarrez le serveur Ollama (il s'exécute automatiquement après l'installation sur la plupart des systèmes) :
ollama serve

Le serveur s'exécute sur http://localhost:11434 par défaut.

Configuration CORS

Étape Requise

Les navigateurs appliquent des restrictions cross-origin, vous devez donc autoriser l'origine AI Supreme Council avant qu'Ollama ne fonctionne. Définissez la variable d'environnement OLLAMA_ORIGINS avant de démarrer Ollama :

macOS / Linux :

OLLAMA_ORIGINS=* ollama serve

Pour le rendre permanent (macOS/Linux), ajoutez à votre profil shell (~/.bashrc, ~/.zshrc) :

export OLLAMA_ORIGINS=*

Windows (PowerShell) :

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (permanent) : Définissez OLLAMA_ORIGINS comme variable d'environnement système via Propriétés système > Variables d'environnement.

Sans ce paramètre, le navigateur bloquera toutes les requêtes vers l'API Ollama avec une erreur CORS.

Pas de Clé API Nécessaire

Ollama ne nécessite pas de clé API. AI Supreme Council utilise une valeur interne fictive (ollama) pour le champ de clé. Vous n'avez pas besoin d'entrer quoi que ce soit dans les paramètres de clé API.

Détection Automatique des Modèles

Au chargement de la page, AI Supreme Council interroge GET /api/tags sur le point de terminaison Ollama pour découvrir tous les modèles installés localement. Ces modèles apparaissent automatiquement dans le sélecteur de modèles lorsque vous choisissez Ollama comme fournisseur.

Aucun modèle n'est codé en dur -- tout ce que vous avez téléchargé localement sera disponible. Si vous téléchargez de nouveaux modèles pendant que l'application est ouverte, rechargez la page pour les détecter.

Point de Terminaison Personnalisé

Si Ollama s'exécute sur une adresse non par défaut (par exemple, un port différent, une machine distante ou derrière un proxy inverse), vous pouvez configurer le point de terminaison :

  1. Ouvrez Paramètres > Modèle IA
  2. Trouvez la section Ollama
  3. Entrez votre URL de point de terminaison personnalisé (par exemple, http://192.168.1.100:11434)

Le point de terminaison personnalisé est conservé dans localStorage sous la clé ais-ollama-endpoint.

Accès Distant

Si vous exécutez Ollama sur une machine distante, assurez-vous :

  1. Que le serveur Ollama se lie à 0.0.0.0 (pas seulement localhost) : OLLAMA_HOST=0.0.0.0 ollama serve
  2. Que OLLAMA_ORIGINS=* est défini sur la machine distante
  3. Que le port (défaut 11434) est accessible depuis le réseau de votre navigateur

Modèles Pris en Charge

Tout modèle disponible dans la bibliothèque de modèles Ollama peut être utilisé. Les choix populaires incluent :

CatégorieModèlesDescription
GénéralLlama 3.3, Mistral, Gemma 2, Phi-3Chat et raisonnement polyvalents
CodeCodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoderGénération et analyse de code
RaisonnementDeepSeek R1, Qwen2.5Raisonnement par chaîne de pensée
VisionLLaVA, Llama 3.2 VisionCompréhension d'images
PetitsPhi-3 Mini, Gemma 2B, TinyLlamaAppareils à faibles ressources

Configuration Matérielle Requise

La performance d'Ollama dépend entièrement de votre matériel local :

Taille ModèleRAM RequiseGPU RecommandéExemples de Modèles
1-3B4 GoOptionnelTinyLlama, Phi-3 Mini
7-8B8 Go6+ Go VRAMMistral 7B, Llama 3.1 8B
13B16 Go8+ Go VRAMCodeLlama 13B
70B64 Go40+ Go VRAMLlama 3.3 70B
astuce

Pour la meilleure expérience, utilisez un modèle qui rentre dans la VRAM de votre GPU. L'inférence CPU uniquement fonctionne mais est nettement plus lente. Les modèles quantifiés à 4 bits (Q4) nécessitent environ la moitié de la RAM des versions pleine précision.

Configuration

Lors de la création d'un profil de bot, sélectionnez Ollama comme fournisseur et choisissez parmi vos modèles disponibles localement. Ollama utilise l'API Chat Completions compatible OpenAI avec streaming SSE, donc il se comporte de manière identique aux fournisseurs cloud du point de vue de l'interface de chat.

Limitations

  • Ollama doit être en cours d'exécution et accessible depuis le navigateur
  • La qualité et la vitesse du modèle dépendent entièrement de votre matériel local
  • Le support vision et appel d'outils varie selon le modèle -- tous les modèles Ollama ne prennent pas en charge ces fonctionnalités
  • La première réponse après le chargement du modèle peut être lente (le modèle se charge en mémoire à la première utilisation)
  • Pas d'intégration UI de réflexion/raisonnement pour les modèles de raisonnement locaux (la sortie de raisonnement apparaît en ligne)

Dépannage

ProblèmeSolution
"Failed to fetch" ou erreur CORSDéfinissez OLLAMA_ORIGINS=* et redémarrez Ollama
Aucun modèle dans le menu déroulantAssurez-vous que ollama serve s'exécute et que vous avez téléchargé au moins un modèle
Réponses très lentesLe modèle peut ne pas rentrer dans la VRAM GPU ; essayez un modèle plus petit ou une version quantifiée
Connexion refuséeVérifiez qu'Ollama s'exécute sur le port attendu (défaut : 11434)
Point de terminaison personnalisé ne fonctionnant pasAssurez-vous que l'URL inclut le protocole (http://) et pas de barre oblique finale