Comment intégrer Azure OpenAI API dans Ollama WebUI avec LiteLLM Proxy

Rate this post

Intégration d’Azure OpenAI API via LiteLLM avec Ollama WebUI

Sommaire masquer

1 Intégration d’Azure OpenAI API via LiteLLM avec Ollama WebUI

2 Intégration d’Azure OpenAI API via LiteLLM avec Ollama WebUI

3 Comment déployer LiteLLM Proxy avec Ollama WebUI sur Azure

Le Ollama WebUI est une interface simplifiée pour déployer et interagir avec des modèles de langage open-source (LLM) tels que Llama 3 et Mistral, permettant aux utilisateurs de gérer les modèles, de les tester via un environnement de discussion similaire à ChatGPT, et de les intégrer dans des applications via l’API locale d’Ollama. Bien qu’il excelle pour les modèles auto-hébergés sur des plateformes comme Azure VMs, il ne prend pas en charge nativement les points de terminaison de l’API Azure OpenAI – les modèles propriétaires d’OpenAI (par exemple, GPT-4) restent accessibles uniquement via l’API gérée d’OpenAI. Cependant, des outils comme LiteLLM comblent cette lacune, permettant aux développeurs de combiner des modèles hébergés par Ollama avec l’API d’OpenAI dans des workflows hybrides, tout en respectant la conformité et l’efficacité des coûts. Ce setup permet aux utilisateurs de tirer parti à la fois des modèles open-source auto-gérés et des services d’IA basés sur le cloud.

Intégration d’Azure OpenAI API via LiteLLM avec Ollama WebUI

En février 2025, Ollama WebUI ne prend toujours pas en charge Azure Open AI API. L’interface utilisateur Web Ollama ne prend en charge que l’API Ollama auto-hébergée et le service d’API OpenAI géré (PaaS). Cela peut poser problème si les utilisateurs souhaitent utiliser les modèles Open AI qu’ils ont déjà déployés sur Azure AI Foundry.

Pour intégrer l’API Azure OpenAI via le proxy LiteLLM dans Ollama WebUI. LiteLLM traduit les requêtes de l’API Azure AI en requêtes de style OpenAI sur Ollama WebUI, permettant aux utilisateurs d’utiliser les modèles OpenAI déployés sur Azure AI Foundry.

Comment déployer LiteLLM Proxy avec Ollama WebUI sur Azure

Si vous n’avez pas encore hébergé Ollama WebUI, suivez notre guide étape par étape pour héberger Ollama WebUI sur Azure. Passez à l’étape suivante si vous avez déjà déployé Ollama WebUI.

Si vous n’avez pas encore créé un Hub Azure AI, recherchez Azure AI Foundry sur Azure, et cliquez sur le bouton “+ Créer” > Hub. Remplissez tous les champs vides avec la configuration appropriée et cliquez sur “Créer”.

Après le déploiement réussi du Hub Azure AI, cliquez sur les ressources déployées et lancez le service Azure AI Foundry.

Pour déployer de nouveaux modèles sur Azure AI Foundry, trouvez la section “Modèles + Points de terminaison” sur le côté gauche et cliquez sur le bouton “+ Déployer un modèle” > “Déployer le modèle de base”.

Une fenêtre contextuelle apparaîtra, et vous pourrez choisir quels modèles déployer sur Azure AI Foundry. Veuillez noter que les modèles de la série o sont uniquement disponibles pour certains clients pour le moment. Vous pouvez demander l’accès aux modèles de la série o en remplissant ce formulaire de demande d’accès, et attendre que Microsoft approuve la demande d’accès.

Cliquez sur “Confirmer” et une autre fenêtre contextuelle apparaîtra. Nommez le déploiement et cliquez sur “Déployer” pour déployer le modèle.

Attendez quelques instants que le modèle se déploie. Une fois qu’il est déployé avec succès, veuillez enregistrer l’URI cible et la clé API.

Avant de configurer LiteLLM Proxy, créez un fichier nommé “litellm_config.yaml” et répertoriez les modèles que vous avez déployés sur Azure AI Foundry, ainsi que les points de terminaison et les clés API. Remplacez “API_Endpoint” et “API_Key” par “URI Cible” et “Clé” trouvés dans Azure AI Foundry.

Vous pouvez exécuter la commande Docker ci-dessous pour démarrer LiteLLM Proxy avec les paramètres corrects.

Assurez-vous de lancer la commande Docker dans le répertoire où vous avez créé le fichier “litellm_config.yaml”. Le port utilisé pour écouter le trafic LiteLLM Proxy est le port 4000.

Une fois le proxy LiteLLM déployé sur le port 4000, modifiez les paramètres de l’API OpenAI sur Ollama WebUI. Naviguez jusqu’aux paramètres du panneau d’administration d’Ollama WebUI > Paramètres > Connexions > Dans la section OpenAI API, écrivez http://127.0.0.1:4000 en tant que point de terminaison API et définissez une clé (vous devez écrire n’importe quoi pour que cela fonctionne !). Cliquez sur le bouton “Enregistrer” pour refléter les changements.

Rafraîchissez le navigateur et vous devriez pouvoir voir les modèles d’IA déployés sur le Hub Azure AI répertoriés dans l’interface Ollama WebUI. Vous pouvez désormais tester la fonctionnalité de complétion de discussion et de recherche Web en utilisant le modèle “o1-mini” sur Ollama WebUI.

L’hébergement d’Ollama WebUI sur une machine virtuelle Azure et son intégration avec l’API OpenAI via LiteLLM offre une approche puissante et flexible au déploiement de l’IA, combinant l’efficacité des modèles open-source avec les capacités avancées des services cloud gérés. Bien que Ollama ne prenne pas en charge nativement les points de terminaison Azure OpenAI, l’architecture hybride permet aux équipes informatiques de concilier la confidentialité des données (via des modèles auto-hébergés sur Azure AI Foundry) et les performances de pointe (en utilisant l’API Azure OpenAI), le tout dans l’écosystème scalable d’Azure.

Ce guide couvre chaque étape nécessaire pour déployer vos modèles OpenAI sur Azure AI Foundry, configurer les ressources requises, déployer LiteLLM Proxy sur votre machine hôte et configurer Ollama WebUI pour prendre en charge les points de terminaison Azure AI. Vous pouvez tester et améliorer encore plus votre modèle d’IA avec l’interface Ollama WebUI avec des fonctionnalités telles que la recherche Web, la génération de texte en image, etc., le tout au même endroit.

Source : techcommunity.microsoft.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications