Red Hat AI Inference Server

Red Hat® AI Inference Server optimise l'inférence des modèles dans le cloud hybride pour des déploiements de modèles plus rapides et rentables.

Parler à un représentant Red Hat Lire le communiqué de presse

illustration hero Red Hat AI Inference Server

Définition d'un serveur d'inférence

Un serveur d'inférence est un composant logiciel qui permet aux applications d'intelligence artificielle (IA) de communiquer avec des grands modèles de langage (LLM) pour générer des réponses basées sur des données. Ce processus s'appelle l'inférence et correspond au moment où le résultat final est fourni, et où l'entreprise enregistre de la valeur métier.

Pour fonctionner efficacement, les LLM ont besoin d'importantes ressources de stockage, de mémoire et d'infrastructure afin d'exécuter les opérations d'inférence à grande échelle, ce qui explique leur coût potentiellement élevé.

Incluse dans l'offre Red Hat AI, la solution Red Hat AI Inference Server optimise les capacités d'inférence pour réduire les coûts habituellement élevés ainsi que l'ampleur de l'infrastructure.

En savoir plus sur l'inférence

Des opérations d'inférence d'IA rapides et rentables avec Red Hat AI Inference Server. Durée de la vidéo : 2 min 28 s

Présentation de Red Hat AI Inference Server

Fonctionnement de Red Hat AI Inference Server

Avec Red Hat AI Inference Server, les entreprises peuvent exécuter des opérations d'inférence rapides et rentables à grande échelle. Parce qu'il est Open Source, ce serveur d'inférence est compatible avec tous les modèles d'IA générative, tous les accélérateurs d'IA et tous les environnements cloud.

Basé sur le vLLM, il optimise l'utilisation des GPU et diminue les délais de réponse. En association avec l'outil LLM Compressor, il renforce aussi l'efficacité de l'inférence sans diminuer les performances. Compatible avec de nombreuses plateformes et soutenu par une communauté grandissante de contributeurs, le vLLM s'impose progressivement comme la plateforme Open Source de référence pour l'inférence de l'IA générative.

En savoir plus sur le vLLM

50 %

Certains utilisateurs de l'outil LLM Compressor ont enregistré 50 % d'économies sans diminution des performances*.

* Saša Zelenović, « Libérer tout le potentiel des LLM : plus de performances avec le vLLM »,article de blog Red Hat, 27 février 2025

Les modèles de votre choix

Red Hat AI Inference Server prend en charge tous les principaux modèles Open Source et favorise la portabilité des GPU. Vous pouvez utiliser tous les modèles d'IA générative et faire votre choix parmi une collection de modèles Open Source tiers validés.

Parce qu'elle fait partie de l'offre Red Hat AI, la solution Red Hat AI Inference Server est certifiée pour tous les produits Red Hat. Vous pouvez également la déployer sur d'autres plateformes Linux et Kubernetes qui bénéficient d'une assistance conformément à la politique d'assistance de Red Hat pour les composants tiers.

Découvrir le référentiel de modèles sur Hugging Face

illustration du choix d'un modèle avec Red Hat AI Inference Server

Fonctions et avantages

Accéder à la documentation du produit | Télécharger la fiche technique

Amélioration de l'efficacité grâce au vLLM

Avec le vLLM, optimisez le déploiement de tous les modèles d'IA générative, quel que soit l'accélérateur d'IA utilisé.

LLM Compressor

Compressez les modèles de toutes tailles pour économiser des ressources de calcul et diminuer les coûts associés, tout en préservant un haut niveau de précision dans les réponses.

Flexibilité du cloud hybride

Assurez la portabilité pour différents GPU, et exécutez vos modèles sur site, dans le cloud ou à la périphérie du réseau.

Référentiel Red Hat AI

Accédez à des modèles tiers validés et optimisés, prêts pour le déploiement de l'inférence, afin de réduire le délai de rentabilisation et de maîtriser les coûts.

Accéder au référentiel Red Hat AI sur Hugging Face

Assistance pour Red Hat AI

Chez Red Hat, nous maîtrisons la technologie du vLLM et contribuons largement au projet. Spécialistes du vLLM, nos consultants en IA peuvent vous aider à atteindre vos objectifs en matière d'IA d'entreprise.

En savoir plus sur les services de consulting Red Hat pour l'IA

Options d'achat

La solution Red Hat AI Inference Server fait partie de l'offre Red Hat AI et est également disponible sous forme de produit autonome. Elle est incluse dans Red Hat Enterprise Linux® AI et Red Hat OpenShift® AI.

Parler à un représentant Red Hat

Déployez l'IA avec l'aide de nos partenaires

Pour exploiter tout le potentiel de l'IA, associez nos solutions aux technologies de nos nombreux partenaires qui s'efforcent d'obtenir une certification de compatibilité.

Découvrir les partenaires Red Hat pour l'IA

Foire aux questions

Faut-il acheter Red Hat Enterprise Linux AI ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference Server ?

Non. Vous pouvez acheter Red Hat AI Inference Server sous forme de produit Red Hat autonome.

Faut-il acheter Red Hat AI Inference Server pour utiliser Red Hat Enterprise Linux AI ?

Non. Les solutions Red Hat Enterprise Linux AI et Red Hat OpenShift AI incluent toutes les deux Red Hat AI Inference Server.

Acheter la solution Red Hat Enterprise Linux AI

Peut-on exécuter Red Hat AI Inference Server sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Oui. Il est également possible d'exécuter la solution dans des environnements Linux tiers dans le cadre d'un contrat de produit tiers.

Quel est le système de tarification appliqué à Red Hat AI Inference Server ?

Le tarif est calculé sur la base du nombre d'accélérateurs.