Red Hat AI Inference Server
Red Hat® AI Inference Server optimise l'inférence des modèles dans le cloud hybride pour des déploiements de modèles plus rapides et rentables.
Définition d'un serveur d'inférence
Un serveur d'inférence est un composant logiciel qui permet aux applications d'intelligence artificielle (IA) de communiquer avec des grands modèles de langage (LLM) pour générer des réponses basées sur des données. Ce processus s'appelle l'inférence et correspond au moment où le résultat final est fourni, et où l'entreprise enregistre de la valeur métier.
Pour fonctionner efficacement, les LLM ont besoin d'importantes ressources de stockage, de mémoire et d'infrastructure afin d'exécuter les opérations d'inférence à grande échelle, ce qui explique leur coût potentiellement élevé.
Incluse dans l'offre Red Hat AI, la solution Red Hat AI Inference Server optimise les capacités d'inférence pour réduire les coûts habituellement élevés ainsi que l'ampleur de l'infrastructure.
Présentation de Red Hat AI Inference Server
Fonctionnement de Red Hat AI Inference Server
Avec Red Hat AI Inference Server, les entreprises peuvent exécuter des opérations d'inférence rapides et rentables à grande échelle. Parce qu'il est Open Source, ce serveur d'inférence est compatible avec tous les modèles d'IA générative, tous les accélérateurs d'IA et tous les environnements cloud.
Basé sur le vLLM, il optimise l'utilisation des GPU et diminue les délais de réponse. En association avec l'outil LLM Compressor, il renforce aussi l'efficacité de l'inférence sans diminuer les performances. Compatible avec de nombreuses plateformes et soutenu par une communauté grandissante de contributeurs, le vLLM s'impose progressivement comme la plateforme Open Source de référence pour l'inférence de l'IA générative.



50 % Certains utilisateurs de l'outil LLM Compressor ont enregistré 50 % d'économies sans diminution des performances*.
* Saša Zelenović, « Libérer tout le potentiel des LLM : plus de performances avec le vLLM »,article de blog Red Hat, 27 février 2025
Les modèles de votre choix
Red Hat AI Inference Server prend en charge tous les principaux modèles Open Source et favorise la portabilité des GPU. Vous pouvez utiliser tous les modèles d'IA générative et faire votre choix parmi une collection de modèles Open Source tiers validés.
Parce qu'elle fait partie de l'offre Red Hat AI, la solution Red Hat AI Inference Server est certifiée pour tous les produits Red Hat. Vous pouvez également la déployer sur d'autres plateformes Linux et Kubernetes qui bénéficient d'une assistance conformément à la politique d'assistance de Red Hat pour les composants tiers.



Assistance pour Red Hat AI
Chez Red Hat, nous maîtrisons la technologie du vLLM et contribuons largement au projet. Spécialistes du vLLM, nos consultants en IA peuvent vous aider à atteindre vos objectifs en matière d'IA d'entreprise.
Options d'achat
La solution Red Hat AI Inference Server fait partie de l'offre Red Hat AI et est également disponible sous forme de produit autonome. Elle est incluse dans Red Hat Enterprise Linux® AI et Red Hat OpenShift® AI.
Déployez l'IA avec l'aide de nos partenaires
Pour exploiter tout le potentiel de l'IA, associez nos solutions aux technologies de nos nombreux partenaires qui s'efforcent d'obtenir une certification de compatibilité.
Foire aux questions
Faut-il acheter Red Hat Enterprise Linux AI ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference Server ?
Non. Vous pouvez acheter Red Hat AI Inference Server sous forme de produit Red Hat autonome.
Faut-il acheter Red Hat AI Inference Server pour utiliser Red Hat Enterprise Linux AI ?
Non. Les solutions Red Hat Enterprise Linux AI et Red Hat OpenShift AI incluent toutes les deux Red Hat AI Inference Server.
Peut-on exécuter Red Hat AI Inference Server sur Red Hat Enterprise Linux ou Red Hat OpenShift ?
Oui. Il est également possible d'exécuter la solution dans des environnements Linux tiers dans le cadre d'un contrat de produit tiers.
Quel est le système de tarification appliqué à Red Hat AI Inference Server ?
Le tarif est calculé sur la base du nombre d'accélérateurs.
