Guide des outils Generative AI expliqué à mon père

Il existe une pléthore d’outils autour de la GenAI et ce n’est pas toujours facile de s’y retrouver ou même de savoir qu’un outil existe!

Ce guide a pour but de lister et vulgariser ces outils pour que tout le monde puisse se les approprier. (Et oui il a bien été écrit à destination de mon père pour commencer 😄)

La plupart de ces outils se présentent sous la forme d’applications SaaS et d’API pour les développeurs.

Bonne visite 😉

Plateformes GenAI as a Service

Plutôt que d’héberger soit-même les différents modèles de GenAI, il est possible de les utiliser depuis des plateformes cloud. Ce type de plateforme héberge des modèles de tout types (texte, code, image, son, etc) et fournit l’infrastructure pour les utiliser dans des application au travers d’API. Ces API sont généralement appelés « API d’inférence ». Hugging Face
Voir le guide
Outils de génération vidéo

Cette catégorie d’outil est capable de manipuler des vidéo entières. Pour l’instant, les performances des modèles en génération de vidéo entières sont assez mauvaise. L’application la plus répandue est la génération de vidéo simples ou le sujet reste assez statique ou encore la synchronisation labiale. HeyGen HeyGen est un outil capable de générer des vidéos
Voir le guide
Outils de reconnaissance d’image

Les outils de reconnaissance d’image sont utilisés pour extraire le sens ou d’autres informations depuis une image. Ils prennent une image en entrée et sont capable de fournir des informations sur cette dernière. La plupart du temps, ce sont des outils multi-modaux capables de prendre en entrée une image et un prompt pouvant faire référence
Voir le guide
Outils de reconnaissance audio

Cette catégorie d’outils permet d’extraire un texte ou une conversation depuis un enregistrement audio. Cette méthode se nomme le Speech-to-text Cette catégorie d’outils est très utile pour récupérer un format texte afin de l’utiliser dans un outil de génération de texte par exemple. Whisper Whisper est un modèle de Speech-to-text développé par OpenAI. Il est
Voir le guide
Outils de génération audio

Cette catégorie d’outils génère des enregistrement audio. La plupart de ces outils prennent du texte en entrée, cette méthode se nomme Text-to-speech. Cependant plus récemment, des outils de génération audio sont multimodaux et capable de prendre du texte ou de l’audio en entrée comme le modèle Lyria de Google. Outils Text-to-speech Les outils de Text-to-speech
Voir le guide
Outils de génération de code

Les outils de génération de code fonctionnent sur le même principe que les outils de génération de texte: ce sont des Large-Language-Model (LLM). Nous pensons néanmoins qu’ils méritent une page dédiée car ils sont de plus en plus spécialisés et un bon nombre de technique permettent d’optimiser leurs performances. Voir aussi l’article La nouvelle ère
Voir le guide
Outils de génération d’images

Les outils de génération d’images sont basés sur une architecture de réseau de neurone appelée “Transformers”. Ils fonctionnement également avec des prompts décrivant les images souhaitées. Contrairement aux Large-Language-Models, les modèles de génération d’images ont une compréhension beaucoup moins approfondi des subtilités de la langue. Ces modèles ont plusieurs types d’utilisation. Text-to-image Une description donnée
Voir le guide
Outils de génération de texte

Les outils de génération de texte sont appelés Large-Language-Models (LLM). Ils sont basés sur une architecture de réseau de neurone appelée “Transformers” et leur principe fondateur est le mécanisme d’attention. Plus d’info chez Science Étonnante pour comprendre leur fonctionnement 👉 Comment les IA font elles pour comprendre notre langue ChatGPT Difficile d’être passé à côté
Voir le guide