Il existe une pléthore d’outils autour de la GenAI et ce n’est pas toujours facile de s’y retrouver ou même de savoir qu’un outil existe!
Ce guide a pour but de lister et vulgariser ces outils pour que tout le monde puisse se les approprier. (Et oui il a bien été écrit à destination de mon père pour commencer 😄)
La plupart de ces outils se présentent sous la forme d’applications SaaS et d’API pour les développeurs.
Bonne visite 😉
Les outils de génération de texte tels que ChatGPT sont capables de comprendre le langage naturel.
Leur utilisation s’apparente à une discussion avec une personne, cependant les connaissances sont « figés » à une date précise qui correspond à la fin de leur période d’entrainement.
Quelques cas d’usages:
- Création de texte
- Extraction d’information depuis un texte
- Classification de texte
- Traduction de texte
Les outils de génération d’images sont capables de créer ou modifier des images depuis une description ou une autre image.
Quelques cas d’usage:
- Création artistique
- Génération de matériel visuel pour le jeu vidéo
- Création d’avatars virtuels
- Retouche d’image augmentée par IA
- Amélioration de la qualité d’images existantes (pixels, couleurs)
Les outils de génération de code fonctionnent sur le même principe que les outils de génération de texte: ce sont des Large-Language-Model (LLM).
Nous pensons néanmoins qu’ils méritent une page dédiée car ils sont de plus en plus spécialisés et un bon nombre de technique permettent d’optimiser leurs performances.
Cette catégorie d’outils génère des enregistrement audio à partir d’une entrée texte.
Cette méthode se nomme Text-to-speech.
Les outils de Text-to-speech (abrégés TTS) sont capable de produire de l’audio en fonction du texte en entrée. Cela peut être des voix parlées, des voix chantées ou même simplement des bruitages.
Cette catégorie d’outils permet d’extraire un texte ou une conversation depuis un enregistrement audio.
Cette méthode se nomme le Speech-to-text
Cette catégorie d’outils est très utile pour récupérer un format texte afin de l’utiliser dans un outil de génération de texte par exemple.
Les outils de reconnaissance d’image sont utilisés pour extraire le sens ou d’autres informations depuis une image.
Ils prennent une image en entrée et sont capable de fournir des informations sur cette dernière.
La plupart du temps, ce sont des outils multi-modaux capables de prendre en entrée une image et un prompt pouvant faire référence à l’image.
Cette catégorie d’outil est capable de manipuler des vidéo entières.
Pour l’instant, les performances des modèles en génération de vidéo entières sont assez mauvaise.
L’application la plus répandue est la génération de vidéo simples ou le sujet reste assez statique ou encore la synchronisation labiale.
Plutôt que d’héberger soit-même les différents modèles de GenAI, il est possible de les utiliser depuis des plateformes cloud.
Ce type de plateforme héberge des modèles de tout types (texte, code, image, son, etc) et fournit l’infrastructure pour les utiliser dans des application au travers d’API.
Ces API sont généralement appelés « API d’inférence ».