Cette catégorie d’outils génère des enregistrement audio.
La plupart de ces outils prennent du texte en entrée, cette méthode se nomme Text-to-speech.
Cependant plus récemment, des outils de génération audio sont multimodaux et capable de prendre du texte ou de l’audio en entrée comme le modèle Lyria de Google.
Outils Text-to-speech
Les outils de Text-to-speech (abrégés TTS) sont capable de produire de l’audio en fonction du texte en entrée. Cela peut être des voix parlées, des voix chantées ou même simplement des bruitages.
Eleven Labs
Eleven Labs offre des service pour générer des voix lisant le texte passé en entrée.
Des centaines de voix sont disponibles dans toutes les langues et il est même possible de clôner une voix existante à partir d’un enregistrement audio.
Eleven Labs possède une API pour une intégration dans des applications.
Découvrir 👉 Notre guide Eleven Labs
Suno AI
Suno développe un modèle capable de chanter les textes passé en entrée dans une grande variété de styles de musique.
La génération de musiques se fait exclusivement sur Discord.
Découvrir 👉 Notre guide Suno AI
Outils multimodaux
Lyria
Ce modèle développé par la filière IA de Google, Deepmind, est capable de création des pistes audio d’instruments à partir d’un simple fredonnement.
Il permet aussi de générer des morceaux entier à partir d’un thème et de la voix de son chanteur préféré.
En attendant une beta publique, voir notre article sur Le modèle Lyria de Goodle