Les outils de reconnaissance d’image sont utilisés pour extraire le sens ou d’autres informations depuis une image.
Ils prennent une image en entrée et sont capable de fournir des informations sur cette dernière.
La plupart du temps, ce sont des outils multi-modaux capables de prendre en entrée une image et un prompt pouvant faire référence à l’image.
GPT-4V
Ce modèle d’OpenAI est sorti en septembre 2023.
Il est intégré à ChatGPT et permet d’inclure des images dans les conversations. Ces images sont comprises par le modèle et peuvent faire l’objet de questions et autre méthodes d’extraction.
Découvrir 👉 Notre guide GPT-4V
LLaVA
LLaVA est un modèle de reconnaissance d’image initialement développé par Microsoft et rendu Open Source depuis mai 2023.
Découvrir 👉 Notre guide LLaVA