LLaVA: Multimodales offenes KI-Modell auf LLaMA-Basis liest Bilder und Sprache from Heise's blog
Die Forschungsdemo des Large Language and Vision Assistant erlaubt Usern das Hochladen eigener Bilder zum Testen multimodaler Fähigkeiten und sammelt Feedback.
The Wall