xAI rilascia Grok-1.5V ed è multimodale

Grok-1.5V (la "v" sta per "vision") è l'ultima versione del modello generativo creato e addestrato dalla xAI, azienda fondata da Elon Musk. Questa versione arriva a pochi giorni di distanza dal rilascio di Grok-1.5 ma si differenzia per il fatto di essere un modello multimodale. è quindi in grado di gestire diversi tipi contenuti andando oltre la sola elaborazione dei prompt testuali.

L'aggiornamento promette un alto livello di efficienza anche nella gestione di immagini, compresi gli screenshot contenenti informazioni che possano essere elaborate, documenti, tabelle, diagrammi e altri grafici. Per il momento siamo soltanto alla fase dell'annuncio e la nuova release sarà disponibile soltanto per un numero ristretto di tester.

L'anteprima di Grok-1.5V è stata comunque sottoposta a dei test interni e i bechmark avrebbero permesso di registrare performance migliori rispetto ad alcuni modelli alternativi, come quelli di Claude (Claude 3 Opus e Claude 3 Sonnet), Gemini 1.5 Pro e GPT-4-V. Questo in particolare nella capacità di individuare gli elementi che compongono un'immagine.

Chiaramente il training dell'LLM (Large Language Model) ha riguardato anche altri aspetti come per esempio la generazione di codice e, nello specifico, di sorgenti Python. A questo proposito Grok-1.5V è stato in grado di creare un'applicazione prendendo spunto da un diagramma di flusso, dimostrandosi un valido assistente per i programmatori.

Nello stesso modo questa release sarebbe capace di generare autonomamente un file CSV (Comma Separated Values) a partire dai dati contenuti in una tabella, di spiegare il significato di un meme, di creare un racconto dopo l'osservazione di un semplice disegno o di leggere l'etichetta di un alimento e calcolare il suo contributo calorico.