I modelli di linguaggio multimodale Reka Core, Flash ed Edge competono con GPT-4

Dimostrano di superare altri modelli di dimensioni maggiori, stabilendo nuovi standard di riferimento per la loro classe di calcolo.

ABSTRACT: Il rapporto tecnico esamina i modelli di linguaggio multimodali, Reka Core, Flash ed Edge, sviluppati dalla Reka.ai, che rappresentano l’avanguardia nell’elaborazione e ragionamento attraverso testi, immagini, video e audio.

I modelli Reka, grazie alle loro capacità computazionali distinte – 7B per Edge e 21B per Flash – dimostrano di superare altri modelli di dimensioni maggiori, stabilendo nuovi standard di riferimento per la loro classe di calcolo. In particolare, il modello Reka Core si posiziona vicino ai modelli leader del settore come GPT-4 di OpenAI e le versioni di Google del 2023 in termini di valutazioni automatiche e valutazioni umane indipendenti.

L’analisi copre diverse aree di benchmarking, tra cui il question answering su immagini (MMMU e VQAv2) e il chat multimodale, dove Reka Core si distingue per le prestazioni. Ulteriori dettagli tecnici riguardano l’architettura modulare dei modelli, che supportano input e output multimodali attraverso un’architettura transformer, e l’innovativo utilizzo di tecnologie di encoding e decoding per migliorare l’interazione tra modalità diverse.

Il rapporto sottolinea anche l’importanza delle infrastrutture di calcolo avanzate e della gestione dei dati durante la fase di pretraining, dove Reka utilizza massicci dataset multilingue e multimodali, arricchendo così la capacità di generalizzazione del modello. Infine, si discute del potenziale di questi modelli nel continuare a migliorare e adattarsi a compiti di crescente complessità, riflettendo l’evoluzione dinamica e rapida nel campo dei modelli di linguaggio grandi e multimodali.

Titolo dell’articolo: “Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models”

Fonte : Reka.ai

a cura di Recomb.ai

Tag

Partecipa alla discussione