Llama (modello linguistico)

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Llama
software
GenereChat bot
SviluppatoreMeta Platforms
Ultima versione3.2 (25 settembre 2024)
Sistema operativoMultipiattaforma
LinguaggioPython
LicenzaMeta Llama 3 Community License
(licenza non libera)
LinguaMultilingua
Sito webllama.meta.com/

Llama (acronimo di Large Language Model Meta AI, e precedentemente stilizzato come LLaMA) è una famiglia di modelli linguistici autoregressivi di grandi dimensioni (LLM) pubblicati da Meta AI a partire da febbraio 2023. L'ultima versione è Llama 3.1, pubblicata nel luglio 2024.[1]

I pesi del modello per la prima versione di Llama sono stati resi disponibili alla comunità di ricerca con una licenza non commerciale e l'accesso è stato concesso caso per caso.[2] Copie non autorizzate del modello sono state condivise via BitTorrent. In risposta, Meta AI ha emesso richieste di rimozione, secondo la legge statunitense DMCA, contro i repository che condividevano il link su GitHub.[3] Le versioni successive di Llama sono state rese accessibili al di fuori del mondo accademico e pubblicate con licenze che consentivano un limitato uso commerciale.[4][5] I modelli di Llama sono addestrati con parametri di dimensioni diverse, comprese tra 7B e 405B. In origine, Llama era disponibile solo come modello fondativo. A partire da Llama 2, Meta AI ha iniziato a pubblicare versioni perfezionate delle istruzioni accanto ai modelli di base.[5][6]

Parallelamente al lancio di Llama 3, Meta ha aggiunto la funzionalità di assistente virtuale a Facebook e WhatsApp in alcune regioni del mondo selezionate, nonché un sito web autonomo. Entrambi i servizi utilizzano un modello Llama 3.[7]

Confronto dei modelli

[modifica | modifica wikitesto]

Nella colonna dei costi di formazione viene riportato solo il costo del modello più esteso. Ad esempio, "21.000" è il costo di addestramento di Llama 2 cioè 69B in unità di petaFLOP per giorno. Inoltre, 1 petaFLOP-giorno = 1 petaFLOP/sec × 1 giorno = 8,64E19 FLOP.

Nome Data di rilascio Parametri Costo della formazione (petaFLOP-giorno) Lunghezza del contesto Dimensione del corpus Sostenibile commercialmente?
Llama 24 febbraio 2023
  • 6,7 miliardi
  • 13 miliardi
  • 32,5 miliardi
  • 65,2 miliardi
6.300 [8] 2048 1–1,4 T No
Llama 2 18 luglio 2023
  • 6,7 miliardi
  • 13 miliardi
  • 69 miliardi
21.000 [9] 4096 2T Si
Codice Llama 24 agosto 2023
  • 6,7 miliardi
  • 13 miliardi
  • 33,7 miliardi
  • 69 miliardi
Llama 3 18 aprile 2024
  • 8 miliardi
  • 70,6 miliardi
100.000 [10][11] 8192 15T
Llama 3.1 23 luglio 2024
  • 8 miliardi
  • 70.6 miliardi
  • 405 miliardi
440,000[12] 128,000
Llama 3.2 25 settembre 2024
  • 1 miliardi
  • 3 miliardi
  • 11 miliardi
  • 90 miliardi[13][14]
128,000[15]

Il Center for Research on Foundation Models (CRFM) dell'Institute for Human-Centered Artificial Intelligence (HAI) dell'Università di Stanford ha pubblicato Alpaca, una soluzione di addestramento basata sul modello LLaMA 7B che utilizza il metodo “Self-Instruct” di messa a punto delle istruzioni per acquisire capacità paragonabili al modello OpenAI GPT-3 della serie text-davinci-003 a un costo modesto.[16][17] I file del modello sono stati rimossi il 21 marzo 2023, a causa dei costi di hosting e di problemi di sicurezza, sebbene il codice e il documento sono rimasti online come riferimento.[18][19]

Meditron è una famiglia di strumenti basati su Llama, perfezionati su un insieme di linee guida cliniche, articoli e documenti PubMed. È stato creato dai ricercatori della Facoltà di Informatica e Scienze della Comunicazione dell'École Polytechnique Fédérale di Losanna e della Facoltà di Medicina dell'Università Yale. Mostra prestazioni migliorate nei benchmark correlati alla medicina come MedQA e MedMCQA.[20][21][22]

Zoom ha utilizzato Meta Llama 2 per creare un'intelligenza artificiale in grado di riassumere le riunioni, fornire utili suggerimenti per presentazioni e fare da assistente nelle risposte ai messaggi. Questo assistente AI è alimentato da più modelli, tra cui Meta Llama 2.[23]

  1. ^ (EN) ai.meta.com, https://ai.meta.com/blog/meta-llama-3-1/. URL consultato il 23 luglio 2024.
  2. ^ Yuvraj Malik e Katie Paul, Meta heats up Big Tech's AI arms race with new language model, su reuters.com, Reuters, 25 febbraio 2023.
  3. ^ OpSec Online LLC, github/dmca - Notice of Claimed Infringement via Email, su github.com, GitHub, 21 marzo 2023. URL consultato il 25 marzo 2023.
  4. ^ (EN) Emilia David, Meta's AI research head wants open source licensing to change, su The Verge, 30 ottobre 2023.
  5. ^ a b Meta and Microsoft Introduce the Next Generation of LLaMA, su Meta, 18 luglio 2023. URL consultato il 21 luglio 2023.
  6. ^ Meta, https://about.fb.com/news/2023/07/llama-2/. URL consultato il 21 luglio 2023.
  7. ^ Meta, https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/.
  8. ^ huggingface.co, https://huggingface.co/blog/falcon. URL consultato il 20 giugno 2023.
  9. ^ (EN) GitHub, https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md. URL consultato il 28 maggio 2024.
  10. ^ Andrej Karpathy (Apr 18, 2024), The model card has some more interesting info too
  11. ^ (EN) GitHub, https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md. URL consultato il 28 maggio 2024.
  12. ^ (EN) llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models, su GitHub. URL consultato il 23 luglio 2024 (archiviato il 23 luglio 2024).
  13. ^ (EN) Kylie Robison, Meta releases its first open AI model that can process images, su The Verge, 25 settembre 2024. URL consultato il 25 settembre 2024.
  14. ^ (EN) Kyle Wiggers, Meta's Llama AI models get multimodal, su TechCrunch, 25 settembre 2024. URL consultato il 25 settembre 2024 (archiviato il 25 settembre 2024).
  15. ^ Archived copy, su ai.meta.com. URL consultato il 26 settembre 2024 (archiviato il 25 settembre 2024).
  16. ^ crfm.stanford.edu, https://crfm.stanford.edu/2023/03/13/alpaca.html.
  17. ^ crfm.stanford.edu, https://crfm.stanford.edu/2023/03/13/alpaca.html.
  18. ^ (EN) theregister.com, https://www.theregister.com/2023/03/21/stanford_ai_alpaca_taken_offline/.
  19. ^ (EN) Gizmodo, https://gizmodo.com/stanford-ai-alpaca-llama-facebook-taken-down-chatgpt-1850247570.
  20. ^ (EN) ai.meta.com, https://ai.meta.com/blog/llama-2-3-meditron-yale-medicine-epfl-open-source-llm/.
  21. ^ (EN) actu.epfl.ch, https://actu.epfl.ch/news/epfl-s-new-large-language-model-for-medical-knowle/.
  22. ^ github.com, https://github.com/epfLLM/meditron.
  23. ^ Meta, https://about.fb.com/news/2024/05/how-companies-are-using-meta-llama/.

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Internet: accedi alle voci di Wikipedia che trattano di internet