Model de text a imatge
Un model de text a imatge és un model d'aprenentatge automàtic que pren com a entrada una descripció en llenguatge natural i produeix una imatge que coincideix amb aquesta descripció. Aquests models es van començar a desenvolupar a mitjans de la dècada de 2010, com a resultat dels avenços en xarxes neuronals profundes. El 2022, la producció de models de text a imatge d'última generació, com ara DALL-E 2 d'OpenAI, Imagen de Google Brain i Stable Diffusion de StabilityAI va començar a apropar-se a la qualitat de les fotografies reals i l'art dibuixat per humans.[1][2]
Els models text a imatge generalment combinen un model de llenguatge, que transforma el text d'entrada en una representació latent, i un model d'imatge generatiu, que produeix una imatge condicionada a aquesta representació. Els models més eficaços s'han entrenat generalment amb quantitats massives de dades d'imatge i text extretes del web.
Abans de l'auge de l'aprenentatge profund, els intents de crear models de text a imatge es limitaven a collages mitjançant l'ordenació d'imatges de components existents, com ara una base de dades d'imatges predissenyades.
Els models de text a imatge s'han creat utilitzant una varietat d'arquitectures. El pas de codificació de text es pot realitzar amb una xarxa neuronal recurrent, com ara una xarxa de memòria a curt termini (LSTM), tot i que els models de transformadors s'han convertit des d'aleshores en una opció més popular. Per al pas de generació d'imatges, s'han utilitzat habitualment xarxes adversàries generatives condicionals, i els models de difusió també s'han convertit en una opció popular en els darrers anys. En lloc d'entrenar directament un model per produir una imatge d'alta resolució condicionada a una incrustació de text, una tècnica popular és entrenar un model per generar imatges de baixa resolució i utilitzar un o més models auxiliars d'aprenentatge profund per augmentar-lo, omplint-lo amb més precisió. detalls.[3]
Els models de text a imatge s'entrenen en grans conjunts de dades de parells (text, imatge), sovint esborrats del web. Amb el seu model Imagen de 2022, Google Brain va informar resultats positius de l'ús d'un gran model de llenguatge entrenat per separat en un corpus només de text (amb els seus pesos posteriorment congelats), una diferència de l'enfocament estàndard fins ara.[4]
L'entrenament d'un model de text a imatge requereix un conjunt de dades d'imatges combinades amb subtítols de text. Un conjunt de dades que s'utilitza habitualment per a aquest propòsit és COCO (Common Objects in Context). Publicat per Microsoft el 2014, COCO consta d'unes 123.000 imatges que representen una diversitat d'objectes, amb cinc subtítols per imatge, generades per anotadors humans. Oxford-120 Flowers i CUB-200 Birds són conjunts de dades més petits d'unes 10.000 imatges cadascun, restringits a flors i ocells, respectivament. Es considera menys difícil entrenar un model de text a imatge d'alta qualitat amb aquests conjunts de dades, a causa del seu restringit ventall de temes.
Referències
[modifica]- ↑ «Text To Image - AI Image Generator» (en anglès). https://deepai.org.+[Consulta: 5 març 2023].
- ↑ «What is Text-to-Image? - Hugging Face» (en anglès). https://huggingface.co.+[Consulta: 5 març 2023].
- ↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay «Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding». arXiv:2205.11487 [cs], 23-05-2022.
- ↑ Kezmann, Jan Marcel. «10 Best Free-to-Use Text-to-Image Generators» (en anglès). https://medium.com,+19-11-2022.+[Consulta: 5 març 2023].