MitmesugustTarkvaraTehnoloogia ja palju muud

OpenAI Dall-E 2 genereerib tekstisisestusest igasuguseid pilte kiiremini ja paremini

Viimati uuendatud okt. 16, 2022

Lühidalt: kujutage ette, et saate kirjeldada pilti tehisintellektile ja muuta see fotorealistlikuks pildiks. See on üks väidetest, mille esitas eelmisel aastal esmakordselt nähtud programmi uuendatud versioon, ja tulemused tunduvad põnevad.

DALL-E 2 pärineb San-Francisco-põhisest OpenAI uurimislaborist tehisintellekti mudelite, nagu GPT-2 ja GPT-3, taga, mis suudavad kirjutada võltsuudiseid ja võita parimaid vastaseid sellistes mängudes nagu DOTA 2.

DALL-E 2, nimi, mis pärineb kunstniku Salvador Dalí ja Disney roboti WALL-E portaalist, on närvivõrgu teine iteratsioon, mida nägime esimest korda eelmise aasta jaanuaris, kuid see pakub kõrgemat eraldusvõimet ja väiksemat latentsusaega kui originaalversioon. Selle loodud kujutised on nüüd palju paremad 1024 x 1024 pikslit, mis on märgatav kasv võrreldes originaali 256 x 256 piksliga.

Tänu OpenAI uuendatud CLIP-kujutisetuvastussüsteemile, mida nüüd nimetatakse unCLIPiks, suudab DALL-E 2 muuta kasutaja teksti elavateks kujutisteks, isegi nendeks, mis on piisavalt sürreaalsed, et Dalile endale konkureerida. Kui küsite näiteks korvpalli mängivalt koalalt või makse maksvalt ahvilt, loob tehisintellekt nendest kirjeldustest hirmutavalt realistlikke pilte.

Uusim süsteem on lülitunud difusiooniks nimetatavale protsessile, mis algab juhuslike punktide mustriga ja muudab seda mustrit järk-järgult pildi suunas, kui see tuvastab teatud aspektid.

Variatsioonid kaisukarudest ukiyo-e stiilis ja omapärane lillepood

DALL-E 2 suudab enamat kui tekstist uusi pilte luua. Samuti on see võimeline muutma piltide osi; võid näiteks kellegi pea esile tõsta ja käskida lisada naljaka mütsi. On isegi võimalus luua ühest pildist erineva stiili, sisu või nurga all olevaid variatsioone.

“See on veel üks näide sellest, mis minu arvates saab olema uus arvutiliidese trend: ütlete, mida soovite loomulikus keeles või kontekstuaalsete vihjetega, ja arvuti teeb seda,” ütles OpenAI tegevjuht Sam Altman. “Võime ette kujutada AI kontoritöötajat, kes võtab taotlusi vastu loomulikus keeles nagu inimene.”

Seda tüüpi kujutiste genereerimise tehisintellektiga kaasneb siiski väärkasutamise oht. OpenAI-l on mõned kaitsemeetmed, sealhulgas see, et ta ei saa nime alusel nägusid luua ja ei luba üles laadida ega genereerida vastulauset tekitavat materjali – ainult peresõbralikke asju. Mõned keelatud teemad hõlmavad vihkamist, ahistamist, vägivalda, enesevigastusi, selgesõnalisi/šokeerivaid kujutisi, ebaseaduslikke tegevusi, pettusi, nagu võltsuudised, poliitilised osalejad või olukorrad, meditsiiniliste või haigustega seotud kujutised või üldine rämpspost.

Kasutajad peavad ka avalikustama, et AI genereeris pildid, ja igal pildil on vesimärk, mis näitab seda asjaolu.

The Verge kirjutab, et teadlased saavad registreeruda, et süsteemi eelvaadet veebis vaadata. Seda ei avaldata otse avalikkusele, kuigi OpenAI loodab selle tulevikus kolmandate osapoolte rakendustes kasutamiseks kättesaadavaks teha.

: techspot.com