OprogramowanieRóżnorodnyTechnologia i nie tylko

Dall-E 2 firmy OpenAI generuje wszelkiego rodzaju obrazy z wprowadzania tekstu szybciej i lepiej

Ostatnia aktualizacja paź 16, 2022

W skrócie: wyobraź sobie, że możesz opisać obraz sztucznej inteligencji i przekształcić go w fotorealistyczny obraz. To jedno z twierdzeń wysuwanych przez zaktualizowaną wersję programu, którą po raz pierwszy zobaczyliśmy w zeszłym roku, a wyniki wyglądają ekscytująco.

DALL-E 2 pochodzi z laboratorium badawczego OpenAI z siedzibą w San Francisco, które stoi za modelami sztucznej inteligencji, takimi jak GPT-2 i GPT-3, które mogą pisać fałszywe wiadomości i pokonywać najlepszych ludzkich przeciwników w grach takich jak DOTA 2.

DALL-E 2, nazwa wywodząca się od kumulacji artysty Salvadora Dalí i robota Disneya WALL-E, to druga iteracja sieci neuronowej, którą po raz pierwszy zobaczyliśmy w styczniu ubiegłego roku, ale ta oferuje wyższą rozdzielczość i mniejsze opóźnienia niż orginalna wersja. Obrazy, które generuje, mają teraz znacznie lepszą rozdzielczość 1024 x 1024 pikseli, co stanowi zauważalny wzrost w stosunku do oryginału o rozdzielczości 256 x 256.

Dzięki zaktualizowanemu systemowi rozpoznawania obrazu CLIP firmy OpenAI, obecnie nazywanemu unCLIP, DALL-E 2 może przekształcić tekst użytkownika w żywe obrazy, nawet te, które są na tyle surrealistyczne, że mogą konkurować z samym Dalim. Na przykład poproszenie o koalę grającą w koszykówkę lub małpę płacącą podatki spowoduje, że sztuczna inteligencja stworzy przerażająco realistyczne obrazy tych opisów.

Najnowszy system przeszedł na proces zwany dyfuzją, który zaczyna się od wzoru losowych kropek i stopniowo zmienia ten wzór w kierunku obrazu, gdy rozpozna określone aspekty.

Wariacje pluszowych misiów w stylu ukiyo-e i osobliwa kwiaciarnia

DALL-E 2 potrafi więcej niż tworzenie nowych obrazków z tekstu. Jest także w stanie zmieniać sekcje obrazów; możesz na przykład podświetlić czyjąś głowę i kazać jej dodać zabawną czapkę. Istnieje nawet opcja tworzenia odmian pojedynczego obrazu, z których każdy ma inny styl, treść lub kąty.

„To kolejny przykład tego, co moim zdaniem będzie nowym trendem w interfejsach komputerowych: mówisz, co chcesz w języku naturalnym lub ze wskazówkami kontekstowymi, a komputer to robi” – powiedział Sam Altman, dyrektor generalny OpenAI. „Możemy sobie wyobrazić„ pracownika biurowego AI „, który przyjmuje żądania w języku naturalnym, tak jak robi to człowiek”.

Tego typu sztuczna inteligencja do generowania obrazów wiąże się z nieodłącznym ryzykiem niewłaściwego użycia. OpenAI ma pewne zabezpieczenia, w tym nie jest w stanie generować twarzy na podstawie imienia i nie zezwala na przesyłanie lub generowanie materiałów sprzeciwiających się – tylko treści przyjazne rodzinie. Niektóre z zabronionych tematów obejmują nienawiść, nękanie, przemoc, samookaleczanie, drastyczne/szokujące obrazy, nielegalne działania, oszustwa, takie jak fałszywe wiadomości, aktorzy lub sytuacje polityczne, obrazy medyczne lub związane z chorobami lub ogólny spam.

Użytkownicy muszą również ujawnić, że sztuczna inteligencja wygenerowała obrazy, a na każdym z nich pojawi się znak wodny wskazujący ten fakt.

The Verge pisze, że badacze mogą zarejestrować się, aby wyświetlić podgląd systemu online. Nie jest udostępniany bezpośrednio publicznie, chociaż OpenAI ma nadzieję udostępnić go do użytku w aplikacjach innych firm w pewnym momencie w przyszłości.

Źródło nagrywania: techspot.com