Изображения, предлагаемые DALL-E, генерируются нейросетью самостоятельно. Для этого используется тот же подход, что и для GPT-3, другой разработки той же компании. В данном случае применяется пара текст-изображения, представленные как последовательность "токенов" из определенного алфавита, рассказывается на официальном сайте компании OpenAI.

Интересно Google выпустит обновленную серию камер видеонаблюдения Nest Cam

Детали

Нейросеть может создавать изображения одежды, интерьера, мебели, еды, животных. Например, она может создать картинки по запросу "дайкон в балетной пачке, что выгуливает собаку" или "кресло в форме авокадо".

Результат запиту
Результат запроса "кресло в форме авокадо" / Скриншот сайта OpenAI

DALL-E понимает сложные абстрактные комбинации, может изменять стиль изображений, а также способна создавать реалистичные фото и несуществующие объекты.

Нейросеть способна не только генерировать изображения, но и достраивать любую прямоугольную область существующего изображения.

Результат запиту
Нейросеть дополняет картинку / Скриншот сайта OpenAI

Другая разработка компании, нейросеть CLIP, способна распознавать, что показано на картинке по всему описанию, а не по тегу из одного слова. Издание Tech Crunch отметило, что это интересная и мощная технология, которая вскоре перерастет во что-то еще более интересное.