Опубликовано 25.04.2022

DALL-E, Метавселенная и контент с нулевыми издержками

На прошлой неделе OpenAI выпустила DALL-E 2, искусственный интеллект, который создает (или редактирует) изображения на основе текстовых описаний.

В этом треде в Twitter представлен целый ряд примеров таких изображений — например, плюшевые мишки, работающие над исследованием искусственного интеллекта на Луне в 1980-х годах:

Фотография живописной витрины цветочного магазина с пастельно-зеленым и чистым белым фасадом, открытой дверью и большим окном:

И, наконец, самый говорящий пример, человек, купающийся в лучах солнца новой AGI-утопии:

На своем веб-сайте OpenAI выложили видео, которое рассказывает о DALL-E:

И хотя в нем не упоминается о некоторых недостатках системы, оно довольно оптимистично описывает ее возможности.

Вот несколько отрывков:

Dall-E 2 — это новая система искусственного интеллекта от OpenAI, которая может преобразовывать простые текстовые описания, например, “Коала, бросающая баскетбольный мяч”, в оригинальные фотореалистичные изображения. DALL-E 2 также может реалистично редактировать и ретушировать фотографии.

Для создания DALL-E 2 мы обучали нейронную сеть на изображениях и их текстовых описаниях. Благодаря глубокому обучению, ИИ не только различает отдельные объекты, например, животных и мотоциклы, но и учится понимать взаимосвязь между объектами. Если вы просите DALL-E создать изображение “коалы, едущего на мотоцикле”, он знает как будут соотноситься эти, а также любые другие объекты и действия.

Исследование DALL-E имеет три основных результата: во-первых, технология может помочь людям самовыражаться невозможными для них ранее способами.

Во-вторых, изображение, сгенерированное искусственным интеллектом, может многое рассказать нам о том, понимает ли нас система или же она просто повторяет то, чему ее научили.

В-третьих, DALL-E помогает людям понять, как системы искусственного интеллекта видят и понимают наш мир. Это очень важно для разработки эффективного и безопасного ИИ.

Еще одним интересным аспектом подхода, использованного для обучения DALL-E является то, что система может использовать знания о ранее обработанных изображениях и применить их к новому. Получив изображение обезьяны, DALL-E может предположить, как бы она выглядела, делая то, чего никогда раньше не делала, например, если бы ей пришлось платить налоги или надеть смешную шляпу.

DALL-E — это пример того, как творческие люди и умные системы могут работать сообща, создавая новые вещи и усиливая наш творческий потенциал.

Последний вывод может вызвать у некоторых читателей недоумение: на первый взгляд DALL-E выглядит как конкурент для художников и иллюстраторов; однако есть и другая точка зрения, где DALL-E указывает на ключевую недостающую деталь в будущей Метавселенной.

Покупайте, зарабатывайте криптовалюты вместе с редакцией сайта КРИПТОБИРЖИ.РФ

Содержание:

Содержание статьи скрыть

1 Эволюция игр и медиа

2 Соцсети и пользовательский контент

3 Алгоритмы

4 Метавселенная и машинное обучение

5 Контент с нулевыми издержками и DALL-E

Эволюция игр и медиа

Игры уже давно находятся на передовом крае технологического развития, и это, безусловно, относится к средствам коммуникации и носителям контента.

Основным элементом первых компьютерных игр был текст:

“Вы умерли от дизентерии”

Затем стало появляться больше изображений, обычно растровых; я помню, например, как частенько играл в “Where in the world is Carmen San Diego”:

Вскоре в играх появилось движение — игрок управлял спрайтом, перемещающимся по 2D-миру; затем последовало 3D, и большую часть последней четверти века разработчики трудились над тем, чтобы сделать 3D-игры еще более реалистичными. Однако почти все эти игры представляют собой 3D-изображения на 2D-экранах; виртуальная реальность же создает иллюзию пребывания внутри самой игры.

Тем не менее, на своем пути игровая индустрия сталкивается с препятствиями: создание более реалистичных 3D-игр означает, что для украшения всех этих полигонов нужно создавать все более реалистичные текстуры; эта проблема становится только ярче в виртуальной реальности.

Это одна из причин, по которой даже игры с открытым миром в конечном счете ограничены по масштабу, а игровой процесс в значительной степени детерминирован: именно благодаря знаниям о том, куда вы направляетесь и какими способами вы можете туда добраться, разработчики могут создать все ресурсы, необходимые для захватывающего пользовательского опыта.

Это не значит, что в видеоиграх (помимо roguelike-игр, которые генерируются процедурно) нет элемента случайности: самый очевидный способ привнести элемент непредсказуемости — это позволить людям играть друг с другом, хотя и в четко определенных и контролируемых средах.

Соцсети и пользовательский контент

Социальные сети претерпели ту же эволюцию средств коммуникации, что и игры, с двадцатилетней задержкой.

Самыми ранними формами социальных сетей в Интернете были текстовые доски объявлений и группы USENET; затем широко распространилась электронная почта, чаты AOL и форумы.

Facebook появился на сцене в середине 2000-х годов и одним из факторов, которые помогли ему стремительно набирать популярность, было то, что в нем появились изображения.

В Instagram сперва были только изображения, а потом там появились видео. TikTok целиком и полностью посвящен видеоконтенту. В в последние пару лет, благодаря Zoom или Facetime, мы регулярно проводим видеоконференции с трехмерными изображениями на 2D экранах.

Тем не менее, в социальном взаимодействии средства коммуникации не так уж важны, потому что нам гораздо интереснее именно “социальный” аспект. Людям нравится общаться с другими людьми, даже если для этого требуется подключиться к случайной BBS для загрузки сообщений, составить ответ и снова подключиться, чтобы его отправить.

В играх больше детерминизма, но люди полны сюрпризов.

Более того, это означает, что социальные сети намного дешевле: весь контент генерируют сами пользователи, а не платформа.

Это затрудняет создание новой платформы с нуля, потому что вам нужны пользователи, чтобы привлечь больше пользователей. Но такой платформе будет проще удержать пользователей (или, другими словами, у самых популярных игр есть свои сетевые эффекты).

Алгоритмы

Первые итерации социальных сетей не имели особого алгоритмического компонента, кроме времени: самые новые посты были вверху (или внизу).

Ситуация изменилась с появлением ленты новостей в Facebook в 2006 году. Теперь вместо того, чтобы постоянно заходить на страницы ваших друзей, пользователи могут просто просматривать ленту, которая сама определяет, какой контент показывать и в каком порядке.

Со временем новостная лента превратилась из относительно простого алгоритма в управляемый машинным обучением. Результаты работы этого алгоритма настолько непостижимы, что Facebook потребовалось шесть месяцев, чтобы исправить один из последних багов.

Это произвело огромный эффект: по мере развития алгоритмов не только Facebook, но и Instagram значительно увеличили вовлеченность и темпы роста; это также хорошо сказалось на монетизации, поскольку те же сигналы, по которым алгоритм определяет наиболее интересный для вас контент, влияют на то, какую рекламу вам показывают.

Однако причина, по которой мы обсуждаем алгоритмы отдельно от соцсетей заключается в том, что ярчайшим примером их мощи является вовсе не социальная сеть, а TikTok.

TikTok, конечно, целиком и полностью состоит из пользовательского контента, но его главное отличие от Facebook заключается в том, что пользователи не ограничены контентом из сети своих друзей и подписок: TikTok собирает видео, которые, по его мнению, будут вам наиболее интересны, со всей своей сети.

В 2020 году я писал о том, почему TikTok оказался для Facebook в “слепой зоне”:

Интересно отметить, почему Facebook неизбежно упустили это из виду.

Во-первых, они рассматривают себя в первую очередь как социальную сеть, поэтому компания не сочла это помехой.

Во-вторых, это подкрепляется тем, как Facebook восприняли Snapchat. В одном из своих постов я писал о том, как Facebook использовали социальную сеть Instagram, чтобы затормозить рост Snapchat.

Это лишний раз доказывает, что сеть была самым большим активом компании.

TikTok сочетает в себе пользовательский контент с чисто алгоритмической лентой, которая не привязана к личной сети пользователя; сетевой эффект, заключается в том, что TikTok требуется большое количество контента, но он может собирать его со всей своей огромной сети.

Метавселенная и машинное обучение

Я нахожу крайне интересным, что примеры Метавселенных из научной фантастики, включая Snow Crash и Ready Player One, очень напоминают видеоигры.

Эти виртуальные миры были созданы дальновидными корпорациями или, в случае Ready Player One, дальновидным разработчиком, который также встроил в него детерминированную игру, с конечной целью завладеть виртуальным миром.

Да, третьи стороны могли создавать в этих мирах свой опыт, например, клуб Black Sun в Snow Crash, но их основная механика — и экономика — больше всего напоминали многопользовательскую игру.

Это, однако, исключительно сложно повторить в реальном мире: помните, что создание игр, особенно их визуальной составляющей, обходится дорого, и расходы увеличиваются по мере того, как опыт становится более захватывающим.

Социальные сети, с другой стороны, дешевы, потому что они используют пользовательский контент. Но этот контент, как правило, зациклен на более простых носителях — тексте, картинках и, только с недавнего времени, видео.

Конечно, контент не обязательно должен быть ограничен вашей личной сетью — алгоритм может доставить что угодно в сети любому пользователю.

Что интересно в DALL-E, так это то, что он намекает на будущее, в котором эти три тенденции могут объединиться.

DALL-E, в конце концов, является продуктом созданного человеком контента, как и его двоюродный брат GPT-3. Последний, конечно, работает с текстом, в то время как DALL-E предназначен для изображений.

Однако стоит отметить логику развития технологии — от текста к изображениям; из этого следует, что следующим этапом будет видео, сгенерированное с помощью машинного обучения. Конечно, это, вероятно, займет несколько лет; создание видео — гораздо более сложная задача, а адаптивные 3D-среды еще сложнее, но это путь, по которому индустрия шла раньше:

Видеоигры эволюционировали от текста к изображениям, затем к видео, а затем к 3D средам;
Социальные сети свели к нулю затраты на создание контента сначала в форме текста, затем изображений и, наконец, видео;
Модели машинного обучения теперь позволяют создавать текст и изображения с нулевыми предельными издержками.

В долгосрочной перспективе это указывает на концепцию Метавселенной, значительно менее детерминированой, чем типичная видеоигра и при этом гораздо более насыщенной, чем то, что генерируют социальные сети.

Представьте себе среду, которая нарисована не художниками, а создана искусственным интеллектом: это не только расширяет возможности, но и, что очень важно, снижает издержки.

Контент с нулевыми издержками и DALL-E

Можно взглянуть на DALL-E, GPT и подобные модели машинного обучения и с другой точки зрения.

Она восходит к моему давнему утверждению, что Интернет — это революционная технология, с которой может сравниться только печатный станок. Создание последнего стало таким прорывом, поскольку это резко снизило предельные издержки потребления.

Вот отрывок из моего поста Интернет и Третье сословие:

Между тем экономика книгопечатания в корне отличалась от экономики ручного копирования текстов. Последнее было сопряжено с чисто операционными издержками: объем производства строго определялся затратами рабочей силы.

Книгопечатание, в свою очередь, было в большей степени связано с капитальными издержками: во-первых, на строительство печатного станка, а во-вторых, на набор шрифта для книги. Лучшим способом покрыть эти значительные первоначальные расходы было выпустить как можно больше экземпляров конкретной книги для продажи. Как же тогда максимизировать количество копий, которые можно было бы продать?

Ответ состоял в том, чтобы использовать наиболее широко распространенный диалект определенного языка, что стимулировало людей перенимать этот диалект, стандартизируя языки по всей Европе. Это, в свою очередь, укрепило связи между городами-государствами с общими языками, особенно с течением десятилетий, когда вокруг книг, а затем и газет развивалась общая культура.

Эта консолидация происходила с разной скоростью — в Англии и Франции на несколько сотен лет раньше, чем в Германии и Италии, — но почти в каждом случае “первым сословием” становилось не духовенство Католической церкви, а национальный монарх, даже когда монарх уступал власть новому типу меритократической знати.

Создание Интернета произвело два эффекта: первый заключается в снижении предельных издержек потребления до нуля.

Даже с печатным станком вам все равно нужно было напечатать физический объект и распространить его, а это стоит денег; в то же время отправить этот пост любому заинтересованному человеку в мире практически ничего не стоит. Это полностью перевернуло издательскую индустрию и лишило “гейткиперов” их власти.

Однако не менее важным было влияние Интернета на производство; вот что я писал о TikTok в “Ошибках и мемах“:

Фраза “Facebook привлекателен за счет контента, который там публикуется, независимо от того, кто его публикует”, практически так же хорошо описывает и TikTok; ошибка в том, что последний привлекателен за счет контента, который там публикуется, независимо от того, кто его создает…

Другими словами, я был слишком сосредоточен на спросе — который является ключом к теории агрегирования — и недостаточно глубоко задумался об эволюции предложения.

Пользовательский контент не обязательно должен быть просто фотографиями домашних животных и рассуждениями о политике; он может стать основой для сети нового типа, где сетевые эффекты зависят скорее не от количества подключений, доступных для любого узла сети, а от количества входных данных, поступающих в алгоритмический канал.

Контент, созданный с помощью машинного обучения, — это всего лишь следующий шаг: вместо того, чтобы извлекать контент из любой точки сети, GPT, DALL-E и другие подобные модели генерируют новый контент на основе введенных данных с нулевыми предельными издержками.

Именно так экономика Метавселенной в конечном счете обретет смысл: виртуальным мирам нужен виртуальный контент, создаваемый практически с нулевыми затратами, и с возможностью полной кастомизации под каждого человека.

Конечно DALL-E порождает множество других вопросов, в том числе философского характера; это уже вызвало море дискуссий и должно вызвать еще больше.

Тем не менее, экономические последствия не менее важны, и после анонса DALL-E 2 будущее Интернета стало казаться не таким далеким и чуть более странным.

С оригинальным материалом вы можете ознакомиться здесь.

Присоединяйтесь к нашему DAO, где мы совместно вкладываем в новые криптовалюты:

WAODAO

Как вы думаете, сможет ли искусственный интеллект бесконечно генерировать контент для будущей Метавселенной?

Порассуждаем в комментариях ниже?

Автор статьи:
Андрей Якуби

Метавселенная

Вас может заинтересовать это

Гайд по стейкингу на 2022 год Метавселенная: стандарты для интероперабельности Культурная значимость NFT