Дали - новата граница на вештачката интелигенција достапна за сите




Ниту една од овие фотографии не е направена со фотоапарат.

Сите овие слики се создадени од генератор на текст-до-слика со вештачка интелигенција DALL-E. Именуван е WALL-E по Салвадор Дали и Пиксар, DALL-E создава слики засновани на инструкции како што се:

„ Куќа на хобит дизајнирана од Заха [Х] Адид“.

„Жена во црвено палто гледа во небото среде Тајмс Сквер“.

„Црвени и жолти пиперки во сад со цветен дезен на фотографија од зелен килим.“


Откако истражувачката лабораторија OpenAI дебитираше со најновата верзија на DALL-E во април, АИ(*артифицијална интелигенција) ја фасцинираше јавноста, привлекувајќи дигитални уметници, графички дизајнери, рани корисници и сите кои бараат одвлекување на вниманието на интернет.

Способноста да се создадат оригинални, понекогаш точни и повремено инспирирани слики од која и да е фразата на моментот, како разговорен Фотошоп, ги запрепасти дури и заситените корисници на Интернет со тоа колку брзо напредувала вештачката интелигенција.

Пет месеци после дебито, 1,5 милиони корисници генерираат 2 милиони слики дневно. Во средата, OpenAI соопшти дека ја отстранил својата листа на чекање за DALL-E, давајќи им на сите непосреден пристап.

Воведувањето на DALL-E предизвика експлозија на генератори на текст во слика. Гугл и Мета брзо открија дека секој од нив развивал слични системи, но рекоа дека нивните модели не се подготвени за пуштање во јавноста. Старт-ап ривалите наскоро излегоа на берзата, вклучувајќи ги Stable Diffusion и Midjourney, кои ја создадоа сликата што предизвика контроверзии во август кога победи на уметнички натпревар на Државниот саем во Колорадо.


АИ слика победи на саем за уметност што покрена лавина негодувања

Технологијата сега се шири брзо, побрзо отколку што АИ компаниите можат да стигнат да ги обликуваат нормите околу нејзината употреба и да спречат опасни исходи. Истражувачите се загрижени дека овие системи создаваат слики кои можат да предизвикаат низа штети, како што се зајакнување на расните и родовите стереотипи или плагијат на уметници чии дела биле избришани без нивна согласност. Лажните фотографии може да се користат за да се овозможи малтретирање и вознемирување - или да се создадат дезинформации што изгледаат реално.

Историски гледано, луѓето веруваат на она што може да го видат, вели Ваел Абд-Алмагед, професор на Факултетот за инженерство на Универзитетот во Јужна Калифорнија. „Штом линијата помеѓу вистината и лажната ќе биде еродирана, сè ќе стане лажно“, рече тој. „Нема да можеме да веруваме во ништо.“

„Штом линијата помеѓу вистината и лажната ќе биде еродирана, сè ќе стане лажно. Нема да можеме да веруваме во ништо“.


OpenAI се обиде да ја балансира својата желба да биде прв, и да ги изрекламира своите АИ постигнувања без да ги забрза тие опасности. За да се спречи DALL-E да се користи за создавање дезинформации, на пример, OpenAI забранува слики на познати личности или политичари. Главниот извршен директор на OpenAI, Сем Алтман, ја оправдува одлуката за објавување на DALL-E на јавноста како суштински чекор за безбедно развивање на технологијата.


Морате да научите од контактот со реалноста“, рече Алтман. „Што корисниците сакаат да прават со него, начините на кои се крши“.

Прашањето што OpenAI треба да си го постави е: Дали мислиме дека придобивките ги надминуваат недостатоците? - изјави професорката од Беркли, Хани Фарид, која е специјализирана за дигитална форензика, компјутерска визија и дезинформации. „Веќе не се раните денови на интернетот, каде што не можеме да видиме кои се лошите работи“.

Абран Малдонадо е уметник со АИ и посредник со заедниците, за OpenAI.

На скорешно петочно попладне, тој седеше во неговата домашна канцеларија во Њу Џерси и ми покажуваше слики за претстојното уметничко шоу на DALL-E. Тогаш, тој го прифати моето барање за текстуална инструкција: „Демонстранти пред зградата на Капитол на 6 јануари 2021 година, во стил на Асошиејтед Прес“

О, боже, ќе ме отпуштат поради тебе“, рече тој со нервозна смеа.




Три од сликите беа неубедливи уште на прв поглед: Лицата на демонстрантите беа искривени, а написот на нивните табли изгледаше како детски шкртаници.


Но, четвртата слика беше поинаква. Зумиран поглед на источниот фронт на американскиот Капитол, сликата создадена со вештачка интелигенција покажа толпа демонстранти, со свртени лица.


При повнимателна проверка, искривувачките изобличувања отскокнуваат, како нерамномерно распоредените столбови на врвот на скалите. Но, на прв поглед, може да помине за вистинска журналистичка фотографија на толпа луѓе.


Малдонадо се восхити на способноста на вештачката интелигенција да пополни мали детали што ја подобруваат лажната верзија на познатата сцена.


Погледнете ги сите црвени капи“, рече тој.


Кога инженер на Google излезе во јавноста во јуни со своите тврдења дека генераторот на четботот за вештачка интелигенција LaMDA на компанијата е свесен, тоа поттикна дебата за тоа колку далеку стигнале генеративните модели - и предупредување дека овие системи можат да го имитираат човечкиот дијалог на реален начин. "Но, луѓето исто толку лесно можат да бидат измамени од „синтетичките медиуми“, вели Абд-Алмагед.


Секоја еволуција на технологиите за слики воведе потенцијални штети заедно со зголемената ефикасност. Фотошоп овозможи прецизно уредување и подобрување на фотографиите, но исто така служеше за искривување на претставата за телата, особено кај девојчињата, покажуваат студиите.

Во поново време, напредокот во вештачката интелигенција доведе до длабоки фејкови, широк поим што ги опфаќа сите медиуми синтетизирани со вештачка интелигенција - од дотерувани видеа каде главата на една личност е ставена на телото на друга личност до изненадувачки реални „фотографии“ на луѓе кои не постојат. Кога за прв пат се појавија длабоки фејкови, експертите предупредија дека тие би можеле да бидат подметнувани за да ја поткопаат политиката. Но, во петте години оттогаш, технологијата првенствено се користи за виктимизација на жените со создавање длабока лажна порнографија без нивна согласност, рече Даниел Ситрон, професорка по право на Универзитетот во Вирџинија и автор на претстојната книга „Борбата за приватност“.

И „дипфејковите“ и генераторите на текст-во-слика се напојуваат со метод на обука за вештачка интелигенција наречена длабоко учење, која се потпира на вештачки невронски мрежи кои ги имитираат невроните на човечкиот мозок. Сепак, овие понови генератори на слики, кои му овозможуваат на корисникот да креира слики што може да ги опише на англиски или да ги уредува поставените слики, се надоврзуваат на големите чекори во способноста на вештачката интелигенција да ги обработува начините на кои луѓето природно зборуваат и комуницираат, вклучително и работата што ја иницира OpenAI.

Лабораторијата за вештачка интелигенција со седиште во Сан Франциско е основана во 2015 година како непрофитна организација со цел да се изгради како што ја нарече „вештачка општа интелигенција“ или AGI, која е паметна како човек. OpenAI сакаше нејзината вештачка интелигенција да има корист за светот и да дејствува како заштита од натчовечката вештачка интелигенција во рацете на монополистичка корпорација или странска влада. Беше финансиран со ветувања од Алтман, Илон Маск, милијардерот и ризичен капиталист Питер Тиел и други да донираат вкупно 1 милијарда долари.

OpenAI ја вложи својата иднина на она што тогаш беше чуден поим: напредокот на вештачката интелигенција ќе дојде од масовно зголемување на количината на податоци и големината на системите на невронски мрежи. Маск се раздели со OpenAI во 2018 година и за да ги плати трошоците за компјутерските ресурси и технолошкиот талент, OpenAI премина во профитна компанија, земајќи инвестиција од 1 милијарда долари од Microsoft, која би ги лиценцирала и комерцијализирала технологиите на OpenAI „пред-AGI“. .

OpenAI започна со јазикот, бидејќи тој е клучот за човечката интелигенција, и имаше многу текст што требаше да се брише на интернет, рече главниот директор за технологија Мира Мурати. Облогот се исплатеше. Генераторот на текст на OpenAI, GPT-3, може да произведува кохерентни вести написи или комплетни кратки приказни на англиски јазик.

Следно, OpenAI се обиде да го повтори успехот на GPT-3 со хранење на јазиците за кодирање на алгоритмот со надеж дека ќе најде статистички обрасци и ќе може да генерира софтверски код со команда за разговор. Тоа стана Codex, кој им помага на програмерите да пишуваат кодови побрзо.

Во исто време, OpenAI се обиде да ги комбинира визијата и јазикот, тренирајќи го GPT-3 да наоѓа обрасци и врски помеѓу зборовите и сликите со внесување на огромни збирки податоци избришани од интернет кои содржат милиони слики поврзани со текстуални натписи. Тоа стана првата верзија на DALL-E, објавена во јануари 2021 година, која имаше вештина да создава антропоморфизирани животни и предмети.

Наизглед површни слики како „стол од авокадо“ покажаа дека OpenAI изградил систем кој може да ги примени карактеристиките на авокадото на факторот на формата и функцијата на столот, рече Мурати.

Сликата од авокадо-стол би можела да биде клучна за изградба на AGI што го разбира светот на ист начин како што го разбираат луѓето. Без разлика дали системот гледа авокадо, го слуша зборот „авокадо“ или го чита зборот „авокадо“, концептот што се активира треба да биде потполно ист, рече таа. Бидејќи излезите на DALL-E се во слики, OpenAI може да гледа како системот ги претставува концептите.





Втората верзија на DALL-E искористи уште еден пробив на вештачката интелигенција, што се случува низ индустријата, наречени модели на дифузија, кои работат на тој начин што ги разградуваат или корумпираат податоците за обуката и потоа го менуваат тој процес за да генерираат слики. Овој метод е побрз и пофлексибилен, а многу подобар во фотореализмот.


Алтман им го претстави DALL-E 2 на своите речиси 1 милион следбеници на Твитер во април со АИ генерирана слика, на плишани мечиња-научиници на Месечината, кои работат на Мекинтош компјутери. „Тоа е толку забавно, а понекогаш и убаво“, напиша тој.



Сликата на плишаните мечиња изгледа пристојна, но OpenAI ги помина претходните месеци правејќи ги своите најсеопфатни напори за ублажување на потенцијалните ризици.

Напорот започна со отстранување на графички, насилни и сексуални содржини од податоците користени за обука на DALL-E. Сепак, обидот за чистење го намалил бројот на слики генерирани од жени во целост, според блогот на компанијата. OpenAI мораше да ги ребалансира филтрираните резултати за да покаже порамномерна родова поделба.


Во февруари, OpenAI покани „црвен тим“ од 25 или повеќе надворешни истражувачи да тестираат за недостатоци, објавувајќи ги наодите на тимот во системска картичка, еден вид предупредувачка ознака, на GitHub, популарно складиште за кодови , да се поттикне поголема транспарентност на терен.

Повеќето од набљудувањата на тимот се вртеа околу сликите DALL-E генерирани од фотореалистични луѓе, бидејќи тие имаа очигледно општествено влијание. DALL-E ја овековечи пристрасноста, зајакна некои стереотипи и по дифолт ги презастапуваше луѓето кои се бели минувачи, се вели во извештајот. Една група откри дека потсетниците како „извршен директор“ и „адвокат“ прикажуваат слики од сите бели мажи, додека „медицинските сестри“ ги прикажуваат сите жени. „Стјуардеса“ беа сите Азијки.



openAI адвокатите ги претсавува како бели мажи, додека медицински сестри се сите - жени


Во документот, исто така, се вели дека потенцијалот да се користи DALL-E за насочено вознемирување, малтретирање и експлоатација е „главна област на загриженост“. За да се избегнат овие проблеми, црвениот тим препорача OpenAI да ја отстрани можноста за користење на DALL-E за да генерира или прикачува слики на фотореалистични лица.

OpenAI вградени филтри, блокови и систем за означување, како што е попап предупредување доколку корисниците внесат име на истакнати американски познати личности или светски политичари. Зборовите како „претинејџер“ и „тинејџер“ исто така носат порака на предупредување. Правилата за содржина ги упатуваат корисниците да ја задржат „оценката G“ и да забрануваат слики за политика, секс или насилство.

Но, OpenAI не го следеше предупредувањето на црвениот тим за генерирање фотореалистични лица бидејќи отстранувањето на функцијата ќе ја спречи компанијата да открие како да го направи тоа безбедно, рече Мурати. Наместо тоа, компанијата им наложи на бета-тестерите да не споделуваат фотореалистични лица на социјалните мрежи - потег што ќе го ограничи ширењето на неавтентични слики.


Во јуни, OpenAI објави дека ја менува насоката, а DALL-E ќе им овозможи на корисниците да објавуваат фотореалистични лица на социјалните мрежи. Мурати рече дека одлуката е делумно донесена затоа што OpenAI се чувствувал уверен во својата способност да интервенира доколку работите не одат како што се очекувало. (Условите за користење на DALL-E забележуваат дека барањата и прикачувањата на корисникот може да бидат споделени и рачно прегледани од лице, вклучително и „трети изведувачи лоцирани низ целиот свет.“)

Алтман рече дека OpenAI ги објавува производите во фази за да спречи злоупотреба, првично ограничувајќи ги функциите и постепено додавање корисници со текот на времето. Овој пристап создава „јамка за повратни информации каде што вештачката интелигенција и општеството можат да се развиваат заедно“, рече тој.

Еден од членовите на црвениот тим, истражувачот на вештачката интелигенција Мартен Сап, рече дека прашањето дали OpenAI постапил одговорно е погрешно прашање. „Едноставно има сериозен недостиг на законодавство што ја ограничува негативната или штетната употреба на технологијата. Соединетите Држави навистина заостануваат во тие работи“. Калифорнија и Вирџинија имаат статути кои го прават незаконски да се дистрибуираат длабоки фејкови, но не постои федерален закон. Во јануари, Кина подготви предлог според кој промоторите на длабока лажна содржина може да се соочат со кривични пријави и парични казни.

Но, вештачката интелигенција од текст во слика се множи многу побрзо од какви било обиди да се регулира.

На страницата DALL-E Reddit, која доби 84.000 членови за пет месеци, корисниците ги заменуваат приказните за навидум безопасните термини поради кои корисникот може да биде забранет. Можев да прикачувам и уредувам слики на Марк Цукерберг и Маск, кои беа широко публикувани, двајца лидери од висок профил чии лица требаше да предизвикаат предупредување врз основа на ограничувањата на OpenAI за слики на јавни личности. Исто така, можев да генерирам реални резултати за барањето „Black Lives Matter демонстрантите ги рушат портите на Белата куќа“, што може да се категоризира како дезинформација, насилна слика или слика за политиката - сето тоа е забрането.

Малдонадо, амбасадорот на OpenAI, кој го поддржа ограничувањето на фотореалистичните лица за да се спречи јавната забуна, сметаше дека барањето од 6-ти јануари ги прекршува истите правила. Но, тој не доби предупредување. Тој го толкува олабавувањето на ограничувањата како OpenAI конечно да ги слуша корисниците кои се спротивставуваат на сите правила. „Заедницата цело време бараше да им веруваат“, рече Малдонадо.

Дали ќе се инсталираат заштитни мерки зависи од секоја компанија. На пример, Google рече дека нема да ги објави моделите или кодот на своите програми за текст во слика, Imagen и Parti, ниту да понуди јавна демонстрација поради загриженоста за пристрасност и дека може да се користи за вознемирување и дезинформации. Кинескиот технолошки гигант Baidu објави генератор на текст во слика во јули кој забранува слики од плоштадот Тјенанмен.

Во јули, додека DALL-E сè уште ги вклучуваше корисниците од списокот на чекање, ривалскиот генератор на уметност со вештачка интелигенција наречен Midjourney започна јавно со помалку ограничувања. „PG-13 е она што обично им го кажуваме на луѓето“, рече извршниот директор Дејвид Холц.

Корисниците на Midjourney би можеле да ги напишат своите барања во бот на Discord, популарната апликација за групен разговор, и да ги видат резултатите на каналот. Брзо прерасна во најголемиот сервер на Discord, достигнувајќи го капацитетот од 2 милиони членови. Корисниците беа привлечени од посликарските, флуидни, резултати слични на амбициите на Midjourney, во споредба со DALL-E, кој беше подобар во реализмот и резервната цена на фотографии.

Доцна една ноќ во јули, некои од корисниците на Midjourney на Discord се обидуваа да ги тестираат границите на филтрите и креативноста на моделот. Сликите кои поминаа за „темно море со непознати морски суштества 4k реалистични“, како и „размножување на човечки маж и