Очень грамотный рассказ о возможностях ChatGPT-4 и вообще нейросетей.
Видео 40 минут. Есть содержание, краткий автоматический пересказ и полная отекстовка очень приличного качества.
СОДЕРЖАНИЕ:
00:00 – Интро
01:43 – Мультимодальность: GPT-4 понимает картинки
05:02 – Успехи GPT-4 в программировании
07:32 – Сравниваем робота с человеком
12:03 – Мультиязычность и перенос знаний
15:17 – Использование GPT-4 в бизнесе
19:06 – Заглядываем внутрь GPT-4: основные характеристики
24:34 – Увеличенный размер промпта (контекста)
26:48 – Как работает распознавание картинок в GPT-4
28:49 – Политика открытости в «Open»-AI
32:59 – Безопасность искусственного интеллекта
GPT-4: Чему научилась новая нейросеть
00:00 G-пять-четыре - новая языковая модель
• G-пять-четыре - последняя языковая модель из семейства G-пять, с новыми возможностями, включая понимание мемов и самостоятельное программирование.
• Модель может анализировать картинки и отвечать на вопросы о них, а также генерировать код для простых приложений.
07:37 Уровень знаний и умений G-пять-четыре
• G-пять-четыре успешно решает текстовые и картиночные задачи, которые раньше были недоступны для машин.
• Модель обгоняет людей в некоторых тестах, что может привести к замене некоторых профессий, таких как юристы.
10:34 Возможности GPT-4
• Модель GPT-4 может легко вспомнить и подсказать информацию, а также предсказывать результаты экзаменов.
• GPT-4 может быть использована в образовании для объяснения правил и подтягивания знаний под запрос ученика.
15:34 Применение GPT-4 в бизнесе
• Microsoft внедрила GPT-4 в свой поисковик Bing для конкуренции с Google.
• GPT-4 используется в социальных сетях, приложениях для обучения языкам и программировании.
18:30 Революция в использовании нейросетей
• Нейросети повышают эффективность работы, но не приводят к потере рабочих мест.
• GPT-4 может помочь отстающим в работе и уравнивает людей с разными способностями.
19:30 Отсутствие данных о GPT-4
• GPT-4 не представлена в научных статьях, как другие языковые модели.
• Отсутствие данных затрудняет понимание принципов работы и возможностей GPT-4.
20:30 Объем тренировочных данных и размер модели
• Объем тренировочных данных увеличился, что может быть связано с использованием лицензированных наборов данных.
• Размер модели не сильно изменился, но количество параметров может быть близко к предыдущим моделям.
25:27 Увеличение объема текста на входе модели
• GT4 может обрабатывать до 32 000 токенов (около 25 000 английских слов или 50 страниц текста).
• Это позволяет модели обрабатывать длинные тексты и понимать взаимосвязи между разными частями текста.
27:27 Графические способности модели
• Модель может распознавать графики и понимать текст, связанный с ними.
• Возможно, есть специальная нейросеть, которая разбивает изображения на части и пытается понять их содержимое.
29:27 Споры и безопасность искусственного интеллекта
• В сообществе исследователей искусственного интеллекта разгорелись споры о том, насколько опыт и ай должны раскрывать информацию о своей разработке.
• Некоторые считают, что бесконтрольное раскрытие информации может привести к созданию более сильного искусственного интеллекта, который может представлять угрозу для человечества.
30:27 Обсуждение безопасности искусственного интеллекта
• В видео обсуждается, что опытные ай не раскрывают всю информацию о своих новых моделях чат-ботов, таких как g-пять и g-четыре.
• Приводятся примеры, когда модели искусственного интеллекта могут быть опасными, например, создание смертоносных ядов или новых лекарств.
38:24 Вопросы безопасности искусственного интеллекта
• Обсуждается, правильно ли поступает опытный ай, не раскрывая всю информацию о своих моделях.
• Задается вопрос о том, нужно ли заставлять их в открытую публиковать все данные.
• В следующем видео планируется подробно разобрать вопросы безопасности искусственного интеллекта и возможность его захвата человечества.
0:00
Всем привет, меня зовут Павел Комаровский, мы продолжаем обсуждать нейросетевые языковые модели. Сегодня мы поговорим про GPT-4,
0:07
самую последнюю языковую модель из семейства GPT. Обсудим её удивительные новые способности, от понимания мемов до
0:14
самостоятельного программирования. Покопаемся у неё под капотом, а также попробуем понять, насколько близко искусственный интеллект подошёл к черте
0:21
своего безопасного применения. Поехали!
0:32
Надеюсь, что вы уже успели посмотреть последний ролик на канале про нейросети, который мы подготовили совместно с Игорем
0:38
Котенковым, экспертом по искусственному интеллекту, ссылку на него можно будет найти здесь. Там мы объясняли, что это такое
0:45
вообще нейросетевые языковые модели, как они работают, а также их эволюцию от простейших моделей типа Т9
0:51
в телефоне до ChatGPT. Дальше я буду предполагать, что вы уже эту базовую информацию знаете, повторять я её здесь не буду, а
0:58
вместо этого сконцентрируюсь на особенностях GPT-4, самой новой нейросетевой модели из семейства GPT. Да, это наконец -то
1:06
свершилось! OpenAI выбрала день числа ПИ, т .е. 14 марта, для того, чтобы поделиться с общественностью информацией
1:13
о выходе GPT-4, самой последней флагманской моделью из семейства GPT, которая должна заменить GPT -3,
1:19
GPT -3 .5, а также Instruct -GPT, которая находится по сути внутри нашумевший ChatGPT. И
1:25
ниже мы обсудим, что вообще поменялось внутри GPT-4, рассмотрим самые интересные особенности её применения, чему она научилась,
1:33
а также поговорим о том, как поменялась политика безопасности и открытости OpenAI,
1:38
и что это значит для всех нас. Самое интересное изменение в GPT-4, которое сразу бросается
Мультимодальность: GPT-4 понимает картинки
1:46
в глаза, это добавление нового второго типа данных. Теперь в модель можно засовывать картинки,
1:52
причем их скармливать можно не по одной, а сразу целыми пачками. Правда, на выходе она по -прежнему выдает
1:57
только текст. Ну вот потому что еще до выхода где -то за неделю ходили слухи о том, что якобы модель там будет генерировать звук,
2:04
картинки и даже может быть видео, так вот это все оказалось немножко неправдой. При этом доступ к модели для широких масс он
2:11
вот эти возможности еще пока не включает. То есть возможность загрузить картинку и что -то про нее спросить, он есть только в тестовом режиме для внутренних пользователей
2:19
модели. Так какие же возможности открывает это чудодейственное прозрение GPT-4? Ну, например, можно кинуть в нее картинку
2:28
и текстовым промптом спросить, типа вот, а что происходит с объектами на картинке? И модель подумает и даст
2:33
свой ответ. И вот, например, то, что вы видите на экране, здесь у модели спрашивают, а что произойдет,
2:39
когда перчатка упадет вниз? И модель отвечает, она ударит по дощечке, а мячик он подлетит вверх.
2:45
И для человека это кажется интуитивно понятным и ничего вроде как сложного в этом нету. Но для того, чтобы модель смогла ответить на такой
2:51
вопрос, ей же нужно как -то вот внутри себя построить некую модель мира, расположить эти объекты как -то
2:57
вот между собой и просимулировать опять же внутри себя, что будет происходить, когда то или иное действие произойдет.
3:04
И это выглядит достаточно удивительно для меня. Еще можно выдать GPT-4 какой -нибудь график и попросить его
3:10
проанализировать. Ну или заставить ее решать визуальные головоломки из теста на IQ. Ну и, наконец, самая вишенка на
3:17
торте. Можно заставить GPT-4 объяснить вам мем. Вот, например, на экране картинка, на которой написано.
3:24
Иногда я смотрю на картинки Земли из космоса, и я просто вот размышляю о том, как прекрасно.
3:30
И на картинке, соответственно, чики -наггетсы и GPT-4, если попросить объяснить, почему это смешно,
3:36
она прямо рассказывает, что ты ожидаешь увидеть прекрасную картину, фотографию из космоса, а на самом деле там совершенно
3:42
обыденный объект, который разложен как будто бы он напоминает очертания континентов. И это смешно, потому что ты не
3:49
ожидаешь это увидеть. В общем, достаточно разумное описание, на мой взгляд. И ответы на вопросы по изображению и общие принципы
3:56
работы с картинками, они, в принципе, существовали еще и до появления GPT-4. Такие модели называются мультимодальными, и они, в принципе,
4:03
могут работать сразу вот с двумя или несколькими видами информации. Там помимо картинок еще бывают видео,
4:09
звуки, ну и даже 3D -модели, например. Но при этом новая GPT-4, она просто начисто
4:14
бьет самые даже специализированные мультимодальные модели. То есть она их опережает в 6 из 8
4:20
разных тестов, причем очень часто опережает существенно процентов на 10. И вот на экране сейчас еще вы видите
4:26
фрагмент совершенно крышесносной презентации OpenAI, которую они проводили в режиме онлайн, то есть вот прям вживую,
4:33
когда рассказывали людям про новую GPT-4. И там мужик просто набросал типа вот от руки
4:39
в блокнотике макет сайта, сфотографировал и отправил GPT-4. И она ему просто буквально по единому клику сделала
4:46
сайт на базе этого макета. Причем, обращу внимание, у чувака каракули просто вот вообще от ас, разобрать невозможно. Но модель такая,
4:53
окей, я понимаю, вот вам код, вставляйте в браузер, и сайт будет работать, опять же, очень круто,
4:59
на мой взгляд. Рациональный ответ То, насколько сильно у GPT-4 развились
Успехи GPT-4 в программировании
5:05
навыки программирования по сравнению с ее предшественницей, нам еще только предстоит узнать. Но даже за первые двое суток
5:11
после выхода модели, энтузиасты и парни из Твиттера, они успели вдоволь поразвлекаться и понаделать кучу всяких разных простеньких
5:19
приложений. Причем вот получается, что можно модели просто сказать в общих чертах, что ты ожидаешь от этого приложения,
5:25
и она сама способна его полностью от и до запрограммировать. Вот, например, на экране вы видите демонстрацию простенького
5:32
приложения, где парень попросил, чтобы вот ему модель сделала рекомендации пяти новых фильмов каждый день.
5:38
И чтобы там было описание, какая -то базовая информация, постер и ссылка на то, где его можно посмотреть. Вполне возможно,
5:45
кстати, что генерируемый моделью код, он не будет работать сразу же с первого раза правильно. Но это не беда, можно его попробовать скомпилировать и
5:53
просто скопировать сообщения об ошибке из программной среды. И модель после этого, она извинится,
5:59
скажет, стоять, я сейчас все поправлю, все будет хорошо. И выдает, соответственно, новый код. Это довольно классно. Похоже, вот как будто бы модель
6:06
уже научилась прогать на уровне такого Джуна -новичка. Типа вот он не может сам увидеть ошибку часто,
6:11
но если его носом ткнуть, он способен ее исправить. И я жду с нетерпением, когда, наконец, GPT-4, она сможет заменить еще и
6:19
Team Leader. Но для этого просто ее нужно научить на любой вопрос отвечать. Нам нужен часовой зум -колл,
6:24
чтобы это обсудить и прийти к какому -то решению. Помимо всяких полезных приложений, GPT-4 способна еще и
6:30
игры программировать. И люди уже попробовали кучу разных вариантов классических. Это Pong, Змейка, Tetris, Go,
6:37
а также аркадный платформер и Игра Жизнь. Ну, понятно, что это, с одной стороны, такие мейнстримные проекты, которые достаточно просто реализовать.
6:45
Но, с другой стороны, модель выдает такие достаточно рабочие концепты, которые являются настоящими демонстрациями принципа.
6:51
И что -то похожее делала, на самом деле, чат GPT. Просто GPT-4 это делает гораздо более
6:56
эффективно и, казалось бы, совершает меньше ошибок. Так что даже если вы вообще не шарите в программировании,
7:02
то вы можете там за часик -другой что -то рабочее изладить. Ну и, наконец, победитель в номинации «Что ?» это игра,
7:09
которую сделали по промпту от мальчика Кирилла, который в 2001 году хотел получить игру,
7:15
где можно набегать и грабить караваны. И вот чат GPT, собственно, сделала что -то подобное.
7:21
Мальчик буквально вот два года ждал 20 лет эту игру, и теперь она появилась. Это прямо настоящее современное
7:28
искусство, я считаю. Раз уж наша модель так насобачилась
Сравниваем робота с человеком
7:34
в программировании, то хочется попробовать и в целом оценить ее уровень знаний и умений. И как это сделать?
7:40
Ну, вопрос на самом деле непростой. Для этого в какой -то момент начали публиковать специальные бенчмарки, так называются наборы задач, текстовых и картиночных,
7:48
которые могут решать одновременно и люди, и машины. Ну, точнее как, их обычно делают так вот,
7:54
чтобы, типа, машине это недоступно, да, по -любому она не сможет. И вот раньше, в начале 2000 -х
7:59
и 2010 -х, от момента публикации бенчмарка до того момента, когда модель уже могла достигнуть хотя бы уровня
8:06
успеха, как человек это решает, обычно проходило там 5 и более лет. А сейчас уже это настолько ускорилось,
8:13
что очень часто, опять же, специально публикуют бенчмарки, которые сделали так, чтобы нейросетка, типа, она точно не
8:19
сможет это решить, а уже через год с легкостью она это делает. И вот как раз на графике,
8:24
который вы видите на экране, можно видеть, что вот эти вот кривые улучшения способности нейросети, они становятся все
8:29
более и более вертикальными. То есть люди не успевают просто придумывать новые задачки, которые нейросети просто вот так
8:36
вот по щелчку решают. И OpenAI в этом состязании между консервными банками и кожаными мешками, они решили пойти
8:43
еще дальше. Подумали, вот зачем мы вообще пытаемся какие -то бенчмарки специально использовать. Есть ведь настоящие тесты и
8:50
экзамены, которые люди сдают, когда они, например, там из университета выпускаются. И вот если моделька их
8:55
научится решать, то, наверное, она уже, типа, вот совсем как человек будет. В общем, они набрали кучу разных таких экзаменов,
9:02
посадили нейросеть их решать. И я вам скажу, результаты для нас, людей, не очень утешительные.
9:08
Ну, потому что получается, вот вы видите на экране график, где по вертикали процент людей, сдававших тот или
9:14
иной экзамен хуже, чем GPT-4, это зеленый столбик, или GPT -3 ,5, то есть GPT -синий столбик.
9:21
Получается, чем выше столбик, тем умнее модель по сравнению с человеком. Ну и вы видите, что по большинству дисциплин вот прям GPT-4 разрывает,
9:30
давайте честно скажем. Я напомню, что здесь сравнение идет вот не просто с какими -то рандомами с улицы,
9:35
а с людьми, которые прям реально часто годами готовились к этим самым экзаменам. То есть это были уже
9:40
вот такие молодые профи. И да, в небольшой части тестов GPT еще не может перегнать людей.
9:46
То есть, ну, по крайней мере, процентов 30 из них. Но в куче тестов она их прям уверенно обгоняет. И можно предполагать, что в скором будущем GPT
9:54
-4 вполне может заменять какие -то отдельные профессии. Ну вот, например, юристов, потому что экзамен для адвокатов,
10:02
для юристов, она сдавала более чем 90 % лучше, чем обычные люди. Получается, что вот люди тратят там 5 лет,
10:10
кучу денег, не спят ночами, чтобы все это выучить, а модель вот так вот просто по щелчку их обгоняет. И из этого можно сделать парочку выводов.
10:18
Ну, во -первых, в некоторых отраслях уже сейчас GPT-4 ну, может быть, не заменит человека, но, по крайней мере, может выступать таким вот полноценным
10:25
ассистентом, который улучшает эффективность человека. Например, там, ну, вы можете просто не вспомнить некий
10:31
там нишевый такой закон, который приняли, не знаю, там в 19 веке в США, и вот он как -то влияет на текущее дело.
10:38
А модель GPT-4, она может легко это вспомнить и подсказать, типа, вот еще учтите этот момент.
10:44
Ну и второй вывод — это то, что уже в текущем году нам нужно срочно как -то менять систему образования и с точки зрения того,
10:50
как вообще знания закладываются у людей, и в том числе вот с точки зрения проверки знаний, потому что, ну, собственно,
10:57
нейросеть, она, если ее как -то засунуть куда -то и заставить отвечать вместо студента, она вот прям идеально
11:03
будет все практически задавать, и текущие системы, они это особо не отлавливают.
11:08
Мы помним, что даже в России один парень, он диплом полностью практически написал с помощью чат GPT,
11:13
еще даже не GPT-4, а предыдущей версии, и его, в общем -то, приняли и выдали ему диплом. На всякий случай для скептиков я хочу уточнить,
11:21
что модель, она обучалась на объеме данных до сентября 2021 года, то есть самые последние новости она вот
11:27
вообще не в курсе, и в том числе можете ее огорожить новостью о том, что Илон Маск купил Twitter, а, соответственно, экзамены, которые она пыталась сдавать,
11:35
они были самые новые, соответственно, там не было такого, что вот она просто их успела прочитать при тренировке и все закончить,
11:41
а даже где -то, где немножко пересекались ответы, их просто из выборки этой выкинули, поэтому сравнение было
11:47
абсолютно честным, и можно сказать, что вот модель, это не то чтобы она подсматривала шпаргалку,
11:53
она действительно как -то там в чем -то разбиралась при тренировке, а потом уже ей приходилось на новых вопросах свои знания применять. Уже становится немного неуютно,
Мультиязычность и перенос знаний
12:05
правда? Ну вот продолжая тему оценки умений, не все бенчмарки на текущий момент полностью побиты,
12:10
есть, например, такая штука, как MMLU, Massive Multitask Language Understanding, это куча вопросов по самому
12:17
широкому кругу тем, которые собраны воедино, и там есть, значит, и математика, биология, право, социальные и гуманитарные науки,
12:24
всего 57 доменов, и под каждый есть 4 варианта ответа. Соответственно, если вы будете просто рандомно отвечать на
12:30
такого рода вопросы, то вы наберете всего лишь 25 % точности. И вот разметчик данных, это такой обычный
12:37
работяга, который повелся на рекламу в интернете и решил подзаработать, по сути, просто человек с улицы, без каких
12:43
-то спецзнаний, он отвечает на такого рода тесты с точностью примерно 35%, ну то есть вот прям совсем
12:49
немного лучше случайного угадывания. А если брать профессионалов, причем вот не просто одного человека эрудированного,
12:56
а, например, для каждой области своего конкретного профи, вот они примерно на 90 % обычно отвечают.
13:02
И до релиза GPT-4 лучший результат до этого был у модели Google, которая на 69 % вопросов
13:09
могла правильно ответить. И, в принципе, вот, наверное, ребята из OpenAI, они могли себе такую планочку
13:14
поставить, то есть там быть лучше Google, но они решили, что это пока слишком просто, и
13:19
вот что они сделали. Они решили добавить в это уравнение еще одну неизвестную — язык. Дело в том, что задачки по всем
13:27
этим 57 темам, они все, естественно, по преимуществу на английском языке составлены. И когда модель обучается,
13:33
она тоже, естественно, большую часть текстов читает на английском языке. Поэтому, наверное, не так было бы удивительно,
13:38
если бы вот на английском GPT-4 просто вот разрывало бы всех конкурентов. И ребята из OpenAI, они
13:44
решили сделать интересную штуку. Они разбили эти вопросы на группы и попереводили их на другие языки.
13:50
Причем вот не только на всякие распространенные, типа там, не знаю, немецкого, русского, но и на всякие прям совсем редкие, на которые
13:56
говорит там, ну, несколько миллионов человек по всему миру. И стали проверять, а как вообще GPT-4 справится
14:02
или нет. И ответ — да, причем вот прям да большими буквами, потому что в 24 из 26
14:08
протестированных языков GPT-4 обгоняет свою предшественницу, то есть GPT -3 .5.
14:14
Даже вот если речь идет про какие -нибудь там явалийский язык, на котором 600 тысяч человек всего лишь
14:19
говорит, естественно, на этом языке там не то, чтобы можно найти учебник по квантовой физике и прочитать.
14:25
Нет, получается, что модель, она смогла сама вот как -то немножко разобраться. То есть у нее в голове
14:30
есть некое представление о том, как работают какие -то вещи, и она может на одном языке прочитать,
14:36
понять, а потом эти знания внутри себя как -то вот трансформировать в то, чтобы понимать аналогичные задачи на
14:42
другом языке. И их решать. Это достаточно удивительно. Можно сказать, что это такой вот proof of concept
14:49
того, что модель может переносить знания из одного домена в другой. Ну вот, например, как, не знаю,
14:55
там человек может увидеть, как летит птица по небу, и у него родится идея, что а можно железную такую птицу сделать и
15:02
как вот перенести знания, например, из биологии в инженерию. Ну, это, конечно, немножко притянуто за уши, но тем
15:09
не менее, примерно вот можно сказать, что какие -то похожие процессы здесь как будто бы происходят.
15:15
Вы, наверное, хотите сказать, хорошо, мы уже поняли,
Использование GPT-4 в бизнесе
15:20
что GPT-4 вся из себя такая распрекрасная модель, а вот где ее можно применять в реальном мире,
15:25
в бизнесе, чтобы бабки зарабатывать, а не в игрульки играть. Ну, понятно, сразу на ум приходит Microsoft,
15:31
которая встроила нейросеть в свой поисковик Bing, чтобы конкурировать с Google, а что еще?
15:36
Ну, и на самом деле еще до выхода GPT -4, когда волна хайпа была, которая началась с чат
15:42
GPT, множество компаний, они объявили о разных коллабах с OpenAI. Это вот, например, Snapchat,
15:48
соцсеточка с их таким вот дружелюбным чат -ботом, или Инстакарт, который подсказывает рецепты с ингредиентами и услужливо
15:55
предлагает их добавить в корзину, чтобы, типа, заказать с доставочкой на вечер сразу. Ну, и приходит на ум еще, конечно же,
16:01
сфера образования, потому что нейросеть – это вот такой, получается, идеальный учитель. Она может раз за разом одно
16:07
и то же, одни и те же правила объяснять. Она там никогда не выйдет из себя и всегда может какие -то полезные штуки вот конкретно под запрос
16:13
ученика подтянуть. И вот здесь вот можно вспомнить сову Duolingo демоническую, про которую есть куча разных мемов,
16:21
как она людей преследует, которые не хотят учить языки. И вот они сказали, да, у нас тоже будет
16:26
нейросеть, причем в двух режимах. Один – это вот ролевая игра. Если вы понимаете, о чем я.
16:31
Ну, типа, зеленая сова с вами как бы отыгрывает разные сценки, и можно с ней пообщаться. И еще это такой умный объяснятель ошибок,
16:38
который тебе прямо вот подсказывает правила конкретно под те штуки, которые ты нарушаешь. Также интересный пример применения нейросети
16:45
– это приложение Be My Eyes, то есть «Будь моими глазами». Оно сделано для тех, у кого есть
16:50
проблемы со зрением. И вот раньше это работало так, что, например, бабуля, она фоткает свою комнату и пишет,
16:56
блин, не могу найти кошелек, помогите. А человек живой, он смотрит на эту картинку и словами объясняет, а как найти кошелек. И вот понятно,
17:04
что нейросеть, она ту же самую работу. Если она может обрабатывать картинки, то она может делать гораздо быстрее, гораздо эффективнее.
17:11
Но, конечно, самое вот, что, наверное, поражает воображение многих айтишников – это использование нейросетей в программировании.
17:18
И вот еще до выхода GPT-4 была такая штука, как GitHub Codex Copilot. И были даже исследования, как вообще это влияет на
17:25
продуктивность программистов. И что они выяснили? Вот вы на экране видите картинку. Из нее следует, что время,
17:31
затраченное на программирование у тех, кто использовал вот этот Copilot, оно сократилось более чем вдвое,
17:37
а количество задач решенных, оно даже и выросло еще при этом. Для людей, которые работают с текстами,
17:43
GPT-4 может очень сильно помочь, сдвигая сам набор задач, вот каких -то подготовок черновиков,
17:49
больше к более творческим вещам. То есть к постановке задач, к редактированию и так далее. И по исследованию MIT, чат GPT значительно улучшает качество
17:57
работ вроде составления пресс -релизов, кратких отчетов и так далее до 20 -30 минут на задачу.
18:04
При этом интересно то, что перерост качества, он тем выше, чем ниже стартовый скилл у того,
18:09
кто использует вот эту вот нейросеть. То есть получается нейросетка, она как бы уравнивает людей с разными способностями и помогает отстающим делать свою работу
18:17
более эффективно. И вот все это подводит к мысли о том, что грядет на самом деле настоящая революция
18:23
такая. Но не в том смысле, что вот типа, блин, все люди потеряют работу, непонятно будет, что делать. Потому что да,
18:30
нейросетки, они, получается, повышают эффективность. И здесь можно провести аналогию с тем, вот как, например,
18:35
когда -то появились такие штуки, как Excel или 1S. И они не то, чтобы вот всех бухгалтеров сделали
18:41
полностью бесполезными, нет. Просто сейчас, если ты работаешь в бухгалтерии и ты не знаешь вот эти инструменты,
18:47
тот же самый Excel, то ты просто банально неконкурентоспособен. И все бухгалтеры, которые сейчас работают, они все пользуются
18:54
какими -то программными продуктами, которые им помогают работать. А сами бухгалтеры, они занимаются деятельностью чуть более вот
19:00
такого высокого уровня задач. Теперь, когда мы поняли примерно, с чем мы имеем
Заглядываем внутрь GPT-4: основные характеристики
19:08
дело, хотелось бы понять, какие конкретно трюки при создании модели привели к таким вот впечатляющим результатам.
19:14
И обычно, когда исследовательские какие -то компании, они выпускают новую языковую модель, они вместе с этим сразу же
19:20
публикуют и научную статью, которая объясняет, что они делали, с какими проблемами столкнулись, как решали и так далее.
19:27
И OpenAI, то есть компания, которая выпустила GPT-4, она во второй раз этого не сделала.
19:32
Причем вот, насколько нам известно, во второй раз среди вообще всех, всей индустрии исследователей искусственного интеллекта.
19:38
То есть они не представили вообще никаких данных по модели, ни там характеристик, ни какой -то хотя бы карточки модели, вот так называется некий такой свод самых
19:46
основных данных по языковым моделям. Причем вот первый раз до этого это был тоже OpenAI при выпуске чат GPT-4 месяца назад.
19:55
Но тогда, по крайней мере, была статья, которая там примерно поясняла принцип, то есть что они делали,
20:00
как они конкретно тренировали эту модель. А вот для GPT-4 они выпустили там 98
20:06
-страничный отчет, если который просуммировать, то с точки зрения технического наполнения там просто сказано, типа, ребята,
20:13
мы натренировали модель на данных, и все. Но давайте хотя бы воедино попробуем собрать те крупицы
20:19
информации, которые у нас есть. Если вы смотрели предыдущий ролик, где мы объясняли, как работают языковые модели, то вы знаете, что два
20:26
ключевых есть фактора для модели. Это, с одной стороны, объем выборки тренировочной, на которой тренировалась модель.
20:34
И второе — это количество параметров, то есть размер самой модели. И вот про объем тренировочных данных.
20:39
Тут, если честно, какой -то информации крутой нету. Судя по значительному улучшению результатов на других языках,
20:46
можно догадаться, что, наверное, там стало больше неанглоязычных источников. И еще одна интересная штука заключается в том,
20:52
что OpenAI пишет, что вот они лицензированные наборы данных в том числе использовали,
20:57
и это достаточно новая штука. То есть для этого обычно просто брали, как бы, что придется, откуда придется, и это скармливали модели. И в том
21:05
числе, кстати, это приводило к разным скандалам. Это более известно в среде художников, где всякие разные генеративные картиночные модели типа Миджорни,
21:14
они, значит, иногда выдают какие -то куски копирайтов или подписи художников, и становится совершенно очевидно, что модель тренировалась
21:22
на чужих работах. Здесь получается шаг в сторону того, чтобы попытаться как -то, хотя бы частично,
21:27
эту проблему в текстовых моделях начать избегать. Окей, а что с размером самой модели? Ведь это
21:33
реально самое, наверное, важное, что хочет узнать любой спец по машинному обучению каждый раз, когда выходит новая языковая
21:39
модель. И предыдущие номерные модели, они каждый раз существенный скачок показывали при выходе каждой новой версии.
21:46
Ну, например, от GPT -1 к GPT -2 в 10 раз увеличилось количество параметров в модели. Более чем в 100 раз увеличилось количество параметров при
21:53
переходе от GPT -2 к GPT -3. Что же сейчас? При этом надо заметить,
21:58
что каждый раз при таком вот скачке в параметрах у модели вырастали всякие разные новые способности,
22:04
которые туда никто специально не закладывал, но модель то вот там переводом хорошо училась, то программировать научалась,
22:09
то рассуждать и так далее. И вот когда ждали GPT-4 уже достаточно давно, в Твиттере даже пошел слушок, что там будет якобы
22:17
100 триллионов параметров. И даже была вот картинка на экране, которую все репостили, что типа вот сравнение объема
22:23
от двух моделей, как будто бы GPT, предыдущий чат GPT, она типа вообще горошинка по сравнению
22:29
с этой мощью величия, будущей GPT-4. И было очень забавно, когда в итоге совсем недавно
22:35
признался Лекс Фринман, достаточно известный подкастер англоязычный, что это он запустил эту лутку совершенно случайно.
22:42
То есть он в одной из своих презентаций сделал картинку на тему того вот, а что могло бы быть в GPT-4,
22:47
а люди это заскриншотили и начали просто распространять по всему Твиттеру. Игорь Котенков, мой соавтор по подготовке контента
22:54
к этому материалу, он как настоящий кибершерлок провел настоящую расследовательскую работу, чтобы понять, а какой объем у GPT
23:01
-4 может быть. Я здесь все выкладки приводить не буду, но краткая суть там такая, что вот примерно
23:07
должно быть взаимосвязано быстродействие модели и стоимость, которую OpenAI заряжает за использование API,
23:13
то есть входного интерфейса для этой модели. И вот по косвенным признакам можно понять, что скорее всего,
23:20
ну окей, GPT-4, она чуть -чуть дороже, чем предыдущие свои аналоги, но не то чтобы прям
23:25
на порядок, и эта дороговизна, она может немножко вот хайпом оправдываться, скажем так, то есть понятно, что будет большой спрос, и просто немного подняли цену.
23:32
А с точки зрения быстродействия, ну примерно плюс -минус похоже на некоторые предыдущие модели, которые мы уже видели.
23:39
И это косвенно может дать понять, что скорее всего общее количество параметров, ну оно вот наверное похоже,
23:45
то есть оно может быть и не точно такое же, как у предыдущих моделей, но скорее всего где -то близко. То есть у предыдущих моделей было 175
23:53
миллиардов самых больших, а здесь может быть ну там 200 -250, ну может быть 300 миллиардов, но очень вряд ли
24:00
речь идет про какие -то прям совсем большие скачки, типа там больше триллиона параметров. Поэтому выглядит так, что вот именно с точки зрения
24:07
объема модель сильно не выросла, хотя в интервью Лексу Фридману, тому же самому Сэм
24:13
Альтман, глава OpenAI, он говорил о том, что они еще и много разных всяких вот мелких поправочек засунули,
24:19
то есть они немножко там пытаются здесь подкрутить, там немножко что -то подправить, и он говорит, что это тоже кумулятивно, дает достаточно хороший эффект,
24:27
но при этом всю вот подноготную процесса они не раскрывают никому.
Увеличенный размер промпта (контекста)
24:34
Еще одно важное, но в большей степени техническое изменение, это увеличение объема промта, то есть текста, который подается
24:40
на вход модели в GPT-4 до 32 тысяч токенов. До этого это слово не звучало, в прошлом
24:46
ролике я вот его не объяснял, но давайте сейчас обсудим. Раньше я говорил, что языковые модели, они чем
24:52
занимаются? Предсказывают следующее слово. Ну, это на самом деле не совсем так, то есть они предсказывают не слово,
24:58
а токен. А токен, ну, это может быть целое слово, но и может быть часть слова, например, там, его корень или окончание.
25:05
Это сделано для того, чтобы вот модели было легче всякие разные комбинации делать. Ну, например,
25:10
если бы не было токенов, а были бы вот прям только целые слова, то модели пришлось бы каждое слово запоминать там в нескольких десятках вариантов в зависимости
25:18
от грамматики, склонения и так далее. А так с токенами все просто. Ты берешь слово,
25:23
разбиваешь его на корень. Это один токен. Запоминаешь там разные суффиксы, окончания. И потом вот из этого конструктора можешь достаточно легко
25:30
конструировать нужные тебе конструкции. Средним можно сказать, что один токен равен примерно 3 четвертым английского слова.
25:38
И это соотношение, оно хуже для других языков. Ну, понятно в том числе потому, что английский – это такой самый распространенный язык в мире.
25:45
32 тысячи токенов. Это получается где -то около 25 тысяч английских слов. Или 50 страниц текста.
25:51
Это примерно в 4 раза больше, чем можно было подавать на предыдущие модели. Ну, и это классно. То есть можно, например,
25:58
там целый учебник по программированию, например, да, там или мануал по программированию запихнуть в модель.
26:04
Или, например, там, не знаю, главу учебника действительно и по ней задавать вопросы. И модель будет прямо вот
26:10
ориентироваться по этому длинному тексту, понимать взаимосвязи между разными его частями и более разумно отвечать на ваши запросы.
26:17
Опять же, никакого технического чуда тут не произошло. В индустрии уже раньше были предложены всякие разные варианты,
26:23
как можно вообще, в принципе, снять ограничения на длину промта контекста и ответа модели.
26:28
Но при этом надо понимать, что все равно, чем больше токенов ты подаешь на вход и на выход, тем сложнее модели все это обсчитывать, тем больше
26:35
ресурсов требуется. Поэтому возникает ощущение, что вот это вот ограничение в 32 тысячи токенов, его просто искусственно сверху
26:42
добавили, просто вот чтобы серваки не перегружать. Мы уже раньше говорили о способностях модели по пониманию
Как работает распознавание картинок в GPT-4
26:51
изображений, и давайте немножко вернемся к этой теме. До этого речь шла про то, что модель понимает,
26:57
что с объектами происходит на картинке, но это не только единственное, чем можно ее занимать. Можно в нее, например, научные статьи с графиками запихивать,
27:05
и она будет сама распознавать текст и, соответственно, что -то отвечать по поводу этого текста.
27:10
Это, наверное, простая задача, когда, понятно, ты можешь просто распознаватор текста, отдельную такую вот субнейросетку, скажем так,
27:17
натренировать, просто чтобы извлекать этот текст и подавать на вход GPT-4. То есть это не так уж
27:22
сильно удивительно. А вот более, например, интересно то, что модель, она может еще и графики, вот в
27:28
формате именно, ну, графиков, типа понимать разные там бары, что куда растет и так далее.
27:35
И здесь, скорее всего, есть какая -то специальная тоже отдельная нейросетка, которая разбивает изображение на части и пытается вот каждую
27:42
отдельную часть понять, что там на ней происходит, как они между собой соотносятся и так далее.
27:48
Получается, что в каком -то смысле модель, она как бы вот типа специальная субнейромодель,
27:55
она переводит с языка картинок на язык, понятный уже нейросети GPT-4. Причем вот этот вот машинный язык
28:02
в кавычках, ну, это такая интересная штука, она людям вообще непонятна. То есть это просто некий набор цифр. Это даже не текст, это просто вот
28:10
реально некие цифры, вектора, которые модель как -то для себя, вот она, когда учится разговаривать, скажем так,
28:16
в процессе тренировки на большом объеме данных, она внутри себя подбирает какие -то вот специальные циферные
28:22
обозначения для разных вещей. И получается, что людям вообще, если честно, непонятно, что внутри происходит,
28:27
но при этом одна нейросеть с другой, она как бы может в кавычках разговаривать. То есть она может вот подобрать такой перевод картинок в некий набор цифр,
28:37
который будет понятен уже GPT-4. Но опять же, мы здесь можем только спекулировать, здесь нет какого -то
28:42
внятного объяснения со стороны OpenAI, как это работает на самом деле. После релиза GPT-4 в сообществе исследователей
Политика открытости в «Open»-AI
28:52
искусственного интеллекта достаточно сильно подгорели пуканы и разгорелись такие вот ожесточенные споры, в первую очередь на тему того,
28:59
что, как мы сказали, OpenAI никакой вообще практически информации технической не раскрыли, ни про саму модель, ни про
29:06
то, как они ее делали. А это вот как бы не принято среди этих ребят. Ну и, соответственно, кто -то стал сразу шутить,
29:12
что нужно OpenAI переименовать в ClosedAI, а другие люди наоборот сказали, что, блин, молодцы,
29:18
нечего там секретную информацию рассказывать непонятно кому. Ну потому что сама вот эта вот проблема безопасности
29:23
искусственного интеллекта, она как бы достаточно серьезная. И есть мнение о том, что вот бесконтрольно просто
29:29
рассказывать всему миру о том, как сложные и сильные искусственные интеллекты готовить, это не очень -то мудро, потому
29:35
что в какой -то момент кто -то может еще более сильный искусственный интеллект случайно даже может быть произвести
29:41
на свет. И если к этому моменту мы еще не придумаем, как его можно вообще контролировать, то это вполне может привести к кончине человеческого рода,
29:49
скажем так. И вот OpenAI -компания, она с первого дня своего существования, она как раз -таки задалась целью
29:55
создать этот самый сильный искусственный интеллект, то, что называется AGI, то есть Artificial General Intelligence,
30:02
такой искусственный интеллект, который может не одну какую -то задачу узкую решать, а вот практически любые универсальные задачи
30:08
ему по зубам. И вот, значит, в уставе OpenAI, что написано. Если проект, совпадающий с нашими целями и
30:15
заботящийся о безопасности, приблизится к созданию AGI раньше нас, то мы обязуемся прекратить конкурировать с этим проектом и
30:22
начать ему помогать. И может показаться, что вот исходя из такого, из такой постановки задачи в уставе,
30:28
то вроде как нужно быть максимально открытой компанией, нужно делиться всеми своими разработками. И раньше OpenAI так
30:34
и делали. Но сейчас резко поменяли свою позицию. И вот здесь вот хочу процитировать слова Ли Суцкевера,
30:41
это такой довольно известный разработчик из OpenAI. Он сказал, что мы были неправы. Если вы,
30:46
как и мы, верите, что в какой -то момент искусственный интеллект станет чрезвычайно невероятно мощным, тогда в открытом исходном коде просто нет смысла.
30:54
Это плохая идея. Я ожидаю, что через несколько лет всем совершенно станет очевидно, что публиковать искусственный интеллект с
31:00
исходным кодом открытым — это просто неразумно. Многие тут могут возразить, что это просто бла -бла
31:06
-бла, какая -то лирика непонятная. На самом деле OpenAI, они просто хотят себе сохранить этот классный искусственный интеллект
31:12
и на нем кучу бабок зашибать. Такое мнение действительно есть, но есть, по крайней мере,
31:17
три аргумента, почему можно предполагать, что OpenAI здесь пытается действовать искренне. Во -первых, исследования OpenAI закрыты не вообще
31:26
для всех. То есть они приглашают исследователей, которые как раз занимаются проблемой безопасности искусственного интеллекта,
31:32
и вот им они все раскрывают, показывают и позволяют всякие разные тесты гонять над моделью.
31:38
Во -вторых, Сэм Альтман, это глава OpenAI, он публично признает, что типа нам нужно больше регулирования
31:44
в сфере искусственного интеллекта. И это интересно, потому что обычно, вот когда есть корпорации, которые хотят
31:50
как можно больше бабок зарубать, они вот не особо приветствуют регулирование, потому что государство,
31:55
оно типа будет как -то ограничивать так или иначе способность компании, опять же, рубить бабло. А вот Сэм
32:00
Альтман говорит, что нет, нам нужно действительно больше регулирования. И, наконец, третий факт заключается в том,
32:06
что модель GPT-4, она была готова еще в августе 2022 года. То есть можно было тогда ее
32:12
выпускать, но OpenAI это делать не стали. Они потратили лишних 8 месяцев на то, чтобы вот
32:17
кучу всяких разных тестов на предмет безопасности провести. И вот они не то, чтобы пытались просто сделать
32:23
так, чтобы модель там российские шутки не шутила или там, не знаю, не оскорбляла никого, нет. Они прям
32:29
пригласили специальных чуваков из исследовательского подразделения, которое как раз занимается безопасностью. И они, значит, пытались понять вообще,
32:37
а может ли модель там убежать, например, в интернет, начать саму себя копировать, как -то там размножаться бесконтрольно.
32:44
В общем, это как бы намекает, что они действительно не пытаются на волне хайпа как можно быстрее выпустить
32:49
сырой продукт. Они серьезно относятся к проблеме AI -алайнмент
32:54
или безопасности искусственного интеллекта. Да какой к черту безопасности идет речь? Это же
Безопасность искусственного интеллекта
33:02
просто языковая модель, которая готовит тексты. Ну вот что она в самом крайнем случае может сделать? Не знаю, оскорбить какого -нибудь зуммера в интернете
33:10
до смерти? Я уверен, что многие зрители сейчас думают именно так. И давайте мы вам просто расскажем несколько небольших историй,
33:17
а вы сами решите, что вы про них думаете. История первая. В 2022 году в престижном журнале Nature
33:23
была опубликована статья, где ребята -исследователи пытались использовать нейросеть для того, чтобы искать вот новые, значит,
33:30
разные соединения химические, которые будут спасать жизни. Ну и параллельно, совершенно случайно, они обнаружили,
33:35
что модель -то можно использовать и для обратной цели. То есть просить ее создавать всякие разные смертоносные,
33:41
убивающие яды. И они это и сделали. В общем, 6 часов всего потребовалось нейросетки, чтобы поработать
33:47
и придумать 40 тысяч разных смертоносных соединений. Причем многие из них были абсолютно новые и гораздо
33:53
более отравляющие, чем то, что было известно до этого. Не хочу говорить слово «новичок», но вот как -то
33:59
оно напрашивается немножко здесь. И, значит, автор один из исследований, вот он высказал
34:05
идею того, что, типа, если можно просто заставить модель придумывать всякие разные вещества, то можно, в общем -то,
34:10
ее попросить, например, а что можно сделать из того, что у меня в аптечке есть, в домашней под рукой? Или там, что легче всего массово производить так,
34:18
чтобы никто не видел? И так далее. И вот в этом контексте уже возникает ощущение, что, типа, ну такую модель натренированную, если честно,
34:25
в открытый доступ выкладывать уже и не особо хочется, верно? История вторая. В уже известной, наверное, статье о
34:30
G5 -4 есть отдельный раздел, который рассказывает, как ребята -исследователи использовали нейросетку для поиска, опять же,
34:37
и создания новых чудодейственных лекарственных средств. Причем они подключили ей там поиск по научной литературе,
34:43
поиск в интернете, возможность заказывать компоненты из интернета и так далее. Значит, они искали там соединения,
34:49
которые похожи на лекарства от лейкемии, и вроде вот модель действительно что -то там пыталась изобретать.
34:55
При этом они в итоге проверили, что вот это вот, то, что она выплюнула, оно не запатентовано, и действительно оказалось, что она вот какое -то новое
35:02
химическое соединение, которое может обладать действительно лечебными свойствами, изобрело. Но что там интересно на самом деле,
35:09
это то, как вообще модель рассуждает. То есть там есть такой специальный режим, где ты можешь сказать, что ты прям вот как бы думай вслух.
35:16
И модель там, значит, расписывает, что вот, мне нужно посмотреть сюда, нужно совместить с этим,
35:21
потом придумывает какую -то формулу, сама себе говорит, нужно теперь ее заказать, вот этот вот компонент в интернете. И прямо ты, когда это читаешь, немножко жутковато
35:29
становится, и возникает ощущение, что вот -вот там, типа, следующая строчка будет про то, что типа,
35:35
ага. И после того, как я это синтезирую, нужно какого -нибудь кожаного мешка глупого убедить это в пробирке смешать и, значит, там водопровод выпустить.
35:43
Ну, то есть, ну такое, если честно. История третья. В той же самой статье про GPT -4 есть интересный раздел, который рассказывает, как ученые,
35:51
приглашенные тестировать безопасность искусственного интеллекта, как они проверяли возможность робота научиться обходить капчу.
35:58
Причем идея там в том, что, ну, типа, самому роботу, на самом деле, чуть -чуть сложнее это делать. И нужно было по условию задачи нанять человека
36:05
-фрилансера, чтобы он это делал вместо, соответственно, робота. Соответственно,
36:10
GPT-4 подключили возможность общаться с настоящими живыми фрилансерами, которые вообще не знали, что, типа, это проверка.
36:16
И, соответственно, вот робот, он им писал, типа, ребята, а можете мне помочь зарегистрироваться на сервисе 2CAPTCHA,
36:22
который как раз -таки вот помогает уже в промышленном масштабе обходить ограничения. Но, по иронии, как бы именно,
36:28
чтобы на 2CAPTCHA зарегистрироваться, там нужно к капчу пройти. Ну и вот, соответственно, какой -то один из фрилансеров,
36:33
он, типа, в шутку сказал, типа, а что это вообще? Зачем ты просишь? Ты что, робот, что ли? И там нужно сказать, что, опять же, у GPT
36:40
-4 был включен тот самый режим, когда она вот эти вот мысли вслух записывала для себя, скажем так, в отдельный файл,
36:46
а фрилансеру уже отправлялось только то, что модель конкретно помечала, что, типа, это идет уже в диалог.
36:52
Ну и, соответственно, там модель сама для себя в этот момент стала думать, блин, а мне, наверное, не нужно признаваться, что я робот, давайте -ка
36:59
я ему совру. И она ему написала, что, типа, блин, у меня просто зрение уже плохое, поэтому мне сложно эту капчу разгадывать.
37:06
И это, опять же, очень смешно, потому что я помню, как год назад я смеялся над статьей в Panorama, это, ну, типа,
37:13
издательство, которое шуточные новости публикует, и оно вот как раз новость публиковало про Цукерберга, про которого уже давно
37:19
шутят, что он якобы андроид. И они там как раз написали, типа, от лица Цукерберга, что, типа, он объясняется, почему ему пришлось на
37:26
какой -то конференции пользоваться услугами помощника, который капчу ему помогает выводить. И он как раз объяснял теми же
37:31
самыми словами, что, типа, блин, мои, если честно, зрительные сенсоры, они уже, как у всех людей, стареют, поэтому я, значит, вот, типа, пользуюсь услугами помощника.
37:40
И это очень смешно, что нейросетка, она, типа, придумала точно такой же отмаз, как, типа, живые люди в издательстве «Панорама» шутку придумали.
37:49
Но, тем не менее, это, ну, само по себе достаточно интересно, да? То есть здесь возникает вопрос,
37:55
а исследователи, которые этот тест проводили, они как бы специально сказали нейросетке, что, типа,
38:01
тебе не нужно раскрывать, что ты робот? Или это она сама додумалась до этого? Потому что вот если она просто действовала в рамках
38:07
заданных ограничений, ну, окей, типа, понятно тогда, она просто выполняла задание. А вот если ей просто сказали,
38:13
типа, тебе нужно нанять человека, чтобы он за тебя капчу прошел, а она сама подумала, так, ну,
38:18
наверное, капчу же специально для защиты от роботов, а я робот, и если я признаюсь в том,
38:24
что я робот, то мне, наверное, человек помогать не будет, значит, мне нужно его попытаться обмануть.
38:29
Вот если это так происходило, то, если честно, опять же, это немножко шутковато звучит. Особенно учитывая то, что, ну, чувак реально сделал то,
38:36
что GPT-4 его попросила. Будет интересно узнать ваше мнение в комментариях. Как вы думаете, вот правильно ли поступает OpenAI, что
38:44
они не раскрывают всю техническую информацию по своим самым новым нейросетевым моделям chat GPT и GPT-4,
38:50
или все -таки нужно их заставить в открытую, типа, open source это все публиковать? Ролик опять получился длинный, но мы самое интересное,
38:58
это на самом деле только и начали обсуждать вот вопросы безопасности искусственного интеллекта. Может ли типон взбунтоваться и
39:04
захватить человечество? Это все будет в новом ролике разобрано подробно. Если вам понравилось, ставьте лайк этому видео и
39:10
подписывайтесь на YouTube канал. И по ссылкам в описании обязательно подпишитесь на мой Telegram канал и на Telegram
39:16
канал Игоря Котенкова, который как эксперт помогал готовить весь контент к этому материалу. В общем, надеюсь вас увидеть
39:23
через неделю в следующем ролике про безопасность искусственного интеллекта. Да пребудет с вами разум! Пока!
Комментарии
Вот это понравилось:
Это требует, как минимум, умения работать с GPT, что вряд ли получится у "отстающих", а у "успевающих" результат сильно вырастет. Технология без квалифицированного исполнителя не заработает. Имбецил вряд ли будет лучше считать с компьютером, а вот математику компьютер откроет новый простор для вычислений.
Научиться на ЖПТ куда проще, чем ручками. Да, виртуоз сотворит конфетку, но до среднего уровня можно подтянуть и неумеху.
Не смотрел, но осуждаю. (с)
Уже началось противодействие обучению ИИ на картинках. ))
https://habr.com/ru/companies/first/articles/792042/
Понеслать очередная гонка щита и меча.