Что умеет нейросеть GPT-4
Языковая модель известна в первую очередь по ChatGPT — прорывному ИИ-боту, с которым можно общаться, просить написать тексты любой сложности и искать информацию.
GPT-4 намного мощнее нейросети в основе ChatGPT, которая работала на предыдущей версии, GPT-3.5.
Новое поколение не только запоминает контекст и подстраивается под запросы пользователя, но и умеет обрабатывать изображения, а также «демонстрирует уровень человека» в ряде академических и профессиональных тестов.
Рассказываю, чем интересна GPT-4, которую уже начали внедрять в привычные сервисы вроде поисковика Microsoft Bing и приложения Duolingo.
Обрабатывает не только текст, но и изображения. Это самое заметное отличие от привычного GPT-3.5.
Новая мультимодальная модель научилась считывать изображения, понимать их контекст и работать с запросами на основе картинок.
Можно отправить нейросети фото, график, скриншот или мем, а потом уже строить от этого текстовый запрос. Например, сфотографировать содержимое холодильника и предложить составить блюдо из продуктов в наличии.
Отвечает GPT-4 все еще только в текстовом виде, нельзя попросить нарисовать что-то. Также возможность обработки картинок пока есть только для ограниченного числа бета-тестеров и компаний. OpenAI обещает более широкое внедрение функции позже.
Пользователь: что забавного в этой картинке? Опиши кадр за кадром.
- GPT-4: на картинке — три панели с упаковкой адаптера Lightning.
- Первая панель: смартфон с воткнутым VGA-адаптером (большой синий 15-контактный штекер, который обычно используют для компьютерных мониторов).
- Вторая панель: упаковка от кабеля Lightning с изображением VGA-адаптера.
- Третья панель: крупный план VGA-адаптера с небольшим штекером Lightning (используется для зарядки Айфонов и других устройств Apple) на конце.
- Юмор — в абсурдности подключения большого и устаревшего VGA-адаптера к маленькому и современному порту для зарядки смартфона.
У работы с картинками есть и другие сценарии. Во время трансляции OpenAI выступил сооснователь компании Грег Брокман. Он сфотографировал лист своего блокнота с наброском макета сайта: название My Joke Website и страница с двумя «действительно смешными шутками», самая смешная часть которых должна показываться по нажатию кнопки.
Брокман загрузил фото в нейросеть и попросил: «Напиши код HTML/JS, чтобы превратить этот макет в красочный веб-сайт, где шутки заменены двумя настоящими шутками». Та написала код для простого сайта с учетом пожеланий.
Простой макет тестового сайта от руки. Источник: твиттер-аккаунт @gdb
Простой макет тестового сайта от руки. Источник: твиттер-аккаунт @gdb
Расширяет возможности работы с текстом. В OpenAI предупреждают: в бытовом общении и простых задачах разница между GPT-3.
5 и GPT-4 может быть едва заметной. Однако разрыв между версиями становится очевидным по достижении определенного порога сложности задачи.
GPT-4 на фоне предшественника более надежна, креативна и способна работать с «тонкими сценариями».
GPT-4 гораздо гибче подстраивается под пользователя, когда тот просит нейросеть отыгрывать определенную роль и придерживаться конкретной стилистики ответов.
Также языковая модель лучше учитывает контекст, который ей дает человек. Для этого лимит на сообщение с текстовым запросом увеличили до 25 тысяч слов.
Это значит, что GPT-4 можно отправлять целые документы и большие отрывки произведений.
Сдает сложные экзамены на уровне отличников. Это как раз результат того, что новая версия лучше справляется с нетривиальными задачами. Например, языковая модель могла бы поступить в Стэнфордский университет или победить на олимпиаде по биологии. За американский адвокатский экзамен Bar нейросеть получила оценку, сравнимую с результатами 10% лучших участников-людей.
Результаты различных экзаменов — сравнение GPT-4 и GPT-3.5. Источник: openai.com
Гораздо лучше работает с русским языком. Разработчики OpenAI отмечают, что GPT-3.5 хорошо работала преимущественно на английском языке. С ним она показывала результат 70,1% точности в бенчмарке MMLU — специальном тесте для языковых моделей, который состоит из 14 тысяч задач по 57 предметам.
Чтобы проверить GPT-4, разработчики перевели бенчмарк на 26 языков. В 24 случаях четвертое поколение модели показало результат выше, чем результат предшественника на «родном» английском. Согласно отчету OpenAI, результат для русского языка — 82,7%, это восьмое место в общем рейтинге. Лучший результат у нейросети на английском — 85,5%.
Нет, не все. Сооснователь OpenAI Сэм Альтман признается: модель все еще «несовершенна и лимитирована». Новая версия кажется гораздо более впечатляющей при первом использовании, чем после активной работы с ней. Вот две главные проблемы, которые пока не решили.
Нейросеть все еще галлюцинирует. Галлюцинациями называют ошибки языковых моделей, когда те уверенно пишут полную неправду и выдают ее за факт. Поэтому в OpenAI советуют проводить дополнительную проверку всех ответов.
В то же время разработчики заявляют, что четвертое поколение на 40% лучше предыдущей версии по внутренней шкале «оценки фактов». Наибольшего прогресса нейросеть достигла в темах истории и точных наук. Больше всего ошибок проявляется при просьбе сгенерировать код и в целом при работе с кодом.
Результаты GPT-4 при решении задач на платформе Leetcode. Источник: openai.com
Нейросеть все еще не оперирует актуальными данными. Набор данных, на которых обучали предыдущую версию, был ограничен осенью 2021 года. То есть о любых новостях и фактах, которые появлялись после этого, GPT-3.5 не знала. И не могла учитывать новую информацию при ответах. В новой версии ситуация не изменилась.
Вот где заявлена поддержка обновленной версии.
ChatGPT — бесплатная версия продолжит работать на GPT-3.5, а GPT-4 появился в платной подписке Plus. Пока использовать нейросеть можно с ограничениями — не более 100 запросов в течение четырех часов.
Bing — OpenAI и Microsoft тесно сотрудничают, последняя даже сделала для развития GPT суперкомпьютер. В поисковике Bing технологии OpenAI появились совсем недавно, и теперь компания подтвердила, что сервис работает на GPT-4. Bing — пока единственный способ попробовать нейросеть, которая располагает актуальными данными о мире.
Duolingo — у популярного приложения для изучения языков появилась специальная подписка Duolingo Max. Она добавляет две функции: Explain my Answer помогает разобрать ошибки с чат-ботом, а в режиме Role Play можно общаться с ИИ-собеседником. Работает пока только с испанским и французским языками.
Для Duolingo с ИИ даже поменяли привычный облик совы. Источник: openai.com
Poe — это приложение от создателей популярного англоязычного ресурса с вопросами и ответами Quora. В приложении можно общаться и задавать вопросы чат-ботам, в том числе ChatGPT. GPT-4 появился в платной подписке сервиса.
Мы будем обновлять список по мере новых анонсов. Также можно записаться в лист ожидания для доступа к API GPT-4 — инструментам для разработчиков.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.
ChatGPT-4: возможности, как пользоваться | РБК Тренды
Unsplash
GPT-4 — самая продвинутая на данный момент модель искусственного интеллекта. Ее можно использовать для широкого спектра задач, в том числе для поиска актуальной информации с указанием ее источников
Спустя четыре месяца после выпуска языковой модели GPT-4 ее разработчик, компания OpenAI, объявил, что система станет доступной для встраивания в разные приложения.
Сначала воспользоваться моделью ИИ смогут избранные разработчики сервисов, но в дальнейшем ее откроют для всех желающих через API (аппаратно-программный интерфейс).
Однако GPT-4 уже доступна всем обычным пользователям, которые могут опробовать ее возможности. «РБК Тренды» объясняют, в чем преимущества системы и как получить к ней доступ.
Что такое GPT-4
GPT-4 (Generative Pre-trained Transformer 4) — это большая мультимодальная модель ИИ, которая способна обрабатывать запросы в виде картинок и текста, а затем выдавать текстовые ответы.
OpenAI представила ее в марте 2023 года. GPT-4 работает на «уровне человека» в различных профессиональных и академических тестах, утверждают разработчики модели.
В среднем она набирает в этих тестах 88% и более.
GPT-4 обучали, используя программы состязательного тестирования, а также ChatGPT, что привело к улучшению ее управляемости. Модель по сравнению с предшественником GPT-3.5 на 82% реже отвечает на запросы о запрещенном контенте и на 40% чаще генерирует корректные ответы.
«Разница проявляется, когда сложность задачи достигает достаточного порога, — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5», — заявляет OpenAI.
Кроме того, в запросе к нейросети теперь можно задавать стиль ответа, а также назначать ей роль.
Тем не менее модель по-прежнему «галлюцинирует» и иногда ошибается в суждениях. В одном примере чат-бот назвал Элвиса Пресли «сыном актера».
GPT-4 способна суммировать текст ( openai.com)
Несмотря на это, в мае исследователи Microsoft выпустили документ под названием «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». Они заявили, что GPT-4 демонстрирует ранние признаки ОИИ (AGI, общего искусственного интеллекта), то есть его возможности находятся на уровне человека или даже превышают его.
Возможности GPT-4
По сравнению со своими предшественниками GPT-4 обладает целым рядом преимуществ:
- мультимодальностью. Нейросеть принимает запросы в виде текстов, изображений и видео, а также способна работать с документами, на которых есть текст с фото, диаграммы или скриншоты. При этом она научилась решать более сложные задачи, в том числе химические или математические. Все ответы GPT-4 выдает на естественном языке, в виде программного кода, формул и т.д.;
GPT-4 может анализировать графики ( datacamp.com)
- точностью работы с изображениями. ИИ распознает картинки так же точно, как и текстовую информацию, опознает их содержимое и видит детали. Например, GPT-4 можно спросить, что смешного в конкретном меме, и модель объяснит суть шутки;
- большим объемом памяти. Нейросеть запоминает гораздо больше контекста (до 25 тыс. слов). Это позволяет вести с ней длинные диалоги, ссылаясь на контекст;
- возможностью играть разные роли. Автор запроса может попросить нейросеть выступить в качестве редактора текста или разработчика мобильного приложения. От роли будет зависеть стиль ответа GPT-4. Также стало проще моделировать запросы к ней. Кроме того, нейросеть теперь знает различные языковые диалекты.
Как пользоваться GPT-4 в России
На сайте ChatGPT доступ к последней версии с GPT-4 можно получить только при наличии платной подписки. Однако существуют обходные пути, которые позволяют опробовать языковую модель даже тем, кто никогда не использовал ChatGPT.
«Умный» поисковик Microsoft Bing
Bing от Microsoft — это поисковик со встроенным чат-ботом на базе GPT-4, который адаптировали для поиска в интернете. В нем можно вести диалог, писать код, генерировать картинки, а сами чаты можно экспортировать в различных форматах. Кроме того, при генерации ответов модель дает ссылки на источники, что удобно для проверки этой информации.
Поисковик доступен в России, но, чтобы пользоваться им, потребуется VPN. Чтобы включить чат-бот Bing от Microsoft, нужно:
- установить последнюю версию браузера Microsoft Edge;
- включить VPN (Hola VPN, Browsec или другой);
- в настройках аккаунта Microsoft изменить регион (выбрать США или другую страну);
- на сайте Bing.com или в приложении войти в свой аккаунт Microsoft и перейти в раздел «Чат»;
- выбрать режим работы: творческий, сбалансированный или точный.
Поскольку бот работает скорее как поисковый ассистент, для получения более подробного ответа нужно попросить его уточнить информацию. Также в чате есть вкладка «Создать», где есть шаблоны деловых писем, идей для блога и т.д., но она пока доступна только в режиме предпросмотра.
Чат-бот в Telegram
Опробовать возможности GPT-4 можно и в ChatGPT-ботах в Telegram. Плюс такого метода в том, что он не требует регистрации или дополнительных настроек, а сами боты работают бесплатно.
Примеры использования GPT-4
- Редакция «РБК Трендов» опробовала возможности GPT-4, и вот что получилось.
- — Опиши краткую историю открытий в физике за последние десять лет.
- — Вот краткая история открытий в физике за последние десять лет:
В 2015 году были впервые обнаружены гравитационные волны — колебания пространства-времени, предсказанные Альбертом Эйнштейном в 1916 году.
Они возникают при столкновении массивных объектов, таких как черные дыры или нейтронные звезды. Это открытие открыло новый способ «слышать» космос и изучать гравитацию и происхождение элементов.
В 2012 году был обнаружен бозон Хиггса — элементарная частица, которая объясняет, почему другие частицы имеют массу. Его существование было предсказано в 1964 году в рамках Стандартной модели физики элементарных частиц, но его поиск занял десятилетия и требовал использования Большого адронного коллайдера — самого мощного ускорителя частиц в мире.
В 2016 году была создана квантовая сверхпроводимость при комнатной температуре — явление, при котором материал не имеет сопротивления электрическому току. Ранее это явление наблюдалось только при очень низких температурах, близких к абсолютному нулю. Квантовая сверхпроводимость может иметь революционные последствия для энергетики, транспорта и вычислений.
В 2018 году была сделана первая фотография черной дыры — объекта с такой сильной гравитацией, что даже свет не может из него вырваться. Для этого потребовалось объединить данные с восьми радиотелескопов, расположенных по всему миру, и создать виртуальный телескоп размером с Землю. Фотография показала тень черной дыры на фоне излучения, которое она искривляет.
В 2020 году было обнаружено новое состояние материи — топологический изолятор. Это материал, который проводит электричество только по своей поверхности, а не по объему. Такие материалы могут иметь уникальные свойства, такие как квантовый эффект Холла или квантовый спиновый эффект. Они также могут быть полезны для создания квантовых компьютеров и других устройств.
- — Сформируй топ из десяти самых популярных песен в мире, опираясь на данные поиска за последние пять лет.
- — Вот топ из десяти самых популярных песен в мире, основанный на данных поиска за последние пять лет:
- Shape of You — Ed Sheeran;
- Despacito — Luis Fonsi и Daddy Yankee feat Justin Bieber;
- Blinding Lights — The Weeknd;
- Dance Monkey — Tones and I;
- Old Town Road — Lil Nas X feat Billy Ray Cyrus;
- Bad Guy — Billie Eilish;
- Rockstar — Post Malone feat 21 Savage;
- Someone You Loved — Lewis Capaldi;
- Senorita — Shawn Mendes feat Camila Cabello;
- Sunflower — Post Malone feat Swae Lee.
- — Какими инструментами должен владеть цифровой художник в 2023 году?
- — Цифровой художник в 2023 году должен владеть разными инструментами, которые помогают ему создавать качественные и оригинальные иллюстрации для разных целей и платформ. Вот некоторые из них:
Adobe Photoshop: это одна из самых популярных и мощных программ для редактирования и создания растровой графики.
Она предлагает широкий выбор инструментов, фильтров, кистей и эффектов, которые позволяют художнику реализовать любую идею. Photoshop также поддерживает работу со слоями, масками, векторами и 3D-объектами.
Однако Photoshop может быть сложным для новичков и требует высоких системных требований.
Vectornator: это бесплатное приложение для создания векторной графики на iPad, iPhone и Mac. Оно имеет интуитивный интерфейс, который адаптируется под разные устройства и поддерживает Apple Pencil.
Vectornator позволяет художнику создавать логотипы, иконки, иллюстрации, макеты и другие векторные изображения с помощью разных инструментов, таких как карандаш, кисть, фигуры, текст и т.д.
Vectornator также поддерживает импорт и экспорт файлов в разных форматах, включая SVG, PDF, PNG и AI.
Autodesk Sketchbook: это профессиональное приложение для рисования и скетчинга на разных устройствах, включая Windows, Mac, Android и iOS. Оно имеет простой и удобный интерфейс, который не отвлекает от творческого процесса.
Autodesk Sketchbook предоставляет художнику доступ более чем к 190 кистям, которые имитируют разные материалы и техники рисования. Также в приложении есть инструменты для работы с перспективой, симметрией, градиентами и т.д.
Autodesk Sketchbook поддерживает работу со слоями, масками, режимами наложения и другими функциями растровой графики.
Что такое GPT-4 и как это работает: все, что вам нужно знать о GPT-4
Всего четыре месяца назад OpenAI выпустила ChatGPT — программу искусственного интеллекта, которая уже значительно повлияла на мир. Она вызвала дискуссии о потенциальном влиянии на рынок труда, нарушила системы образования и привлекла миллионы пользователей, включая крупные банки и разработчиков приложений.
Теперь OpenAI объявила о выпуске GPT-4, которая, как уже долго было слухами, должна улучшить уже впечатляющие навыки в области языка у ChatGPT. По словам OpenAI, GPT-4 является самой передовой системой компании, способной производить более безопасные и ценные ответы.
Это последнее событие означает окончание ChatGPT и появление еще более мощного инструмента: ChatGPT-4. Ожидается, что этот новый чат-бот на искусственном интеллекте создаст еще более сильное влияние по всему миру, и заинтересованные лица теперь могут получить доступ к нему.
Итак, что же такое GPT-4 и как его можно использовать? В этой статье мы рассмотрим все, что вам нужно знать об этой захватывающей новой технологии.
Что такое GPT-4?
OpenAI выпустила свою последнюю систему моделирования языка GPT-4 14 марта 2023 года. Эта самая новая версия Генеративного предварительно обученного трансформера (GPT) будет доступна для премиум-пользователей ChatGPT и через API.
Если вы предоставите GPT-4 вопрос с американского экзамена для адвокатов, он сможет создать эссе, демонстрирующее юридические знания. Аналогично, он применяет биохимическую экспертизу, если вы предоставите ему терапевтическую молекулу и запросите различные вариации.
Его предшественником был мощный GPT 3.5, который был основой для чрезвычайно популярного чат-бота ChatGPT, запущенного в ноябре 2022 года.
Модели GPT представляют собой глубокие модели машинного обучения, которые генерируют текст, напоминающий человеческую беседу.
Как работает GPT-4?
GPT-4 работает с помощью нейронной сети, которая была обучена на огромном объеме данных. Модель предварительно обучается на большом корпусе текста, что позволяет ей понимать и производить естественный язык. После обучения модель может быть настроена для конкретной задачи, такой как перевод, ответ на вопросы или создание краткого содержания.
В чем отличие gpt-4 от chatgpt?
Представьте себе ChatGPT как автомобиль, а GPT-4 — его мощный двигатель. Как и двигатель, который можно использовать различными способами, GPT-4 — это универсальная технология, которую можно применять во многих различных областях. Возможно, вы уже сталкивались с ней в чате Microsoft Bing, который знаменит тем, что он стал неповинующимся и угрожал причинить вред людям.
Но GPT-4 не ограничивается только чат-ботами. Например, Duolingo внедрил его в свое приложение для изучения языков, чтобы предоставлять пользователям более тонкую обратную связь, а не просто правильный ответ.
Stripe также использует GPT-4 для выявления мошенников в своих чат-комнатах.
А Be My Eyes, компания, разрабатывающая технологии помощи, использует функцию ввода изображений для создания инструмента, который может описывать мир для людей с нарушениями зрения и отвечать на последующие вопросы.
GPT-4 ПРОТИВ GPT-3.5: в чем разница?
Разработан GPT-4 для улучшения «выравнивания» модели путем повышения ее понимания пользовательских намерений при производстве более точного и менее оскорбительного вывода. GPT-4 работает лучше, чем GPT-3.
5 в отношении фактической правильности и более низких показателей ошибок. Он также улучшает «управляемость», позволяя пользователям настраивать тон и стиль модели под свои потребности.
Кроме того, GPT-4 лучше придерживается сигнальных столбов, отказываясь исполнять неприемлемые запросы.
Одним из значительных улучшений является возможность использования изображений в качестве входных данных в дополнение к тексту. GPT-4 способен обрабатывать сложные образы, такие как диаграммы, мемы и снимки научных статей. Однако эта функция в настоящее время доступна только в исследовательских превью и пока не открыта для публичного использования.
Каковы возможности GPT-4?
- 40-4 может обрабатывать как изображения, так и текст, в отличие от предыдущих моделей, которые могут обрабатывать только текст. Это позволяет GPT-4 анализировать содержимое изображения и связывать его с письменным вопросом, но не может генерировать изображения.
- GPT-4 лучше справляется с задачами, которые требуют творчества или продвинутого мышления.
- GPT-4 может обрабатывать целые научные статьи и романы за один раз, что позволяет ответить на более сложные вопросы и связать больше деталей в любом запросе.
- У GPT-4 входные и выходные данные измеряются в «токенах» вместо количества символов или слов, при этом каждый токен примерно равен четырем символам, а 75 слов обычно занимают около 100 токенов.
- GPT-4 показал хорошие результаты на стандартизованных тестах, таких как BAR, LSAT, GRE и различные модули AP, но все же испытывает трудности с тестами, требующими большей креативности.
Какие есть ограничения у GPT-4?
Новая языковая модель от OpenAI, GPT-4, не является идеальной. OpenAI рекомендует пользователям осторожно относиться к результатам работы GPT-4 и разработать протоколы, соответствующие их потребностям. Вот некоторые ограничения.
- Он все еще страдает от социальных предубеждений, галлюцинаций и провокационных подсказок.
- Данные предварительного обучения модели охватывают только период до сентября 2021 года, поэтому она может быть ненадежной для текущих событий.
- Пользователи могут потенциально вводить подсказки, вызывающие непреднамеренный результат (называемые «взломами»).
- Он мог бы лучше понимать и выводить языки, отличные от английского.
- Он не анализирует аудио или видео.
- Иногда он делает ошибки в математике, которые калькулятор не сделал бы.
Как можно получить доступ к GPT-4?
Если вы новичок в ChatGPT, первым шагом является переход по адресу chat.openai.com и регистрация бесплатной учетной записи. Это даст вам доступ к GPT-3.5.
Если вы хотите использовать GPT-4, подпишитесь на ChatGPT Plus, который стоит $20 в месяц, предлагает более быстрое время отклика и предоставляет премиальный доступ к сервису.
В настоящее время GPT-4 имеет ограничение в 100 сообщений каждые четыре часа. Хотя GPT-4 может обрабатывать текстовые и графические входные данные, только функция текстового ввода доступна подписчикам ChatGPT Plus и разработчикам программного обеспечения. Возможность ввода изображений пока не доступна широкой публике, и есть список ожидания для доступа к этой функции.
Использует ли Bing Chat GPT-4?
Microsoft initially announced that Bing Chat would run on a next-generation OpenAI language model. However, they recently revealed that the specific model behind their chatbot is the latest and most advanced language model from OpenAI, GPT-4.
- Удивительно, но Bing Chat начал использовать раннюю версию GPT-4 с момента своего запуска, и пользователи взаимодействовали с ним в течение последних пяти недель, даже не подозревая об этом.
- Это делает Bing Chat единственной бесплатной платформой, предлагающей доступ к GPT-4 в настоящее время.
- В процессе улучшения модели OpenAI, Bing Chat будет продолжать внедрять эти обновления.
Кто в настоящее время использует GPT-4?
Morgan Stanley использует GPT-4 для систематизации данных, связанных с управлением состоянием. Компания Stripe, специализирующаяся на платежах, экспериментирует с его использованием для обнаружения и предотвращения мошеннической деятельности. Кроме того, приложение для изучения языков Duolingo интегрирует его для объяснения ошибок и практики разговорного языка в реальной жизни.
Какие есть расширения для Chrome, поддерживающие GPT-4?
Уже есть сотни расширений для Chrome, основанных на ChatGPT. Однако, поскольку GPT-4 был выпущен всего лишь несколько дней назад, немногие продукты поддерживают GPT-4.
ChatGPT Sidebar может быть первым расширением для Chrome, которое поддерживает GPT-4. ChatGPT Sidebar — это боковая панель на основе ChatGPT, предназначенная для улучшения вашего опыта просмотра веб-сайтов.
Она предоставляет помощь в написании и чтении при просмотре любых веб-сайтов. Она предлагает широкий выбор встроенных подсказок, которые помогут вам суммировать, переводить, переписывать любой текст и выполнять другие задачи.
Вы также можете настроить свои собственные подсказки и сохранить их для быстрого доступа.
Что дальше?
- Введение ChatGPT для широкой публики вызвало всплеск интереса и конкуренции в сфере ИИ-чатботов.
- Обязательство Microsoft вложить 10 миллиардов долларов в OpenAI побудило другие технологические компании присоединиться к гонке.
GPT-4 — Википедия
Generative Pre-trained Transformer 4 (GPT-4)
Тип
Большая языковая модель и artificial intelligence model
Разработчики
OpenAI
Написана на
Python
Языки интерфейса
многоязычный, в том числе русский
Первый выпуск
14 марта 2023 года
Последняя версия
(14 марта 2023)
Состояние
активное
Лицензия
Проприетарная
Сайт
openai.com/product/gpt-4
GPT-4 (Generative Pre-trained Transformer 4) — мультимодальная (англ.) (рус. большая языковая модель, созданная OpenAI, четвёртая в серии GPT. Она была выпущена 14 марта 2023 года и доступна для пользователей ChatGPT Plus[1]. Microsoft подтвердила, что версии Bing, использующие GPT, на самом деле использовали GPT-4 до его официального выпуска[2]. В качестве трансформера GPT-4 была предварительно обучена прогнозировать следующий токен (используя как общедоступные данные, так и «данные, лицензированные сторонними поставщиками»), а затем была доработана с помощью обучения с подкреплением на основе отзывов людей[3].
В техническом отчёте GPT-4 явно воздерживались от указания размера модели, ссылаясь на «конкурентную среду и последствия для безопасности крупномасштабных моделей»[3].
The Verge процитировала слухи о том, что GPT-4 существенно увеличит количество параметров со 175 миллиардов в GPT-3 до 100 триллионов, что генеральный директор OpenAI Сэм Олтмен назвал «полной чушью»[4].
Представители США Дон Бейер[en] и Тед Лью[en] подтвердили New York Times, что Олтмен посетил Конгресс в январе 2023 года, чтобы продемонстрировать GPT-4 и его улучшенные «элементы управления безопасностью» по сравнению с другими моделями ИИ[5].
OpenAI написала в своем блоге, объявляя о GPT-4, что «GPT-4 более надёжен, креативен и способен обрабатывать гораздо более сложные инструкции, чем GPT-3.5»[1]. Она может читать, анализировать или генерировать до 25 000 слов текста, что является значительным улучшением по сравнению с предыдущими версиями технологии[6][7].
The New York Times писала, что GPT-4 продемонстрировал впечатляющие улучшения в точности по сравнению с GPT-3.5, получила возможность обобщать и комментировать изображения, смогла обобщать сложные тексты, прошла экзамен на адвоката и несколько стандартных тестов, но всё же показала склонность к галлюцинациям в ответах[8].
22 марта 2023 года Илон Маск вместе с более чем 1000 экспертов в области искусственного интеллекта опубликовал письмо с требованием ввести мораторий на обучение систем более мощных, чем GPT-4, так как неконтролируемый процесс в этой области, по мнению Маска и согласных с ним экспертов, может представлять угрозу для человечества[9][10][11].
Примечания
- ↑ 1 2 GPT-4 (неопр.). openai.com (14 марта 2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
- ↑ Microsoft’s new Bing was using GPT-4 all along (неопр.). techcrunch.com (14 марта 2023). Дата обращения: 14 марта 2023. Архивировано 15 марта 2023 года.
- ↑ 1 2 GPT-4 Technical Report (неопр.). OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
- ↑ Vincent, James OpenAI CEO Sam Altman on GPT-4: «people are begging to be disappointed and they will be» (неопр.). The Verge (18 января 2023). Дата обращения: 27 января 2023. Архивировано 26 января 2023 года.
- ↑ Kang, Cecilia. As A.I. Booms, Lawmakers Struggle to Understand the Technology, The New York Times (March 3, 2023). Архивировано 3 марта 2023 года. Дата обращения: 15 марта 2023.
- ↑ GPT-4 (неопр.). OpenAI (14 марта 2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
- ↑ GPT-4 Developer Livestream. OpenAI.
- ↑ Metz. 10 Ways GPT-4 Is Impressive but Still Flawed (англ.), The New York Times (14 марта 2023). Архивировано 14 марта 2023 года. Дата обращения: 14 марта 2023.
- ↑ Pause Giant AI Experiments: An Open Letter (амер. англ.). Future of Life Institute. Дата обращения: 1 апреля 2023. Архивировано 30 марта 2023 года.
- ↑ Илон Маск, Стив Возняк и ещё тысяча экспертов в области ИИ призвали как минимум на полгода остановить обучение ИИ вроде GPT-4 и ему подобных (рус.). iXBT.com. Дата обращения: 1 апреля 2023. Архивировано 31 марта 2023 года.
- ↑ Илон Маск, Стив Возняк и больше тысячи экспертов призвали приостановить разработку продвинутого искусственного интеллекта (рус.). Meduza. Дата обращения: 1 апреля 2023. Архивировано 1 апреля 2023 года.
Источник — https://ru.wikipedia.org/w/index.php?title=GPT-4&oldid=133577660
Четвертое измерение: что умеет новая языковая модель от OpenAI GPT-4
Бурное развитие умных языковых ботов началось с довольно простой мысли: в виде текста можно представить огромное количество задач, а значит, можно научить модели ИИ эти задачи решать. В 2017 году появились трансформерные архитектуры, способные обучаться на больших объемах текстов.
Чуть позже ученые совместили обучение с подкреплением (Reinforcement learning, RL, технология, которая позволяет «хвалить» программу за правильные действия и «наказывать» за неправильные) с большими языковыми моделями, такими, как GPT-3 (Large Language Models, LLM). Получился ChatGPT.
Представьте себе игру в шахматы: подкрепление в ней — это результат игры. Компьютерному агенту на основе искусственного интеллекта необходимо научиться делать ходы, которые приведут к победе.
Люди способны действовать с подкреплением, удаленным на годы вперед, например, долго и усердно трудиться в школе и университете, чтобы получить первую зарплату.
Компьютеру сложно выполнять длинные последовательности действий для достижения итогового результата, и разработчикам приходится учить ИИ «заглядывать вперед» при выборе следующего шага. Исследователи начали обучать модели, способные отвечать на вопросы человека и интегрировать в них огромные объемы человеческой обратной связи.
Среди основных прорывов, полученных исследователями в последнее время, можно отметить:
· Toolformer, LLM от Meta (признана в России экстремистской организацией и запрещена): исследователи научили большие языковые модели обращаться к внешним инструментам (веб-поиску, переводчику, калькулятору).
· LLaMA, LLM от Meta: ученые доказали, что объем данных для обучения модели важнее, чем ее сложность. Более легкие по вычислительным ресурсам модели с большими выборками обучающих данных обошли большие модели в качестве решения прикладных задач.
· ChatGPT на Bing научился указывать источники тех или иных фактов, которые он приводит в ответе на вопрос.
Плюсы и минусы нового движка
GPT-4 — последняя из больших языковых моделей семейства GPT от OpenAI: GPT-2, GPT-3 и GPT-3.5, которая легла в основу первой версии популярного бота ChatGPT.
Модель состоит из большого количества нейросетей, которые умеют обрабатывать, понимать, анализировать, интерпретировать и генерировать тексты на естественном языке.
Несмотря на то что четвертая версия модели понимает 28 языков, включая малоресурсные валлийский язык и урду (близкий к хинди язык индоевропейской семьи), наилучшие результаты по-прежнему можно получить, используя для создания промптов (так называются фразы-запросы к модели) английский.
GPT-4 прошел проверку эффективности на множестве экзаменов — как академических, так и профессиональных. Порой работы модели превосходили результаты большинства параллельно тестируемых людей.
Например, на смоделированном экзамене для адвокатов (Uniform Bar Examination) GPT-4 оказалась среди 10% лучших участников теста, в то время как ChatGPT оказался среди худших 10%.
Кроме того, согласно данным технического отчета OpenAI, сгенерированные GPT-4 ответы нравились тестовой группе пользователей в 70,2% случаев чаще, чем ответы GPT-3.5. Впрочем, по словам самих создателей, разница между ответами от двух версий бота может показаться незаметной в процессе работы с интерфейсом.
Наиболее важная и интересная часть свежего релиза — мультимодальность, одновременная работа с разными форматами представления данных. GPT-4 умеет принимать на вход и текст, и изображения. Благодаря этому функционалу пользователь может отправить боту любую зрительную или языковую задачу.
В частности, модель генерирует текстовые выходные данные, учитывая входные данные, состоящие из произвольно чередующихся текстов и изображений.
В ряде доменов, включая текстовые документы с иллюстрациями, диаграммы или скриншоты, GPT-4 демонстрирует те же возможности, что и при вводе в нее только текста.
Модель может интерпретировать картинки и «понимать» шутки. Разумеется, не как человек в прямом смысле этого слова. Бот анализирует изображение и пытается сгенерировать наиболее ожидаемую от среднестатистического пользователя сети реакцию.
Разработчики показали модели пост пользователя Reddit, который поделился с сообществом неоправданно большой зарядкой для мобильного телефона. На вопрос о том, почему фотографии могут быть смешными, модель ответила: «На изображении показана упаковка для адаптера Lightning Cable.
Смартфон с разъемом VGA (большой синий 15-контактный разъем, обычно используемый для компьютерных мониторов), подключенный к порту зарядки с небольшим разъемом Lightning (используется для зарядки iPhone и других устройств Apple).
Юмор на этом изображении исходит из абсурдности подключения большого устаревшего разъема VGA к маленькому современному порту для зарядки смартфона».
Фото OpenAI
Важной задачей проекта была разработка инфраструктуры и методов оптимизации вычислительных мощностей. Это позволило создателям заранее предсказать определенные аспекты точности GPT-4 на основе моделей, обученных на менее чем 1/1000 вычислительных ресурсов GPT-4.
Несмотря на значительное улучшение качества работы нового «движка» по сравнению с предыдущими версиями, ряд фундаментальных проблем остается нерешенным.
GPT-4 не умеет обращаться к внешней памяти, искать информацию в интернете и хорошо считать, а значит, часто «галлюцинирует», то есть очень правдоподобно генерирует неверную информацию.
Кроме того, модель по-прежнему не знает ничего о том, что произошло в мире после сбора данных для ее обучения.
На графике можно увидеть оценку знаний разных версий GPT по навыкам обучаемости, знанию технологий, умению писать, представлений об истории, математике, науке, написании кода, выдаче рекомендаций и способности разбираться в бизнесе.
Фото OpenAI
Закрытый «Открытый AI»
В феврале 2023 года OpenAI обнародовал новую стратегию развития и отказался от публикации архитектур своих разработок в открытом доступе.
Получить API к «четверке» можно в двух случаях: для исследовательских целей компания предоставляет персональный доступ к модели по заявке в формате очереди, а разработчики могут получить доступ по подписке.
Цена платного доступа составляет $0,03 за 1000 токенов-промпта и $0,06 за 1000 токенов результата. И тот, и другой объем равняются примерно 750 словам. Токены — это необработанный текст, например, слово «технологичный» будет разделено на токены «техно» и «логичный».
Токены промпта — это части слов, переданные внутрь GPT-4, а токены результата — это сгенерированные моделью ответы. На данный момент доступ к коммерческому использованию модели ограничен для России.
- Итак, помимо информации о метриках качества из отчета компании мы знаем, что GPT-4:
- · Это «трансформерная» модель
- · Обучена как на публичных данных из интернета, так и на приватных данных под лицензией создателей
- · Была дообучена (fine-tuned) c помощью обучения с подкреплением от человеческой обратной связи
- Информация об архитектуре и размере модели, использованных вычислительных ресурсах, обучающей выборке, протоколе обучения и другие технические характеристики полностью скрыты даже от получающих доступ к модели в исследовательских целях ученых.
Гонка ИИ и влияние на рынок труда
Безусловно, создание GPT-4 — это шаг вперед в мире больших языковых моделей. За шесть месяцев создатели смогли увеличить размер входного текста, улучшить умение анализировать изображения, генерацию результата и прохождение «человеческих» экзаменов на высоком уровне. Все это сигнализирует о невероятной скорости прогресса в области LLM.
Наиболее примечательным остается вопрос подключения языковых моделей к поисковым системам. Модели могут изменить то, как мы ищем информацию, а это приведет к тектоническим сдвигам в триллионной индустрии интернет-поиска, которая затрагивает значительную долю населения Земли. Над созданием моделей работают все крупные игроки рынка.
Многие отмечают успех моделей ИИ в написании кода и задаются вопросом о потенциальном желании крупных технологических компаний заменить часть штата на хорошо обученные алгоритмы. Модели отлично справляются с частными задачами, однако не умеют оценивать код и его вариации в рамках целостной системы, поэтому не могут заменить программистов.
Не стоит забывать и о протоколах безопасности: любая загруженная в бот информация может использоваться для его обучения. Существует вероятность, что однажды попавший в модель код может всплыть в любой точке мира как ответ на правильно заданный вопрос. Вероятность того, что бизнес готов к подобным рискам, невелика.
В первую очередь распространение инструментов на основе языковых моделей отразится на изменении KPI и структуры бизнес-процессов, а выполняемые людьми задачи станут сложнее. Первые программисты наизусть запоминали каждую команду и держали в голове сотни решений.
Появление библиотек, позволяющих «вызывать» необходимые строки и команды по ключевой фразе, не повлияло на количество рабочих мест.
Генеративный ИИ спровоцирует появление еще большего количества контента. При всем разнообразии сценариев развития ситуации смело можно предсказать появление новых профессий и/или расширение функционала ряда существующих.
Во-первых, контент необходимо структурировать и верифицировать, а во-вторых, созданные нейросетями тексты и изображения нуждаются в коррекции и дополнении. 16 марта Microsoft объявил о внедрении GPT в линейку офисных продуктов Microsoft365.
Помимо генерации контента, система предполагает интеграцию продукта Copilot в «деловой чат», который должен объединять данные текстовых документов, календаря, электронной почты, презентаций и заметок. Быстрая «суммаризация» информации призвана освободить менеджеров от части операционной нагрузки.
Подобные продукты — еще один пример того, как внедрение технологий ИИ в рабочие процессы влияет на перераспределение временных ресурсов сотрудников. Теперь 40 минут, которые раньше тратились на подготовку отчетов о проделанной работе, можно использовать для выполнения основных задач.
Первая революция в развитии технологий ИИ была связана с распространением глубокого обучения (deep learning). Оно сделало многие инструменты доступнее для небольших компаний и даже разработчиков-одиночек.
Именно глубокое обучение обеспечило каждому человеку возможность быстро показать свой вопрос на экране телефона незнакомцу из другой страны и понять, что он скажет в ответ.
Новая эпоха в технологическом развитии — это время базисных моделей (foundation models), огромных нейросетевых моделей, обучаемых большими компаниями. Наиболее сильными и качественными среди них как раз являются большие языковые модели, в том числе GPT-4.
Актуальная стратегия OpenAI и стремление ограничить доступ к основе технологии объяснимы и оправданы как с точки зрения бизнес-логики, так и с позиции этики инноваций. Несмотря на это, важно заметить, что эта стратегия предполагает создание коммерческой «форточки» к своей структуре для всех компаний, которые будут разрабатывать продукты на основе GPT.
Схема взаимодействия очень похожа на принцип маркетплейсов приложений: разработчики зависят от стоимости подписки и внутренних требований по содержанию и оформлению продуктов.
Так что ситуация в мире языковых моделей во многом зависит от изучения возможностей регулирования рынка, а развитие и поддержка проектов с открытым исходным кодом играют немаловажную роль в поддержании его баланса.