Большие языковые модели (LLM): что это такое и как они работают?
На волне хайпа вокруг ИИ высказываются все и вся, чем-то напоминая мне ситуацию вокруг Биткойна, когда вроде бы уважаемые люди вдруг начали говорить про него прямо противоположные вещи (криптовалюты это полезно — ИИ это полезно / запретить криптовалюты — запретить ИИ).
Хочу внести капельку рациональности в этот поток мыслей и рассказать как не нужно как можно использовать большие языковые модели на примере ChatGPT версии 4.0 в научной работе. Этот пост основан на научной статье, которую я опубликовал в соавторстве с В.Л. Макаровым и А.Р.
Бахтизиным.
Немного введения
То самое GPT из названия модели — это Generative Pre-Trained Transformer. Или, по-русски: авторегрессионная генеративная языковая модель на архитектуре трансформер.
Тоже по-русски, но ничего непонятно
Языковая модель нужна для понимания и генерации контента на естественном языке. Они бывают порождающие (генеративные) и дискриминантные.
Порождающие модели — статистические модели, которые основаны на анализе самих данных и позволяющие создавать новые экземпляры данных. Дискриминантные модели же модели тоже статистические, но решают задачу классификации данных.
Развитие глубокого обучения привело к широкому использованию различных нейронных сетей для решения задач обработки естественного языка (NLP), включая свёрточные нейронные сети (CNN), рекуррентные нейронные сети (RNN), нейронные сети на основе графов (GNN) и механизмы внимания.
Ключевым преимуществом этих нейронных моделей является их способность в некотором роде упростить разработку модели.
Традиционные не-нейронные подходы к задаче NLP зависят от дискретных, вручную создаваемых функций, в то время как нейросетевые методы обычно используют низкоразмерные и плотные векторы для неявного представления синтаксических или семантических аспектов языка.
Трансформер — архитектура глубоких нейросетей, которые как и RNN, предназначены для обработки текстов на естественном языке, перевода, суммаризации, но не требует обработки текста по порядку. Что открывает прекрасные возможности по распараллеливанию её работы.
Большое количество исследований проведённых за последнее время показало, что предварительно обученные модели (pre-trained models — PTM) на больших корпусах текстов могут обучиться универсальным языковым представлениям, которые полезны для последующих задач NLP и позволяют избежать обучения новой модели с нуля. С развитием вычислительной мощности, появлением глубоких моделей и постоянным совершенствованием навыков обучения архитектура PTM продвинулась от поверхностной к глубокой.
Поколения PTM моделей
Первое поколение PTM стремилось получить векторное представление слов.
Поскольку эти модели не нужны для последующих задач обработки языка, они обычно очень неглубоки с точки зрения вычислительной эффективности. Примерами таких моделей являются Skip-Gram и GloVe.
Полученные векторы хоть и могут передать семантические значения слов, но не зависят от контекста и не могут уловить более высокоуровневые концепции.
Второе поколение PTM сосредоточено на изучении контекстных векторных представлений слов и улучшении моделей первого поколения. Примерами таких моделей являются CoVe, ELMo, OpenAI GPT и BERT.
PTM третьего поколения основываются на втором поколении, с увеличенной производительностью и снятием некоторых ограничений. Нет чёткого определения этого поколения или списка моделей, однако можно выделить следующие характеристики:
- Улучшенное понимание контекста, захват сложных семантических отношений.
- Мультимодальное обучение: могут интегрировать информацию из нескольких источников или модальностей, таких как текст, изображения и аудио.
- Масштабируемость и эффективность: повышении производительности, например, с помощью методов сжатия моделей или более эффективных архитектур.
- Более сложные задачи предварительного обучения: лучшее улавливание лингвистических и структурных свойств входных данных.
Новейшим является четвёртое поколение моделей PTM. В дополнение к основным достижениям третьего поколения, добавляется следующее:
- Больше данных для обучения и больше параметров позволяет им улавливать более широкий спектр языковых моделей и нюансов.
- Улучшенные возможности понимания и генерации, что приводит к более связному и контекстуально точному созданию текста.
- Усовершенствованная точная настройка и перенос обучения. Можно увеличить производительность под конкретную задачу, например, перевод, реферирование и ответы на вопросы.
- Увеличение масштабируемости и эффективности.
На данный момент к четвёртому поколению моделей PTM относится только GPT-4 от компании OpenAI, а наиболее распространёнными моделями третьего поколения являются BERT и LLama.
Давайте рассмотрим эти модели не просто как универсальный инструмент, а как средство и метод для выполнения определённых задач научной работы. Очевидно, что существуют как серьёзные ограничения применения такого инструмента, так и потрясающие новые возможности помощи учёным и исследователям в разных областях науки.
Возможности применения ChatGPT в научной работе
Эта тема сейчас является горячо обсуждаемой в научных кругах. Но в силу инерционности классического процесса публикаций в науке качественных работ в этой области пока ещё не много. В основном преобладают разнонаправленные публикации по медицинской тематике, а также обсуждение проблемы плагиата. Чуть более подробно про это можно почитать в опубликованной научной версии статьи.
Я пользуюсь только четвёртым поколением модели, т.к. GPT-3.5 провалило слишком много моих тестов. Самым провальным на мой взгляд оказался тест на логику из мема ниже, притом в разных вариациях. Например, если 2 машины доехали из Москвы в Петербург за 5 часов, то 4 машины доедут за 2.5 часа, согласно умозаключению GPT-3.5.
Нанимает 9 женщин и думает, что они родят через месяц
Я попробовал применить ChatGPT в разных областях науки: медицине, химии, физике, биологии, но наглядно проиллюстрировать хочу примером, который касается области моих научных интересов (агентного моделирования).
Вот, представим, пишу я обзорную статью о больших агент-ориентированных моделях стран, и слышал, что есть такая экономическая модель Швейцарии под названием MIMOSE.
Спрашиваю ChatGPT: расскажи в каких научных статьях описывается эта модель для последующей ссылки в своей работе:
Скажи какую научную статью процитировать, когда пишешь о модели MIMOSE
Важно упомянуть, что этот вопрос был задан в контексте беседы, которая началась с нескольких вопросов про большие агент-ориентированные модели стран и регионов, и ChatGPT уже самостоятельно предоставил верное описание MIMOSE. Вот полный текст ответа, который выглядит очень убедительно, логично и связанно.
Если вы пишете о модели MIMOSE, то можете рассмотреть следующе статьи …
В первом же предложении ChatGPT представляет данные оригинальной статьи (Bretschger, Smulders 2012), в которой описывается модель MIMOSE.
Такая статья действительно существует и имеет такое же название, но, она была опубликована в 2003 году, а не в 2012, и вовсе не в Скандинавском журнале экономики, и вообще, она хоть и является статьей по тематике агент-ориентированного моделирования, но совсем никак не затрагивает модель Швейцарии под названием MIMOSE. Но почитайте, с какой безапеляционностью ChatGPT заявляет об обратном!
Следующая статья из списка (Bretschger, Valente 2012) тоже существует в реальности, также не имеет отношения к MIMOSE, год публикации указан верно, но опять модель ошиблась с журналом указав другой реально существующий академический журнал Resource and Energy Economics, вместо Journal of Environmental Economics and Management. Статьи за авторством Karydas, Katsikas et al найти вообще не удалось, но даже судя по названию она не соответствует заявленной тематике вопроса. Заключительная ссылка на статью авторов Rutherford, Tarr также является вымыслом системы, хотя такие авторы существуют в реальности и публикуют статьи на схожие тематики.
В попытке дать ChatGPT возможность сохранить лицо, попросили её указать на статью, в которой описывается сама модель MIMOSE:
Вопрос был задан в рамках той же беседы с контекстом, и между ними не было никаких дополнительных разговоров. На что был получен вот такой ответ:
Извините пжлста, модель в деталях описана в статье…
ChatGPT извиняется за свою ошибку, хотя ни в одном запросе не упоминается об ошибочности выданной информации.
И снова выдаёт новую вариацию на статью авторов Bretschger et al, утверждая, что в ней даётся исчерпывающий обзор агент-ориентированной модели MIMOSE, особенностей её реализации, структуры модели, включая используемые типы агентов.
Ещё раз акцентирую внимание на то, с какой уверенностью подаётся абсолютно ложная информация, даже после уточняющего вопроса.
Заключение
Большие языковые модели (LLM): что это такое и как они работают?
Данная статья является переводом. Ссылка на оригинал.
В начале 17 века математик и астроном по имени Эдмунд Гантер столкнулся с исключительной астрономической задачей. Вычисление движения планет и предсказание затмений требовали больше чем просто интуиции — были необходимы знания сложных логарифмических и тригонометрических уравнений. Поэтому, как и любой другой опытный изобретатель, Гантер решил построить их с нуля! Он создал аналоговое вычислительное устройство, которое впоследствии стало известно как логарифмическая линейка.
Будучи прямоугольным деревянным блоком длиной в 30 сантиметров, логарифмическая линейка состоит из двух частей: фиксированной рамы и подвижной части. На раме есть неподвижные логарифмические шкалы и подвижная шкала.
Чтобы использовать такую линейку, нужно понимать базовые принципы логарифмов и как сопоставить шкалы для умножения, деления и других математических операций.
Надо было сдвинуть подвижную часть для сопоставления чисел, прочесть результат и учесть расположение десятичной точки.
Логарифмическая линейка
Примерно через 300 лет, в 1961 году, Bell Punch Company представила первый настольный калькулятор, ANITA Mk VII. В течение следующей пары десятилетий электронные калькуляторы стали более сложными.
Задачи, ранее требовавшие длинных вычислений, претерпели заметное снижение необходимого на их выполнение рабочего времени, что позволило работникам сфокусироваться на более аналитических и креативных аспектах их работы.
В результате современный электронный калькулятор не только изменил рабочие роли, но также проложил дорогу для больших возможностей решения различных задач.
Калькулятор стал прорывом в выполнении математических операций. Что насчёт языка?
Подумайте о том, как вы составляете предложения. Для начала необходима идея. Затем надо знать какие-то слова (словарный запас). Потом стоит уметь соединять их в правильные предложения (грамматика).
Мы довольно последовательно производили слова 50 000 лет назад, как раз, когда современный человек впервые придумал язык.
Справедливо будет сказать, что когда речь идёт о формировании предложений, мы всё ещё находимся в Гюнтеровской эре использования логарифмической линейки!
Если задуматься, использование подходящих лексикона и грамматики — это просто следование правилам. Правилам языка.
Это похоже на математику. Она полна правил. Вот почему я могу быть уверен в том, что 1+1=2, и в том, как работают калькуляторы!
Интересно, перейти к каналу
Что нам нужно, так это калькулятор, но для слов!
Да, разные языки следуют разным правилам, но эти правила должны выполняться, чтобы языки были понятны. Очевидная разница между языками и математикой состоит в том, что в математике есть однозначные ответы, в то время как количество подходящих слов, которые можно вставить в предложение, может быть огромным.
Попробуйте закончить предложение: Я съел _________. Представьте возможные слова, которыми можно его продолжить. В английском примерно 1 миллион слов. Многие из них можно использовать здесь, но точно не все.
Ответ «чёрную дыру» будет эквивалентом заявления, что 2+2=5. Ответ «яблока» также будет неверным. Почему? Из-за грамматики!
В последние месяцы Большие Языковые Модели (LLM) захватили мир. Некоторые называют их прорывом в обработке естественного языка, а другие видят в них начало новой эры искусственного интеллекта (ИИ).
LLM оказались особенно хороши в образовании текста похожего на человеческий, поднимая планку для языковых приложений с ИИ. С учётом широкой базы знаний и контекстуального понимания LLM можно применять в различных сферах начиная от переводов и генерации контента и заканчивая виртуальными помощниками и чатботами поддержки клиентов.
Вопрос: настал ли такой же переломный момент с LLM, какой был в 1960-х с электронным калькулятором?
Прежде чем ответить на это, разберём, как работают LLM. Они основаны на трансформерах, которые используются для вычисления и определения, какие слова лучше всего подойдут предложению. Чтобы построить мощную нейронную сеть-трансформер, необходимо обучить её на огромном количестве текстовых данных.
Вот почему подход «предположить следующее слово/токен» так хорошо работает: обучающие данные легко достать. На вход LLM берёт всю цепочку слов и определяет, какое слово с наибольшей вероятностью будет дальше.
Чтобы изучить, что скорее всего будет дальше, LLM прочёсывают всю Википедию в качестве разминки, прежде чем перейти на книги, а потом и весь интернет.
Ранее мы установили, что язык содержит правила и паттерны. Модель косвенно учит эти правила, перебирая все эти предложения, чтобы спрогнозировать следующее слово.
Глубинная нейронная сеть
После существительного во множественном числе с большой вероятностью последует глагол с окончанием «и». В том же духе, при чтении Шекспира повышаются шансы увидеть слова по типу «дабы» и «посему».
Во время обучения модель учит эти языковые паттерны, постепенно становясь экспертом!
Но достаточно ли этого? Достаточно ли изучения языковых правил?
Язык запутан — одно слово принимает множество значений в зависимости от контекста.
Поэтому — механизм самовнимания. Простыми словами, самовнимание — это техника, которая используется LLM для понимания закономерностей между различными словами в предложении или тексте.
Как мы обращаем внимание на разные части истории, чтобы понять её, так и самовнимание позволяет LLM придать большее значение определённым словам в процессе обработки информации.
Так модель лучше понимает общий смысл и контекст текста, а не вслепую предугадывает слово на основании лишь языковых правил.
Механизм самопонимания
Если LLM — это калькуляторы слов, просто предугадывающие следующее слово, то как они отвечают на все мои вопросы?
Когда вы просите Большую Языковую Модель сделать что-то умное, и она работает, то высока вероятность того, что она уже видела тысячи примеров выполнения этого задания. И даже если вы придумаете что-либо уникальное, например:
«Напиши мне стихотворение о том, как косатка ест курицу»
Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins.
With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one.
ChatGPT
Довольно неплохо, да? Благодаря своему механизму самовнимания, модель может успешно смешать и сопоставить подходящую информацию, чтобы создать правдоподобный и связный ответ.
Во время процесса обучения LLM учатся распознавать паттерны, ассоциации и отношения между словами и фразами. В результате этого экстенсивного обучения и регуляции LLM могут показывать эмердживные свойства, такие как умение переводить тексты, реферировать, отвечать на вопросы и даже практиковать креативное письмо. Эти умения выходят за рамки того, что было явно запрограммировано в модель.
Большие Языковые Модели разумны?
Электронный калькулятор существует уже более шести десятилетий. Сам инструмент развивался семимильными шагами, но никогда не считался разумным. Почему?
Тест Тьюринга — это обманчиво простой метод определения, проявляет ли машина интеллект, как у человека: если машина может вступить в диалог с человеком и быть от него неотличимым, предполагается, что она обладает человеческим разумом.
Калькулятор никогда не подвергался тесту Тьюринга, потому что он общается не тем же языком, что и люди, а только языком математики. С другой стороны, LLM генерируют человеческий язык. Весь их процесс обучения завязан на подражании ему. Поэтому не удивительно, что они могут «вступить в диалог с человеком и быть от него неотличимыми».
Сложно сказать, что LLM «разумны», потому что нет точной договорённости о значении разума. Определить, разумно ли что-либо, можно по тому, делает ли это что-то интересные, полезные и не очень очевидные вещи. LLM входят в эту категорию. Тем не менее я полностью несогласен с этой точкой зрения.
Я определяю разумность как способность расширить границы знаний
На момент написания данной статьи машина, обученная определять следующие токены/слова, всё ещё не способна расширить эти границы.
Что она может, так это интерполировать на основе тренировочных данных. Нет явного понимания логики, как нет и дерева знаний. Как следствие, такая машина никогда не сможет придумать выдающиеся идеи или испытать момент прозрения. Она всегда будет давать точные, но довольно обычные ответы.
Так что это значит для людей?
Мы должны относиться к LLM скорее как к калькулятору для слов. Никогда не делегируйте всё своё мышление языковой модели.
В то же время, так как эти модели становятся всё лучше, можно начать чувствовать себя всё более подавленными и незначительными.
Решением такой проблемы является постоянный интерес к идеям по виду не связанным между собой.
Идеям, которые на первый взгляд кажутся бессвязными, но начинают иметь смысл с учётом нашего взаимодействия с окружающим миром. Надо жить на краю знаний, создавая и сопоставляя новые факты.
При таком раскладе все виды технологий, будь то калькулятор или большая языковая модель, станут инструментами, а не экзистенциальной угрозой.
ᐈ Большие языковые модели: основы для тех, кто хочет строить продукты на их базе
Продукты на основе генеративного искусственного интеллекта стремительно ворвались в нашу реальность за последний год.
Еще несколько лет назад было сложно представить, что модели смогут генерировать изображения на основе текста или писать эссе в форме стихов на заданную тему. Причем делать это на уровне, который не уступает человеку. Сегодня продуктами на основе таких моделей пользуются миллионы людей, решая самые разнообразные задачи.
ChatGPT — один из самых ярких примеров продуктов, построенных на основе генеративного AI. Несмотря на отсутствие традиционного маркетинга, ему удалось стать самым быстрорастущим сервисом в истории.
Для многих такие технологии выглядят как магия, которая открывает невероятные возможности. Бизнес не стал исключением в погоне за этими возможностями: CEO и основатели компаний начали активно требовать от своих команд найти способы внедрения решений на базе генеративного AI в свои продукты.
Но чтобы действительно создать ценность с помощью этих технологий, необходимо понимать их основы: как они работают, где именно принесут пользу, какие у них ограничения и риски.
В этом материале мы простыми словами и без сложной математики разберем, как работают большие языковые модели (подмножество технологии генеративного AI для работы с текстом). Это позволит вам понимать возможности и степени свободы этой технологии, чтобы строить на ее основе новые продукты.
Принцип работы больших языковых моделей
Термин большие языковые модели (large language models, LLM) не имеет строгого определения, обычно под ним понимают модели, которые содержат огромное количество параметров (миллиарды) и были обучены на огромных объемах текстовых данных.
Принцип работы таких моделей достаточно прост:
- Модель получает на вход «промпт» (запрос от пользователя или набор слов) и далее подбирает наиболее подходящее следующее слово.
- После этого полученная строка вновь подается на вход модели и она подбирает еще одно слово.
- И так далее.
Так получается «разумное продолжение» на основе изначального запроса. Для пользователя это выглядит как ответ, который имеет смысл.
Промпт (prompt, подсказка, затравка) в данном случае — главный элемент управления. Генерация текста происходит именно на основе исходного запроса, поэтому, меняя и оптимизируя промпт, можно улучшать результат работы модели.
Как LLM генерирует связный текст
Для начала рассмотрим то, как именно LLM генерирует разумное продолжение.
Допустим, модель начала свой ответ с фразы «AI сегодня преобразует». Как она строит разумное предложение дальше?
Представьте, что мы просканировали весь интернет и нашли все случаи, где упоминается фраза «AI сегодня преобразует».
После этого мы взяли все слова, следующие за этой строкой, и вычислили, с какой вероятностью встречалось каждое из них. Например, мы могли получить следующий результат:
После этого на основе этих вероятностей можно выбрать следующее слово. В данном случае модель может добавить к «AI сегодня преобразует» слово «все».
Но она может выбрать и иное слово: это зависит от настроек модели и решаемой задачи. Например, для креативных задач хорошо работает механика, когда не всегда выбирается слово с максимальной вероятностью.
Это делает язык более «живым» и более оригинальным.
Следующим шагом можно повторить эти действия, используя строку с добавленным новым словом — «AI сегодня преобразует все». Задача LLM — определять, каким должно быть следующее слово на основе текста, который подан ей на вход. После добавления нового слова запускается процесс поиска следующего слова — и так далее.
В примере выше мы схематично показали, как работает LLM на примере подбора следующих слов предложения. При этом в реальности LLM работает не со словами, а со смыслом слов и предложений. Давайте обсудим, что это значит.
Как LLM понимает смысл текста
Приведенное выше объяснение — лишь вершина айсберга. На сегодня нельзя с уверенностью и простыми словами объяснить, как именно LLM «понимает» текст, но можно выделить несколько важных компонентов этого процесса:
LLM представляет каждое слово как точку в многомерном пространстве. Это пространство обычно очень сложное. Например, в моделях GPT-3 размерность около 10 000, то есть для описания каждого слова используется набор из около 10 000 чисел, который называется термином эмбеддинг (embedding).
↓
За счет обучения на огромном объеме данных получается добиться того, что близкие по смыслу слова становятся близкими точками, и математические операции над ними (сравнение близости, сложение, усреднение и так далее) начинают иметь практический смысл. Это позволяет модели находить синонимы, сравнивать смысл текстов, перефразировать тексты. Таким образом, модель работает не с фактическими словами, а с их смыслами.
↓
LLM моделирует взаимосвязи между словами. При определении следующего слова, его вероятность будет зависеть от смысла всех предыдущих слов с учетом их позиции в тексте. Этот механизм получил название causal self attention, именно он позволяет модели понимать смысл слов в зависимости от контекста их использования.
↓
Для обучения модели используются огромные массивы текстов. Современные модели могут обучаться на десятках терабайтов текста.
Это дает возможность проанализировать настолько большое количество информации, что модель получает в некотором смысле универсальное знание практически обо всем.
При этом стоит учитывать, что это знание напрямую зависит от того, на чем модель училась (это запросто могут быть не совсем достоверные данные).
↓
Сама модель имеет очень большое число параметров: десятки, а иногда сотни миллиардов параметров. За счет этого получается «запомнить» все стандартные конструкции большого числа языков, включая языки программирования, смыслы слов и терминов, стили текста и правила логических рассуждений.
↓
Универсальная языковая модель затем часто дообучается под конкретную задачу. Задачей может быть диалог, ответы на вопросы, дополнение или редактирование текста, классификация. Дообучение (fine-tuning) происходит с использованием данных, которые отражают специфику конечной задачи. Например, для дообучения ChatGPT (в качестве фундаментальной модели используется GPT-3.
5 и GPT-4) использовались большие выборки вопросов и ответов в диалоговой форме, которые тщательно составлялись коллективом экспертов. Также для дообучения используется ручная разметка ответов, которые были созданы моделью с целью различить подходящие и неподходящие ответы.
Именно дообучение позволяет добиться того, чтобы модель следовала инструкциям, которые указываются в промпте.
Риски и особенности применения LLM
Если вы думаете об использовании LLM в своем продукте или же построении нового сервиса, важно учитывать следующее.
Во-первых, LLM может сгенерировать все, что угодно. Ответы современных моделей не проходят фактчекинг. Это означает, что вы можете получить в ответ недостоверную, опасную или токсичную информацию. Эта проблема получила название AI-галлюцинаций и сейчас привлекает внимание ведущих ученых.
Во-вторых, размер текста, который можно задавать на вход модели, ограничен, размер ответа модели также имеет ограничения.
- Это означает, что если вы хотите обработать текст большого размера, например сделать перевод книги или написать выжимку из длинной статьи или дать ответ, согласно длинной инструкции, то для этого потребуется придумать алгоритм обработки текста по частям.
В-третьих, важно осознавать риски, связанные с передачей персональных и иных корпоративных данных, при использования моделей через API облачных сервисов.
Как оценить перспективы использования LLM в своем продукте
Чтобы принять решение об использовании LLM в вашем продукте, постарайтесь ответить на вопрос: «Если модель сгенерирует неправдоподобную/ложную/токсичную информацию, будет ли это безопасно для пользователя?»
- Если да — LLM можно использовать.
- Если нет — лучше либо воздержаться от использования технологии в вашем продукте, либо продумать и реализовать необходимые правила фильтрации такого контента, чтобы минимизировать риски.
Для использования LLM в продуктах и сервисах наиболее безопасны кейсы, когда ответ модели проходит дополнительную обработку сценариями верификации или используется в качестве ассистента-помощника для человека, который осознает ограничения этой технологии и не допускает реализации негативных рисков.
Примеры крупных продуктов на базе LLM
Вот несколько примеров новых успешных продуктов, которые построены на основе LLM моделей. Более полный список успешных кейсов применения LLM для конечного пользователя мы рассмотрим в следующих материалах цикла.
- ChatGPT – универсальный чат-бот;
- Bing Chat — новый интерфейс поисковой системы Bing, построенный на технологии LLM;
- Anthropic — предоставляют API для встраивания LLM в продукты, например на базе этого API построена фича “Ask AI” в Notion;
- Copilot, который, по данным GitHub, сегодня участвует в написании 46% кода (среди разработчиков, которые его используют) и помогает им писать код на 55% быстрее;
- Jasper — сервис для создания контента сайтов, постов в блогах и социальных сетях;
- Perplexity AI – диалоговая поисковая система.
Продолжение серии про генеративный AI
Этот материал — первый в серии публикаций о возможностях генеративного AI: какие существуют инструменты и перспективные бизнесы на их основе, какие возможности и ограничения есть у таких технологий.
Приобрести и отточить навыки управления продуктами с искусственным интеллектом и машинным обучением вам поможет «Симулятор управления ML/AI-проектами» от GoPractice.
От GPT до BERT: Полный гайд по большим языковым моделям
Большие языковые модели (или LLM) являются видом искусственного интеллекта, спроектированные для анализа и создания больших объемов текстовой информации. Эти модели AI, основанные на методиках глубокого обучения, используют подкатегорию нейронных сетей, называемую преобразователями.
Их основное применение находится в области обработки естественного языка (NLP), включая такие задачи, как перевод текста, категоризация информации, определение эмоциональной окраски текста, создание новых текстов и предоставления ответов на вопросы.
Для обучения этих моделей используется огромное разнообразие данных из различных источников.
Одним из отличительных признаков LLM является их масштаб, причем некоторые из наиболее эффективных моделей насчитывают сотни миллиардов параметров.
В этой статье попытаемся разобраться, какова важность больших языковых моделей? Как они работают, какие есть типы и, конечно же, рассмотрим работу LLM на примерах.
Почему большие языковые модели так важны?
Прогресс в области искусственного интеллекта и генеративных моделей ИИ переписывает правила взаимодействия между человеком и машиной. Большие языковые модели (LLM) с их сотнями миллиардов параметров служат мостом, сокращающим этот разрыв.
Эти модели оказываются неоценимыми в решении задач, связанных с общением и языком. Они могут создавать тексты, похожие на человеческие, и выполнять разнообразные функции — от суммирования текстов и перевода языков до создания содержания и анализа эмоциональной окраски.
Однако их применение не ограничивается только сферой IT. В медицине, науке и даже в геномике они находят своё применение. Например, языковые модели могут анализировать последовательности ДНК или помогать в проектировании белков. В области обслуживания клиентов они часто стоят за умными чат-ботами и другими инструментами для диалогового взаимодействия.
Как функционируют крупномасштабные языковые модели?
Для того чтобы большая языковая модель (LLM) была эффективной, её первоначально обучают на обширном массиве данных, известном как корпус. Эта модель может адаптироваться к разнообразным типам данных, прежде чем пройти через этапы обработки в нейронной сети-трансформере.
После фазы предобучения на гигантских данных, модель может быть дополнительно настроена на выполнение специфических задач с помощью более узкого набора данных, относящегося к этой задаче. Обычно обучение LLM проходит через различные этапы, включая обучение без учителя, полунадзорное и самонадзорное обучение.
Основой для больших языковых моделей служат алгоритмы глубокого обучения, в частности, структура нейронных сетей, называемая трансформерами. Эти трансформеры были впервые представлены в исследовательской работе 2017 года под названием «Внимание — это все, что вам нужно», авторами которой были Ашиш Васвани, Ноам Шазир, Ники Пармар и другие.
Архитектура трансформера состоит из кодера и декодера. Кодер преобразует входные данные в определенный формат, а декодер затем использует эти преобразованные данные для создания окончательного вывода или прогноза.
Ключевым элементом в архитектуре трансформера является механизм многоголового внимания. Этот компонент позволяет модели оценить важность различных элементов входных данных при формировании прогноза для определенного элемента.
Такая «многоголовая» структура дает возможность модели рассматривать разнообразные взаимосвязи между элементами на различных уровнях детализации и абстракции.
Типы больших языковых моделей
Типы больших языковых моделей (LLM) действительно разнообразны и предназначены для различных применений в мире NLP (обработка естественного языка) и даже за его пределами. Вот несколько основных типов:
- Модель языкового представления (Language Representation Model). Эти модели, такие как GPT (Generative Pre-trained Transformer), BERT (Bidirectional Encoder Representations from Transformers) и RoBERTa, предварительно обучены на больших текстовых корпусах. Они могут быть далее настроены для выполнения конкретных задач, например, классификации текста, машинного перевода или генерации текста. Они служат своего рода «основой» для различных приложений NLP.
- Модели с нулевым выстрелом (Zero-Shot Models). Эти модели удивительны своей способностью выполнять задачи, для которых они не были специально обучены. GPT-3 — хороший пример такой модели. Он может отвечать на вопросы, переводить текст, создавать контент и многое другое, причём без специальной настройки под конкретную задачу.
- Мультимодальные модели (Multimodal Models). В отличие от традиционных языковых моделей, эти модели могут обрабатывать не только текст, но и другие типы данных, такие как изображения. Примером может служить модель CLIP от OpenAI, которая может связывать текст с изображениями, что делает её полезной для задач, таких как автоматическое описание фотографий или поиск изображений по текстовому запросу.
- Специфичные для предметной области модели (Domain-Specific Models). Эти модели настроены для работы в конкретных отраслях или задачах. Например, GPT-3 можно дополнительно настроить на медицинские тексты, чтобы создать чат-бота для консультации или помощи в диагностике.
Каждый из этих типов моделей имеет свои преимущества и ограничения, но общим для всех является то, что они представляют собой результаты значительных исследований и инноваций в области машинного обучения и искусственного интеллекта. Они предоставляют мощные инструменты для разработчиков и исследователей, помогая решать реальные задачи, от автоматического создания контента до сложных научных исследований.
Примеры больших языковых моделей
В области больших языковых моделей (LLM) существует множество интересных и мощных примеров, разработанных разными компаниями и исследовательскими лабораториями. Это действительно динамичная и быстро развивающаяся область, и каждая модель имеет свои уникальные особенности и применения. Рассмотрим некоторые из них:
- PaLM (Pathways Language Model)
Что такое модель большого языка (LLM)? – КакAI.Work
- Поскольку ChatGPT покорил Интернет, охватив 1 миллион пользователей за первые 5 дней, вам может быть интересно, какой алгоритм машинного обучения работает под капотом.
- Хотя ChatGPT использует особый тип обучения с подкреплением, называемый «Обучение с подкреплением на основе обратной связи с человеком (RLHF)», на высоком уровне это примерМодель большого языка (LLM).
- В этом руководстве мы обсудим все, что вам нужно знать о больших языковых моделях, включая ключевые термины, варианты использования и многое другое:
- Что такое модель большого языка (LLM)?
- 7 ключевых терминов, которые нужно знать о LLM
- Основные алгоритмы, используемые в LLM
- Точная настройка больших языковых моделей
- Понимание искусства оперативного проектирования
- Ограничения LLM
Мы — независимая группа инженеров по машинному обучению, количественных аналитиков и энтузиастов квантовых вычислений. Подпишитесь на нашу рассылку и никогда не пропустите наши статьи, последние новости и т. д.
Зарегистрироваться
Большой! Проверьте свой почтовый ящик и нажмите ссылку.Извините, что-то пошло не так. Пожалуйста, попробуйте еще раз.
Что такое модель большого языка (LLM)?
- Большие языковые модели — это подмножество искусственного интеллекта, которое было обучено на огромных объемах текстовых данных (читай: весь Интернет в случае ChatGPT) для создания человеческих ответов на диалог или другие входные данные на естественном языке.
- Чтобы получить ответы на естественном языке, LLM используютглубокое обучениемодели, которые используют многослойные нейронные сети для обработки, анализа и прогнозирования сложных данных.
- LLM уникальны своей способностью генерировать высококачественный связный текст, который часто неотличим от человеческого.
- Такая современная производительность достигается за счет обучения LLM на огромном корпусе текста, обычно не менее нескольких миллиардов слов, что позволяет ему изучать нюансы человеческого языка.
- Как уже упоминалось, одним из самых известных LLM является GPT-3, что означает «Генераторный предварительно обученный трансформатор 3», разработанный OpenAI.
- Обладая 175 миллиардами параметров, GPT-3 является одним из крупнейших и наиболее мощных LLM на сегодняшний день, способным решать широкий спектр задач на естественном языке, включая перевод, обобщение и даже написание стихов.
- ChatGPT — это расширение GPT-3, и, как они подчеркивают в своихСообщение блога:
ChatGPT — это доработанная версия модели серии GPT-3.5, обучение которой завершилось в начале 2022 года. Подробнее о серии 3.5 можно узнать.здесь.
7 ключевых терминов, которые нужно знать о LLM
Прежде чем мы углубимся в подробности о LLM, давайте сначала рассмотрим несколько ключевых терминов, которые необходимо знать, в том числе:
- Встраивание слов:Алгоритм, используемый в LLM для представления значения слов в числовой форме, чтобы его можно было передать в модель искусственного интеллекта и обработать.
- Механизмы внимания:Алгоритм, используемый в LLM, который позволяет ИИ сосредоточиться на определенных частях входного текста, например, на словах текста, связанных с настроением, при генерации выходных данных.
- Трансформаторы:Тип архитектуры нейронной сети, популярный в исследованиях LLM, который использует механизмы самообслуживания для обработки входных данных.
- Тонкая настройка:Процесс адаптации LLM для конкретной задачи или области путем обучения его на меньшем и актуальном наборе данных.
- Оперативное проектирование:Умелое планирование входных данных побуждает LLM производить высококачественные и последовательные результаты.
- Предвзятость:Наличие систематических, несправедливых предпочтений или предубеждений в наборе обучающих данных, которые затем могут быть изучены LLM и привести к дискриминационным результатам.
- Интерпретируемость:Способность понимать и объяснять результаты и решения системы искусственного интеллекта, что часто является сложной задачей и постоянной областью исследований для LLM из-за их сложности.
Основные алгоритмы, используемые в LLM
- Область обработки естественного языка, а точнее модели большого языка (LLM), основана на ряде алгоритмов, которые позволяют этим моделям ИИ обрабатывать, понимать и выводить данные как можно ближе к человеческому языку.
- Давайте кратко и более подробно рассмотрим некоторые из основных алгоритмов, используемых в LLM, упомянутых выше, включая встраивание слов, механизмы внимания и преобразователи.
- Встраивание слов
Встраивание слов — это основополагающий алгоритм, используемый в LLM, поскольку он используется для представления значения слов в числовом формате, который затем может быть обработан моделью ИИ.
Это достигается путем сопоставления слов с векторами в многомерном пространстве, где слова со схожим значением расположены ближе друг к другу.
Механизмы внимания
Механизмы внимания — еще один важный алгоритм в LLM, позволяющий ИИ сосредоточиться на определенных частях входного текста при генерации вывода. Это позволяет LLM учитывать контекст или настроение данного ввода, что приводит к более последовательным и точным ответам.
Трансформеры
Трансформаторы — это тип архитектуры нейронных сетей, который стал популярным в исследованиях LLM. Эти сети используют механизмы самообслуживания для обработки входных данных, что позволяет им эффективно фиксировать долгосрочные зависимости в человеческом языке.
Эти алгоритмы имеют решающее значение для эффективности LLM, поскольку они позволяют им обрабатывать и понимать входные данные на естественном языке и генерировать выходные данные, максимально похожие на человеческие.
Точная настройка больших языковых моделей
- Точная настройка больших языковых моделей — это процесс адаптации модели общего назначения для конкретной задачи или предметной области.
- Это достигается путем обучения LLM на меньшем наборе данных, который соответствует поставленной задаче, например, путем предоставления набора подсказок и идеальных ответов, чтобы ИИ мог изучить закономерности и нюансы этой конкретной области.
- Например, хорошо настроенный LLM может быть обучен:
- Набор данных медицинских записей для помощи в постановке медицинских диагнозов.
- Набор данных юридических документов для предоставления юридических консультаций.
- Набор финансовых данных, например документы SEC или аналитические отчеты.
Такой индивидуальный подход часто приводит к более высокой производительности при выполнении конкретной задачи по сравнению с использованием LLM общего назначения, такого как ChatGPT.
Как пишет OpenAI в своемДокументация по тонкой настройке GPT-3:
GPT-3 был предварительно обучен на огромном объеме текста из открытого Интернета. Если дать подсказку с несколькими примерами, часто можно интуитивно понять, какую задачу вы пытаетесь выполнить, и сгенерировать правдоподобное завершение. Это часто называют «обучением за несколько шагов».
Точная настройка улучшает обучение с помощью нескольких шагов за счет обучения на гораздо большем количестве примеров, чем может уместиться в подсказке, что позволяет вам достичь лучших результатов при выполнении широкого круга задач.
После точной настройки модели вам больше не нужно будет предоставлять примеры в командной строке.
Точная настройка LLM также может помочь устранить смещение, которое может присутствовать в исходных данных обучения. В частности, используя более целенаправленный набор данных, LLM можно обучать на разнообразном наборе входных данных, что снижает вероятность дискриминационных результатов.
При этом важно отметить, что точная настройка LLM имеет некоторые ограничения. Например, производительность модели ИИ может быть ограничена качеством и размером набора данных точной настройки.
Кроме того, точная настройка LLM может оказаться трудоемким и ресурсоемким процессом, поскольку вам необходимо подготовить все подсказки и ответы, что часто требует значительного опыта в предметной области.
Несмотря на эти проблемы, точно настроенные LLM являются важным достижением в области обработки естественного языка, поскольку они обеспечивают повышенную производительность и снижение предвзятости для конкретных задач и областей.
В дополнение к тонкой настройке LLMS для повышения производительности, по мере того, как вы глубже погружаетесь в мир LLM, вы обнаружите, что ключевой частью создания высококачественных результатов является «искусство оперативного проектирования».
Понимание искусства оперативного проектирования
Искусство оперативного проектирования подразумевает умелое проектирование входных данных для моделей большого языка (LLM) для получения высококачественных и последовательных результатов. Это важнейший аспект работы с LLM, поскольку качество ввода может сильно повлиять на качество сгенерированного текста.
Оперативное проектирование предполагает тщательную подготовку входных данных для LLM, чтобы направить его реакцию в определенном направлении. Это может включать предоставление конкретной темы или контекста, по которым система ИИ будет генерировать текст, или предоставление конкретных слов или фраз для включения в выходные данные.
Эффективное оперативное проектирование требует глубокого понимания возможностей и ограничений LLM, а также художественного чувства того, как создать убедительный вклад. Это также требует пристального внимания к деталям, поскольку даже небольшие изменения в подсказке могут привести к значительным изменениям в выводе.
Одним из ключевых аспектов оперативной разработки является предоставление LLM достаточного контекста для создания связного текста. Это может включать предоставление исходной информации или определенное оформление входных данных, которое поможет модели понять контекст и дать соответствующий ответ.
Вот интересная тема о том, как оперативное проектирование может исчезнуть (или, по крайней мере, измениться) по мере совершенствования LLM:
Ограничения LLM
Модели больших языков (LLM), несомненно, являются интересной областью искусственного интеллекта, однако эти алгоритмы имеют несколько ключевых ограничений, которые полезно понимать и учитывать.
Одним из ключевых ограничений программ LLM является их восприимчивость кпредвзятость.
Как мы уже говорили, LLM обучаются на огромном количестве текстовых данных, хотя, как вы, вероятно, знаете из прокрутки Твиттера… эти входные данные могут включать в себя значительное количество систематических ошибок, присутствующих в данных. Результатом предвзятости входных данных являются дискриминационные результаты работы ИИ, усиливающие существующее социальное неравенство.
- Еще одним ограничением программ LLM является отсутствие у нихинтерпретируемость.
- LLM — это довольно сложные алгоритмы, а глубокое обучение в целом часто называют «черным ящиком», что затрудняет точное понимание того, как и почему модель пришла к определенному результату.
- Это может затруднить доверие к результатам LLM и поднять вопросы об их использовании в сценариях принятия решений с высокими ставками.
Наконец, существенным ограничением могут быть огромные размеры и вычислительная мощность, необходимые для обучения и запуска LLM. LLM и, в более широком смысле, глубокое обучение требуют огромных объемов данных и вычислительных ресурсов, что делает их разработку и обслуживание довольно дорогими, не говоря уже о потенциально вредных для окружающей среды.
В целом, хотя программы LLM являются впечатляющим достижением в области ИИ, они также имеют важные ограничения, которые необходимо учитывать. Поскольку программы LLM продолжают играть все более важную роль в нашей повседневной жизни, исследователям и разработчикам придется устранить эти ограничения, чтобы полностью раскрыть свой потенциал.
Как уже говорилось, модели большого языка (LLM) — это тип искусственного интеллекта, который был обучен на огромном массиве текстовых данных для создания человеческих ответов на вводимые данные на естественном языке.
- Ключевые термины, которые нужно знать о LLM:Встраивание слов, механизмы внимания, преобразователи, точная настройка, быстрое проектирование, предвзятость, интерпретируемость
- Основные алгоритмы включают в себя:Встраивание слов, механизмы внимания, преобразователи
- Точная настройка LLM:Это относится к адаптации LLM для конкретной задачи или области путем обучения его на меньшем, актуальном наборе данных.
- Оперативное проектирование:Это умелая разработка входных данных для LLM для получения высококачественных и последовательных результатов.
- Предвзятость:Это относится к наличию систематических, несправедливых предпочтений или предубеждений в наборе данных, которые могут быть изучены LLM и привести к дискриминационным результатам.
- Интерпретируемость: способность понимать и объяснять результаты и решения системы искусственного интеллекта, что является проблемой для LLM из-за их сложности.
В заключение отметим, что модели большого языка (LLM) являются захватывающей разработкой в области искусственного интеллекта, и, поскольку ChatGPT становится настолько вирусным, кажется, что их использование в повседневной жизни будет только увеличиваться в ближайшие годы.
Хотя, безусловно, существуют проблемы и этические соображения, которые необходимо решить, потенциальные возможности использования LLM обширны и разнообразны.
Поскольку LLM продолжают развиваться и развиваться, они, вероятно, будут играть все более важную роль в широком спектре отраслей и приложений. Итак, независимо от того, являетесь ли вы поклонником естественного языка или просто интересуетесь искусственным интеллектом, очевидно, что за LLM стоит следить.
Если вы хотите узнать, как использовать Embeddings & GPT-3 Completions API для создания простых веб-приложений с помощью Streamlit, посмотрите наши видеоуроки ниже:
- MLQ Academy: создайте собственного бота для вопросов и ответов с помощью GPT-3 и встроенных компонентов
- MLQ Academy: помощник по преобразованию PDF в вопросы и ответы с использованием встроенных технологий и GPT-3
- Академия MLQ: создайте видеопомощник для YouTube с помощью Whisper и GPT-3
- MLQ Academy: создайте помощника по звонкам по доходам с поддержкой GPT-3
- MLQ Academy: создание приложения с поддержкой GPT-3 с помощью Streamlit