С LLaMa и Alpaca вы можете использовать чат-бота, такого как ChatGPT, локально, больше не завися от облака.

С LLaMa и Alpaca вы можете использовать чат-бота, такого как ChatGPT, локально, больше не завися от облака.

в машинное обучение обучение и логический вывод являются двумя основными этапами в процессе разработки модели.

Л’обучение это этап, на котором модель обучается на наборе данных, как правило, очень большом, чтобы оптимизировать возможности искусственного интеллекта и правильность предоставляемых ответов. На этом этапе модель использует алгоритм обучения, чтобы попытаться найти взаимосвязь между характеристиками входных данных и «подходящей» информацией, которая будет предложена на выходе. В процессе обучения модель старается минимизироватьошибка предсказания на данных обучения и улучшить его производительность. Обучение может занять много итераций, во время которых модель обновляется новыми данными, чтобы улучшить себя.

Фаза обучения обычно требует много времени и огромных (и дорогих) аппаратных ресурсов: только подумайте, чтобы добраться до Генеративная модель GPT-3OpenAI использовал бы более 250 000 ядер ЦП, более 10 000 ядер NVidia (GPU) и межсоединение со скоростью 400 Гбит/с.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Л’выводвместо этого является следующей фазой, на которой модель используется для прогнозирования новых данных: модель получает входные данные, которые она, возможно, никогда раньше не видела, по крайней мере, не в той форме, в которой она использовалась, и использует вероятностный подход для генерации выходных данных. на основе информации, полученной в ходе обучения.

Короче говоря, модель предлагает ответ на основевход предоставил. Например, можно спросить, представляет ли изображение, отправленное в качестве входных данных, кошку или нет; транскрибировать аудио в текст (speech-to-text); для создания текста для ответа на вопрос или завершения размышления пользователя (это то, что делают ChatGPT, Bing Chat и Google Bard) или для создания новых изображений, исходя из текстовых описаний.

Фаза вывода – это деятельность, которая по определению многопользовательский: набор «запросов» одновременно отправляется в качестве входных данных для модели с использованием нескольких экземпляров самой модели, предварительно обученных.
На этом этапе также требуется массивная аппаратная конфигурация, способная «масштабироваться» вверх, когда число и сложность входных запросов быстро растут.
Недавно президент Alphabet, «материнской компании» Google, подсчитал, что чат-боты, основанные на искусственном интеллекте, стоят в 10 раз больше, чем обычный поиск в традиционных системах (вспомните веб-поиск в Google…).

В генеративных моделях или моделях естественного языка мы говорим о миллиарды параметров которые соответствуют количеству «весов», используемых для обучения модели (ChatGPT основан на модели, обученной с использованием более 175 миллиардов параметров).
В нейронная сетьвеса — это значения, которые модель пытается оптимизировать, чтобы найти взаимосвязь между входными данными и желаемыми выходными данными.

В контексте генеративных моделей часто требуется очень большое количество параметров для создания полного и подробного представления объекта. входные данные; в модель естественного языка обычно требуются миллиарды параметров для точного представления синтаксической и семантической структуры языка.

Что такое большие языковые модели (LLM)

Модели большого языка (LLM) — это модели естественного языка, которые используют искусственные нейронные сети с очень большим количеством параметров для создания представление естественного языка мощный, актуальный и сложный.
Эти шаблоны способны понимать и генерировать текст высокого качества, а не только на основе семантика и к синтаксисно и к нюансам естественного языка.
Среди наиболее известных примеров LLM — различные версии модель GPT (Generative Pre-trained Transformer), разработанный OpenAI: в другой статье мы видели, как создать генеративную модель, такую ​​​​как GPT, в 60 строках кода Python.

лама и альпака

Однако помимо простых упражнений мы хотим поговорить о паре инструментов, которые действительно можно использовать для практическое применение внутри ИИ без привязки к облаку и любому стороннему поставщику.

Мета (Facebook) создана ЛЛаМа (мета AI модели большого языка): как объяснено в страница презентации, это набор моделей, использующих от 7 до 65 миллиардов параметров. При использовании «облегченного» подхода (LLaMa весит в 10 раз меньше, чем OpenAI GPT-3), согласно Meta, модель способна дать отличные результаты.

Общедоступная реализация LLaMa на GitHub проста в использовании, ее также можно использовать на обычных компьютерах, а также можно запускать непосредственно на ЦП без необходимости использования мощных графических процессоров последнего поколения.
Пер уменьшить нагрузкуиспользуется так называемое 4-битное квантование.

4-битное квантование это метод, который уменьшает количество битов, используемых для представления данных, за счет снижения занимаемой памяти и вычислительных затрат.
В этом указанном случае только 4 бита используются для представления каждого числового значения в векторе данных. Это означает, например, что вместо использования 32-битный форматкоторый требует в четыре раза больше памяти, представление данных значительно сжимается.

Надо сказать, что при снижении количество бит в целом наблюдается меньшая точность модели и гораздо большая содержательная способность к обобщению.

В середине марта 2023 года группа исследователей из Стэнфордского университета, играя на аббревиатуре LLaMa, представила Альпака.
Альпака представляет собой оптимизированную версию модели LLaMa с 7 миллиардами параметров: несмотря на то, что она очень легкая и дешевая в управлении, Alpaca демонстрирует поведение, качественно аналогичное текст-davinci-003 на OpenAI.

Чтобы дать представление о том, как Alpaca делает использование современных генеративных моделей действительно доступным для всех, просто подумайте, что реализация, которую мы собираемся представить, также может работать на обычном ПК с 16 ГБ оперативной памяти с современным процессором на 6 или 8 физических ядер.
Очевидно, что по мере увеличения количества параметров требования ужесточаются (например, для запуска модели с 30 миллиардами параметров требуется 32 ГБ ОЗУ), но это технические характеристики оборудования решительно далеки от необходимости иметь суперкомпьютер.

Как использовать генеративную модель на локальном компьютере

Предполагая, что у вас есть машина Убунту Линукс тестов с оперативной памятью не менее 16 ГБ, вы можете протестировать Alpaca, выполнив следующие команды. Различные инструкции позволяют вам установить Docker и загрузить генеративную модель внутри контейнер:

обновление sudo apt && обновление sudo apt -y

sudo apt установить apt-transport-https curl gnupg-agent ca-certificates software-properties-common -y

завиток -fsSL | sudo gpg –dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

эхо “деб” [arch=$(dpkg –print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] $(lsb_release -cs) стабильный” | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

обновление sudo apt && обновление sudo apt -y

sudo apt установить docker-ce -y

Команда sudo systemctl status docker позволяет проверить, действительно ли Docker установлен и работает.

Выполнение следующей команды устанавливает программное обеспечение Сержупрощенный инструмент для общения с Альпакой, LLaMa и другими моделями – открытый исходный код доступно на GitHub и свободно используется:

Серж прослушивает TCP-порт 8008: предполагается, что используется брандмауэр ufw, поэтому необходимо Открой дверь в подъезде:

Введя IP-адрес Linux-машины, а затем :8008, вы получите доступ к домашней странице Сержа.

Нажав «Загрузить модели», вы можете сначала загрузить предпочтительную модель, в зависимости от количества параметров, используемых на этапе обучения.

Поэтому, нажав «Главная», мы предлагаем выбрать «Настройки модели», чтобы настроить поведение модели:

  • Температура. Определите, насколько свободен ответ ИИ. Меньшие числа приводят к более жестким ответам, в то время как более высокие числа вызывают больше творчества.
  • Максимальная длина генерируемого текста в токенах. Максимальная длина текста, генерируемого в токенах, или длина ответов, написанных чат-ботом.
  • Выбор модели. Позволяет выбрать модель с 7, 13 или 30 миллиардами параметров среди загруженных локально.
  • n_threads. Количество потоков, которые Серж/Альпака может использовать на уровне ЦП. Выделение больше, чем по умолчанию 4, очевидно, значительно повышает производительность.
  • Предварительная подсказка для инициализации разговора. Предоставляет контекст до начала разговора, чтобы повлиять на реакцию чат-бота.

На данный момент система показывает, что она также понимает i вопросы на итальянском языке но он отвечает только на английском.

Ландшафт постоянно меняется, поэтому вскоре можно будет получать ответы и на итальянском языке. Важно отметить, что потенциал подхода, подобного представленному: загрузка всей генеративной модели локально и ее бесплатное использование из облака и от любой третьей стороны бесценны, особенно с точки зрения разработчиков и системных интеграторов.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *