Перейти к основному содержимому

📝 Оценка

Почему стоит оценивать модели?

Познакомьтесь с Алексом, инженером по машинному обучению в компании среднего размера. Алекс знает, что существует множество моделей ИИ — GPT, LLaMA и многие другие — но какая из них лучше всего подходит для поставленной задачи? Все они звучат впечатляюще на бумаге, но Алекс не может полагаться только на публичные рейтинги. Эти модели ведут себя по-разному в зависимости от контекста, а некоторые модели могли быть обучены на оценочных наборах данных (хитро!). К тому же, стиль написания этих моделей иногда может казаться... странным.

И вот тут на помощь приходит Open WebUI. Он предоставляет Алексу и его команде простой способ оценить модели на основе их реальных потребностей. Никакой сложной математики. Никакой тяжелой работы. Просто знак "пальца вверх" или "пальца вниз" во время взаимодействия с моделями.

Кратко

  • Почему важна оценка: Слишком много моделей, но не все подходят под ваши конкретные потребности. Общим публичным рейтингам не всегда можно доверять.
  • Как решить проблему: Open WebUI предлагает встроенную систему оценки. Используйте знаки "пальца вверх"/"пальца вниз" для оценки ответов модели.
  • Что происходит за кулисами: Рейтинги корректируют ваш персонализированный рейтинг, а снимки с оцененных чатов будут использоваться для последующей тонкой настройки модели!
  • Варианты оценки:
    • Модель Арена: Случайно выбирает модели для сравнения.
    • Обычное взаимодействие: Просто общайтесь как обычно и оценивайте ответы.

Почему недостаточно публичной оценки?

  • Публичные рейтинги не адаптированы под ваш конкретный сценарий использования.
  • Некоторые модели обучены на оценочных наборах данных, что влияет на справедливость результатов.
  • Модель может хорошо работать в целом, но её стиль общения или ответы просто не соответствуют вашему желаемому "вибу".

Решение: Персонализированная оценка с Open WebUI

Open WebUI имеет встроенную функцию оценки, которая позволяет вам и вашей команде находить модель, наилучшим образом соответствующую вашим потребностям — всё это во время взаимодействия с моделями.

Как это работает? Просто!

  • Во время чатов оставляйте знак "пальца вверх", если ответ вам понравился, или знак "пальца вниз", если нет. Если сообщение имеет родственное сообщение (например, сгенерированный ответ или часть сравнения моделей бок о бок), вы вносите вклад в ваш персональный рейтинг.
  • Рейтинги легко доступны в разделе администратора, помогая отслеживать, какие модели лучше всего работают в соответствии с мнением вашей команды.

Крутая функция? Всякий раз, когда вы оцениваете ответ, система захватывает снимок этого разговора, который впоследствии будет использован для уточнения моделей или даже для обучения будущих моделей. (Обратите внимание, это всё ещё в разработке!)


Два способа оценки модели ИИ

Open WebUI предлагает два простых способа оценки моделей ИИ.

1. Модель Арена

Модель Арена случайным образом выбирает из пула доступных моделей, обеспечивая справедливую и беспристрастную оценку. Это помогает устранить потенциальный недостаток ручного сравнения: экологическая валидность – гарантии того, что вы сознательно или несознательно не отдаёте предпочтение какой-либо одной модели.

Как использовать:

  • Выберите модель из селектора Модель Арена.
  • Используйте её, как обычно, но теперь вы в "режиме арены".

Чтобы ваш отзыв повлиял на рейтинг, необходимо наличие родственного сообщения. Что такое родственное сообщение? Родственное сообщение — это любой альтернативный ответ, сгенерированный тем же запросом (например, пересоздание ответа или генерация ответов несколькими моделями бок о бок). Таким образом, вы сравниваете ответы лицом к лицу.

  • Совет по оценке: когда вы ставите знак "пальца вверх" одному ответу, второй автоматически получает знак "пальца вниз". Поэтому будьте внимательны и голосуйте только за то сообщение, которое, по вашему мнению, действительно лучше!
  • После оценки ответов вы можете проверить рейтинг, чтобы увидеть, как модели соотносятся друг с другом.

Вот пример интерфейса Модели Арена:

Пример Модели Арена

Нужен больше подробностей? Вы даже можете воспроизвести настройку в стиле Chatbot Arena!

Пример Chatbot Arena

2. Обычное взаимодействие

Нет необходимости переходить в "режим арены", если вы этого не хотите. Вы можете использовать Open WebUI как обычно и оценивать ответы модели ИИ, как в повседневной работе. Просто ставьте знак "пальца вверх"/"пальца вниз" на ответы модели, как вам захочется. Однако если вы хотите, чтобы ваш отзыв использовался для оценки в рейтинге, вам нужно будет заменить модель и взаимодействовать с другой. Это обеспечивает наличие родственного ответа для сравнения — только сравнения между двумя различными моделями будут влиять на рейтинги.

Например, так вы можете оценивать во время обычного взаимодействия:

Интерфейс оценки обычной модели

А вот пример настройки многомодельного сравнения, похожего на арену:

Сравнение нескольких моделей


Рейтинг

После оценки загляните в Таблицу лидеров в разделе Административная панель. Именно здесь вы сможете увидеть, как модели показывают себя на практике, ранжированные с использованием системы рейтинга Эло (например, рейтинги в шахматах!). Вы получите реальное представление о том, какие модели действительно выделяются во время оценок.

Вот пример макета таблицы лидеров:

Пример таблицы лидеров

Переранжирование на основе тем

При оценке чатов вы можете помечать их темами для получения более детализированных сведений. Это особенно полезно, если вы работаете в разных областях, таких как обслуживание клиентов, художественное письмо, техническая поддержка и т.д.

Автоматическое помечание

Open WebUI пытается автоматически помечать чаты на основе темы разговора. Однако, в зависимости от модели, которую вы используете, функция автоматического помечания может иногда сбойить или неправильно интерпретировать разговор. В таких случаях лучше всего вручную помечать ваши чаты, чтобы обеспечить точность обратной связи.

  • Как вручную помечать: При оценке ответа вам будет предложено добавить собственные теги на основе контекста разговора.

Не пропускайте это! Помечание крайне полезно, так как оно позволяет переранжировать модели на основе определенных тем. Например, вы можете захотеть узнать, какая модель лучше всего отвечает на вопросы технической поддержки по сравнению с общими запросами клиентов.

Вот пример того, как переранжирование выглядит:

Таблица лидеров, переранжированная по теме


Замечание: Снимки чатов для уточнения моделей

Каждый раз, когда вы оцениваете ответ модели, Open WebUI фиксирует снимок этого чата. Эти снимки могут впоследствии быть использованы для уточнения ваших собственных моделей, что делает ваши оценки частью процесса непрерывного улучшения ИИ.

Следите за обновлениями по этой функции, она активно разрабатывается!


Резюме

В двух словах, система оценки Open WebUI имеет две четкие цели:

  1. Помочь вам легко сравнивать модели.
  2. В конечном итоге найти модель, которая лучше всего соответствует вашим индивидуальным требованиям.

Суть системы заключается в том, чтобы сделать оценку моделей ИИ простой, прозрачной и настраиваемой для каждого пользователя. Будь то через Арена Моделей или Обычное Взаимодействие с Чатами, вы полностью контролируете процесс определения того, какая модель ИИ лучше всего подходит для вашего конкретного сценария использования!

Как всегда, все ваши данные остаются безопасными на вашем экземпляре, и ничего не передается, если вы специально не выбираете опцию совместного использования с сообществом. Ваша конфиденциальность и автономность данных всегда в приоритете.