ИИ-адаптер

Nous: Hermes 4 405B

"model":"nousresearch/hermes-4-405b"
Контекст
131K токенов
Вход
Текст
Выход
Текст

Hermes 4 — это масштабная модель с рассуждениями, построенная на Meta-Llama-3.1-405B и выпущенная Nous Research. Она вводит гибридный режим рассуждений, в котором модель может выбирать между внутренним обдумыванием с трассами <think>.</think> или прямым ответом, предлагая гибкость между скоростью и глубиной. Пользователи могут управлять поведением рассуждений с помощью булевого флага reasoning enabled.

Модель дообучена на инструкциях с расширенным корпусом постобучения (~60 млрд токенов), в котором особое внимание уделено трассам рассуждений, что улучшает производительность в математике, программировании, STEM и логических рассуждениях, сохраняя при этом широкую полезность ассистента. Она также поддерживает структурированный вывод, включая режим JSON, соблюдение схемы, вызов функций и использование инструментов. Hermes 4 обучена для управляемости, снижения частоты отказов и выравнивания в сторону нейтрального, направляемого пользователем поведения.

ЦенаЗа 1M токенов
Вход126,35 ₽
Выход379,05 ₽

Поддерживаемые параметры

frequency_penaltyШтраф за частоту

Снижает вероятность токенов пропорционально тому, как часто они уже встречались в тексте. Чем выше штраф, тем сильнее модель избегает дословных повторов слов и фраз. Положительные значения делают текст разнообразнее по лексике, отрицательные, наоборот, поощряют повторения. Полезен против «зацикливания» на одних и тех же выражениях в длинных ответах.

include_reasoningВозврат рассуждений

Указывает, возвращать ли вместе с ответом цепочку рассуждений модели. При включении в ответе появляется поле с ходом размышлений, что полезно для отладки, аудита и объяснимости. При отключении пользователь видит только финальный результат, а рассуждения остаются скрытыми. Доступно для моделей, поддерживающих режим рассуждений.

max_tokensЛимит ответа

Ограничивает максимальное число токенов, которое модель сгенерирует в ответе. Это потолок длины именно ответа, не считая токенов запроса; сумма запроса и ответа не может превышать размер контекстного окна. Если лимит мал, ответ может оборваться на середине. Параметр также влияет на стоимость, так как выходные токены тарифицируются отдельно.

presence_penaltyШтраф за присутствие

Снижает вероятность токенов уже за сам факт того, что они появились в тексте, независимо от числа повторений. Это подталкивает модель вводить новые темы и слова, а не топтаться на уже упомянутом. Положительные значения повышают разнообразие и «широту» ответа, отрицательные удерживают модель в рамках затронутого. В отличие от штрафа за частоту, здесь важно само присутствие токена, а не его счётчик.

reasoningРассуждения

Включает режим внутренних пошаговых рассуждений модели перед выдачей финального ответа. Позволяет управлять «обдумыванием»: глубиной размышлений или бюджетом токенов на них. Как правило, повышает качество на сложных задачах — логике, математике, многошаговом планировании — ценой большего времени и стоимости. Сами рассуждения могут не показываться пользователю, если не запрошены отдельно.

repetition_penaltyШтраф за повторы

Наказывает повторное использование уже сгенерированных токенов, домножая их вероятность на понижающий коэффициент. Значения чуть больше 1 (например, 1.1–1.3) заметно уменьшают дословные повторы и зацикливание. Значение 1 отключает штраф, значения меньше 1 — наоборот, поощряют повторения. Действует похоже на штрафы за частоту и присутствие, но через мультипликативную, а не аддитивную поправку.

response_formatФормат ответа

Задаёт требуемый формат вывода модели. В режиме JSON-объекта модель обязана вернуть синтаксически корректный JSON, что удобно для программной обработки. Можно также потребовать соответствие конкретной JSON-схеме. Использование этого параметра снижает необходимость «вычищать» свободный текст и парсить его эвристиками.

temperatureТемпература

Управляет случайностью выбора следующего токена. Значение около 0 делает ответы почти детерминированными и предсказуемыми — модель каждый раз выбирает наиболее вероятное продолжение. Более высокие значения (0.7–1.0 и выше) повышают разнообразие и «креативность», но и риск ошибок и бессвязности. Для фактических задач и кода обычно берут низкую температуру, для генерации идей и текстов — выше.

top_kTop-k

Оставляет на каждом шаге только K наиболее вероятных токенов-кандидатов, а остальные отбрасывает. Малые значения (например, 10–40) делают текст более сфокусированным и предсказуемым, большие — более разнообразным. В отличие от top-p, отбор идёт по фиксированному количеству вариантов, а не по их суммарной вероятности. Значение 0 обычно означает, что ограничение отключено.

top_pTop-p (выборка ядра)

Ограничивает выбор токенов наименьшим набором, суммарная вероятность которого не превышает значения p (nucleus sampling). Например, при 0.9 модель рассматривает только самые вероятные варианты, на которые приходится 90% вероятностной массы, отсекая «хвост» маловероятных. Это альтернативный температуре способ управлять разнообразием ответа. Обычно меняют либо температуру, либо top-p, а не оба параметра одновременно.

Быстрый старт

curl https://api.aiadapter.ru/api/v1/chat/completions \
  -H "Authorization: Bearer sk-aa-v1-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"nousresearch/hermes-4-405b","messages":[{"role":"user","content":"Привет!"}]}'