Google: Gemma 3n 4B
"model":"google/gemma-3n-e4b-it"
Gemma 3n E4B-it оптимизирована для эффективного выполнения на мобильных устройствах и устройствах с ограниченными ресурсами, таких как телефоны, ноутбуки и планшеты. Она поддерживает мультимодальные входные данные — включая текст, визуальные данные и аудио — что позволяет решать разнообразные задачи, такие как генерация текста, распознавание речи, перевод и анализ изображений. Используя такие инновации, как кэширование Per-Layer Embedding (PLE) и архитектуру MatFormer, Gemma 3n динамически управляет использованием памяти и вычислительной нагрузкой, избирательно активируя параметры модели, что значительно снижает требования к ресурсам во время выполнения.
Эта модель поддерживает широкий лингвистический диапазон (обучена на более чем 140 языках) и обладает гибким контекстным окном в 32K токенов. Gemma 3n может избирательно загружать параметры, оптимизируя память и вычислительную эффективность в зависимости от задачи или возможностей устройства, что делает её хорошо подходящей для приложений, ориентированных на конфиденциальность и работу в офлайн-режиме, а также для решений с AI на устройстве. Подробнее в записи блога
Поддерживаемые параметры
Снижает вероятность токенов пропорционально тому, как часто они уже встречались в тексте. Чем выше штраф, тем сильнее модель избегает дословных повторов слов и фраз. Положительные значения делают текст разнообразнее по лексике, отрицательные, наоборот, поощряют повторения. Полезен против «зацикливания» на одних и тех же выражениях в длинных ответах.
Позволяет вручную повышать или понижать вероятность конкретных токенов через сдвиг их логитов. Сильное положительное смещение делает появление токена почти неизбежным, сильное отрицательное — фактически запрещает его. Применяется для мягкого управления лексикой: подавления нежелательных слов или поощрения нужных. Требует знания идентификаторов токенов используемого токенизатора.
Ограничивает максимальное число токенов, которое модель сгенерирует в ответе. Это потолок длины именно ответа, не считая токенов запроса; сумма запроса и ответа не может превышать размер контекстного окна. Если лимит мал, ответ может оборваться на середине. Параметр также влияет на стоимость, так как выходные токены тарифицируются отдельно.
Задаёт минимальную вероятность токена относительно самого вероятного кандидата на данном шаге. Токены, чья вероятность ниже этого порога (доли от максимальной), исключаются из выборки. Параметр динамически адаптируется к уверенности модели: при «остром» распределении отсекает почти всё лишнее, при «размытом» оставляет больше вариантов. Помогает убирать заведомо неподходящие токены, не зажимая разнообразие слишком сильно.
Снижает вероятность токенов уже за сам факт того, что они появились в тексте, независимо от числа повторений. Это подталкивает модель вводить новые темы и слова, а не топтаться на уже упомянутом. Положительные значения повышают разнообразие и «широту» ответа, отрицательные удерживают модель в рамках затронутого. В отличие от штрафа за частоту, здесь важно само присутствие токена, а не его счётчик.
Наказывает повторное использование уже сгенерированных токенов, домножая их вероятность на понижающий коэффициент. Значения чуть больше 1 (например, 1.1–1.3) заметно уменьшают дословные повторы и зацикливание. Значение 1 отключает штраф, значения меньше 1 — наоборот, поощряют повторения. Действует похоже на штрафы за частоту и присутствие, но через мультипликативную, а не аддитивную поправку.
Список строк, при появлении которых генерация немедленно останавливается. Сами стоп-строки в ответ не включаются, что удобно для обрезания вывода по разделителю или маркеру конца. Часто используется в структурированных промптах и при ролевой разметке диалога. Можно задать несколько последовательностей одновременно.
Управляет случайностью выбора следующего токена. Значение около 0 делает ответы почти детерминированными и предсказуемыми — модель каждый раз выбирает наиболее вероятное продолжение. Более высокие значения (0.7–1.0 и выше) повышают разнообразие и «креативность», но и риск ошибок и бессвязности. Для фактических задач и кода обычно берут низкую температуру, для генерации идей и текстов — выше.
Оставляет на каждом шаге только K наиболее вероятных токенов-кандидатов, а остальные отбрасывает. Малые значения (например, 10–40) делают текст более сфокусированным и предсказуемым, большие — более разнообразным. В отличие от top-p, отбор идёт по фиксированному количеству вариантов, а не по их суммарной вероятности. Значение 0 обычно означает, что ограничение отключено.
Ограничивает выбор токенов наименьшим набором, суммарная вероятность которого не превышает значения p (nucleus sampling). Например, при 0.9 модель рассматривает только самые вероятные варианты, на которые приходится 90% вероятностной массы, отсекая «хвост» маловероятных. Это альтернативный температуре способ управлять разнообразием ответа. Обычно меняют либо температуру, либо top-p, а не оба параметра одновременно.
Быстрый старт
curl https://api.aiadapter.ru/api/v1/chat/completions \
-H "Authorization: Bearer sk-aa-v1-..." \
-H "Content-Type: application/json" \
-d '{"model":"google/gemma-3n-e4b-it","messages":[{"role":"user","content":"Привет!"}]}'