ИИ-адаптер

Xiaomi: MiMo-V2-Flash

"model":"xiaomi/mimo-v2-flash"
Контекст
262K токенов
Вход
Текст
Выход
Текст

MiMo-V2-Flash — это языковая модель-фундамент с открытым исходным кодом, разработанная Xiaomi. Это модель Mixture-of-Experts с 309 млрд общих параметров и 15 млрд активных параметров, использующая гибридную архитектуру внимания. MiMo-V2-Flash поддерживает переключатель гибридного размышления и контекстное окно 256K, а также превосходно справляется со сценариями рассуждений, программирования и агентными задачами. На SWE-bench Verified и SWE-bench Multilingual MiMo-V2-Flash занимает первое место среди моделей с открытым исходным кодом в мире, обеспечивая производительность, сопоставимую с Claude Sonnet 4.5, при стоимости всего около 3,5% от неё.

Пользователи могут управлять поведением рассуждений с помощью булева параметра reasoning enabled.

ЦенаЗа 1M токенов
Вход12,64 ₽
Выход37,91 ₽
Кэш1,26 ₽

Поддерживаемые параметры

frequency_penaltyШтраф за частоту

Снижает вероятность токенов пропорционально тому, как часто они уже встречались в тексте. Чем выше штраф, тем сильнее модель избегает дословных повторов слов и фраз. Положительные значения делают текст разнообразнее по лексике, отрицательные, наоборот, поощряют повторения. Полезен против «зацикливания» на одних и тех же выражениях в длинных ответах.

include_reasoningВозврат рассуждений

Указывает, возвращать ли вместе с ответом цепочку рассуждений модели. При включении в ответе появляется поле с ходом размышлений, что полезно для отладки, аудита и объяснимости. При отключении пользователь видит только финальный результат, а рассуждения остаются скрытыми. Доступно для моделей, поддерживающих режим рассуждений.

max_tokensЛимит ответа

Ограничивает максимальное число токенов, которое модель сгенерирует в ответе. Это потолок длины именно ответа, не считая токенов запроса; сумма запроса и ответа не может превышать размер контекстного окна. Если лимит мал, ответ может оборваться на середине. Параметр также влияет на стоимость, так как выходные токены тарифицируются отдельно.

presence_penaltyШтраф за присутствие

Снижает вероятность токенов уже за сам факт того, что они появились в тексте, независимо от числа повторений. Это подталкивает модель вводить новые темы и слова, а не топтаться на уже упомянутом. Положительные значения повышают разнообразие и «широту» ответа, отрицательные удерживают модель в рамках затронутого. В отличие от штрафа за частоту, здесь важно само присутствие токена, а не его счётчик.

reasoningРассуждения

Включает режим внутренних пошаговых рассуждений модели перед выдачей финального ответа. Позволяет управлять «обдумыванием»: глубиной размышлений или бюджетом токенов на них. Как правило, повышает качество на сложных задачах — логике, математике, многошаговом планировании — ценой большего времени и стоимости. Сами рассуждения могут не показываться пользователю, если не запрошены отдельно.

response_formatФормат ответа

Задаёт требуемый формат вывода модели. В режиме JSON-объекта модель обязана вернуть синтаксически корректный JSON, что удобно для программной обработки. Можно также потребовать соответствие конкретной JSON-схеме. Использование этого параметра снижает необходимость «вычищать» свободный текст и парсить его эвристиками.

stopСтоп-последовательности

Список строк, при появлении которых генерация немедленно останавливается. Сами стоп-строки в ответ не включаются, что удобно для обрезания вывода по разделителю или маркеру конца. Часто используется в структурированных промптах и при ролевой разметке диалога. Можно задать несколько последовательностей одновременно.

temperatureТемпература

Управляет случайностью выбора следующего токена. Значение около 0 делает ответы почти детерминированными и предсказуемыми — модель каждый раз выбирает наиболее вероятное продолжение. Более высокие значения (0.7–1.0 и выше) повышают разнообразие и «креативность», но и риск ошибок и бессвязности. Для фактических задач и кода обычно берут низкую температуру, для генерации идей и текстов — выше.

tool_choiceВыбор инструмента

Управляет тем, будет ли модель вызывать инструменты и какой именно. Режим auto оставляет решение модели, none запрещает вызовы, required заставляет вызвать хотя бы один инструмент. Можно жёстко указать конкретную функцию, которую нужно вызвать. Полезно, когда логика приложения требует предсказуемого поведения вместо свободного выбора модели.

toolsИнструменты

Описание набора функций (инструментов), которые модель может вызвать в ходе ответа. Для каждого инструмента передаётся имя, назначение и JSON-схема параметров. Модель сама решает, когда уместно вызвать инструмент, и возвращает имя функции с аргументами, а выполнение остаётся на стороне приложения. Это основа агентных сценариев и интеграций с внешними сервисами и данными.

top_pTop-p (выборка ядра)

Ограничивает выбор токенов наименьшим набором, суммарная вероятность которого не превышает значения p (nucleus sampling). Например, при 0.9 модель рассматривает только самые вероятные варианты, на которые приходится 90% вероятностной массы, отсекая «хвост» маловероятных. Это альтернативный температуре способ управлять разнообразием ответа. Обычно меняют либо температуру, либо top-p, а не оба параметра одновременно.

Быстрый старт

curl https://api.aiadapter.ru/api/v1/chat/completions \
  -H "Authorization: Bearer sk-aa-v1-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"xiaomi/mimo-v2-flash","messages":[{"role":"user","content":"Привет!"}]}'