Kimi K2.5 — китайская модель, которая обошла GPT-5 и Claude на бенчмарках
Moonshot AI сегодня обновили модель на kimi.com без анонсов. Просто тихо заменили K2 на K2.5. А через пару часов появились бенчмарки на Humanity’s Last Exam — и там K2.5 набрала 50.2%, обойдя GPT-5.2 (48.1%) и Claude Opus 4.5 (47.8%).
Первая китайская модель на первом месте в этом бенчмарке.
Три ставки Moonshot
Визуальный кодинг. Скармливаешь скриншот — получаешь рабочий код. Я дал K2.5 макет страницы из Figma, и она выдала React-компонент с Tailwind. Claude обычно просит уточнений, тут сработало с первого раза.
Agent swarm. Модель держит 200-300 вызовов инструментов подряд без потери качества. Moonshot называют это “рой агентов” — когда одна задача разбивается на подзадачи и модель сама их координирует.
Цена. $0.60 за миллион токенов на входе. Claude Sonnet берёт $3.00. Контекст — 256K токенов. Для задач с большими объёмами данных это меняет экономику.
Где я буду использовать
Рутинные пайплайны. CI/CD скрипты, обработка файлов, миграции данных. Качество достаточное, цена низкая.
Прототипирование по скриншотам — показал макет, получил вёрстку. Не финальный код, но рабочую основу.
Batch-операции с большими объёмами. Анализ документов, классификация, extraction. По-моему, здесь K2.5 выгоднее всего.
Где оставлю Claude
Для текстов, диалогов и сложного рефакторинга — Opus 4.5. Разница в качестве рассуждений заметна сразу.
По скорости K2.5 тоже проигрывает: 50-80 токенов в секунду против 187 у GPT-5.2. В чате это ощущается.
Документация в основном на китайском. Базовые гайды есть на английском, но если копнуть глубже — переводчик в помощь.
Подключение
API совместим с OpenAI. Регистрация на platform.moonshot.ai, ключ, base URL api.moonshot.cn/v1. Или через OpenRouter — там модель называется moonshotai/kimi-k2.5.
Есть Kimi CLI для терминала. Ctrl+K переключает между шеллом и агентом. Почти 4k звёзд на GitHub.
Итог
Claude Code остаётся главным инструментом. Но для рутины с высоким объёмом токенов добавил K2.5 в арсенал. Экономия заметная, качество для таких задач достаточное.
Это тестовый пост — проверяю воркфлоу для быстрого написания новостей через Claude Code с Exa research.
Источники
Подписаться на обновления — @sereja_tech