← Блог

Зачем я добавил фактчекера в свой AI-воркфлоу

Сережа Рис · 11 января 2026

Писал статью про LLM coding воркфлоу.

Упомянул Gemini 2.0 Flash как хороший арбитр между моделями.

Проблема: Gemini 2.0 Flash — это декабрь 2024, а сейчас январь 2026. Модель устарела на год.

Как я это пропустил

У меня есть процесс для текстов — deaify-text. Три параллельных критика: один ищет шаблонные фразы ИИ, второй анализирует ритм, третий проверяет где добавить конкретику.

Они работают. Убирают "важно отметить". Варьируют длину предложений. Добавляют примеры из личного опыта.

Но ни один не проверяет факты. Версии, даты, названия моделей — всё проходит мимо. В той же статье я написал про o1 и o3 как актуальные модели рассуждений. GPT-5 их заменил ещё в августе 2025.

Почему это случается

Модели обучены на данных с датой отсечки. Claude знает мир до какой-то точки, Gemini — до своей. Когда модель генерирует текст про "актуальные инструменты", она тащит из базы знаний. А там Gemini 2.0 Flash ещё был свежим.

Я не первый кто на это наступил. EMULATE, ClaimCheck, MAD-Fact — фреймворки для автоматического фактчекинга. Академики давно поняли проблему. Но в моём воркфлоу этого не было.

Решение: Critic D

Добавил четвёртого критика в параллель с остальными:

Critic D — Fact Checker:
- Извлекает версии, даты, названия моделей
- Флагует подозрительное (модели старше 6 месяцев)
- Формат: [CLAIM] + [FLAG]

После того как Critic D вернёт флаги — веб-поиск через Exa для каждого. Сравниваю утверждение с результатом. Устарело — добавляю правку в агрегат перед переписыванием.

Конкретный пример

Было:

Gemini 2.0 Flash хорош как арбитр

Critic D флагует:

[CLAIM]: "Gemini 2.0 Flash" [FLAG]: AI model older than 6 months

Веб-поиск находит: Gemini 3 Flash вышел 17 декабря 2025.

Стало:

Gemini 3 Flash (декабрь 2025) работает арбитром — быстрый и дешёвый

То же с o1/o3. Они не устарели в строгом смысле — но GPT-5 теперь имеет встроенный режим рассуждений, и это рекомендуемый путь.

Что изменилось

Было 3 критика, стало 4. Все запускаются параллельно через Task tool — время не увеличилось.

Добавился последовательный шаг: веб-проверка. 2-3 секунды на утверждение. Для статьи с 5-10 техническими упоминаниями — 20 секунд сверху. По-моему, эти 20 секунд экономят часы позже. Нет стыдных коммитов "fix: update outdated Gemini reference" через неделю.

Паттерны которые теперь ловлю

Вывод

ИИ меняется быстро. То что было актуально полгода назад — уже история. Фактчекер в воркфлоу — не опция, а необходимость.

Источники