Как устроены конвейеры AI-контента: 12 паттернов
У меня три проекта, где нужно генерировать контент: персональный блог, менторские сессии, когорты школы вайбкодинга.
Каждый проект — свой набор костылей. Захотелось понять, как это делают профессионально.
88 источников, 12 паттернов, много диаграмм. Это то, что я узнал.
1. Зачем это исследование
Три проекта, три разных рабочих процесса:
sereja.tech — этот блог. Процесс: тема → исследование через Exa → черновик → прогон через deaify (4 критика убирают AI-паттерны) → публикация. Раньше работало медленно — исследование занимало больше времени, чем написание. Но для этой статьи я запустил 4 параллельных research-субагента через Exa — весь сбор 88 источников занял 15 минут вместо нескольких часов.
mentor — менторские сессии 1:1. Записываю звонки, транскрибирую, генерирую HTML-страницы с табами: запись, домашка, исследование. Проблема: каждая сессия — одноразовый артефакт. Обсудили React hooks на прошлой неделе, TypeScript сегодня — и эти знания не связаны между собой.
cohorts — школа вайбкодинга HSL. Тут самая сложная система: 5-проходная экстракция атомов знаний (инструменты, техники, концепции, workflow, инфраструктура), потом одобрение, генерация с Exa-обогащением, топологическая сортировка по пререквизитам для составления учебного плана.
Что искал:
- Как устроены профессиональные конвейеры создания контента с LLM
- Где в них человек, а где автоматика
- Как переиспользовать контент вместо создания с нуля
- Реальные практики компаний: Anthropic, Notion, Amazon
Что нашёл: 12 паттернов, которые повторяются везде. Удивило, что deaify — это по сути Self-Refine loop, который индустрия формализовала. Мои процессы уже реализуют половину из них, но есть критические пробелы — особенно в переиспользовании контента и параллельной обработке.
2. Анатомия LLM Writing Pipeline
Архитектуры: от линейной к итеративной
Большинство конвейеров генерации контента можно разложить на три базовые архитектуры.
Линейная (Sequential): каждый шаг выполняется последовательно, выход одного — вход другого. Проще всего реализовать, но медленно и хрупко: если один шаг сломался — всё встало.
Ветвящаяся (Branching): независимые задачи выполняются параллельно. Исследование технической документации, примеров кода и лучших практик может идти одновременно — потом оркестратор синтезирует результаты.
Итеративная (Iterative): цикл «генерация → критика → рефайн» повторяется до достижения порога качества или лимита итераций. Это ключевой паттерн для качественного контента.
Исследование Self-Refine (Madaan et al., 2023) показало: итеративный рефайн улучшает качество на ~20% по сравнению с однократной генерацией. Это работает потому, что имитирует человеческий процесс написания — никто не пишет финальный текст с первого раза.
Multi-Agent паттерны
Вместо одного LLM, который делает всё, индустрия пришла к специализированным агентам. Каждый фокусируется на своей задаче:
| Агент | Ответственность | Пример задачи |
|---|---|---|
| Planner | Структура и план | Разбить тему на секции, определить порядок |
| Researcher | Сбор информации | Найти источники, извлечь факты |
| Writer | Генерация текста | Написать черновик по плану и фактам |
| Critic | Оценка качества | Проверить точность, стиль, полноту |
| Optimizer | Финальная доработка | SEO, форматирование, мета-теги |
Anthropic использует этот паттерн в своей multi-agent research system: ведущий агент координирует параллельных субагентов, каждый исследует свой аспект темы, результаты синтезируются. Если нужно больше информации — динамически спаунятся новые субагенты. Я попробовал этот паттерн в этом исследовании — 4 параллельных research-субагента вместо последовательных. Быстрее примерно в 3 раза.
Оркестратор не делает работу сам — он только координирует. Получает задачу, разбивает на подзадачи, раздаёт воркерам, собирает результаты, решает, нужно ли ещё. Это позволяет масштабировать систему горизонтально.
Quality Gates: типы и когда применять
Quality gate — точка в конвейере, где проверяется качество перед переходом к следующему шагу. Без них плохой output ранней стадии портит всё дальше по цепочке.
Автоматические gates:
- Формальные проверки: длина текста, наличие структуры, валидность ссылок
- Метрики качества: perplexity (флюентность), BERTScore (семантическая близость к источникам)
- Детекция проблем: галлюцинации, токсичность, off-brand messaging
LLM-as-Judge gates — другой LLM оценивает output:
- Выставляет числовую оценку (например, 1-10 по каждому измерению)
- Дешевле человека, но менее надёжно для нюансов
Human gates:
- Критические точки: стратегия, верификация фактов, финальное одобрение
- Не всё нужно проверять вручную — только edge cases и высокорисковый контент
Amazon в своей системе автоматической модерации использует conditional gates: если toxicity score попадает в средний диапазон неопределённости — отправляется на человеческий ревью. Низкие значения автоматически одобряются, высокие — автоматически отклоняются.
Обобщённый конвейер
Собирая всё вместе, получается такая архитектура:
Практика компаний вроде Anthropic и Notion: 5-7 стадий с автоматическими проверками и условным человеческим ревью. Каждая стадия фокусируется на одном аспекте качества.
3. Human-in-the-Loop: Где вмешиваться
Точки принятия решений
Human-in-the-Loop — это не «человек проверяет всё в конце». Это архитектурное решение: где именно в конвейере нужен человек, а где достаточно автоматики.
Исследование из Springer (Timing AI intervention in writing process, 2025) показало парадоксальный результат: позднее вмешательство AI (после того, как человек сам побрейнштормил и набросал структуру) даёт лучшие результаты, чем раннее. Раннее использование AI превращает его в замену мышления, а не инструмент усиления. По моему опыту подтверждается: когда даю AI свой набросок, deaify справляется за 2 итерации. С пустой страницы — обычно 4.
Применительно к конвейерам создания контента:
| Фаза | Человек | AI | Почему так |
|---|---|---|---|
| Стратегия | 100% | 0% | Выбор темы, аудитории, цели — нельзя делегировать |
| Исследование | 20% | 80% | AI ищет, человек валидирует источники |
| Планирование | 50% | 50% | AI предлагает структуру, человек корректирует |
| Черновик | 30% | 70% | AI генерирует, человек добавляет опыт и нюансы |
| Редактура | 60% | 40% | AI правит грамматику, человек — смысл и тон |
| Одобрение | 100% | 0% | Финальная ответственность всегда на человеке |
Conditional Routing по Risk Score
Не весь контент требует одинакового уровня проверки. Эффективные системы используют scoring для маршрутизации:
Что влияет на risk score:
- Complexity — техническая глубина, количество утверждений, требующих проверки
- Sensitivity — затрагивает ли спорные темы, персональные данные, юридические вопросы
- Уверенность модели в своём output (можно извлечь из logprobs)
- Тип контента: рутинный vs thought leadership vs регуляторные документы
Batch vs Inline Approval
Два режима человеческого ревью:
Inline (синхронный): конвейер останавливается и ждёт одобрения. Используется для:
- Высокорискового контента
- Нового типа контента (первый раз делаем такое)
- Контента с внешними последствиями (публичные заявления, юридические документы)
Batch (асинхронный): контент попадает в очередь на ревью, конвейер продолжает работу. Человек периодически просматривает batch и одобряет/отклоняет. Используется для:
- Рутинных вариаций контента
- Локализации
- Социальных постов
- Контента, где задержка некритична
AI автоматически помечает элементы, требующие inline review, на основе risk scoring. Остальное идёт в batch queue. Это оптимальный баланс между скоростью и качеством.
Feedback Loops для улучшения промптов
Человеческий ревью — не только про одобрение контента. Это источник данных для улучшения системы:
Структурированный scoring. Ревьюер оценивает output по конкретным критериям (1-10 по точности, стилю, полноте). Эти оценки агрегируются для выявления систематических проблем.
Version control для промптов. Notion перешёл от ручных JSONL-файлов к версионированным датасетам через Braintrust. Промпты проверяются через PR, sample outputs коммитятся в Git для регрессионного тестирования.
Snapshot evals. Dovetail описывает подход «treat prompts like unit tests» — для каждого промпта сохраняются тестовые inputs и ожидаемые outputs. При изменении промпта прогоняются все тесты.
AI-assisted critique. Исследование OpenAI показало, что AI-генерированные критики помогают человеческим ревьюерам находить на 50% больше проблем. AI не заменяет человека, а усиливает его внимание.
4. Content Repurposing с AI
COPE в эпоху LLM
COPE (Create Once, Publish Everywhere) — принцип, популяризированный NPR ещё до эпохи LLM. Идея: создаёшь контент один раз, публикуешь в разных форматах на разных платформах.
Проблема наивного COPE: копипаста одного текста везде не работает. Блог требует глубины и SEO, Twitter — краткости и хуков, LinkedIn — thought leadership, email — персонализации. Формат меняет суть.
LLM меняют игру: теперь можно не просто конвертировать форматы, а трансформировать контент под требования каждого канала. Один источник → множество адаптированных outputs.
Без качественного контроля это превращается в «slop» — generic AI output, который не несёт ценности. Descript называет это «single-use plastic content». Трансформация требует человеческого ревью на каждом канале.
Атомарный контент: что это и как разбивать
Атомарный контент — разбиение на минимальные самодостаточные единицы, которые можно переиспользовать в разных комбинациях.
Иерархия для образовательного контента:
Каждый атом снабжается метаданными:
{
"atom_id": "react-useEffect-cleanup",
"type": "concept",
"title": "Cleanup функции в useEffect",
"skill_level": "intermediate",
"prerequisites": ["react-useEffect-basics", "js-closures"],
"domain": "frontend",
"estimated_minutes": 15,
"tags": ["react", "hooks", "memory-leaks"],
"source_session": "session-2026-01-10",
"timestamp": "00:23:15-00:38:42",
"evergreen_score": 0.9
}
Метаданные позволяют:
- Intelligent retrieval: найти все атомы по теме React hooks для intermediate уровня
- Prerequisite chains: автоматически строить последовательность изучения
- Personalization: собирать разные learning paths для разных студентов
- Cross-reference: связывать атомы из разных сессий
Transformation Pipelines
Из одного источника можно генерировать разные deliverables:
Session → HTML Lesson:
- Извлечь транскрипт с таймкодами
- Идентифицировать темы и создать иерархический план
- Развернуть каждую тему в секцию урока с объяснениями и примерами
- Применить HTML-шаблон с навигацией и подсветкой синтаксиса
- Убрать filler words, добавить переходы
- Проверить техническую точность
Session → Blog Article:
- Извлечь ключевые инсайты и memorable moments
- Создать narrative arc: проблема → исследование → решение
- Добавить контекст для читателей, которые не были на сессии
- SEO-оптимизация: заголовки, мета-описание, внутренние ссылки
- Deaify: убрать AI-паттерны, добавить личные примеры
Session → Twitter Thread:
- Извлечь 5-7 ключевых тезисов
- Атомизировать: каждый тезис = 1-2 твита
- Первый твит — hook (удивительный факт или провокационный вопрос)
- Структура progressive disclosure: каждый твит развивает предыдущий
- Финальный твит — CTA (ссылка на полный урок или приглашение к дискуссии)
Content Graph
Когда атомы накапливаются, они формируют граф знаний:
Это то, что делает атомарную архитектуру мощной: один концепт, объяснённый на сессии A, может быть переиспользован в уроке, статье, email-курсе и квизе — без повторного создания.
5. Как это делают другие
Anthropic: CLAUDE.md и PR-triggered docs
Anthropic документирует свои подходы в открытых источниках. Ключевые практики:
Context files (CLAUDE.md): персистентный контекст, который подгружается в каждую сессию. Содержит стайл-гайды, терминологию, конвенции репозитория. Это решает проблему «каждый раз объяснять одно и то же».
Dual workflow для документации:
- PR-triggered: при изменении кода автоматически анализируется diff → идентифицируются затронутые доки → генерируются обновления → человеческий ревью
- Scheduled maintenance: ежедневный обзор изменений за 24 часа → консолидированные обновления документации
Plan Mode: режим read-only exploration для сложных многошаговых изменений. Сначала изучаешь кодбазу безопасно, потом делаешь изменения.
Permission-based tool control: явное управление тем, какие действия может делать агент. Safety first.
Notion: датасеты, три типа оценки
Notion описал свой процесс разработки AI-фич в интервью с Braintrust. Эволюция:
Было: JSONL-файлы в Git, дорогая ручная оценка человеком, медленные итерации.
Стало: Версионированные датасеты из реального использования, три метода оценки (heuristic rules, LLM-as-judge, human review), experiment-driven development — гипотеза → эксперимент → измерение → решение.
Ключевой инсайт: датасеты не придумываются, а собираются из реального использования. Версионирование позволяет отслеживать, как изменения промптов влияют на качество.
Amazon: HALF-Eval framework
Amazon Science опубликовал HALF-Eval (Human-Aligned Long-Form Evaluation) — фреймворк для оценки длинных текстов. Двухстадийный процесс:
Stage 1: Checklist Evaluation
- Структурированные чеклисты по измерениям: creativity, interest, coherence, relevance
- Изначально заполняются людьми (training data)
- Потом автоматизируются через LLM-as-Judge
Stage 2: ML Aggregation
- Regression models синтезируют оценки по чеклистам
- Выдают holistic score (1-10) и бинарную классификацию (high/low quality)
- Модели обучены на человеческих оценках
Результат: скалируемая оценка, выровненная с человеческим judgment.
Indie creators: 6-agent pipeline, 720 статей в месяц
Vicky.dev описывает полностью автоматизированную систему:
Архитектура:
- GNews API → получение свежих новостей
- Google Sheets → проверка дубликатов
- GPT-4o-mini → генерация статьи
- WordPress REST API → публикация
Цикл каждые 2 минуты. Результат: 720+ статей в месяц. Задача, занимавшая 20-30 часов в неделю, свелась к мониторингу.
Elo Sarah описывает 6-agent pipeline для более качественного контента:
- Research Agent (Tavily API) — сбор информации
- Writer Agent — генерация черновика (использует предыдущие samples для стиля)
- Evaluator Agent — scoring по 4 критериям (authenticity, quality, completeness, depth)
- Editor Agent — рефайн на основе feedback от Evaluator
- Optimizer Agent — SEO и форматирование
- Scheduler Agent — публикация на разные платформы
Quality gate: minimum score 7.0/10 на каждом критерии. Не прошёл — возврат к Editor для рефайна.
Реалистичные ожидания: 1.5x, не 10x
Tom Johnson (I'd Rather Be Writing) в своих предсказаниях на 2026 год пишет:
«AI productivity boost has stabilized at ~1.5x factor. Validation overhead limits velocity gains.»
Это критически важно. Маркетинговые обещания «10x productivity» не выдерживают проверки реальностью. Причины:
- Validation overhead: каждый AI output требует проверки
- Hallucination risk: факты нужно верифицировать
- Brand alignment: tone и voice требуют ручной подстройки
- Edge cases: нетривиальные ситуации всё ещё требуют человека
1.5x — это честная оценка sustainable productivity gain. Для команды из 10 человек это эквивалент найма 5 дополнительных людей без расходов на зарплату. Существенно, но не магия. Эта статья заняла ~2 часа: 15 минут research с параллельными агентами, час на генерацию и deaify, остальное — ревью. Вручную было бы 8-10 часов минимум. Это 4-5x на research, но общий gain ближе к 2x из-за обязательного ревью.
AI не заменяет людей, а усиливает их. Content creator становится «AI-human workflow architect» — тот, кто проектирует процессы, а не пишет каждое слово сам.
6. Анализ моих текущих workflows
sereja.tech: что хорошо, что добавить
Текущая архитектура:
Что работает хорошо:
- Self-refine loop через deaify — правильный паттерн
- Специализированные критики вместо одного generic
- Research → Draft → Critique → Refine flow соответствует индустриальным практикам
Gap analysis:
| Паттерн | Статус | Gap |
|---|---|---|
| Multi-Stage Workflows | Реализовано | Нет quality gates между стадиями |
| Self-Refine Loop | Реализовано | Нет scoring и exit conditions |
| Specialized Agents | Частично | Research — один агент, не параллельные |
| Parallel Execution | Нет | Всё последовательно |
| Content Atomization | Нет | Статьи монолитные, не переиспользуются |
Конкретные рекомендации:
- Quality scoring в deaify (высокий приоритет, 2-4 часа)
- Каждый критик выдаёт AI-ness score (0-100)
- Exit condition: все scores < 20 ИЛИ max 3 итерации
- Предотвращает бесконечный рефайн и даёт метрику качества
- Параллельные research субагенты (высокий приоритет, 8-12 часов)
- Три параллельных субагента: TechnicalDocs, Examples, BestPractices
- Оркестратор синтезирует результаты
- Ускоряет исследование в 2-3 раза
- Консолидация критиков (средний приоритет, 3-5 часов)
- 4 критика → 2: ContentCritic (accuracy/depth/structure) + VoiceCritic (rhythm/specifics/AI-patterns)
- Если scoring покажет, что 4 избыточно
mentor: критический gap — session atomization
Текущая архитектура:
Критическая проблема: сессии — одноразовые артефакты. Обсудили React hooks на прошлой неделе, TypeScript сегодня — и эти знания не связаны. Каждая сессия существует изолированно.
Это прямое нарушение принципа COPE. Контент создаётся, но не переиспользуется.
Конкретные рекомендации:
- Content atomization pipeline (критический приоритет, 20-30 часов)
- Новый skill
session-processor: транскрипт → topics → concepts → examples → code snippets - Metadata schema: skill_level, prerequisites, tags, timestamp range
- Storage: structured JSON в
atoms/директории
- Новый skill
- Long-context optimization (высокий приоритет, 6-8 часов)
- Транскрипт в начале промпта с XML-тегами
- Scratchpad для извлечения релевантных цитат перед генерацией
- Улучшает recall и уменьшает галлюцинации
- Multi-channel output (высокий приоритет, 15-25 часов)
- Из атомов сессии генерировать: HTML lesson + blog article + email summary
- Transformation templates для каждого канала
- 4x content output при том же effort
cohorts: золотой стандарт, добавить multi-channel
Текущая архитектура:
Что работает отлично:
- Атомарная архитектура — именно то, что рекомендует индустрия
- 5-pass extraction создаёт хорошо категоризированные атомы
- Топологическая сортировка по пререквизитам — правильный подход для adaptive learning paths
- Approval gates предотвращают попадание низкокачественных атомов в curriculum
Gap analysis:
| Паттерн | Статус | Gap |
|---|---|---|
| Multi-Stage Workflows | Реализовано | — |
| Content Atomization | Реализовано | — |
| Parallel Execution | Нет | 5 проходов последовательно |
| Quality Scoring | Частично | Manual approval, нет automated scoring |
| Multi-Channel Output | Нет | Только lessons, нет blog/social/email |
Конкретные рекомендации:
- Automated quality scoring (высокий приоритет, 10-15 часов)
- LLM-as-judge scores: clarity (1-10), completeness (1-10), prerequisite_accuracy (1-10), evergreen_score (0-1)
- Risk-based routing: score > 8 → auto-approve с spot-checks; 5-8 → batch review; < 5 → inline review
- Parallel atom extraction (средний приоритет, 8-12 часов)
- Один проход с параллельными промптами для каждой категории
- Вместо 5 последовательных проходов — 1 параллельный
- Multi-format generation (высокий приоритет, 15-20 часов)
- Каждый атом может генерировать: lesson section, blog article, tweet, flashcard, quiz question
- Transformation templates для каждого формата
Приоритеты по проектам
| Проект | Неделя 1-2 | Неделя 3-4 | Неделя 5-6 |
|---|---|---|---|
| sereja.tech | Quality scoring в deaify | Параллельные research субагенты | Quality gate checkpoints |
| mentor | — | Session atomization pipeline | Long-context optimization |
| cohorts | — | — | Automated quality scoring |
Общий принцип: начинать с быстрых улучшений (quality scoring — 2-4 часа, большой impact), потом фундаментальные изменения (atomization — 20-30 часов, unlock всей экосистемы).
Текущие workflows уже реализуют половину индустриальных паттернов. Главные gaps: параллельная обработка (ускорение), атомизация контента (переиспользование), автоматический scoring (масштабирование). Не нужно переписывать с нуля — нужно точечные улучшения.
Источники
LLM Pipelines и архитектуры
- Chain complex prompts for stronger performance — Anthropic — prompt chaining разбивает сложные задачи на последовательные подзадачи
- Building Generative AI prompt chaining workflows — AWS — параллелизация, специализация моделей, HITL
- LLM Chaining: Techniques and Best Practices — Mirascope — sequential, parallel, conditional chains
- How we built our multi-agent research system — Anthropic — orchestrator-worker паттерн с параллельными субагентами
- Self-Refine: Iterative Refinement with Self-Feedback — arXiv — generate → feedback → refine loop, ~20% improvement
- Long context prompting tips — Anthropic — документы в начале, XML-структура, quote grounding
Human-in-the-Loop
- Why AI still needs you: Exploring HITL systems — WorkOS — HITL как архитектурное решение, не afterthought
- Human + AI Content Quality Control — Prowess — Agency Dials, Milestone Review Gates
- Timing AI intervention in writing process — Springer — позднее вмешательство AI даёт лучшие результаты
- AI-written critiques help humans notice flaws — OpenAI — AI-assisted critique +65% обнаружения проблем
- Build high quality AI features with simple feedback loops — Dovetail — snapshot evals, prompts как unit tests
Content Repurposing
- COPE — Create Once, Publish Everywhere — Annertech — философия COPE от NPR
- Doing COPE right — Kontent.ai — channel-specific optimization обязательна
- 10X Content Repurposing with AI — HashMeta — content atomization, platform-specific optimization
- The slop-free guide to AI content repurposing — Descript — избежать generic AI output
- Why your brand needs modular content — Contentful — modular = reusable = scalable
- Modular Content Strategy for online academies — Medium — Course → Modules → Lessons → Concepts
Industry Practices
- Common workflows — Claude Code Docs — Plan Mode, subagents, safe analysis
- Claude Code: Best practices for agentic coding — Anthropic — context files, permission control
- How Notion develops world-class AI features — Braintrust — versioned datasets, heuristic/LLM/human evaluation
- HALF-Eval Framework — Amazon Science — checklist → ML aggregation для holistic scoring
- 12 predictions for tech comm in 2026 — Tom Johnson — 1.5x productivity, не 10x
- Automate WordPress Publishing — Vicky.dev — 720+ статей/месяц полностью автоматически
Quality Metrics
- A list of metrics for evaluating LLM content — Microsoft — reference-based + reference-free taxonomy
- Evaluating LLM Content Quality — HashMeta — perplexity, BLEU/ROUGE, BERTScore, hallucination detection
- Content Performance Metrics — Acrolinx — efficiency, consistency, compliance
- AI Content Score — Conductor — topical coverage + intent alignment
Workflows и Automation
- AI Content Workflow System — Elo Sarah — 6-agent pipeline с quality gates
- AI Editor Writing Guide — Skywork — Draft Fast → Rewrite → Polish
- My AI Writing Process — Bronwynne Powell — human control на критических стадиях
- YouTube to Blog Post — n8n — полный automation pipeline
- Workflow Builder — Vercel — text-to-workflow, visual editor