Бенчмарк 13 больших языковых моделей на 31 верифицированной задаче Qlik Set Analysis из трёх доменов: Sports, HR, Sales. Двухфазная методология, двойной независимый LLM-судья. До 68% решений возвращают верное число; строго логику эталона повторяют до 47% у лидера, а ещё примерно в 18% случаев модель пишет формулу даже грамотнее эталонной формуле.
Задачи — с обучающей платформы QATA. Они открыты: любой может решить их сам и проверить себя автопроверкой по эталону. Реальные кейсы, никаких выдуманных исследователем задач.
31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами. Платформа доступа: OpenRouter (единый API к 300+ моделям), бюджет $20.
Отбор. Каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по двум проверкам и шорт-лист топ-5 моделей.
Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — измерить эффект промпт-инжиниринга.
Каждый ответ модели прогоняли через двух LLM-судей. Один смотрел что получилось, второй — как это написано. Когда расходятся — появляется «логический разрыв».
Судья запускает выражение модели в Qlik и сверяет полученное число с эталонным KPI из тренинговой платформы. Если число совпало — засчитано, логика выражения не анализируется.
Топ-модели: до 68%Судья сравнивает Set Analysis-выражение с эталонным с qata.datanomix.pro. Засчитано только если выражения семантически эквивалентны. Совпало число «случайно» через другую логику — не засчитано.
Топ-модели: до 47%Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (≤8B параметров).
| Категория | Модели | Обоснование |
|---|---|---|
| Топ-премиум | Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro | Флагманы. Проверить оправданность цены. |
| Средние | Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3 | Sweet spot для production. |
| Бюджетные | Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B | Экономия при сохранении качества. |
| Спец. для кода | DeepSeek Coder V3 · Qwen 2.5 Coder 32B | Может ли специализация на коде дать преимущество. |
Один стандартный промпт × 31 задача. Колонка Coincidental — сколько раз модель «угадала» число через выражение, отличающееся от эталона.
| # | Model | Provider | Number OK | Logic OK | Better | Coinc. | Tier |
|---|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 21/31 (68%) | 14/30 (47%) | 4 | 2 | Top | |
| 02 | Claude Opus 4.7 | Anthropic | 17/31 (55%) | 8/30 (27%) | 4 | 4 | Top |
| 03 | Claude Sonnet 4.6 | Anthropic | 16/31 (52%) | 6/30 (20%) | 3 | 6 | Top |
| 04 | Mistral Large | Mistral | 14/31 (45%) | 7/30 (23%) | 3 | 4 | Mid |
| 05 | Grok 3 | xAI | 14/31 (45%) | 8/30 (27%) | 3 | 2 | Mid |
| 06 | GPT-5 | OpenAI | 12/31 (39%) | 6/30 (20%) | 2 | 4 | Mid |
| 07 | DeepSeek V3 LOCAL | DeepSeek | 10/31 (32%) | 5/30 (17%) | 2 | 2 | Mid |
| 08 | Gemini 2.5 Flash | 8/31 (26%) | 3/30 (10%) | 2 | 2 | Mid | |
| 09 | Claude Haiku 4.5 | Anthropic | 8/31 (26%) | 6/30 (20%) | 1 | 1 | Mid |
| 10 | Qwen 2.5 72B LOCAL | Alibaba | 6/31 (19%) | 5/30 (17%) | 1 | 0 | Low |
| 11 | GPT-5 mini | OpenAI | 6/31 (19%) | 5/30 (17%) | 1 | 0 | Low |
| 12 | Llama 3.3 70B LOCAL | Meta | 2/31 (6%) | 1/30 (3%) | 0 | 1 | Low |
| 13 | Qwen 2.5 Coder 32B LOCAL | Alibaba | 2/31 (6%) | 1/30 (3%) | 1 | 0 | Low |
* DeepSeek Coder V3 исключён — API broken (0/31).
Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по совпадению логики.
| Модель | Logic OK | Number OK | Better | Комментарий |
|---|---|---|---|---|
| Claude Opus 4.7 | 23/90 (26%) | 40/93 (43%) | 8 | Top tier |
| GPT-5 | 24/90 (27%) | 39/93 (42%) | 4 | Reasoning-лидер |
| Gemini 2.5 Pro | 22/90 (24%) | 32/93 (34%) | 5 | Сильный по логике |
| Claude Sonnet 4.6 | 16/90 (18%) | 29/93 (31%) | 5 | Sweet spot |
| DeepSeek V3 | 13/90 (14%) | 24/93 (26%) | 5 | Budget |
При первом прогоне GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Эти reasoning-модели тратят токены на скрытое размышление (thinking), которое не возвращается пользователю, но расходует тот же лимит токенов.
При max_tokens=500 весь бюджет уходит на reasoning, и модели
возвращали либо пустой ответ (GPT-5), либо обрезанное выражение (Gemini Pro).
Решение: max_tokens=4000 + reasoning_effort=low. После фикса:
Gemini 2.5 Pro → 21/31 (68%),
GPT-5 → 12/31 (39%).
Из 868 ответов 115 дали верное число выражением, отличным от эталонного. Но это не просто «случайная правота»: в 54 из них формула модели семантически грамотнее эталона (модель поправляет человека), и лишь 61 — хрупкое совпадение. Два частых паттерна:
Паттерн А · ID вместо Name (Sports task #2):
count(distinct {<Sex={"M"}>} Name) / count(distinct Name)
Count({<Sex={'M'}>} DISTINCT ID) / Count(DISTINCT ID)
ID — уникальный ключ сущности. Считать по ключу — стандартная практика моделирования; на целостном датасете это надёжнее эталона по Name, где тёзки схлопываются в одного. Модель поступила как опытный архитектор данных — вопрос к эталонной формуле.
Паттерн Б · Games вместо Year+Season (Sports task #1):
{<Year = {'1996'},
Season = {'Summer'}>}
{<Games = {'1996 Summer'}>}
Games — конкатенация Year+Season в этой модели данных; фильтр по нему эквивалентен эталону по построению.
Из 115 «другая формула» случаев — 54 (≈18% всех верных ответов) это формула грамотнее эталона. На целостном датасете счёт по ключу ID не просто совпадает с Name — он устойчивее: эталон по Name ошибётся на тёзках, по ключу — нет. То есть модель местами пишет более правильную формулу, чем человек-эталон.
Реалистичная оценка точности — между «по числу» и «по логике» интерпретациями.
В Phase 2 тестировали 3 уровня промпта: минимальный (только вопрос), стандартный (схема + роль), обогащённый (плюс примеры + best practices + chain-of-thought).
Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Только премиум reasoning-модели (Opus, GPT-5) выиграли от обогащения.
Средние модели «слепо копируют» структуру из примеров few-shot, теряют гибкость на нестандартных задачах.
DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным: V1 45% → 36%, V2 15%.
Гипотеза «дешёвая модель + умный промпт = дорогая» не подтвердилась. Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.
На одинаковых задачах с temperature=0:
Источники шума: модели не строго детерминированы при temperature=0, плюс LLM-судья тоже даёт разные вердикты. Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это в пределах шума.
~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Claude Opus в Phase 1) — при повторе с Sonnet стоимость в 14 раз ниже за то же количество ответов.
| Модель · Роль | Spend | Requests | Tokens |
|---|---|---|---|
| Claude Opus 4.7 · судья V1 | $12.30 | 1,980 | 1.81M |
| Gemini 2.5 Pro · кандидат | $1.91 | 253 | 247K |
| GPT-5 · кандидат | $1.46 | 253 | 199K |
| Sonnet 4.6 · кандидат + судья V2 | $0.85 | 870 | ~150K |
| Остальные 9 моделей | $0.83 | 950 | 320K |
| Итого | $17.35 | ~4,300 | ~2.7M |
Подтверждена гипотеза «использовать Sonnet/Haiku в роли судьи» — экономия 5–14× без потери качества оценки.
Три сценария интеграции с реалистичной точностью (с обязательным человеческим ревью) и стоимостью на 1 000 запросов.
| Сценарий | Модель | Промпт | Точность* | $/1000 |
|---|---|---|---|---|
| Базовый ассистент | Claude Sonnet 4.6 | стандартный | ~30–50% | ~$2 |
| Премиум · критич. задачи | GPT-5 | стандартный | ~35–55% | ~$20 |
| Прототипирование | DeepSeek V3 | стандартный | ~15–30% | ~$0.30 |
* С обязательным человеческим ревью.
max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.Отдельный вопрос: если LLM в облаке нельзя по политике безопасности — что брать on-prem.
Из локальных моделей, которые мы протестировали, лучший — DeepSeek V3 с ~17% строгой логики. Qwen 2.5 72B — около 17%. Qwen 2.5 Coder 32B слабо — 3%: для длинных цепочек CALCULATE/SUMX в Set Analysis 32B параметров не хватает. GLM мы не тестировали.
Один важный нюанс: даже у лидера правильная логика выражения — в 1 из 5 случаев. То есть в продакшене любую open-source модель надо обязательно использовать с валидацией. Без неё пока сыровато.
Исследование подтверждает: LLM могут генерировать корректный Qlik Set Analysis — но с серьёзной оговоркой по строгости оценки. По числу — до 68% у топ-моделей; по строгой эквивалентности эталону — до 47%. Отдельный вывод: примерно в 18% верных ответов формула модели грамотнее эталона — на целостных датасетах счёт по ключу надёжнее счёта по отображаемому полю.
Главная рекомендация — использовать только в режиме «ассистент для человека», не в режиме автоматической генерации без валидации. Главный технический инсайт — про настройку reasoning-моделей — критически важен для любой команды, которая будет интегрировать GPT-5 / Gemini Pro / o1 / o3 в production.
Главный методологический инсайт — про двойную проверку (число + логика) — должен стать стандартом для любых будущих LLM-бенчмарков в команде.
| Критерий | Модель | Инсайт |
|---|---|---|
| Лучшая по числу и логике | Gemini 2.5 Pro | 68% по числу, 47% строгой логики. |
| Базовый ассистент | Claude Sonnet 4.6 | Sweet spot, ~30–50% (с ревью). |
| Стоимость Sonnet 4.6 / 1 000 запросов | ~$2 | Экономия до 14× по сравнению с Opus. |
| Причина выбора Sonnet | Баланс точности и стоимости | Приемлемая точность при низкой стоимости. |