Главная/Сценарии/deepseek-r1 для reasoning
Сценарий

DeepSeek R1 для reasoning

DeepSeek R1 — это open-source reasoning-модель, обученная RL и генерирующая явную chain-of-thought. Она конкурентна OpenAI o1 на AIME и MATH, но примерно в 30 раз дешевле: $0.56 за вход и $2.00 за выход на 1M токенов в QuickSilver Pro против $15 / $60 у o1. Для математики, algorithmic coding и logic-heavy agent loops это open-source дефолт.

$0.56 / $2.00 per 1M tokens

В чем R1 силен

Математика: сильные результаты на AIME-2024, MATH-500 и олимпиадных задачах. Trace рассуждений по шагам проводит вывод, а финальный ответ находится в content.

Алгоритмы: генерация кода уровня соревновательного программирования. Результаты на LiveCodeBench и Codeforces сопоставимы с o1. Для новых алгоритмических задач обычно сильнее V3, но медленнее из-за CoT.

Многошаговое планирование: полезен в agent loops, где planner должен сначала разложить задачу. Явные reasoning-следы часто улучшают решения по tool use.

Когда дополнительные токены R1 оправданы

Используйте R1 для математических задач, нового алгоритмического дизайна, логических головоломок, theorem proving, многошагового tool planning и сложной отладки. То есть там, где качество ответа зависит именно от процесса рассуждения.

Не используйте R1 для factual Q&A, code completion, summarization, entity extraction, простой классификации и перевода. В этих non-reasoning задачах V3 дешевле, быстрее и по качеству обычно эквивалентен.

Калибровка стоимости: эссе на 2000 слов потребует у V3 около 600 output tokens ($0.37 на 1000 эссе). Тот же текст у R1 может занять ~2500 output tokens вместе с reasoning trace ($5.00 на 1000 эссе). Это 13x premium — используйте его только там, где оно действительно окупается.

Код для быстрого старта

python
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

resp = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
    }],
)

# Chain-of-thought reasoning:
print(resp.choices[0].message.reasoning_content)

# Final answer:
print(resp.choices[0].message.content)

print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")

FAQ

На открытых бенчмарках по математике (AIME-2024, MATH-500), кодингу (LiveCodeBench, Codeforces) и reasoning (GPQA Diamond) DeepSeek R1 находится в пределах нескольких пунктов от o1 и на большинстве задач сильнее o1-mini. С учетом цены в 30 раз ниже это наиболее близкий open-source аналог для продакшена.

Типичный диапазон — 500-3000 токенов. Для сложных задач (например, олимпиадная математика) trace может превышать 5000 токенов. Все reasoning tokens тарифицируются как output tokens, поэтому учитывайте это в расчетах стоимости.

R1 принимает OpenAI tools array, но с вызовом инструментов он менее надежен, чем V3. Для agent loops обычно лучше использовать V3 как tool-calling executor, а R1 вызывать только для сложных planning-подзадач. Такой гибрид дает лучший баланс цены и качества.

Да. На сервере можно игнорировать reasoning_content и возвращать только content. Но цена не изменится: R1 все равно должен сгенерировать reasoning tokens, чтобы прийти к ответу, поэтому дешевого режима 'без размышлений' здесь нет.

Попробуйте с удвоенным депозитом — до $50 бесплатно

Получить API-ключ