DeepSeek R1 для reasoning
DeepSeek R1 — это open-source reasoning-модель, обученная RL и генерирующая явную chain-of-thought. Она конкурентна OpenAI o1 на AIME и MATH, но примерно в 30 раз дешевле: $0.56 за вход и $2.00 за выход на 1M токенов в QuickSilver Pro против $15 / $60 у o1. Для математики, algorithmic coding и logic-heavy agent loops это open-source дефолт.
В чем R1 силен
Математика: сильные результаты на AIME-2024, MATH-500 и олимпиадных задачах. Trace рассуждений по шагам проводит вывод, а финальный ответ находится в content.
Алгоритмы: генерация кода уровня соревновательного программирования. Результаты на LiveCodeBench и Codeforces сопоставимы с o1. Для новых алгоритмических задач обычно сильнее V3, но медленнее из-за CoT.
Многошаговое планирование: полезен в agent loops, где planner должен сначала разложить задачу. Явные reasoning-следы часто улучшают решения по tool use.
Когда дополнительные токены R1 оправданы
Используйте R1 для математических задач, нового алгоритмического дизайна, логических головоломок, theorem proving, многошагового tool planning и сложной отладки. То есть там, где качество ответа зависит именно от процесса рассуждения.
Не используйте R1 для factual Q&A, code completion, summarization, entity extraction, простой классификации и перевода. В этих non-reasoning задачах V3 дешевле, быстрее и по качеству обычно эквивалентен.
Калибровка стоимости: эссе на 2000 слов потребует у V3 около 600 output tokens ($0.37 на 1000 эссе). Тот же текст у R1 может занять ~2500 output tokens вместе с reasoning trace ($5.00 на 1000 эссе). Это 13x premium — используйте его только там, где оно действительно окупается.
Код для быстрого старта
from openai import OpenAI
client = OpenAI(
base_url="https://api.quicksilverpro.io/v1",
api_key="sk-qsp-...",
)
resp = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "A box has 12 red and 8 blue balls. Three drawn without replacement. Probability exactly two are red?",
}],
)
# Chain-of-thought reasoning:
print(resp.choices[0].message.reasoning_content)
# Final answer:
print(resp.choices[0].message.content)
print(f"Output tokens: {resp.usage.completion_tokens}")
print(f"Cost: ${resp.usage.cost:.6f}")FAQ
На открытых бенчмарках по математике (AIME-2024, MATH-500), кодингу (LiveCodeBench, Codeforces) и reasoning (GPQA Diamond) DeepSeek R1 находится в пределах нескольких пунктов от o1 и на большинстве задач сильнее o1-mini. С учетом цены в 30 раз ниже это наиболее близкий open-source аналог для продакшена.
Типичный диапазон — 500-3000 токенов. Для сложных задач (например, олимпиадная математика) trace может превышать 5000 токенов. Все reasoning tokens тарифицируются как output tokens, поэтому учитывайте это в расчетах стоимости.
R1 принимает OpenAI tools array, но с вызовом инструментов он менее надежен, чем V3. Для agent loops обычно лучше использовать V3 как tool-calling executor, а R1 вызывать только для сложных planning-подзадач. Такой гибрид дает лучший баланс цены и качества.
Да. На сервере можно игнорировать reasoning_content и возвращать только content. Но цена не изменится: R1 все равно должен сгенерировать reasoning tokens, чтобы прийти к ответу, поэтому дешевого режима 'без размышлений' здесь нет.