Главная/Сценарии/qwen3 для long-context
Сценарий

Qwen3.5-35B-A3B для длинного контекста

Qwen3.5-35B-A3B — это 35B-parameter MoE-модель, в которой на каждый токен активны только 3B параметров, плюс окно контекста 262K. Благодаря MoE она работает по стоимости 3B dense-модели, сохраняя базу знаний уровня 35B — это особенно удобно для RAG и long-document workflows. При $0.111 за вход и $0.80 за выход на 1M токенов это одна из самых дешевых моделей по стоимости input token в нашем каталоге.

$0.111 / $0.80 per 1M tokens

Почему модель подходит для RAG

Контекст 262K: можно поместить в один prompt 500-страничный PDF или около 200 файлов кода. Если извлеченный корпус укладывается, не нужен агрессивный chunking; single-shot RAG заметно упрощает pipeline.

Низкая цена входа: $0.111 за 1M input tokens означает, что prompt на 100K токенов стоит $0.011. Для того же prompt DeepSeek V3 по $0.16/1M обойдется в $0.016 — на 44% дороже.

Скорость MoE: на каждый токен активны только 3B параметров, поэтому по скорости инференса модель ближе к 3B dense, чем к 35B dense. В long-input workflows это обычно дает заметно меньшую latency на запрос.

Паттерн RAG-пайплайна

Простой single-shot: если retrieved context помещается в 262K токенов, можно пропустить reranking и hierarchical summarization и отдать все сразу в Qwen3.5-35B-A3B. Pipeline проще, latency ниже.

С retrieval: embed → top-K retrieve → собрать prompt на 50K-100K токенов → получить ответ от Qwen3.5-35B-A3B. Дешевые input tokens позволяют увеличивать top-K и давать модели больше контекста.

Сначала summarize, потом answer: для корпусов больше 262K токенов сначала суммаризируйте разделы с помощью Qwen3.5-35B-A3B, затем отвечайте по этим summary. Это двухпроходная схема, но она все равно дешевле большинства альтернатив.

Код для быстрого старта

python
from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# Load a long document — say a 500-page PDF, already extracted to text
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

FAQ

Да. 262,144 токена — это опубликованный hard limit. Для long-context retrieval задачи needle-in-a-haystack recall обычно сильны примерно до 200K; выше точность на тонком поиске может проседать. Для критичного retrieval по-прежнему имеет смысл комбинировать модель с vector search и поднимать самые релевантные фрагменты вверх prompt.

Mixture-of-Experts направляет каждый токен только через часть параметров модели. У Qwen3.5-35B-A3B всего 35B параметров, но на токен активируются только 3B. То есть compute на токен соответствует 3B dense-модели, а knowledge capacity ближе к 35B. Поэтому long-context workloads для нее особенно выгодны: быстрее и дешевле, чем dense 35B.

У Qwen3.5-35B-A3B есть reasoning mode. В QuickSilver Pro он подавлен по умолчанию, чтобы output оставался коротким и предсказуемым — без лишних thinking tokens в счете. Это лучше совпадает с ожиданиями большинства RAG и summarization сценариев.

Да, через OpenAI tools API. Для простых сигнатур reliability хорошая; для сложных multi-tool agent loops DeepSeek V3 обычно надежнее. Перед продакшеном лучше прогнать benchmark на своем агенте для обеих моделей.

Попробуйте с удвоенным депозитом — до $50 бесплатно

Получить API-ключ