What is Qwen3.5-35B-A3B good for?

Qwen3.5-35B-A3B is a 35B-parameter mixture-of-experts model with only 3B active parameters per token and a 262,144-token context window. It is particularly well-suited for long-document RAG, multi-document summarization, and workflows where the prompt contains large amounts of retrieved context. The MoE architecture means it runs at the speed and cost of a 3B dense model despite having 35B total parameters.

How much does the Qwen3.5-35B-A3B API cost?

On QuickSilver Pro: $0.111 per million input tokens and $0.80 per million output tokens. For a RAG pipeline with 50k input tokens of retrieved context per query and 500 output tokens per answer, that is $0.00555 input + $0.0004 output = ~$0.006 per query, or $6 per 1000 queries.

When should I use Qwen3.5-35B-A3B vs DeepSeek V3?

Use Qwen3.5-35B-A3B when the prompt is large — typically >32K tokens of retrieved context or a long document to summarize. Its 262K context window is 2x larger than DeepSeek V3 (131K), and its per-input-token cost is 31% lower. For short-prompt tasks (chat, coding, extraction), DeepSeek V3 has stronger general reasoning at a similar output price.

Is Qwen3.5-35B-A3B the same model as Qwen3?

Qwen3.5-35B-A3B is the 35B-parameter MoE variant with 3B active parameters — a distinct model from Qwen3's dense and larger MoE variants. A3B denotes the 3B active count. It is optimized for long-context workloads where compute per token is the bottleneck.

Главная/Сценарии/qwen3 для long-context

Сценарий

Qwen3.5-35B-A3B для длинного контекста

Qwen3.5-35B-A3B — это 35B-parameter MoE-модель, в которой на каждый токен активны только 3B параметров, плюс окно контекста 262K. Благодаря MoE она работает по стоимости 3B dense-модели, сохраняя базу знаний уровня 35B — это особенно удобно для RAG и long-document workflows. При $0.111 за вход и $0.80 за выход на 1M токенов это одна из самых дешевых моделей по стоимости input token в нашем каталоге.

$0.111 / $0.80 per 1M tokens

Почему модель подходит для RAG

Контекст 262K: можно поместить в один prompt 500-страничный PDF или около 200 файлов кода. Если извлеченный корпус укладывается, не нужен агрессивный chunking; single-shot RAG заметно упрощает pipeline.

Низкая цена входа: $0.111 за 1M input tokens означает, что prompt на 100K токенов стоит $0.011. Для того же prompt DeepSeek V3 по $0.16/1M обойдется в $0.016 — на 44% дороже.

Скорость MoE: на каждый токен активны только 3B параметров, поэтому по скорости инференса модель ближе к 3B dense, чем к 35B dense. В long-input workflows это обычно дает заметно меньшую latency на запрос.

Паттерн RAG-пайплайна

Простой single-shot: если retrieved context помещается в 262K токенов, можно пропустить reranking и hierarchical summarization и отдать все сразу в Qwen3.5-35B-A3B. Pipeline проще, latency ниже.

С retrieval: embed → top-K retrieve → собрать prompt на 50K-100K токенов → получить ответ от Qwen3.5-35B-A3B. Дешевые input tokens позволяют увеличивать top-K и давать модели больше контекста.

Сначала summarize, потом answer: для корпусов больше 262K токенов сначала суммаризируйте разделы с помощью Qwen3.5-35B-A3B, затем отвечайте по этим summary. Это двухпроходная схема, но она все равно дешевле большинства альтернатив.

Код для быстрого старта

python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.quicksilverpro.io/v1",
    api_key="sk-qsp-...",
)

# Load a long document — say a 500-page PDF, already extracted to text
document = open("annual-report.txt").read()  # ~180K tokens

resp = client.chat.completions.create(
    model="qwen3.5-35b",
    messages=[
        {"role": "system", "content": "You answer questions using only the provided document."},
        {"role": "user", "content": f"Document:\n{document}\n\nQuestion: What was free cash flow in Q3?"},
    ],
    max_tokens=500,
)
print(resp.choices[0].message.content)
print(f"Input tokens: {resp.usage.prompt_tokens}, cost: ${resp.usage.cost:.4f}")

FAQ

Правда ли можно отправить 262K токенов в одном prompt?

Да. 262,144 токена — это опубликованный hard limit. Для long-context retrieval задачи needle-in-a-haystack recall обычно сильны примерно до 200K; выше точность на тонком поиске может проседать. Для критичного retrieval по-прежнему имеет смысл комбинировать модель с vector search и поднимать самые релевантные фрагменты вверх prompt.

Что значит '3B active MoE'?

Mixture-of-Experts направляет каждый токен только через часть параметров модели. У Qwen3.5-35B-A3B всего 35B параметров, но на токен активируются только 3B. То есть compute на токен соответствует 3B dense-модели, а knowledge capacity ближе к 35B. Поэтому long-context workloads для нее особенно выгодны: быстрее и дешевле, чем dense 35B.

Влияет ли thinking mode на цену?

У Qwen3.5-35B-A3B есть reasoning mode. В QuickSilver Pro он подавлен по умолчанию, чтобы output оставался коротким и предсказуемым — без лишних thinking tokens в счете. Это лучше совпадает с ожиданиями большинства RAG и summarization сценариев.

Поддерживает ли Qwen tool calling?

Да, через OpenAI tools API. Для простых сигнатур reliability хорошая; для сложных multi-tool agent loops DeepSeek V3 обычно надежнее. Перед продакшеном лучше прогнать benchmark на своем агенте для обеих моделей.

Попробуйте с удвоенным депозитом — до $50 бесплатно

Получить API-ключ