快速入门

1. 模型列表与选择指南

查询可用模型

返回结果中 data[].id 就是可用的 model 参数值。

Chat 模型

模型	上下文	特点	适用场景
`deepseek-v3`	64K	性价比高，中文能力强	日常对话、内容生成
`deepseek-r1`	64K	推理链模型，思维过程可见	数学、逻辑推理、代码调试
`gpt-4o`	128K	多模态，综合能力强	复杂任务、图文理解
`gpt-4o-mini`	128K	速度快、成本低	高并发场景、简单对话
`gpt-4.1`	1M	超长上下文	长文档处理、代码库分析
`gpt-4.1-mini`	1M	长上下文 + 低成本	长文档摘要
`gpt-4.1-nano`	1M	最快最便宜	分类、提取等轻量任务
`o3`	200K	推理增强	复杂推理、科学问题
`o4-mini`	200K	推理 + 低成本	日常推理任务
`claude-sonnet-4-20250514`	200K	编程和推理强	代码生成、分析
`qwen-max`	32K	中文优化	中文业务场景
`qwen-plus`	128K	性价比高	通用中文任务
`glm-4`	128K	中文理解好	中文对话、写作
`gemini-2.5-pro`	1M	超长上下文 + 多模态	长文档、多模态分析

Embedding 模型

模型	维度	说明
`text-embedding-3-large`	3072（可降维）	高精度，推荐生产使用
`text-embedding-3-small`	1536（可降维）	速度快，成本低
`text-embedding-ada-002`	1536	兼容旧版

图像模型

模型	最大尺寸	特色功能
`gpt-image-1`	1536x1024	背景透明、审核级别控制
`dall-e-3`	1792x1024	高分辨率、风格选择
`dall-e-2`	1024x1024	基础生成、多图输出

语音模型

模型	用途	说明
`tts-1`	文本转语音	标准质量
`tts-1-hd`	文本转语音	高清音质
`gpt-4o-mini-tts`	文本转语音	支持风格指令
`whisper-1`	语音转文本 / 翻译	多语言支持

视频模型

模型	说明
`kling-v2`	快手可灵，文生/图生视频
`veo-2`	Google 视频生成
`cerve`	视频生成

Rerank 模型

模型	说明
`cohere-rerank-v3`	Cohere 重排序，RAG 场景推荐

Moderation 模型

模型	说明
`omni-moderation-latest`	多模态审核，支持文本+图片

提示：实际可用模型以 GET /v1/models 返回为准，平台会持续新增模型。

2. 额度与计费说明

计费方式

Nexhina 按 Token 用量 计费，不同模型价格不同。

输入 Token（prompt_tokens）：你发给模型的内容

输出 Token（completion_tokens）：模型生成的内容

一般情况下，输出 Token 单价高于输入 Token

Token 是什么

Token 是模型处理文本的基本单位。粗略换算：

语言	1 Token ≈
英文	4 个字符 / 0.75 个单词
中文	1~2 个汉字

模型倍率

不同模型价格不同，通过倍率换算。以 GPT-4o-mini 为基准（倍率 1x）：

模型	输入倍率	输出倍率	说明
gpt-4o-mini	1x	1x	基准
deepseek-v3	0.5x	0.5x	更便宜
gpt-4o	5x	15x	能力强，价格高
gpt-4.1	10x	30x	长上下文
claude-sonnet-4	6x	30x	编程强

倍率仅供参考，实际以后台配置为准。管理员可在 运营设置 → 模型价格 中调整。

额度查询

登录管理后台，在 令牌管理 中查看 Key 的已用额度和剩余额度

或通过接口响应中的 usage 字段实时获取本次消耗

额度耗尽

Key 额度用完后，请求会返回：

{
  "error": {
    "message": "Insufficient quota",
    "type": "insufficient_quota",
    "code": "insufficient_quota"
  }
}

HTTP 状态码为 402。此时需要充值或更换有额度的 Key。

不同接口的计费

接口	计费依据
Chat / Responses	输入 + 输出 Token
Embeddings	输入 Token
Images	按张数和模型计费，非 Token 计费
Audio TTS	按输入字符数计费
Audio STT / Translation	按音频时长计费
Video	按次计费
Moderation	输入 Token（通常量很小）
Rerank	输入 Token

3. 速率限制说明

限制维度

维度	含义
RPM	Requests Per Minute，每分钟请求数
TPM	Tokens Per Minute，每分钟 Token 数

限制规则

限制基于 API Key 维度，不同 Key 独立计算

管理员可在后台为不同令牌组设置不同限额

默认限制因部署配置而异，具体数值联系管理员确认

超限响应

{
  "error": {
    "message": "Rate limit reached for default",
    "type": "rate_limit_error",
    "code": "rate_limit_exceeded"
  }
}

HTTP 状态码 429。

响应头

速率限制信息会通过 HTTP 响应头返回：

Header	含义
`X-RateLimit-Limit`	当前周期内的总限额
`X-RateLimit-Remaining`	当前周期内的剩余次数
`X-RateLimit-Reset`	限额重置时间（Unix 时间戳）

应对策略

读取响应头：每次请求后检查 X-RateLimit-Remaining，提前预判

请求前限流：客户端做本地限流，不要等 429 才降速

指数退避：收到 429 后，等 1s → 2s → 4s → 8s 再重试

多 Key 轮换：配置多个 Key，轮流使用，提升总吞吐

减少无效 Token：精简 prompt，避免重复上下文

批量调用

降维

text-embedding-3 系列支持指定输出维度，降低存储成本：

降维会损失精度，建议从高维开始，根据效果逐步降低。

参数	建议
`model`	默认 `cohere-rerank-v3`，目前最通用
`top_n`	通常设 3~5，不需要返回太多
`return_documents`	设 `true`，省得再按索引查原文

1. 模型列表与选择指南#

查询可用模型#

Chat 模型#

Embedding 模型#

图像模型#

语音模型#

视频模型#

Rerank 模型#

Moderation 模型#

2. 额度与计费说明#

计费方式#

Token 是什么#

模型倍率#

额度查询#

额度耗尽#

不同接口的计费#

3. 速率限制说明#

限制维度#

限制规则#

超限响应#

响应头#

应对策略#

批量调用#

降维#