文档中心
  1. 开始使用
  • 开始使用
    • 产品简介
    • 快速入门
    • 在 AI 编程工具中使用 Nexhina
  • API 接口
    • 接口调用说明
      • 快速开始
      • 获取 API Key
      • 鉴权方式
      • 请求地址
      • 错误码说明
      • 流式输出说明
    • Chat
      • 对话补全
    • Models
      • 列出可用模型
    • Responses
      • Responses API
    • Embeddings
      • 文本向量化
    • Images
      • 生成图像
    • Audio
      • 文本转语音(TTS)
      • 语音转文本(STT)
      • 语音翻译
    • Video
      • 生成视频
    • Moderation
      • 内容审核
    • Rerank
      • 重排序
  • 平台相关
    • 常见问题
    • 平台协议
    • 隐私政策
  1. 开始使用

快速入门

1. 模型列表与选择指南#

查询可用模型#

返回结果中 data[].id 就是可用的 model 参数值。

Chat 模型#

模型上下文特点适用场景
deepseek-v364K性价比高,中文能力强日常对话、内容生成
deepseek-r164K推理链模型,思维过程可见数学、逻辑推理、代码调试
gpt-4o128K多模态,综合能力强复杂任务、图文理解
gpt-4o-mini128K速度快、成本低高并发场景、简单对话
gpt-4.11M超长上下文长文档处理、代码库分析
gpt-4.1-mini1M长上下文 + 低成本长文档摘要
gpt-4.1-nano1M最快最便宜分类、提取等轻量任务
o3200K推理增强复杂推理、科学问题
o4-mini200K推理 + 低成本日常推理任务
claude-sonnet-4-20250514200K编程和推理强代码生成、分析
qwen-max32K中文优化中文业务场景
qwen-plus128K性价比高通用中文任务
glm-4128K中文理解好中文对话、写作
gemini-2.5-pro1M超长上下文 + 多模态长文档、多模态分析

Embedding 模型#

模型维度说明
text-embedding-3-large3072(可降维)高精度,推荐生产使用
text-embedding-3-small1536(可降维)速度快,成本低
text-embedding-ada-0021536兼容旧版

图像模型#

模型最大尺寸特色功能
gpt-image-11536x1024背景透明、审核级别控制
dall-e-31792x1024高分辨率、风格选择
dall-e-21024x1024基础生成、多图输出

语音模型#

模型用途说明
tts-1文本转语音标准质量
tts-1-hd文本转语音高清音质
gpt-4o-mini-tts文本转语音支持风格指令
whisper-1语音转文本 / 翻译多语言支持

视频模型#

模型说明
kling-v2快手可灵,文生/图生视频
veo-2Google 视频生成
cerve视频生成

Rerank 模型#

模型说明
cohere-rerank-v3Cohere 重排序,RAG 场景推荐

Moderation 模型#

模型说明
omni-moderation-latest多模态审核,支持文本+图片
提示:实际可用模型以 GET /v1/models 返回为准,平台会持续新增模型。

2. 额度与计费说明#

计费方式#

Nexhina 按 Token 用量 计费,不同模型价格不同。
输入 Token(prompt_tokens):你发给模型的内容
输出 Token(completion_tokens):模型生成的内容
一般情况下,输出 Token 单价高于输入 Token

Token 是什么#

Token 是模型处理文本的基本单位。粗略换算:
语言1 Token ≈
英文4 个字符 / 0.75 个单词
中文1~2 个汉字

模型倍率#

不同模型价格不同,通过倍率换算。以 GPT-4o-mini 为基准(倍率 1x):
模型输入倍率输出倍率说明
gpt-4o-mini1x1x基准
deepseek-v30.5x0.5x更便宜
gpt-4o5x15x能力强,价格高
gpt-4.110x30x长上下文
claude-sonnet-46x30x编程强
倍率仅供参考,实际以后台配置为准。管理员可在 运营设置 → 模型价格 中调整。

额度查询#

登录管理后台,在 令牌管理 中查看 Key 的已用额度和剩余额度
或通过接口响应中的 usage 字段实时获取本次消耗

额度耗尽#

Key 额度用完后,请求会返回:
{
  "error": {
    "message": "Insufficient quota",
    "type": "insufficient_quota",
    "code": "insufficient_quota"
  }
}
HTTP 状态码为 402。此时需要充值或更换有额度的 Key。

不同接口的计费#

接口计费依据
Chat / Responses输入 + 输出 Token
Embeddings输入 Token
Images按张数和模型计费,非 Token 计费
Audio TTS按输入字符数计费
Audio STT / Translation按音频时长计费
Video按次计费
Moderation输入 Token(通常量很小)
Rerank输入 Token

3. 速率限制说明#

限制维度#

维度含义
RPMRequests Per Minute,每分钟请求数
TPMTokens Per Minute,每分钟 Token 数

限制规则#

限制基于 API Key 维度,不同 Key 独立计算
管理员可在后台为不同令牌组设置不同限额
默认限制因部署配置而异,具体数值联系管理员确认

超限响应#

{
  "error": {
    "message": "Rate limit reached for default",
    "type": "rate_limit_error",
    "code": "rate_limit_exceeded"
  }
}
HTTP 状态码 429。

响应头#

速率限制信息会通过 HTTP 响应头返回:
Header含义
X-RateLimit-Limit当前周期内的总限额
X-RateLimit-Remaining当前周期内的剩余次数
X-RateLimit-Reset限额重置时间(Unix 时间戳)

应对策略#

1.
读取响应头:每次请求后检查 X-RateLimit-Remaining,提前预判
2.
请求前限流:客户端做本地限流,不要等 429 才降速
3.
指数退避:收到 429 后,等 1s → 2s → 4s → 8s 再重试
4.
多 Key 轮换:配置多个 Key,轮流使用,提升总吞吐
5.
减少无效 Token:精简 prompt,避免重复上下文

批量调用#

降维#

text-embedding-3 系列支持指定输出维度,降低存储成本:
降维会损失精度,建议从高维开始,根据效果逐步降低。
参数建议
model默认 cohere-rerank-v3,目前最通用
top_n通常设 3~5,不需要返回太多
return_documents设 true,省得再按索引查原文
上一页
产品简介
下一页
在 AI 编程工具中使用 Nexhina
Built with