调用本接口,可以将文本转换为模型可理解的 token id,并返回文本的 tokens 数量、token id、 token 在原始文本中的偏移量等信息。
POST /api/v3/tokenization HTTP/1.1 Host: ark.cn-beijing.volces.com Content-Type: application/json Authorization: <authorization string> body
本接口支持的地域及 API 访问域名参见地域和访问域名。
本接口支持 API Key 鉴权方式,详见鉴权认证方式。
参数名称 | 类型 | 是否必填 | 描述 | 示例值 |
---|---|---|---|---|
model | String | 是 | 您创建的推理接入点 ID | ep-202406040*****-***** |
text | String or Array of String | 是 | 需要分词的内容列表 | ["天空为什么这么蓝", "花儿为什么这么香"] |
参数名称 | 类型 | 描述 | 示例值 |
---|---|---|---|
id | String | 本次请求的唯一标识 | 20240626111122000004A0D09FB20316B8 |
model | String | 本次请求实际使用的模型名称和版本 | doubao-pro-32k-240615 |
created | Integer | 本次请求创建时间的 Unix 时间戳(秒) | 1724902147 |
object | String | 固定为list | list |
data | Array of Tokenization | 本次请求的分词输出内容 | - |
参数名称 | 类型 | 描述 | 示例值 |
---|---|---|---|
index | Integer | 分词结果的序号,与请求参数text 列表中的内容顺序对应 | 0 |
object | String | 固定为 tokenization | tokenization |
total_tokens | Integer | 对应内容的总 token 数量 | 4 |
token_ids | Array of Integer | 对文本进行分词后的具体词语在词表中的 id 列表 | [14539, 4752, 5189, 5399] |
offset_mapping | Array of Array of Integer | 对文本进行分词后的词语偏移量,列表中每个元素是一个包含两个整数的列表:第一个整数表示词或标记在原始文本中的起始索引(是从0开始),第二个整数表示结束索引(不包括该索引处的字符) | [[0, 2], [2, 5], [5, 7], [7, 8]] |
curl https://ark.cn-beijing.volces.com/api/v3/tokenization \ -H 'Content-Type: application/json' \ --header 'Authorization: Bearer ea764f0f-3b60-45b3-****-************' \ -d '{ "model": "ep-20240704******-*****", "text": ["天空为什么这么蓝"] }'
{ "object": "list", "id": "021718067849899d92fcbe0865fdffdde********************", "model": "doubao-pro-32k-240615", "data": [ { "object": "tokenization", "index": 0, "total_tokens": 4, "token_ids": [ 14539, 4752, 5189, 5399 ], "offset_mapping": [ [ 0, 2 ], [ 2, 5 ], [ 5, 7 ], [ 7, 8 ] ] } ], "created": 1724902147 }
本接口调用失败的返回结构和参数释义请参见返回结构文档。
本接口错误码请参见公共错误码文档。