You need to enable JavaScript to run this app.
导航
Tokenization
最近更新时间:2024.09.05 11:06:24首次发布时间:2024.09.05 11:06:24

调用本接口,可以将文本转换为模型可理解的 token id,并返回文本的 tokens 数量、token id、 token 在原始文本中的偏移量等信息。

请求消息样式
POST /api/v3/tokenization HTTP/1.1
Host: ark.cn-beijing.volces.com
Content-Type: application/json
Authorization: <authorization string>

body

地域及访问域名

本接口支持的地域及 API 访问域名参见地域和访问域名


鉴权方式

本接口支持 API Key 鉴权方式,详见鉴权认证方式


请求参数

请求体

参数名称类型是否必填描述示例值
modelString您创建的推理接入点 IDep-202406040*****-*****

text

String or Array of String

需要分词的内容列表

["天空为什么这么蓝", "花儿为什么这么香"]

响应参数

请求响应

参数名称类型描述示例值

id

String

本次请求的唯一标识

20240626111122000004A0D09FB20316B8

modelString本次请求实际使用的模型名称和版本doubao-pro-32k-240615
createdInteger本次请求创建时间的 Unix 时间戳(秒)1724902147
objectString固定为listlist
dataArray of Tokenization本次请求的分词输出内容-

数据结构

Tokenization

参数名称类型描述示例值
indexInteger分词结果的序号,与请求参数text列表中的内容顺序对应0
objectString固定为 tokenizationtokenization
total_tokensInteger对应内容的总 token 数量4

token_ids

Array of Integer

对文本进行分词后的具体词语在词表中的 id 列表

[14539, 4752, 5189, 5399]

offset_mapping

Array of Array of Integer

对文本进行分词后的词语偏移量,列表中每个元素是一个包含两个整数的列表:第一个整数表示词或标记在原始文本中的起始索引(是从0开始),第二个整数表示结束索引(不包括该索引处的字符)

[[0, 2], [2, 5], [5, 7], [7, 8]]

请求示例
curl https://ark.cn-beijing.volces.com/api/v3/tokenization \
  -H 'Content-Type: application/json' \
  --header 'Authorization: Bearer ea764f0f-3b60-45b3-****-************' \
  -d '{
    "model": "ep-20240704******-*****",
    "text": ["天空为什么这么蓝"]
  }'
响应示例
{
	"object": "list",
	"id": "021718067849899d92fcbe0865fdffdde********************",
	"model": "doubao-pro-32k-240615",
	"data": [
		{
			"object": "tokenization",
			"index": 0,
			"total_tokens": 4,
			"token_ids": [
				14539,
				4752,
				5189,
				5399
			],
			"offset_mapping": [
				[
					0,
					2
				],
				[
					2,
					5
				],
				[
					5,
					7
				],
				[
					7,
					8
				]
			]
		}
	],
	"created": 1724902147
}
错误处理

错误响应

本接口调用失败的返回结构和参数释义请参见返回结构文档。

错误码

本接口错误码请参见公共错误码文档。