You need to enable JavaScript to run this app.
导航

调用方式V2

最近更新时间2023.12.25 15:10:12

首次发布时间2023.11.08 20:27:13

说明

该服务为异步调用,分为任务提交和任务查询两步骤

接口简介

PDF识别支持将上传的中英文PDF文件进行版面分析、文字识别,按照人类正常阅读顺序提取PDF文件中的文本、表格、图片、公式等重要内容信息,并支持以机器阅读友好的Markdown文本进行结果输出;

限制条件
名称内容
图片要求1. 文件格式:PDF。
2. 文件大小:
a.要求Base64编码和urlencode之后不超过 8 MB,PDF页数不超过150页。
b.如果传PDF完整URL,PDF页数不超过150页。
3. 输入文件过大时,返回的HttpCode如下:400/413/502。
请求说明

基本信息

名称内容
接口地址https://visual.volcengineapi.com
请求方式POST
Content-Typeapplication/json
是否需要鉴权

请求参数

header请求参数

以下请求参数列表仅列出了接口请求参数和必要公共参数,完整公共参数列表见 公共参数

名称类型是否必填描述
X-DateString使用UTC时间,精确到秒。请使用格式:YYYYMMDD'T'HHMMSS'Z' ,例如:20201103T104027Z

Authorization

String

HMAC-SHA256:签名方法
-Credential为签名凭证,其中:
-AccessKeyId为访问密钥ID,可在 访问密钥(Access Key) 获取;
-ShortDate为请求的短时间,使用UTC时间,精确到日。请使用格式:YYYYMMDD,例如:20180201
-Region为请求地区,国内一般为为cn-north-1
-Service为请求的服务,文字识别一般为cv
-SignedHeaders为参与签名计算的头部信息,content-typehost 为必选头部;
-Signature为签名,可在 签名方法 获取。
注:我们提供了SDK及签名示例供您实现服务快速接入,具体可参考 快速接入
例如:HMAC-SHA256 Credential={AccessKeyId}/{ShortDate}/{Region}/{Service}/request, SignedHeaders={SignedHeaders}, Signature={Signature}

X-Security-TokenString指安全令牌服务(Security Token Service,STS) 颁发的临时安全凭证中的SessionToken,使用长期密钥时无需填写该参数。

任务提交

Query请求参数

参数可选/必选类型说明
Action必选String接口名,取值:OCRPdfSubmitTask
Version必选String版本号,取值:2021-08-23

Body参数

参数可选/必选类型说明
image_base64与image_url二选一String文件的base64编码
注意: 只需要传文件的base64值
image_url与image_base64二选一String图片/PDF文件的URL链接
注意: 要求image_base64与image_url二选一,如果2个字段都有,优先解析image_base64。
req_key必选String固定为"ocr_pdf"
输出说明

通用输出参数

请参考通用返回字段及错误码 |

业务输出参数

data 字段说明

字段类型说明
task_idString任务编号,用于查询任务运行状态和结果

输出示例

{
    "code":10000,
    "data":{
        "task_id":"7148008545607221256"
    },
    "message":"Success",
    "request_id":"2022092718435001021005903904070D74",
    "status":10000,
    "time_elapsed":"74.407672ms"
}

错误码

通用错误码

请参考通用返回字段及错误码

业务错误码
HttpCode错误码错误消息描述
20010000请求成功

任务查询

建议每1分钟轮询一次,若明确返回查询结果“pdf is too big:pdf页数过多”、“pdf url download failed:pdf url下载失败”、“not_found:任务无法查询到,此种情况一般为任务已过期”、“done:已完成五种情况”,请终止轮询;

Query请求参数

参数可选/必选类型说明
Action必选String接口名,取值:OCRPdfQueryTask
Version必选String版本号,取值:2021-08-23

Body参数

参数可选/必选类型说明
task_id必须String任务编号
req_key必选String固定为"ocr_pdf"
输出说明

通用输出参数

请参考通用返回字段及错误码 |

业务输出参数

data 字段说明

字段类型说明
statusstring任务状态。
not_found:任务无法查询到,此种情况一般为任务已过期
in_queue:已提交队列
done:已完成
resp_datastring解析后的pdf数据,
包括解析后的pdf的md字符串result
pdf页数page_num
解析服务错误信息status,可能包含解析失败pdf parse failed,pdf过大pdf is too big,pdf下载失败pdf url download failed

输出示例

{
	'code': 10000,
	'data': {
		'binary_data_base64': [],
		'resp_data': '{"result": "pdf.md balabala...", "page_num":1, "status":"success"}',
		'status': 'done'
	},
	'message': 'Success',
	'request_id': '202310261709008EDA6DA989D5DC0EF495',
	'status': 10000,
	'time_elapsed': '66.584685ms'
}

错误码

通用错误码

请参考通用返回字段及错误码

业务错误码
HttpCode错误码错误消息描述
20010000请求成功