最近更新时间:2023.12.25 15:10:12
首次发布时间:2023.11.08 20:27:13
该服务为异步调用,分为任务提交和任务查询两步骤
PDF识别支持将上传的中英文PDF文件进行版面分析、文字识别,按照人类正常阅读顺序提取PDF文件中的文本、表格、图片、公式等重要内容信息,并支持以机器阅读友好的Markdown文本进行结果输出;
名称 | 内容 |
---|---|
图片要求 | 1. 文件格式:PDF。 2. 文件大小: a.要求Base64编码和urlencode之后不超过 8 MB,PDF页数不超过150页。 b.如果传PDF完整URL,PDF页数不超过150页。 3. 输入文件过大时,返回的HttpCode如下:400/413/502。 |
名称 | 内容 |
---|---|
接口地址 | https://visual.volcengineapi.com |
请求方式 | POST |
Content-Type | application/json |
是否需要鉴权 | 是 |
以下请求参数列表仅列出了接口请求参数和必要公共参数,完整公共参数列表见 公共参数。
名称 | 类型 | 是否必填 | 描述 |
---|---|---|---|
X-Date | String | 是 | 使用UTC时间,精确到秒。请使用格式:YYYYMMDD'T'HHMMSS'Z' ,例如:20201103T104027Z |
Authorization | String | 是 | HMAC-SHA256:签名方法 |
X-Security-Token | String | 否 | 指安全令牌服务(Security Token Service,STS) 颁发的临时安全凭证中的SessionToken,使用长期密钥时无需填写该参数。 |
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
Action | 必选 | String | 接口名,取值:OCRPdfSubmitTask |
Version | 必选 | String | 版本号,取值:2021-08-23 |
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
image_base64 | 与image_url二选一 | String | 文件的base64编码 注意: 只需要传文件的base64值 |
image_url | 与image_base64二选一 | String | 图片/PDF文件的URL链接 注意: 要求image_base64与image_url二选一,如果2个字段都有,优先解析image_base64。 |
req_key | 必选 | String | 固定为"ocr_pdf" |
请参考通用返回字段及错误码 |
字段 | 类型 | 说明 |
---|---|---|
task_id | String | 任务编号,用于查询任务运行状态和结果 |
{ "code":10000, "data":{ "task_id":"7148008545607221256" }, "message":"Success", "request_id":"2022092718435001021005903904070D74", "status":10000, "time_elapsed":"74.407672ms" }
请参考通用返回字段及错误码
HttpCode | 错误码 | 错误消息 | 描述 |
---|---|---|---|
200 | 10000 | 无 | 请求成功 |
建议每1分钟轮询一次,若明确返回查询结果“pdf is too big:pdf页数过多”、“pdf url download failed:pdf url下载失败”、“not_found:任务无法查询到,此种情况一般为任务已过期”、“done:已完成五种情况”,请终止轮询;
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
Action | 必选 | String | 接口名,取值:OCRPdfQueryTask |
Version | 必选 | String | 版本号,取值:2021-08-23 |
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
task_id | 必须 | String | 任务编号 |
req_key | 必选 | String | 固定为"ocr_pdf" |
请参考通用返回字段及错误码 |
字段 | 类型 | 说明 |
---|---|---|
status | string | 任务状态。not_found :任务无法查询到,此种情况一般为任务已过期in_queue :已提交队列done :已完成 |
resp_data | string | 解析后的pdf数据, 包括解析后的pdf的md字符串 result pdf页数 page_num 解析服务错误信息 status ,可能包含解析失败pdf parse failed ,pdf过大pdf is too big ,pdf下载失败pdf url download failed |
{ 'code': 10000, 'data': { 'binary_data_base64': [], 'resp_data': '{"result": "pdf.md balabala...", "page_num":1, "status":"success"}', 'status': 'done' }, 'message': 'Success', 'request_id': '202310261709008EDA6DA989D5DC0EF495', 'status': 10000, 'time_elapsed': '66.584685ms' }
请参考通用返回字段及错误码
HttpCode | 错误码 | 错误消息 | 描述 |
---|---|---|---|
200 | 10000 | 无 | 请求成功 |