图像处理算子用于实现图像文字识别、关键信息提取等功能。通过本文您可以了解图像处理模块下所包含的各类算子的能力和使用方式。
企业管理员已为算子配置大模型,详情请参见设置大模型调用。
支持识别图片中的文字信息,提供文字识别结果、语种等多种关键信息,为多语种场景下的图片文字识别、提取提供解决方案。
多语种OCR服务支持中英文、日语、法语、德语、俄语、西班牙语等50+语种的文字识别能力。提供文字识别结果、语种等多种关键信息,为多语种场景下的图片文字识别、提取提供解决方案。
点击「图像处理OCR-Qwen」,在基本信息页面,配置相关参数。
模型信息
参数 | 配置说明 |
|---|---|
模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
模型调用地址 | 应用的调用地址 |
推理接入点 | 一般格式为 |
API Key | 一般格式为 |
处理配置
输入模式:选择输入数据的来源模式。
支持以下两种模式:
注意
输入模式选择 file 时,输入字段必须选择 file_ref。
语言识别配置
下拉单选,支持搜索,根据技术选型选择可选的语言。目前支持中文和英文。
高级设置
相关参数说明如下:
参数 | 说明 |
|---|---|
并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 |
重试间隔 | 设置任务失败后的自动重试次数。 |
异常处理 | 配置当任务发生异常时的处理策略。 |
输出配置
输出字段:指定用于存储识别结果的输出字段名称。用户自定义输出字段,不支持首位空格,其余均支持,不超过64个字符。
点击「测试执行」,在「测试执行结果」栏中查看输出结果。
在流程画布中点击「图像OCR-Doubao」算子,并完成以下配置。
模块 | 参数 | 说明 |
|---|---|---|
模型信息 | 模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
Access Key ID 和 Secret Access Key | 已开通图像识别与理解服务的火山引擎账号的访问秘钥(AK/SK),操作指南请参见: | |
处理配置 | 输入模式 | 选择视频输入来源模式。
|
输入字段 | 根据上游算子实际输出字段,选择需要抽取输入的字段。 注意 输入模式选择 file 时,输入字段必须选择 file_ref。 | |
图像识别配置 | 文字识别模式 | 支持选择以下任一模式:
|
置信分数 | 设置置信度阈值,低于该分数的文本行将被过滤掉。取值范围 0~100。 | |
高级设置 | 并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 | |
重试次数 | 设置任务失败后的自动重试次数。 | |
重试间隔 | 设置任务失败后每次重试之间的时间间隔。 | |
异常处理 | 配置当任务发生异常时的处理策略。 | |
输出配置 | 输出内容 | 支持选择最终文本或最终文本+详细信息。默认为最终文本。 |
输出字段 | 自定义输出字段。 |
完成算子配置后,算子会自动执行并输出数据预览,您需要等待执行完毕后查看数据预览结果。
其中:
您也可以点击「测试执行」,在「测试执行结果」栏中查看输出结果。