You need to enable JavaScript to run this app.
文档中心
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
下载 pdf
数据处理
图像处理
复制全文
下载 pdf
图像处理

图像处理算子用于实现图像文字识别、关键信息提取等功能。通过本文您可以了解图像处理模块下所包含的各类算子的能力和使用方式。

前提条件

企业管理员已为算子配置大模型,详情请参见设置大模型调用

图像处理算子介绍
  1. 图像OCR-Qwen

支持识别图片中的文字信息,提供文字识别结果、语种等多种关键信息,为多语种场景下的图片文字识别、提取提供解决方案。

  1. 图像OCR-Doubao

多语种OCR服务支持中英文、日语、法语、德语、俄语、西班牙语等50+语种的文字识别能力。提供文字识别结果、语种等多种关键信息,为多语种场景下的图片文字识别、提取提供解决方案。

操作步骤

图像OCR-Qwen

第一步:新建图像OCR-Qwen算子

  1. 点击「数据接入」,选择「可视化知识处理」,点击「新建」,选择「新建离线任务」。
    Image
  2. 按照离线任务中的步骤完成离线任务创建,在处理节点时,选择为数据连接添加「图像处理」中的「图像OCR-Qwen」算子。
    Image

第二步:配置算子

点击「图像处理OCR-Qwen」,在基本信息页面,配置相关参数。
Image

  1. 模型信息

    参数

    配置说明

    模型选择

    如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。

    模型调用地址

    应用的调用地址

    推理接入点

    一般格式为ep-xxxxxxxxxx-yyyy,创建方式参考创建自定义推理接入点

    API Key

    一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考获取 API Key 并配置

  2. 处理配置
    输入模式:选择输入数据的来源模式。
    支持以下两种模式:

    • url:输入在线文件的 URL。
    • file:上传本地文件。
      输入字段:根据上游算子实际输出字段,选择需要抽取输入的字段。

    注意

    输入模式选择 file 时,输入字段必须选择 file_ref。

  3. 语言识别配置
    下拉单选,支持搜索,根据技术选型选择可选的语言。目前支持中文和英文。

  4. 高级设置
    相关参数说明如下:

    参数

    说明

    并发大小

    设置并发处理的任务数量。
    默认值:10

    超时时间

    设置任务处理的超时时间,单位为毫秒(ms)。
    默认值:180000 ms

    重试间隔

    设置任务失败后的自动重试次数。
    默认值:3 次

    异常处理

    配置当任务发生异常时的处理策略。
    支持以下两种策略:
    终止任务:当发生异常时,立即终止当前任务的执行。这是默认选项。
    忽略异常:当发生异常时,忽略错误并继续执行任务的后续步骤。

  5. 输出配置
    输出字段:指定用于存储识别结果的输出字段名称。用户自定义输出字段,不支持首位空格,其余均支持,不超过64个字符。

第三步:测试执行

点击「测试执行」,在「测试执行结果」栏中查看输出结果。
Image

图像OCR-Doubao

第一步:新建图像OCR-Doubao算子

  1. 点击「数据接入」,选择「可视化知识处理」,点击「新建」,选择「新建离线任务」。
    Image
  2. 按照离线任务中的步骤完成离线任务创建,在处理节点时,选择为数据连接添加「图像处理」中的「图像OCR-Doubao」算子。
    Image

第二步:配置算子

在流程画布中点击「图像OCR-Doubao」算子,并完成以下配置。
Image

模块

参数

说明

模型信息

模型选择

如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。

Access Key ID 和 Secret Access Key

已开通图像识别与理解服务的火山引擎账号的访问秘钥(AK/SK),操作指南请参见:

处理配置

输入模式

选择视频输入来源模式。

  • url:输入在线文件的 URL。
  • file:上传本地文件。

输入字段

根据上游算子实际输出字段,选择需要抽取输入的字段。

注意

输入模式选择 file 时,输入字段必须选择 file_ref。

图像识别配置

文字识别模式

支持选择以下任一模式:

  • 默认模式:直接识别文字行,识别到一行即输出一行。
  • 文本块模式:识别文字行后,将语意连贯的文本合成语句或段落再输出。

置信分数

设置置信度阈值,低于该分数的文本行将被过滤掉。取值范围 0~100。

高级设置

并发大小

设置并发处理的任务数量。
默认值:10

超时时间

设置任务处理的超时时间,单位为毫秒(ms)。
默认值:180000 ms

重试次数

设置任务失败后的自动重试次数。
默认值:3 次

重试间隔

设置任务失败后每次重试之间的时间间隔。
默认值:100 ms

异常处理

配置当任务发生异常时的处理策略。
支持以下两种策略:
终止任务:当发生异常时,立即终止当前任务的执行,并清除中间结果。这是默认选项。
忽略异常:当发生异常时,忽略错误(使用 null 填充数据)并继续执行任务的后续步骤。

输出配置

输出内容

支持选择最终文本最终文本+详细信息。默认为最终文本

输出字段

自定义输出字段。

第三步:测试执行

完成算子配置后,算子会自动执行并输出数据预览,您需要等待执行完毕后查看数据预览结果。
Image
其中:

  • 支持终止执行:在数据预览区域右上角点击终止执行
    Image
  • 终止执行后,支持重新执行。
    Image

您也可以点击「测试执行」,在「测试执行结果」栏中查看输出结果。
Image

最近更新时间:2026.04.21 15:02:46
这个页面对您有帮助吗?
有用
有用
无用
无用