You need to enable JavaScript to run this app.
数据智能体

数据智能体

复制全文
创建并配置非结构化数据打标任务
数据准备
复制全文
数据准备

使用非结构数据打标功能前,您需要先将待打标签的非结构化数据创建为VeCDP的数据集。目前暂不支持直接将非结构化数据导入至VeCDP作为数据集,您需先将非结构化数据存储至库表中,再通过对接库表来创建VeCDP的数据集。 本文为您介绍如何准备数据。

操作说明

将非结构化数据导入库表时,需确保库表包含以下任一类型字段:

  • 文本字段:直接存储为文本内容。
  • 音视频 / 文件 URL 字段:音视频文件的访问地址(即转为文本形式,推荐),存储音视频原文件(不推荐)。

操作步骤
  1. 登录客户数据平台,选择数据管理-数据连接。

  2. 点击新建数据连接图标,选择非结构化数据,选择上传文件或对应的对象存储。
    Image

  3. 填写所需的基本信息。

    • 上传文件:填写数据连接名称,上传文件,文件支持docx、doc、pptx、ppt等多种格式,且不限数量及大小。
      Image

    • 火山云TOS_元信息
      Image

      参数

      具体说明

      accessKey

      请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理

      secretKey

      请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理

      接入点(endpoint)

      对应 S3Endpoint的访问域名,并在前面加上 https://,例如TOS北京对应 https://tos-s3-cn-beijing.volces.com。
      Image

      桶名(bucket)

      桶名,例如test-bucket-123

      区域(region)

      地域,例如cn-beijing。

      文件目录

      数据文件的存储目录,例如data/test/。

    • 腾讯云COS_元信息:
      Image

      参数

      具体说明

      accessKey

      请求API的安全凭证,请前往腾讯云访问管理控制台的API密钥管理页面创建并获取。

      secretKey

      请求API的安全凭证,请前往腾讯云访问管理控制台的API密钥管理页面创建并获取。

      接入点(endpoint)

      对应Endpoint的访问域名,并在前面加上https://,例如COS北京对应 https://cos.ap-beijing.myqcloud.com

      桶名(bucket)

      桶名,例如my-cos-bucket-125xxxx0000

      区域(region)

      地域,腾讯云托管机房的分布地区

      文件目录

      数据文件的存储目录,注意这里填写时不要以 / 开头

    • 阿里云OSS_元信息:
      Image

      参数

      具体说明

      accessKey

      请求API的安全凭证。关于如何获取AccessKey,请参见阿里云官方文档《创建AccessKey》。

      secretKey

      请求API的安全凭证。

      接入点(endpoint)

      对应Endpoint的访问域名,并在前面加上https://,例如OSS北京对应 https://oss-beijing.aliyuncs.com

      桶名(bucket)

      桶名,例如hangzhou-static

      区域(region)

      地域,例如cn-beijing。

      文件目录

      数据文件的存储目录,例如data/test/。

  4. 单击测试连接,将进行数据源连通性测试。
    Image

  5. 测试成功后,点击保存。点击一键接入,系统将根据您的配置自动创建数据集并开始同步元信息。
    Image

  6. 接入完成后,可点击查看数据集,跳转至数据集管理页面,非结构化的数据已被编写成结构化的表格。

以下以企业客服对话作为示例,示意几个典型场景下的数据准备工作。

外呼对话提取(转为文本,推荐)

若对话数据已将语音转为文本,则可将对话内容文本直接存储在库表中,需至少保留2个字段,id列和内容列,如下所示。
在客户数据平台CDP控制台,选择数据管理-数据连接,具体操作步骤请参见常见数据源接入数据输入
Image

外呼对话提取(音频原件)

若对话数据只有原始语音,您可以按以下操作步骤处理:

  1. 将语音文件导入对象存储(例如TOS),并将URL存储在库表中,需至少保留2个字段,id列和内容列。在客户数据平台CDP控制台,选择数据管理-数据连接,具体操作步骤请参见常见数据源接入数据输入
    Image
  2. 在可视化建模步骤中,选择该数据,并将URL存储在库表中,需至少保留2个字段,id列和内容列。
    Image
  3. 连接一个REST API 2.0调用算子(调用ASR插件),完成语音转文本,具体操作请参见REST API 2.0
    Image

企业微信会话提取
  • 若企微会话存档数据此前已接入至VeCDP,则直接从数据库表读取即可,需至少保留2个字段,id列和内容列。 在客户数据平台CDP控制台,选择数据管理-数据连接,具体操作步骤请参见常见数据源接入数据输入
    Image
  • 若企微会话存档数据还未接入VeCDP,则可以从VeCDP的数据源直接接入。 在客户数据平台CDP控制台,选择数据管理-数据连接,搜索企业微信,具体操作步骤请参见企业微信数据连接
    Image

    说明

    使用数据源直接接入企微会话数据时,需要您的企业微信开通了对应对接的功能。

下一步

创建任务

最近更新时间:2025.12.01 14:56:13
这个页面对您有帮助吗?
有用
有用
无用
无用