使用非结构数据打标功能前,您需要先将待打标签的非结构化数据创建为VeCDP的数据集。目前暂不支持直接将非结构化数据导入至VeCDP作为数据集,您需先将非结构化数据存储至库表中,再通过对接库表来创建VeCDP的数据集。 本文为您介绍如何准备数据。
将非结构化数据导入库表时,需确保库表包含以下任一类型字段:
登录客户数据平台,选择数据管理-数据连接。
点击新建数据连接图标,选择非结构化数据,选择上传文件或对应的对象存储。
填写所需的基本信息。
上传文件:填写数据连接名称,上传文件,文件支持docx、doc、pptx、ppt等多种格式,且不限数量及大小。
火山云TOS_元信息:
参数 | 具体说明 |
|---|---|
accessKey | 请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理。 |
secretKey | 请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理。 |
接入点(endpoint) | 对应 S3Endpoint的访问域名,并在前面加上 https://,例如TOS北京对应 https://tos-s3-cn-beijing.volces.com。 |
桶名(bucket) | 桶名,例如test-bucket-123 |
区域(region) | 地域,例如cn-beijing。 |
文件目录 | 数据文件的存储目录,例如data/test/。 |
腾讯云COS_元信息:
参数 | 具体说明 |
|---|---|
accessKey | 请求API的安全凭证,请前往腾讯云访问管理控制台的API密钥管理页面创建并获取。 |
secretKey | 请求API的安全凭证,请前往腾讯云访问管理控制台的API密钥管理页面创建并获取。 |
接入点(endpoint) | 对应Endpoint的访问域名,并在前面加上https://,例如COS北京对应 https://cos.ap-beijing.myqcloud.com。 |
桶名(bucket) | 桶名,例如my-cos-bucket-125xxxx0000 |
区域(region) | 地域,腾讯云托管机房的分布地区 |
文件目录 | 数据文件的存储目录,注意这里填写时不要以 / 开头 |
阿里云OSS_元信息:
参数 | 具体说明 |
|---|---|
accessKey | 请求API的安全凭证。关于如何获取AccessKey,请参见阿里云官方文档《创建AccessKey》。 |
secretKey | 请求API的安全凭证。 |
接入点(endpoint) | 对应Endpoint的访问域名,并在前面加上https://,例如OSS北京对应 https://oss-beijing.aliyuncs.com。 |
桶名(bucket) | 桶名,例如hangzhou-static |
区域(region) | 地域,例如cn-beijing。 |
文件目录 | 数据文件的存储目录,例如data/test/。 |
单击测试连接,将进行数据源连通性测试。
测试成功后,点击保存。点击一键接入,系统将根据您的配置自动创建数据集并开始同步元信息。
接入完成后,可点击查看数据集,跳转至数据集管理页面,非结构化的数据已被编写成结构化的表格。
以下以企业客服对话作为示例,示意几个典型场景下的数据准备工作。
若对话数据已将语音转为文本,则可将对话内容文本直接存储在库表中,需至少保留2个字段,id列和内容列,如下所示。
在客户数据平台CDP控制台,选择数据管理-数据连接,具体操作步骤请参见常见数据源接入和数据输入。
若对话数据只有原始语音,您可以按以下操作步骤处理:
说明
使用数据源直接接入企微会话数据时,需要您的企业微信开通了对应对接的功能。