为了提高长期推荐的效果,为用户提供新型生成式推荐的个性化能力,我们提供了用户行为数据的上传功能。通过利用丰富且细粒度的用户行为数据,结合用户意图、用户行为顺序、上下文对话记录,提供更好的端到端推荐效果,我们建议您使用用户行为数据上传功能,这将为您提升一些特定场景下长期内容的推荐效果,比如:
在您使用推荐功能的过程中,物品数据和行为数据的上传将是必要的。无论是物品数据还是行为数据,它们都可支持被多个应用同时配置使用。对于单个应用,可支持配置多个数据集,但每个应用仅能配置一个行为数据集。在您开始配置行为数据集之前,请您注意:
下面将为您详细介绍用户行为数据的数据准备要求及上传方式。
说明
此处的示例字段名仅做示例用途,您在上传这5类必填字段时,可以使用您自身数据的schema,采用您自身数据中预设的字段名。
在定义行为表时,有5类字段是您必填的,这5类必填字段的含义分别为:
字段含义 | 示例字段名称 | 必填 | 支持的数据类型 | 行为说明 |
|---|---|---|---|---|
物品ID | item_id | ✅ | string, int32, int64 | 用户互动的物品的唯一标识 |
用户ID | user_id | ✅ | string, int32, int64 | 用户的唯一标识 |
行为类型 | event_type | ✅ | int32, int64, string | 记录用户行为的动作名称 |
行为发生时间 | event_timestamp | ✅ | int64 | 行为发生时间,时间戳格式(毫秒) |
行为发生场景 | scene | ✅ | string, int32, int64 | 用户行为发生的位置或功能场景描述 |
除去必填字段,您可以根据业务需求配置自定义字段,以丰富单条行为的上下文信息。系统会自动解析,并利用自定义字段来帮助您构建更全面、更精细的用户行为分析模型。例如,您可以通过"duration"字段记录用户在特定页面的停留时长;使用"query"字段捕获用户的搜索关键词;通过"device_type"和"platform"字段区分不同设备和操作系统的用户行为特征等。
示例字段含义 | 说明 |
|---|---|
停留时间 | 停留时长,适用于浏览类行为 |
搜索词 | 若行为发生于搜索场景,记录搜索词 |
用户设备 | 用户设备类型,如 mobile、pc、tablet |
用户系统 | 操作系统或平台,如 iOS, Android, Web |
注意
请务必保持同一字段的数据类型全局一致,避免在不同次上报同一字段时出现数据格式/类型变更,否则可能导致部分数据解析失败或报错。
在控制台左侧导航栏选择【数据集】,然后点击【创建数据集】按钮,并选择【行为数据集】类型。
您可以通过上传JSONL文件(要求文件大小不超过10 MB)或直接粘贴JSON格式数据的方式,将用户行为数据上传至数据集。您无需在首次上传中一次性上传全部数据,只需要确保您在建立数据集时所上传的数据满足以下要求:
您可以通过点击“文件格式规范”,来查看示例的json格式,以及一系列详细规范:
以下是一个示例的json格式:
[{ "user_id": "user134", "item_id": "1235", "event_id": "41231", "event_type": "曝光", "event_timestamp": 1678886400000, "event_scene": "home", "device_os": "Android" }, { "user_id": "user134", "item_id": "1235", "event_id": "41234", "event_type": "加入购物车", "event_timestamp": 1678886520000, "event_scene": "product_detail_page", "device_os": "IOS" }, { "user_id": "user134", "item_id": "1235", "event_id": "41236", "event_type": "下单", "event_timestamp": 1678886580000, "event_scene": "shopping_cart", "device_os": "Android" }]
上传JSONL文件时,您可以点击后在文件夹中选取,也可以直接将想要上传的JSONL文件拖拽至区域内自动解析(您上传的JSON文件大小需在10 MB以内)。
您也可以选择通过粘贴JSON代码上传:
完成本部分内容后,您可以点击右下角的“配置字段”,待大模型自动为您进行初步的字段配置后,即可进入下一步的字段配置部分。
注意
不同的字段属性对字段类型的要求也不同,在勾选过程中,请您先勾选您数据所对应的字段类型,再勾选您需要配置的字段属性。当您未勾选字段类型时,将无法勾选字段属性。您也可以将鼠标悬浮在字段类型上查看其对应数据类型的提示。
以下为您列出在配置行为数据集时,必填字段的字段类型要求及含义:
字段名 | 必填 | 支持的数据类型 | 行为说明 |
|---|---|---|---|
物品ID | ✅ | string, int32, int64 | 用户互动的物品的唯一标识 |
用户ID | ✅ | string, int32, int64 | 用户或用户的唯一标识 |
行为类型 | ✅ | int32, int64, string | 记录用户行为的动作名称 |
行为发生时间 | ✅ | int64 | 行为发生时间,时间戳格式(毫秒) |
行为发生场景 | ✅ | string, int32, int64 | 用户行为发生的位置或功能场景描述 |
说明
若您之前上传的数据不符合数据schema配置需求,则在配置过程中数据将会丢弃。此时点击“完成”,将会提示您需配置所有必填字段。
由于画像抽取、建立和推荐结果强依赖行为类型理解,在配置字段之后,您需要对行为类型字段进行枚举配置。
行为类型字段的字段含义框说明
注意
创建后,只允许建立新行为类型和更改字段含义,不允许修改已保存的行为类型枚举配置和字段属性配置。
更多详情,请查看 前置配置。
行为数据集创建后,您可以在数据集列表中查看到刚创建的数据集。进入数据集详情页,即可查看其基本信息、字段配置和操作历史等内容。