索引是数据集配置和处理后,构建的用于快速高性能检索的计算和存储引擎。
当您在应用中创建或关联了数据集(流程请查看:创建应用并关联物品数据集),确认关联后将在应用中创建用于搜索和推荐引擎的数据索引。一个数据集可被关联至多个应用中并赋予不同的字段搜索配置,同一个数据集在不同应用中会构建多个索引。
索引的配置对搜索的准确性和相关性匹配的覆盖度至关重要,在应用中关联或创建数据集时您会看到以下的数据集字段配置界面,在此界面上您可以配置或调整数据集用于搜索不同功能的字段策略:
用途 | 参数说明 |
|---|---|
用于文本搜索 | 字段中的语义信息将包含在物品的语义表征中参与检索。 |
用于图搜 | 勾选此选项即可让该字段中的图片支持被“以图搜图”。 |
用于过滤 | 调用搜索和对话接口时,可使用选中字段对搜索结果进行筛选 |
用于搜索补全 | 每条数据中选中的字段值都会作为联想词进入索引用于调用搜索联想接口的数据源。 |
在导入数据样例后,平台会使用大模型进行智能数据理解,通过数据样例的字段名称和样例值来对字段的信息进行自动的判断。
字段含义是每个字段存储的内容的简短介绍,在搜索匹配的过程中模型会将字段含义与字段的值一起进行语义表征。在配置了字段的用于搜索时,为了使模型可以精确理解数据中的内容并进行准确匹配,请检查大模型解读出的字段含义信息,如果模型理解的不正确,可以在完成配置前进行修改调整。
字段含义应当简洁、有概括性。建议控制在10个字以内,准确描述字段内容的本质特征,例如:
{ "product_id": "P10092385", "title": "轻薄笔记本电脑", "images": { "primary": "https://example.com/images/laptop_main.jpg", "gallery": [ "https://example.com/images/laptop_angle1.jpg", "https://example.com/images/laptop_angle2.jpg" ] }, "price": { "current": 4999, "original": 5899, "discount_percentage": 15 }, "specs": { "processor": "Intel i7", "memory": "16GB", "storage": "512GB SSD" } }
示例字段 | 字段类型 | 字段含义 |
|---|---|---|
product_id | String | 商品的唯一ID |
title | String | 商品名 |
images | Object | 图片内容 |
| String | 商品主形象图 |
| Array | 商品详情页内容 |
price | Object | 价格信息 |
| Float | 当前价格 |
| Float | 原价 |
| Float | 商品折扣(百分比) |
specs | Object | 商品参数 |
| String | 处理器 |
| String | 内存 |
| String | 电脑存储空间和介质 |
用于搜索的字段是用于与用户的输入(图片或文本查询)匹配的内容字段,如果您希望物品数据中的信息被用户检索到,则需要将这些字段设置为“用于搜索”。
可以按照以下的建议来配置
字段用途 | 支持的字段 | 配置指引 |
|---|---|---|
用于文本搜索 | 所有字段。 |
|
用于图片搜索 | 图片字段(标识了“图片链接”或“图片base64”属性的字段) | 图片搜索即“以图搜图”,用户上传一张图片来查询相似或相同图像特征的数据。
|
用于过滤的字段将在索引中以预置过滤器的形式存储,并可以用于调用搜索时进行的搜索结果前置过滤,一些关键的业务数据和标签(如日期时间、价格、物品状态、分类)建议配置为可过滤字段。
可过滤字段可配置以下内容:
字段数据类型 | 配置指引 |
|---|---|
布尔值字段(Boolean) | 典型的用于过滤的字段,如表示上架状态的字段等可作为过滤器用于实时的业务规则过滤。 |
文本类字段(String) | 建议将枚举值类的字段配置为用于过滤,典型的如商品和内容的分类、品类信息。 |
数值类字段(Float,Int32,Int64) | 价格、时间戳等信息建议作为用于过滤的字段,典型的如商品价格区间、时间范围等场景。 |