You need to enable JavaScript to run this app.
导航
关于数据集和索引
最近更新时间:2025.10.14 23:36:21首次发布时间:2025.10.14 23:36:21
复制全文
我的收藏
有用
有用
无用
无用

在应用中构建索引

索引是数据集配置和处理后,构建的用于快速高性能检索的计算和存储引擎。
当您在应用中创建或关联了数据集(流程请查看:创建应用并关联物品数据集),确认关联后将在应用中创建用于搜索和推荐引擎的数据索引。一个数据集可被关联至多个应用中并赋予不同的字段搜索配置,同一个数据集在不同应用中会构建多个索引。

Image

前置准备:数据集字段配置

索引的配置对搜索的准确性和相关性匹配的覆盖度至关重要,在应用中关联或创建数据集时您会看到以下的数据集字段配置界面,在此界面上您可以配置或调整数据集用于搜索不同功能的字段策略:
Image

  • 字段名称:​根据样例数据自动解析的字段名。字段名称一旦配置则不可在应用或数据集管理中修改。
  • 字段类型:​根据样例数据自动解析的字段类型,当样例数据中存在全为空值的字段时,平台无法自动解读,您需要手动补充字段类型才可以继续保存和生效配置。字段类型一旦配置则不可在应用或数据集管理中修改。
  • 字段含义:​根据样例数据,大模型自动解读的字段中存储的值的含义。您可以进行检查并做进一步的补充和修改。
  • 字段属性:​特殊字段属性标签,对数据集中存储特定信息的字段(标题、时间戳、图片内容等)进行标记,用于索引的特殊处理。详情见图文物品数据集介绍视频数据集介绍。字段属性一旦配置则不可在应用或数据集管理中修改。
  • 字段用途:​配置字段的索引用途。同一个数据集关联不同应用时可配置不同的字段用途,字段的用途会影响索引构建策略和搜索效果,请详细检查配置。

用途

参数说明

用于文本搜索

字段中的语义信息将包含在物品的语义表征中参与检索。
建议选择包含商品名称、关键特征、类目等关键可搜索信息,如果您的场景包含图搜,需要将 图片(标识为图片属性)字段选择为搜索匹配字段

用于图搜

勾选此选项即可让该字段中的图片支持被“以图搜图”。
您可以选择性地启用此功能,从而精确控制哪些类型的图片能够响应用户的图片搜索请求。您可以根据具体的应用场景来决定:对于数据中所有符合条件的图片链接字段(例如“产品主图”、“用户头像”、“场景照片”等)
注意:此字段必须已被标记为“可被搜索的字段”,并且其字段属性需为“图片链接

用于过滤

调用搜索和对话接口时,可使用选中字段对搜索结果进行筛选
支持数值类字段(Float, Int),布尔值(Bool),字符串(String)和字符串列表(Array)
建议选择类目、价格等数值类或枚举值字段。

用于搜索补全

每条数据中选中的字段值都会作为联想词进入索引用于调用搜索联想接口的数据源。
支持字符串和字符串列表格式的数据

在导入数据样例后,平台会使用大模型进行智能数据理解,通过数据样例的字段名称和样例值来对字段的信息进行自动的判断。

数据配置最佳实践

撰写言简意赅的字段含义

字段含义是每个字段存储的内容的简短介绍,在搜索匹配的过程中模型会将字段含义与字段的值一起进行语义表征。在配置了字段的用于搜索时,为了使模型可以精确理解数据中的内容并进行准确匹配,请检查大模型解读出的字段含义信息,如果模型理解的不正确,可以在完成配置前进行修改调整。
字段含义应当简洁、有概括性。建议控制在10个字以内,准确描述字段内容的本质特征,例如:

{
    "product_id": "P10092385",
    "title": "轻薄笔记本电脑",
    "images": {
      "primary": "https://example.com/images/laptop_main.jpg",
      "gallery": [
        "https://example.com/images/laptop_angle1.jpg",
        "https://example.com/images/laptop_angle2.jpg"
      ]
    },
    "price": {
      "current": 4999,
      "original": 5899,
      "discount_percentage": 15
    },
    "specs": {
      "processor": "Intel i7",
      "memory": "16GB",
      "storage": "512GB SSD"
    }
  }

示例字段

字段类型

字段含义

product_id

String

商品的唯一ID

title

String

商品名

images

Object

图片内容

images.primary

String

商品主形象图

images.gallery

Array

商品详情页内容

price

Object

价格信息

price.current

Float

当前价格

price.original

Float

原价

price.discount_percentage

Float

商品折扣(百分比)

specs

Object

商品参数

specs.processor

String

处理器

specs.memory

String

内存

specs.storage

String

电脑存储空间和介质

准确选择用于搜索的字段

用于搜索的字段是用于与用户的输入(图片或文本查询)匹配的内容字段,如果您希望物品数据中的信息被用户检索到,则需要将这些字段设置为“用于搜索”。
可以按照以下的建议来配置

字段用途

支持的字段

配置指引

用于文本搜索

所有字段。
包含文本字段、图片字段(标识了“图片链接”或“图片base64”属性的字段)和其他数值和布尔类型的字段

  • 商品数据:​商品的名称、商品的描述、关键属性、分类标签等能够直接反映商品核心特征的信息。商品的详情图可设置为用于文本搜索来使模型读取图中的描述内容并进行搜索匹配。
  • 内容数据:​内容的标题、正文、标签、分类等包含内容核心文本信息的字段。
  • 图片素材库:​素材的标题、关键词和描述设置为用于搜索的字段可为图片素材补充关键的运营编辑信息。
  • 视频平台:​视频平台中的视频url字段会默认选中为用于文本搜索,视频文件中的音画文信息经理解、表征后,可用于直接搜索视频,或在对话助手中进行视频内容问答。

用于图片搜索

图片字段(标识了“图片链接”或“图片base64”属性的字段)

图片搜索即“以图搜图”,用户上传一张图片来查询相似或相同图像特征的数据。
建议配置:

  • 商品数据:​商品的外观图(一般为列表页缩略图或顶部轮播图)可设置为用于图搜来实现电商图搜。
  • 内容数据:​内容的图片可设置为用于图搜来实现以图搜图。
  • 图片素材库:​需要将素材的缩略图设置为用于图搜以便实现相似风格的素材图搜。

选择用于过滤的字段

用于过滤的字段将在索引中以预置过滤器的形式存储,并可以用于调用搜索时进行的搜索结果前置过滤,一些关键的业务数据和标签(如日期时间、价格、物品状态、分类)建议配置为可过滤字段。
可过滤字段可配置以下内容:

字段数据类型

配置指引

布尔值字段(Boolean)

典型的用于过滤的字段,如表示上架状态的字段等可作为过滤器用于实时的业务规则过滤。

文本类字段(String)

建议将枚举值类的字段配置为用于过滤,典型的如商品和内容的分类、品类信息。
注:数据中标记了“类别/类目”属性的字段会默认作为用于过滤的信息

数值类字段(Float,Int32,Int64)

价格、时间戳等信息建议作为用于过滤的字段,典型的如商品价格区间、时间范围等场景。