> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群# 摘要火山引擎大数据研发治理套件 DataLeap的Data Catalog系统通过汇总和组织各种元数据,解决了数据生产者梳理数据、数据消费者找数和理解数的业务场景,其中搜索是Data Catalog的主要功能之一。本文详细介绍了火山引擎DataLeap的Data Catalog系统的搜索功能的设计与实现。# 背景Data Catalog能够帮助大公司更好地梳理和管理自己的...
其中搜索是Data Catalog的主要功能之一。本文详细介绍火山引擎DataLeap的Data Catalog系统搜索功能的设计与实现。# 背景Data Catalog能够帮助大公司更好地梳理和管理自己的资产,是Data-drvien公司的重要平台。... 火山引擎DataLeap中的Data Catalog系统搜索功能还有很多有意义的工作值得继续探索,例如:- 血缘中的搜索。当一个资产的一级下游就超过上千个时,想从当前资产的众多下游中查找到相关的资产并不容易,因此提供基于...
### 整体架构![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/803eb535b8ab4e7da12797ea9573ceb7~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714148467&x-signature=sl69bA%2F7UeV6aA9NbxWH9NwJx5U%3D)火山引擎DataLeap的Catalog搜索系统使用了开源的搜索引擎Elasticsearch进行基础的文档检索(Recall阶段),因此各种资产元数据会被存放到Elasticsearch中。整个系统包括4个主...
“其实我们的本质是一家专注于消费领域的数据公司,”刘清清介绍,通过对全网海量商品进行数据分析,再通过平台为消费者最直观地展现高性价比商品,“ **慢慢买,其实是通过数据分析挖掘、购物搜索、商品推荐算法等系列技术,帮助消费者实现对线上跨平台的商品价格一目了然,更好更快更实惠地做出消费决策。** ”![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/b7ddea3816ba47ad977038ceba74d...
在数据检索首页,您可以查看最近浏览的库或表、平台已接入的数据资产、专题推荐、相关功能的快捷入口等信息;还可以填写搜索关键词,进行数据检索。检索到需要的数据后,可以查看该表的数据详情,并对数据表信息进行管理... 按回车键或单击搜索按钮,进入搜索结果页面,可以浏览符合条件的LAS、EMR、ByteHouse CDW 等元数据信息列表。 还可通过以下筛选操作定位查找:在左侧栏,通过筛选操作,对数据类型、库、负责人、生命状态、业务域、产...
# 前言在搜索场景中,我们建议单个分片的大小为 20 GB,在日志记录场景中,建议值为 50 GB。过多的分片会带来集群管理负担,如果索引保存的数据量较小,我们建议您缩小主分片数,重新设定合理的主分片数。与 _split API 相反,Elasticsearch 提供了 _shrink API 来缩小主分片数。关于 _split API,您可以参考[1]。# 使用限制1. 索引必须为只读状态2. 所有的分片必须在同一个节点上3. 索引的健康状态必须为 **green**# 操作步骤...
[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/32aca5525b824ff59ae814b71095aeb0~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714148426&x-signature=URGF1CyhCeGyBFI7kGatvHzkxd8%3D) 向量检索被广泛使用于以图搜图、内容推荐以及大模型推理等场景。随着业务升级与 AI 技术的广泛使用,用户期望处理的向量数据规模越来越大,对向量数据库产品的稳定性、易用性与性能需求...
> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 向量检索被广泛使用于以图搜图、内容推荐以及大模型推理等场景。随着业务升级与 AI 技术的广泛使用,用户期望处理的向量数据规模越来越大,对向量数据库产品的稳定性、易用性与性能需求也越来越高。为此火山引擎 ByteHouse 团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面...
本文为您介绍如何查看并管理 EMR Doris 表的数据详情。 1 前提条件在搜索前,需要在数据地图 > 元数据采集页面新建采集器,将集群的元数据采集到数据地图。相关操作说明可参见元数据采集。 2 查看数据详情登录 DataLeap 控制台。 选择概览 > 数据地图 > 数据检索,进入数据检索页面。 搜索数据后,进入数据详情页面。 可以查看数据详情,并进行数据管理。位于页面顶部的各摘要信息可以查看表名、元数据完善度等信息。其中,完善度计算方...
本文为您介绍如何查看并管理 EMR Hive 表的数据详情。 1 前提条件在搜索前,需要在数据地图 > 元数据采集页面新建采集器,将集群的元数据采集到数据地图。相关操作说明可参见元数据采集。 2 查看数据详情登录 DataLeap 控制台。 选择概览 > 数据地图 > 数据检索,进入数据检索页面。 搜索数据后,进入数据详情页面。 可以查看数据详情,并进行数据管理。位于页面顶部的各摘要信息可以查看表名、元数据完善度等信息。其中,完善度计算方...
本文为您介绍如何查看并管理 LAS 表的数据详情。 1 前提条件在搜索前,需要在数据地图 > 元数据采集页面新建采集器,将集群的元数据采集到数据地图。相关操作说明可参见元数据采集。 2 查看数据详情登录 DataLeap 控制台。 选择概览 > 数据地图 > 数据检索,进入数据检索页面。 搜索数据后,进入数据详情页面。 可以查看数据详情,并进行数据管理。位于页面顶部的各摘要信息可以查看表名、元数据完善度等信息。其中,完善度计算方式为:...
> 得物社区项目中包括内容搜索、穿搭精选、无结果推荐、搜索debug等功能。所有功能都在一个单体应用,各种本地缓存、配置、代码交织不利于维护;当某些功能有问题之后也会影响其他接口,不利于项目稳定性。本次需求RD打算将各类功能拆分到不同项目中。> > 我在社区搜索迁移项目中首次落地了 Diff 自动化测试,从测试到上线的过程中,累计发现很多处bug,发现了很多潜在的、不易发现的问题;最终该项目上线后流量从5%提升到100%,仅用一...
本接口主要用于有搜索场景需求的客户,通过搜索词查询相关内容,目前支持搜索的内容体裁包括图文、横版短视频、竖版小视频。若不指定返回条数count,则默认每次最多返回10条内容。返回的内容信息包括标题、封面图、发布时间、视频时长、作者名称与头像等,客户侧可使用这些数据,自定义实现搜索页UI。 请求结构 说明 请求域名 stream-api.feedcoopapi.com 请求地址 /data/stream/search/v4/ 请求协议 HTTP/HTTPS 请求方式 GET 参数类型...