本文档介绍如何将洞察数据从BMQ写入ES。
内容洞察数据流配置,支持将客户BMQ中的内容数据,自动写入指定的ES中,客户侧可按照如下指引,完成基础配置,实现自动化写入。
前置准备:
开通洞察数据源,详见:基础配置--内容洞察平台-火山引擎
完善洞察数据写入BMQ自动化配置,详见:BMQ配置--内容洞察平台-火山引擎
创建Flink资源,详见:入门指引--流式计算 Flink版-火山引擎
说明
本文档适用于通过内容洞察PaaS数据流配置,自动化实现数据存储到ES的客户。
请参考文档:创建实例--云搜索服务-火山引擎
注意
以下为针对内容洞察数据格式,推荐配置的template示例,仅供参考。
本示例中分词器采用standard,如需自定义分词器可参考可视化配置 IK 分词或联系云搜索服务团队。
PUT _template/{template_name} // 自定义template_name,如insight_post_template
{
"index_patterns": [ // 自定义index模式
"insight_post",
"insight_post-*"
],
"settings": {
"index": {
"search": {
"slowlog": {
"level": "info",
"threshold": {
"fetch": {
"warn": "200ms",
"trace": "50ms",
"debug": "80ms",
"info": "100ms"
},
"query": {
"warn": "500ms",
"trace": "50ms",
"debug": "100ms",
"info": "200ms"
}
}
}
},
"refresh_interval": "10s",
"indexing": {
"slowlog": {
"level": "info",
"threshold": {
"index": {
"warn": "200ms",
"trace": "20ms",
"debug": "50ms",
"info": "100ms"
}
},
"source": "1000"
}
},
"number_of_shards": "1",
"number_of_replicas": "1"
}
},
"mappings": {
"dynamic" : "false",
"properties": {
"post_id": {
"type": "keyword"
},
"origin_id": {
"type": "keyword"
},
"publish_time": {
"type" : "date",
"format" : "yyyy-MM-dd HH:mm:ss"
},
"push_ready_time": {
"type" : "date",
"format" : "yyyy-MM-dd HH:mm:ss"
},
"main_domain": {
"type": "keyword"
},
"domain":{
"type": "keyword"
},
"url":{
"type": "keyword"
},
"title": {
"type" : "text",
"analyzer": "standard"
},
"poi":{
"properties": {
"poi_name":{
"type" : "text",
"analyzer": "standard"
},
"poi_location":{
"properties": {
"city" : {
"type" : "keyword"
},
"city_code" : {
"type" : "keyword"
},
"city_geo_id" : {
"type" : "keyword"
},
"district" : {
"type" : "keyword"
},
"district_code" : {
"type" : "keyword"
},
"district_geo_id" : {
"type" : "keyword"
},
"province" : {
"type" : "keyword"
},
"province_code" : {
"type" : "keyword"
},
"province_geo_id" : {
"type" : "keyword"
},
"region" : {
"type" : "keyword"
},
"region_code" : {
"type" : "keyword"
},
"region_geo_id" : {
"type" : "keyword"
},
"town" : {
"type" : "keyword"
},
"town_code" : {
"type" : "keyword"
},
"town_geo_id" : {
"type" : "keyword"
}
}
}
}
},
"status": {
"type" : "byte"
},
"post_type": {
"type": "integer"
},
"create_status": {
"type": "boolean"
},
"based_location":{
"properties" : {
"mentioned_locations" : {
"properties" : {
"city" : {
"type" : "keyword"
},
"city_code" : {
"type" : "keyword"
},
"city_geo_id" : {
"type" : "keyword"
},
"district" : {
"type" : "keyword"
},
"district_code" : {
"type" : "keyword"
},
"district_geo_id" : {
"type" : "keyword"
},
"province" : {
"type" : "keyword"
},
"province_code" : {
"type" : "keyword"
},
"province_geo_id" : {
"type" : "keyword"
},
"region" : {
"type" : "keyword"
},
"region_code" : {
"type" : "keyword"
},
"region_geo_id" : {
"type" : "keyword"
},
"town" : {
"type" : "keyword"
},
"town_code" : {
"type" : "keyword"
},
"town_geo_id" : {
"type" : "keyword"
}
}
},
"public_location" : {
"properties" : {
"city" : {
"type" : "keyword"
},
"city_code" : {
"type" : "keyword"
},
"city_geo_id" : {
"type" : "keyword"
},
"district" : {
"type" : "keyword"
},
"district_code" : {
"type" : "keyword"
},
"district_geo_id" : {
"type" : "keyword"
},
"province" : {
"type" : "keyword"
},
"province_code" : {
"type" : "keyword"
},
"province_geo_id" : {
"type" : "keyword"
},
"region" : {
"type" : "keyword"
},
"region_code" : {
"type" : "keyword"
},
"region_geo_id" : {
"type" : "keyword"
},
"town" : {
"type" : "keyword"
},
"town_code" : {
"type" : "keyword"
},
"town_geo_id" : {
"type" : "keyword"
}
}
}
}
},
"matched_task_ids":{
"type" : "keyword"
}
}
}
}
控制台示意 | 说明 |
---|---|
进入洞察云资源管理tab,点击ES配置 | 进入洞察控制台,点击云资源管理tab。(控制台入口:账号登录-火山引擎) 选择es配置,点击右上角【添加云资源】。 进入es配置页,会展示当前账号下的es资源,选择资源后即可确认提交。 若无es实例可点击创建实例,跳转至es页面进行开通创建。 |
控制台示意 | 说明 |
---|---|
创建数据流 | 点击数据流管理tab,点击右上角创建数据流按钮, |
完善vpc与flink资源信息 | 填写数据流名称与描述,选择数据流运行对应的VPC,完善flink资源配置。 注意:
|
控制台示意 | 说明 |
---|---|
编辑source节点,选择洞察数据 | 点击source节点,按照提示完成编辑。 |
编辑sink节点,选择sink类型为****ES | 选择ES作为sink类型,按照提示填写相关内容。
|
点击保存,节点标识变更 | 节点编辑完成后,点击保存。 |
控制台示意 | 说明 |
---|---|
点击发布数据流 | 节点编辑完成,且节点标识提示正确无误的情况下,可点击按钮【发布草稿到线上】发布数据流。 |
选择TOS桶并上传样例数据 | 发布数据流前需进行发布校验,上传样例数据,以确保数据可正常按照设置写入下游。 选择TOS桶以存储相关文件,并选择/上传将要进行校验的样例数据。 注意:
洞察数据校验样例可参考: |
点击启动校验 | 样例数据上传完毕后,点击按钮【启动校验】 |
校验通过,发布数据流 | 校验通过后,可查看数据预览,确认无误后可发布数据流。 发布预计需要3-5分钟,请耐心等待。 |
数据流发布上线后,可登录kibana以访问实例,检索数据
通过 Kibana 访问实例--云搜索服务-火山引擎