You need to enable JavaScript to run this app.
导航

爬虫数据过滤

最近更新时间2024.02.04 17:01:20

首次发布时间2021.06.03 22:58:01

1.概述

有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。

2.功能介绍

2.1快速进入设置

第一步:通过「应用设置」模块进入「通用设置」后可以进行配置爬虫规则,界面如下:
图片
第二步:开启配置爬虫识别
图片
第三步:点击“配置爬虫规则”开始配置爬虫规则
图片

2.2爬虫规则生效配置

开关未开启时也可以配置,只是识别功能不生效。

开关开启

开关关闭

配置规则

生效配置规则

不生效

未配置规则

生效全局规则

不生效

2.3配置爬虫规则

2.3.1爬虫特征

爬虫特征:

  • 默认为空,为空时表示应用系统全局规则,不为空时用户指定的规则会覆盖掉系统规则;
  • 正则匹配,基于 ua,每行一个特征;
  • 自定义规则仅影响T + 1的数据;
  • 最多支持1000行。

图片
爬虫特征系统全局预置规则:
msnbot|Sosospider|Sosoimagespider|Sogou web spider|Googlebot|Baiduspider|" + "360Spider|YoudaoBot|YandexBot|EasouSpider|Mediapartners-Google|APIs-Google|AdsBot-Google|" +"JikeSpider|MJ12bot|ia_archiver|Rogerbot|exabot| DOCOMO Sprider|"+ "python-requests|HttpClient|Go-http-client|Python-urllib|gohttp|curl/|Surf/|Scrapy

2.3.2爬虫过滤方式

爬虫过滤方式:

  • 可以选择“标记为爬虫”或“过滤不入库”,默认为“标记为爬虫”;
  • 标记为爬虫:识别为爬虫的事件 $is_spider 属性为 true ;
  • 过滤不入库:识别为爬虫的事件不落库。

图片