You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
合作与生态
支持与服务
开发者
了解我们
导航

爬虫数据过滤

更新时间:2021.06.15 10:58:28

1.概述

有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。

2.功能介绍

2.1快速进入设置

第一步:通过「应用设置」模块进入「通用设置」后可以进行配置爬虫规则,界面如下:

image.png

第二步:开启配置爬虫识别

image.png

第三步:点击“配置爬虫规则”开始配置爬虫规则

image.png

2.2爬虫规则生效配置

开关未开启时也可以配置,只是识别功能不生效。

开关开启开关关闭
配置规则生效配置规则不生效
未配置规则生效全局规则不生效

2.3配置爬虫规则

2.3.1爬虫特征

爬虫特征:

  • 默认为空,为空时表示应用系统全局规则,不为空时用户指定的规则会覆盖掉系统规则;
  • 正则匹配,基于 ua,每行一个特征;
  • 自定义规则仅影响T + 1的数据;
  • 最多支持1000行。

image.png

爬虫特征系统全局预置规则:

msnbot|Sosospider|Sosoimagespider|Sogou web spider|Googlebot|Baiduspider|" + "360Spider|YoudaoBot|YandexBot|EasouSpider|Mediapartners-Google|APIs-Google|AdsBot-Google|" +"JikeSpider|MJ12bot|ia_archiver|Rogerbot|exabot| DOCOMO Sprider|"+ "python-requests|HttpClient|Go-http-client|Python-urllib|gohttp|curl/|Surf/|Scrapy

2.3.2爬虫过滤方式

爬虫过滤方式:

  • 可以选择“标记为爬虫”或“过滤不入库”,默认为“标记为爬虫”;
  • 标记为爬虫:识别为爬虫的事件 $is_spider 属性为 true ;
  • 过滤不入库:识别为爬虫的事件不落库。

image.png