### 1.1 Spark架构核心组件![在这里插入图片描述](https://img-blog.csdnimg.cn/20200103141006910.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0... 可以选择是否使用随机数进行替换,seed用于指定随机数生成器种子| union(otherDataset) | 对源RDD和参数RDD求并集后返回一个新的RDD|intersection(otherDataset) | 对源RDD和参数RDD求交集后返回一个新的RDD...
> > > 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。> > > > ![picture.image](https://p3-volc-community-sign.byteim... 首先什么是随机数?不确定的数。大多数随机算法使用的是伪数字生成器。那什么是伪数字生成器?一个生产数字序列的算法,特征近似随机数序列的特性。伪随机数生成器通常接受一个随机种子( seed) 用来初始化生成...
首先什么是随机数?不确定的数。大多数随机算法使用的是伪数字生成器。那什么是伪数字生成器?一个生产数字序列的算法,特征近似随机数序列的特性。伪随机数生成器通常接受一个随机种子( seed) 用来初始化生成器的初... (某一个 key 变动会产生一个 hash code 上可预测的变动),会造成实验之间会发生相关。「加密 hash 函数 MD5」生成的数据在实验间没有相关性。其实还可以关注「大质数素数 hash 算法」等更加精密优良的算法。## ...