日常数据研发中,最常见的且使用较多的就是数据倾斜或数据量带来的数据重分发(打散或随机),对于数据的重分发,主要分以下几点:* **优化小文件*** **数据倾斜*** **排序&随机**小文件过多带来的MAP 端资源损耗和... 给定随机生成的N个数,构造等概率事件的发生器,跑题了,继续说回在hive 或odps 场景下,rand() 函数是随机生成的0-1 的double 类型的数字。* rand(int seed) 函数可以根据种子参数,构造一个稳定的随机值,加上种子参数...