computeSVD()函数中使用的Mapper和Reducer是什么？

computeSVD()函数是Spark MLlib中的一个函数，用于计算奇异值分解（SVD）。在此函数中，使用了两个Mapper和两个Reducer。其中第一个Mapper将原始数据转换为IndexedRowMatrix格式，第一个Reducer将IndexedRowMatrix拆分为子矩阵，第二个Mapper不做任何转换，最终的Reducer计算奇异值分解并返回结果。

具体代码如下：

//将原始数据转换为IndexedRowMatrix格式 JavaRDD<Vector> rows = sc.parallelize(data); JavaRDD<IndexedRow> indexedRows = rows.zipWithIndex().map( new Function<Tuple2<Vector, Long>, IndexedRow>() { public IndexedRow call(Tuple2<Vector, Long> t) { return new IndexedRow(t._2(), t._1()); } } ); IndexedRowMatrix matrix = new IndexedRowMatrix(indexedRows.rdd());

//拆分子矩阵 int rank = 2; int k = 5; SingularValueDecomposition<RowMatrix, Matrix> svd = matrix.toRowMatrix().computeSVD(rank, true, 1.0E-9d); Matrix U = svd.U(); Vector s = Vectors.dense(Arrays.copyOfRange(svd.s().toArray(), 0, rank)); Matrix V = svd.V(); Matrix Vsub = V.transpose().multiply(new DenseMatrix(k, rank, new double[rank*k]));

//计算奇异值分解并返回结果 JavaRDD<Vector> projected = matrix.rows().map(new Function<IndexedRow, Vector>() { public Vector call(IndexedRow row) { Vector result = new DenseVector(Vsub.numCols()); Vsub.multiply(row.vector(), result); return result; } });

return new RowMatrix(projected.rdd()).multiply( new DenseMatrix(rank, rank, Vsub.transpose().toArray()) ).multiply(new DenseMatrix(rank, s.size(), Matrices.diag(s.toArray()).toArray())).multiply( new DenseMatrix(k, rank, U.transpose().toArray()) );

本文内容通过AI工具匹配关键字智能整合而成，仅供参考，火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见，您可以通过联系service@volcengine.com进行反馈，火山引擎收到您的反馈后将及时答复和处理。

展开更多

开发者特惠

面向开发者的云福利中心，ECS 60元/年，域名1元起，助力开发者快速在云上构建可靠应用

ECS首年60元

社区干货

万字长文,Spark 架构原理和 RDD 算子详解一网打进! | 社区征文

默认值就是程序所分配到的CPU Core的数目。(2)一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合,不需要保存每次计算的结果... 也就是说上图中的stage1和stage2相当于mapreduce中的Mapper,而ResultTask所代表的stage3就相当于mapreduce中的reducer。在之前动手操作了一个wordcount程序,因此可知,Hadoop中MapReduce操作中的Mapper和Reducer在...

字节跳动 Spark Shuffle 大规模云原生化演进实践

Shuffle 是用户作业中会经常触发的功能,各种 ReduceByKey、groupByKey、Join、sortByKey 和 Repartition 的操作都会使用到 Shuffle。所以在大规模的 Spark 集群内,Spark Shuffle 经常会成为性能及稳定性的瓶颈;Shu... 在社区版 ESS 模式下默认使用的 Shuffle 模式的基本原理中,刚才提到 Shuffle 的计算会把数据进行重新分区,这里就是把 Map 的数据重新组合到所有的 Reducers 上。如果有 M 个 Mappers 和 R 个 Reducers,就会把 M Ma...

Hive SQL 底层执行过程 | 社区征文

**步骤5**:编译器生成的计划是分阶段的DAG,每个阶段要么是 map/reduce 作业,要么是一个元数据或者HDFS上的操作。将生成的计划发给 DRIVER。如果是 map/reduce 作业,该计划包括 map operator trees 和一个 reduce operator tree,执行引擎将会把这些作业发送给 MapReduce :**步骤6、6.1、6.2和6.3**:执行引擎将这些阶段提交给适当的组件。在每个 task(mapper/reducer) 中,从HDFS文件中读取与表或中间输出相关联的数据,并通过相...

干货|火山引擎A/B测试平台如何“嵌入”技术研发流程

也都会用到这样的能力。最后是大消费行业,比如包括家电、客户、汽车行业等等。接下来,将会和大家探讨研发流程中要怎么使用数据驱动。 **开发新功能的正确姿势是什么?**-------------------... 优化前需要知道mapper数、reducer数、excutor数等参数怎么设置,还要面料executor堆内内存不够、driver堆外内存不够、序列化结果过大等让人头大的错误。其次,SQL运维优化会花费大量的人力,随着数据量的上...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

computeSVD()函数中使用的Mapper和Reducer是什么？ -优选内容

万字长文,Spark 架构原理和 RDD 算子详解一网打进! | 社区征文

字节跳动 Spark Shuffle 大规模云原生化演进实践

Hive SQL 底层执行过程 | 社区征文

干货|火山引擎A/B测试平台如何“嵌入”技术研发流程