Hadoop: MapReduce的最小最大值结果与原始数据集不同

在Hadoop中，可以通过自定义Mapper和Reducer来解决“MapReduce的最小最大值结果与原始数据集不同”的问题。以下是一个示例代码：

首先，创建一个Mapper类，将原始数据集中的每个数值作为键值对的键，值设置为1，并将其输出到Reducer：

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MinMaxMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable> {

    private IntWritable number = new IntWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        int num = Integer.parseInt(line);

        number.set(num);
        context.write(number, number);
    }
}

接下来，创建一个Reducer类，将收到的键值对中的最小值和最大值输出为结果：

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class MinMaxReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {

    private IntWritable min = new IntWritable();
    private IntWritable max = new IntWritable();

    @Override
    protected void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int minValue = Integer.MAX_VALUE;
        int maxValue = Integer.MIN_VALUE;

        for (IntWritable value : values) {
            int num = value.get();
            minValue = Math.min(minValue, num);
            maxValue = Math.max(maxValue, num);
        }

        min.set(minValue);
        max.set(maxValue);

        context.write(min, max);
    }
}

最后，编写一个主程序来配置和运行MapReduce作业：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MinMaxDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Min Max Calculation");

        job.setJarByClass(MinMaxDriver.class);
        job.setMapperClass(MinMaxMapper.class);
        job.setReducerClass(MinMaxReducer.class);

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

以上代码将输入文件中的每个数值作为键值对的键，并将键值对作为Mapper的输出。Reducer将收到的键值对中的最小值和最大值输出为结果。

注意：以上代码只是一个示例，你需要根据自己的实际需求进行修改和调整。

本文内容通过AI工具匹配关键字智能整合而成，仅供参考，火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见，您可以通过联系service@volcengine.com进行反馈，火山引擎收到您的反馈后将及时答复和处理。

展开更多

开发者特惠

面向开发者的云福利中心，ECS 60元/年，域名1元起，助力开发者快速在云上构建可靠应用

ECS首年60元

社区干货

# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... Yarn,Flink 的计算框架平台数据 - Spark,MapReduce 的计算相关数据存储![]()# **字节跳动特色的** **HDFS** **架构**在深入相关的技术细节之前,我们先看看字节跳动的 HDFS 架构。## **架构介绍** 字...

后 Hadoop 时代,字节跳动如何打造云原生计算平台

Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基... 为了支撑 EB 级别的数据存储,字节跳动用 C++ 重写了一套 HDFS,集群规模扩大的同时,也能兼顾性能。同时存储层也能托管各种不同的企业存储系统,对象存储、原始 HDFS 存储都能平滑融入使用。在资源管理和调度层面上...

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

在大数据行业里,2006年 Hadoop 的诞生,给我们带来了变革意义的改变,大数据生态组件也开始层出不穷。各种不同体型的企业都喜欢选择开源大数据软件来搭建自己的系统,无论是先前十分繁荣的 Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本被 Spark 取代。在数据...

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

Hadoop: MapReduce的最小最大值结果与原始数据集不同-优选内容

9年演进史:字节跳动 10EB 级大数据存储实战

配置 MapReduce 的 HDFS 服务使用 CloudFS

火山引擎 E-MapReduce 是开源 Hadoop 生态的企业级大数据分析系统,提供 Hadoop、Spark、Hive、Flink 等生态组件集成和管理。本文介绍如何配置 MapReduce 上的 HDFS 服务来使用文件存储 CloudFS。前提条件在配置 MapReduce 使用 CloudFS,确保您已经完成以下准备工作: 开通大数据文件存储服务 CloudFS 并创建文件存储,获取挂载信息。详细操作请参考创建文件存储系统。开通 E-MapReduce 服务并创建集群。详细操作请参考E-MapReduc...

使用前必读

火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源。 1 调用流程说明EMR OpenAPI 调用流程主要分为以下几个步骤: 创建火山引擎账号:您需要先完成火山引擎账号的实名认证。如果您还未注册火山引擎帐号,请先注册火山引擎账号。添加接口调用权限: 账号需开通 EMR 服务权限登录火山引擎控制台 > 右上角账号信息中进入访问控制 > 角色, 添加 “ ServiceRoleForEMR ” 服务角色。获取引擎账号...

创建集群

火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。详见服务开发指南。本文将为您介绍在 EMR 控制台创... 预览确认等配置步骤: 3.1 软件设置配置项说明软件配置分析场景数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、交互式查询、NoSQL数据库、搜索、数据科学等多种分析场景。集群类型针对不同分析场景...

Hadoop: MapReduce的最小最大值结果与原始数据集不同-相关内容

数据迁移

本文将为您介绍火山引擎 E-MapReduce(简称“EMR”)和源端 Hadoop 集群之间的数据迁移操作。 1 专线连接正式做迁移前,需要在源端 VPC 和火山引擎 VPC 之间建立 1Gb 或 10Gb 的专线连接,保障迁移的速度、安全和稳定... 需要在集群详情 > 访问链接 > 快速配置服务端口中,给源地址和对应端口添加白名单才可继续访问。常见的 HDFS 调优项包括: 参数建议值(不同业务及资源情况可能会有偏差) 描述 namenode_heapsize (文件数+...

后 Hadoop 时代,字节跳动如何打造云原生计算平台

基本概念

每个E-MapReduce集群是由多个火山引擎ECS实例组成。 ECS实例一种由CPU、内存、云盘组成的资源集合,每一种资源都会逻辑对应到数据中心的计算硬件实体。节点 E-MapReduce集群由多个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)和计算实例节点(Task)。不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如: 主实例节点(Master):集群服务部署管控等组件的节点,例如,Hadoop YARN的 ResourceManage...

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

E-MapReduce -火山引擎

火山E-MapReduce支持构建开源Hadoop生态的企业级大数据分析系统,完全兼容开源,提供Hadoop、Spark、Hive、Flink集成和管理,可与数据中台其他产品能力结合,集成端到端的数据接入/分析/挖掘能力,帮助用户轻松完成企业大数据平台的构建,降低运维门槛,快速形成大数据分析能力

揭秘字节跳动基于 Doris 的实时数仓探索

昭伟** 来自字节跳动数据平台E-MapReduce团队火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、数据平台 VeDI、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。火山引擎 EMR 是一款云原生开源大数据平台产品。首先,从开源大数据平台角度,火山引擎 EMR 集成了开源大数据生态的众多软件栈,包括 Hadoop、Spark、Flin...

三分钟了解大数据技术发展史|社区征文

我们常说的大数据技术,大致主要起源于 Google 在 2004 年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库 BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug cutting 大佬在基于谷歌的三篇论文开发出了 hadoop hdfs 分...

Hadoop 使用 Proton

1 火山引擎EMR1.1 认证配置1.1.1 使用 Assume Role 认证 TOS Assume Role 不需要您显性的将自己账号 AK/SK 配置进集群,集群在运行过程中会自动通过 IAM 获取临时身份凭据。前置条件开通火山引擎 E-MapReduce(EM... 例如可使用 HDFS 命令: plain hadoop fs -ls tos://您的bucket name/列出 TOS 桶内的文件,如果需要在计算引擎,例如 Hive 中以表的形式处理 TOS 内的数据,可以在创建 Hive 表的时候将 location 字段值设置成 TOS 地...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

Hadoop: MapReduce的最小最大值结果与原始数据集不同

开发者特惠

社区干货

9年演进史:字节跳动 10EB 级大数据存储实战

后 Hadoop 时代,字节跳动如何打造云原生计算平台

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

Hadoop: MapReduce的最小最大值结果与原始数据集不同-优选内容

Hadoop: MapReduce的最小最大值结果与原始数据集不同-相关内容

数据迁移

后 Hadoop 时代,字节跳动如何打造云原生计算平台

基本概念

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

E-MapReduce -火山引擎

揭秘字节跳动基于 Doris 的实时数仓探索

三分钟了解大数据技术发展史|社区征文

Hadoop 使用 Proton

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间