1. Hadoop序列化1.1. 什么是序列化序列化就是把内存中的对象转换成字节序列(二进制流)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将字节序列转换成内存中的对象。 1.2. 为什么要序列化原本对象只能存在于内存中 想把对象保存到磁盘,要先序列化,把对象转为二进制数据的形式保存到磁盘 ...
MapReduce FlowSum编程案例
1. 官方WordCount源码分析1.1. 添加依赖<!-- 3个基本依赖 --><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common< ...
MapReduce 概述
1. 什么是MapReduce1.1. MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发”基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 ...
HDFS 小文件存储
1. HDFS 存储小文件的弊端HDFS中每个文件、目录、数据块的元数据存储大约占150字节,不管文件是大是小,因此HDFS存储小文件会非常低效。存储大量小文件会耗尽NameNode中的大部分内存。 但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储 ...
HDFS 集群间数据拷贝
1. 集群间数据拷贝集群间数据拷贝是HDFS2.X的新特性 采用distcp命令实现两个Hadoop集群之间的递归数据复制 hadoop distcp hdfs://hadoop1:9000/1.txt hdfs://hadoop2:9000/2.txt
HDFS DataNode多目录
1. DataNode多目录配置DataNode也可以配置成多个目录。多目录不是以副本的形式存储数据,而是以分片的形式存放。各具目录共同组成完整的DataNode数据 1.1. 编辑 hdfs-site.xml添加以下配置 <property> <name>dfs.da ...
HDFS DataNode动态添加与删除
1. 动态添加DataNode在不关闭HDFS和YARN的情况下,动态添加DataNode 1.1. 先准备一台服务器hadoop4 hostname hadoop1 hadoop2 hadoop3 hadoop4 ip 192.168.57.101 192.168.57.102 19 ...
HDFS NameNode多目录
1. NameNode多目录NameNode的数据目录可以配置成多个,且每个目录存放内容相同,相当于对数据做备份,增加了可靠性 1.1. 编辑hdfs-site.xml修改配置 <property> <name>dfs.namenode.name.dir</nam ...