Hadoop 数据序列化

发表于 2019-02-25 | 更新于 2019-02-26 | 分类于 Hadoop | 评论数：

1. Hadoop序列化1.1. 什么是序列化序列化就是把内存中的对象转换成字节序列（二进制流）以便于存储到磁盘（持久化）和网络传输。反序列化就是将字节序列转换成内存中的对象。 1.2. 为什么要序列化原本对象只能存在于内存中想把对象保存到磁盘，要先序列化，把对象转为二进制数据的形式保存到磁盘 ...

阅读全文 »

MapReduce FlowSum编程案例

发表于 2019-02-25 | 更新于 2019-04-13 | 分类于 Hadoop ， MapReduce | 评论数：

1. 官方WordCount源码分析1.1. 添加依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common< ...

阅读全文 »

MapReduce 概述

发表于 2019-02-25 | 分类于 Hadoop ， MapReduce | 评论数：

1. 什么是MapReduce1.1. MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发”基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上 ...

阅读全文 »

HDFS 快照管理

发表于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. HDFS快照管理快照相当于对目录做一个备份。并不会立即复制所有文件，而是记录文件变化 1.1. 开启快照功能开启指定目录的快照功能 $ hdfs dfsadmin -allowSnapshot /inputAllowing snaphot on /input succeeded 1.2. 创建 ...

阅读全文 »

HDFS 回收站

发表于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. HDFS 回收站回收站是HDFS2.X的新特性。与windows回收站一样，存在的意义是防止用户误删一些数据。假设误删了一些数据，还可以从回收站将数据恢复 HDFS默认是将回收站功能关闭的，因为实际生产环境中，是很少执行删除操作的，可能是半年删一次、一年删一次。 1.1. 开启回收站编辑 et ...

阅读全文 »

HDFS 小文件存储

发表于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. HDFS 存储小文件的弊端HDFS中每个文件、目录、数据块的元数据存储大约占150字节，不管文件是大是小，因此HDFS存储小文件会非常低效。存储大量小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储 ...

阅读全文 »

HDFS 集群间数据拷贝

发表于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. 集群间数据拷贝集群间数据拷贝是HDFS2.X的新特性采用distcp命令实现两个Hadoop集群之间的递归数据复制 hadoop distcp hdfs://hadoop1:9000/1.txt hdfs://hadoop2:9000/2.txt

阅读全文 »

HDFS DataNode多目录

发表于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. DataNode多目录配置DataNode也可以配置成多个目录。多目录不是以副本的形式存储数据，而是以分片的形式存放。各具目录共同组成完整的DataNode数据 1.1. 编辑 hdfs-site.xml添加以下配置 <property> <name>dfs.da ...

阅读全文 »

HDFS DataNode动态添加与删除

发表于 2019-02-24 | 更新于 2019-02-25 | 分类于 Hadoop ， HDFS | 评论数：

1. 动态添加DataNode在不关闭HDFS和YARN的情况下，动态添加DataNode 1.1. 先准备一台服务器hadoop4 hostname hadoop1 hadoop2 hadoop3 hadoop4 ip 192.168.57.101 192.168.57.102 19 ...

阅读全文 »

HDFS NameNode多目录

发表于 2019-02-24 | 分类于 Hadoop ， HDFS | 评论数：

1. NameNode多目录NameNode的数据目录可以配置成多个，且每个目录存放内容相同，相当于对数据做备份，增加了可靠性 1.1. 编辑hdfs-site.xml修改配置 <property> <name>dfs.namenode.name.dir</nam ...

阅读全文 »