AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

HDFS存在大量小文件问题的解决方案

时间：2022-09-07分类：JVM作者：编程之家原文地址

一、小文件概述　　

　　小文件通常指文件大小要比HDFS块大小还要小很多的文件（在hadoop1.x版本的时候可以通过dfs.blocksize来设置，默认块大小为64M；在hadoop2.x版本的时候，则需要通过dfs.block.size设置，且默认大小为128M）

　　如果存在大量小文件，则会对整个存储系统有一定影响：

　　（1）1个文件块占用namenode150字节内存，大量小文件会占用namenode内存，影响HDFS的横向扩展能力

　　（2）如果使用mapreduce处理小文件，则会增加map任务数量，增加寻址次数

二、如何解决

（1）采用HAR（Hadoop Archives）的归档方式。

　　HAR为构建在其它文件系统上用于文件存档的文件系统，通常将hdfs中的多个文件打包成一个存档文件，减少namenode内存的使用，可以直接使用hadoop archive命令创建HAR文件。创建HAR的过程是在运行一个mr作业。

　　har在对小文件进行存档后，原文件不会被删除，且创建之后不能改变，文件名中也不能有空格存在，否则会报异常。

（2）采用CombineFileInputFormat

　　CombineFileInputFormat是一种新的inputformat，用于将多个文件合成一个单独的split，而且它还可以考虑数据的存储位置

（3）开启JVM重用

　　JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在hadoop的mapred-site.xml文件中进行配置，通常在10-20之间。如果没有小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。

<property>
　　<name>mapreduce.job.jvm.numtasks</name>
　　<value>10</value>
　　<description>How many tasks to run per jvm,if set to -
1 ,there is no limit</description>
</property>

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

Java jinfo 命令详解

jinfo 命令可以用来查看 Java 进程运行的 JVM 参数，命令如下：[root@admin ~]# jinfo --helpUsage: jinfo [option] <pid> (to connect to running process) jinfo [option] <exe...

作者：thlzjfefe 时间：2022-12-16

Java虚拟机栈

原文链接：https://www.cnblogs.com/niejunlei/p/5987611.htmlJava Virtual Machine Stacks，线程私有，生命周期与线程相同，描述的是Java方法执行的内存模型：每一个方法执行的同时都会创建一个栈帧（Stack Frame）...

作者：thlzjfefe 时间：2022-12-16

JVM 运行时内存使用情况监控

java 语言, 开发者不能直接控制程序运行内存, 对象的创建都是由类加载器一步步解析, 执行与生成与内存区域中的; 并且jvm有自己的垃圾回收器对内存区域管理, 回收; 但是我们已经可以通过一些工具来在程序运行时查看对...

作者：thlzjfefe 时间：2022-12-16

1.jvm的简单抽象模型： 2.类加载机制双亲委派模型是为了防止jdk核心类库被篡改，如果需要打破可以重写Classloader.loadClass方法。r 双亲委派模型：一个类加载器收到一个类的加载请求，他会先判断自身...

作者：编程之家时间：2022-10-14

堆外内存的回收机制分析

堆外内存JVM启动时分配的内存，称为堆内存，与之相对的，在代码中还可以使用堆外内存，比如Netty，广泛使用了堆外内存，但是这部分的内存并不归JVM管理，GC算法并不会对它们进行回收，所以在使用堆外内存时，要格外小...

作者：编程之家时间：2022-10-14

2022-08-16面试

1.springboot和tomcat2.springcloud的请求如何通过网关鉴权？3.springmvc启动时组件的加载顺序？4.mybatis如何同时更新三条记录5.hibernate实现级联更新6.一个web程序应用程序启动时的加载流程7.如何向www.baidu.com...

作者：编程之家时间：2022-10-14

JVM常用配置参数说明

堆设置-Xms256M：初始堆大小256M，默认为物理内存的1/64-Xmx1024M：最大堆大小1024M，默认为物理内存的1/4，等于与-XX:MaxHeapSize=64M-Xmn64M：年轻代大小为64M（JDK1.4后支持），相当于同时设置NewSize和MaxNewSiz...

作者：编程之家时间：2022-10-14

关于JVM——垃圾收集器

一.概述收集算法（JVM之垃圾回收-垃圾收集算法）是内存回收的抽象策略，垃圾收集器就是内存回收的具体实现。JVM规范对于垃圾收集器的应该如何实现没有任何规定，因此不同的厂商、不同版本的虚拟机所提供的垃圾收集器...

作者：编程之家时间：2022-09-07

JVM学习八-复习年轻代、老年代、永久代

Java中的堆是JVM所管理的最大的一块内存空间，主要用于存放各种类的实例对象，如下图所示：在Java中，堆被划分成两个不同的区域：新生代(Young)、老年代(Old)。新生代(Young)又被划分为三个区域：Eden、S0、S1。 ...

作者：编程之家时间：2022-09-07

《深入理解JVM(4)——如何优化Java GC「译」》

JVM深入理解JVM(4)——如何优化JavaGC「译」 PostedbyCrowonAugust21,2017本文翻译自SangminLee发表在Cubrid上的”BecomeaJavaGCExpert”系列文章的第三篇《HowtoTuneJavaGarbageCollection》,本文的作者是韩国人，...

作者：编程之家时间：2022-09-07