焦作师范高等专科学校Hadoop应用基础_联大系统成人高考函授考试答案

什么样的计算不能用mr来提速，举5个例子。

答案是：1）数据量很小。 2）繁杂的小文件。 3）索引是更好的存取机制的时候。 4）事务处理。 5）只有一台机器的时候。

有可能使 Hadoop 任务输出到多个目录中么？如果可以，怎么做？

答案是：1）可以输出到多个目录中，采用自定义OutputFormat。 2）实现步骤：（1）自定义outputformat，（2）改写recordwriter，具体改写输出数据的方法write()

如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？

答案是：如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key 的 hashcode 值摸运算（%）reduce 的数量，得到的数字就是“分区号“。

如何决定一个job的map和reduce的数量?

答案是：1）map数量 splitSize=max{minSize,min{maxSize,blockSize}} map数量由处理的数据分成的block数量决定default_num = total_size / split_size; 2）reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

答案是：1）序列化和反序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。 Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。 2）自定义bean对象要想序列化传输步骤及注意事项：。（1）必须实现Writable接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造（3）重写序列化方法（4）重写反序列化方法（5）注意反序列化的顺序和序列化的顺序完全一致（6）要想把结果显示在文件中，需要重写toString()，且用”\t”分开，方便后续用（7）如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序

HDFS Federation方案的优势？

答案是：第一点,命名空间的扩展。因为随着集群使用时间的加长，HDFS上存放的数据也将会越来越多。这个时候如果还是将所有的数据都往一个NameNode上存放,这个文件系统会显得非常的庞大。这时候我们可以进行横向扩展，把一些大的目录分离出去.使得每个NameNode下的数据看起来更加的精简。第二点,性能的提升.这个也很好理解。当NameNode所持有的数据量达到了一个非常大规模的量级的时候(比如超过1亿个文件)，这个时候NameNode的处理效率可能就会有影响，它可能比较容易的会陷入一个繁忙的状态。而整个集群将会受限于一个单点NameNode的处理效率,从而影响集群整体的吞吐量。这个时候多NameNode机制显然可以减轻很多这部分的压力。第三点,资源的隔离。这一点考虑的就比较深了。通过多个命名空间，我们可以将关键数据文件目录移到不同的NameNode上，以此不让这些关键数据的读写操作受到其他普通文件读写操作的影响。也就是说这些NameNode将会只处理特定的关键的任务所发来的请求，而屏蔽了其他普通任务的文件读写请求，以此做到了资源的隔离。千万不要小看这一点，当你发现NameNode正在处理某个不良任务的大规模的请求操作导致响应速度极慢时，你一定会非常的懊恼。

HAnamenode 是如何工作的?

答案是：ZKFailoverController主要职责 1）健康监测：周期性的向它监控的NN发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态。 2）会话管理：如果NN是健康的，zkfc就会在zookeeper中保持一个打开的会话，如果NameNode同时还是Active状态的，那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode，当这个NN挂掉时，这个znode将会被删除，然后备用的NN，将会得到这把锁，升级为主NN，同时标记状态为Active。 3）当宕机的NN新启动时，它会再次注册zookeper，发现已经有znode锁了，便会自动变为Standby状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置2个NN。 4）master选举：如上所述，通过在zookeeper中维持一个短暂类型的znode，来实现抢占式的锁机制，从而判断那个NameNode为Active状态

NameNode与SecondaryNameNode 的区别与联系？

答案是：1）机制流程同上； 2）区别（1）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。（2）SecondaryNameNode主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。 3）联系：（1）SecondaryNameNode中保存了一份和namenode一致的镜像文件（fsimage）和编辑日志（edits）。（2）在主namenode发生故障时（假设没有及时备份数据），可以从SecondaryNameNode恢复数据。

简要描述如何安装配置apache的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好？

答案是：(1）使用root账户登录 (2）修改IP (3）修改host主机名 (4）配置SSH免密码登录 (5）关闭防火墙 (6）安装JDK (7）解压hadoop安装包 (8）配置hadoop的核心文件 hadoop-env.sh，core-site.xml , mapred-site.xml ， hdfs-site.xml (9）配置hadoop环境变量 (10）格式化 hadoop namenode-format (11）启动节点start-all.sh

列举几个hadoop生态圈的组件并做简要描述？

答案是：（1）Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务，配置维护，命名服务。（2）Flume:一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。（3）Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。（4）Hive:基于Hadoop的一个数据仓库工具，可以将结构化的数据档映射为一张数据库表，并提供简单的sql 查询功能，可以将sql语句转换为MapReduce任务进行运行。（5）Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中，也可以将HDFS的数据导进到关系型数据库中。

hadoop dfsadmin - report命合用于检测HDFS损坏块。(） A.正确 B.错误

答案是：B

Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） A.正确 B.错误

答案是：B

NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读学取或则会写人metadata 信息并反馈client端。（） A.正确 B.错误

答案是：B

Hadoop是 Java开发的，所以 MapReduce 只支持Java语言编写。（） A.正确 B.错误

答案是：B

如果 NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（） A.正确 B.错误

答案是：B

Nagios不可以监控Hadoop 集群，因为它不提供 Hadoop支持。（） A.正确 B.错误

答案是：B

Block Size 是不可以修改的。(） A.正确 B.错误

答案是：B

Ganglia不仅可以进行监控，也可以进行告警。（） A.正确 B.错误

答案是：A

Hadoop环境变量中的 HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200 GB。（） A.正确 B.错误

答案是：B

NameNode 的 Web UI端口是50030，它通过jetty 启动的 web 服务。（） A.正确 B.错误

答案是：B

DataNode 首次加入 cluster 的时候，如果log中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（） A.正确 B.错误

答案是：B

Mapreduce 的 input split 就是一个block。（） A.正确 B.错误

答案是：B

每个map槽就是一个线程。（） A.正确 B.错误

答案是：B

因为HDFS有多个副本，所以NameNode 是不存在单点问题的。（） A.正确 B.错误

答案是：B

集群内每个节点都应该配 RAID，这样避免单磁盘损坏，影响整个节点运行。（） A.正确 B.错误

答案是：B

Hadoop 默认调度器策略为FIFO（） A.正确 B.错误

答案是：A

hadoop dfsadmin - report命令用于检测HDFS 损坏块。（） A.正确 B.错误

答案是：B

slave节点要存储数据，所以它的磁盘越大越好。（） A.正确 B.错误

答案是：B

Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） A.正确 B.错误

答案是：B

NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（） A.正确 B.错误

答案是：B

Hadoop支持数据的随机读写。() A.正确 B.错误

答案是：B

Hadoop 是 Java开发的,所以 MapReduce 只支持Java 语言编写。（） A.正确 B.错误

答案是：B

Cloudera CDH是需要付费使用的。（） A.正确 B.错误

答案是：B

如果NameNode意外终止, SecondaryNameNode 会接替它使集群继续工作。（） A.正确 B.错误

答案是：B

Nagios不可以监控Hadoop 集群，因为它不提供Hadoop支持。（） A.正确 B.错误

答案是：B

Block Size是不可以修改的。（） A.正确 B.错误

答案是：B

Ganglia 不仅可以进行监控，也可以进行告警。（） A.正确 B.错误

答案是：A

hdfs-site.xml的3个主要属性？

答案是：1：dfs.name.dir决定的是元数据存储的路径以及dfs的存储⽅式（磁盘或是远端）。 2：dfs.data.dir决定的是数据存储的路径。 3：fs.checkpoint.dir⽤于第⼆Namenode。

简单描述⼀下hive中的分区表？

答案是：Hive的分区表分为动态分区和静态分区两种模式，分区表实际上就是对应⼀个HDFS⽂件系统上的独⽴的⽂件夹，该⽂件夹下是该分区所有的数据⽂件。Hive中的分区就是分⽬录，把⼀个⼤的数据集根据业务需要分割成⼩的数据集。在查询时通过WHERE字句中的表达式选择查询所需要的指定的分区，这样的查询效率会提⾼很多。

Mapreduce执⾏过程中，在执⾏Reduce Task之前主要做哪些⼯作？

答案是：reduce task在执⾏之前的⼯作是不断的拉取当前job⾥每个map task 的最终的输出⽂件，然后将不同maptask中某⼀分区的数据不断的做merge，也最终形成⼀个⽂件作为reduce task的输⼊⽂件交给reduce。

简单描述Shuffle过程环形缓冲区的作⽤？

答案是：数据从map（）输出，经过Partitioner分区操作，在进⼊环形缓冲区。默认情况下，环形缓冲区⼤⼩值为100MB。当map输⼊的数据进⼊环形缓冲区的量达到80MB以上时，那么开始执⾏溢写过程，溢写过程中如果有其他数据进⼊，那么由剩余的百分之20反向写⼊，最终溢写⽂件经过合并、排序后落⼊本地磁盘。

如果需要在NameNode节点群起集群，你需要如何配置？

答案是：先确保你的集群配置是正确的，单点启动能够成功，如果要群起我们需要在etc/hadoop/slaves⽂件中添加数据节点，也就是从节点，来告诉namenode群起的时候启动那些从节点（datanode）。

yarn有哪⼏部分组成，作⽤分别是什么？调度器主要有哪三种？hadoop默认的是哪⼀种？

答案是：yarn由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 ResourceManager：处理客户端请求、监控NodeManager、启动或监控ApplicationMaster、资源的分配与调度。 NodeManager：管理单个节点上的资源、处理来⾃ResourceManager的命令、处理来⾃ApplicationMaster的命令。ApplicationMaster：负责数据的切分、为应⽤程序申请资源并分配给内部的任务、任务的监控与容错。 Container：Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、⽹络等。调度器有FIFO、Capacity Scheduler（容量调度器）和Fair Scheduler（公平调度器）。 Hadoop2.7.2默认的资源调度器是Capacity Scheduler（容量调度器）。

Hive内部表和外部表的区别？

答案是：我们在创建外部表的时候要加个关键字 external 内部表：当我们在hive中使⽤命令删除hive表时，hive所对应的hdfs的⽬录也会被删除，元数据库中的数据也会被删除。外部表：在hive中删除了外部表，⽽外部表所对应的hdfs⽬录不会被删除，元数据库被删除。

MapReduce的基本数据类型包括哪些？

答案是：BooleanWritable ByteWritable IntWritable FloatWritable LongWritable DoubleWritable Text MapWritable ArrayWritable

简单描述MapReduce不适合对哪些场景的使⽤？其实问的就是它的缺点。

答案是：（1）MapReduce不适合做低延迟数据访问场景的使⽤（2）MapReduce不适合处理⼤量⼩⽂件（3）MapReduce不适合处理流式计算

如何实现服务器之间的免密登录（便捷版）？SSH采⽤的是什么加密？

答案是：实现免密登录步骤： 1.在服务器⽣成密钥对 ssh-keygen -t rsa 三次回车 2.发送公钥到本机 ssh-copy-id hostname（服务器主机名，⼀般先发给⾃⼰实现本机免密登录）输⼊⼀次密码 3.将 .ssh⽂件夹中的⽂件分别分发⾄集群中其他服务器（节点） SSH为建⽴在应⽤层基础上的安全协议，采⽤⾮对称加密（rsa加密算法）

假如NameNode中没有数据会怎么样？

答案是：先说明NameNode节点肯定不正常，集群肯定不正常的，没有数据的NameNode就不能称之为NameNode，通常情况下，NameNode 肯定会有数据，并且存储的是元数据。

简单描述⼀下TextInputFormat怎么进⾏⽂件切分？

答案是：TextInputFormat根据⽂件⼤⼩将⽂件拆分成splits，如果单个⽂件较⼩，则每个⽂件为⼀个split，并将⽂件按分割形成对，如果单个⽂件较⼤。超过block块默认⼤⼩的1.1倍，则会将⽂件切分为多个split。这⼀步由MapReduce框架⾃动完成，其中偏移量包括了回车所占的字符数。将分割好的对交给⽤户⾃定义的map⽅法进⾏处理，⽣成新的对。得到map⽅法输出的对后，Mapper会将它们按照key值进⾏排序，并执⾏Combine过程，将key值相同value值累加，得到Mapper的最终输出结果。Reducer先对从Mapper接收的数据进⾏排序，再交由⽤户⾃定义的reduce⽅法进⾏处理，得到新的对，并作为任务的输出结果。

是否可以在Windows上运⾏Hadoop？

答案是：你最好不要这么做，Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。在Hadoop安装中，Windows通常不会被使⽤，因为会出现各种各样的问题。因此，Windows绝对不是Hadoop的推荐系统。

什么是hive，谈谈你的理解？

答案是：hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进⾏运⾏。其优点是学习成本低，可以通过类sql语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应⽤，⼗分适合数据仓库的统计分析。补充（1）hive处理的数据存储在HDFS。（2）hive分析数据底层的实现是MapReduce。（3）执⾏程序运⾏在Yarn上。

简单描述你对Hadoop集群SafeMode模式的理解？

答案是：集群处于安全模式，不能执⾏重要操作（写操作），集群属于只读状态。但是严格来说，知识保证HDFS元数据信息的访问，⽽不保证⽂件的访问。集群启动完成后，⾃动退出安全模式，如果集群处于安全模式，想要完成写操作，需要离开安全模式。（1）查看安全模式状态:bin/hdfs dfsadmin -safemode get （2）进⼊安全模式状态:bin/hdfs dfsadmin -safemode enter （3）离开安全模式状态:bin/hdfs dfsadmin -safemode leave （4）等待安全模式状态:bin/hdfs dfsadmin -safemode wait 对于全新创建的HDFS集群，NameNode启动后不会进⼊安全模式，因为没有Block信息。

Hadoop伪分布集群包含哪些守护进程?

答案是：DataNode、NodeManager、ResourceManager,SecondaryNameNode,NameNode

Hadoop有几种运行模式?

答案是：单机模式、伪分布模式、完全分布式模式

Hadoop有哪些应用领域?

答案是：运营商、电子商务、在线旅游、欺诈检测、医疗保健、能源开采、金融、直播、在线教育等

Hadoop包含哪些优势?

答案是：方便、弹性、健壮、简单

Hadoop2.0包含哪些核心组件?

答案是：MapReduce、HDFS、YARN

HBase官方版本可以安装在什么操作系统上？ A.CentOS B.Ubuntu C.RedHat D.Windows

答案是：ABC

下列关于Bloom Filter的描述正确的是？ A.是一个很长的二进制向量和一系列随机映射函数 B. C.有一定的误算率 D.可以在Bloom Filter中删除元素

答案是：AC

关于HBase二级索引的描述，哪些是正确的？ A.核心是倒排表 B.二级索引概念是对应Rowkey这个“一级”索引 C.二级索引使用平衡二叉树 D.二级索引使用LSM结构

答案是：AB

HBase构建二级索引的实现方式有哪些？ A.MapReduce B.Coprocessor C.Bloom Filter D.Filter

答案是：AB

Rowkey设计的原则，下列哪些选项的描述是正确的？ A.尽量保证越短越好 B.可以使用汉字 C.可以使用字符串 D.本身是无序的

答案是：ABC

下面对HBase的描述哪些是正确的? （） A.不是开源的 B.是面向列的 C.是分布式的 D.是一种NoSQL数据库

答案是：BCD

HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。 A.是byte[]数组 B.没有固定的结构 C.数据的大小是定长的 D.有固定的结构

答案是：AD

出现在datanode的VERSION文件格式中但不出现在nomenode的VERSION文件格式中的是 A.namenodeID B.storageID C.storageType D.layoutVersion

答案是：B

Clinet在HDFS上进行文件写入时，namenode根据文大小和配置情况，返回部分DataNode信息，谁负责将文件划分为多个block，根据DataNode的地址信息按顺序写入到每一个DataNode块 A.Clinte B.Na

答案是：A

HDFS是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高扩展性、高吞吐率等特征，适合的读写任务是 A.一次写入，少次读写 B.多次写入，少次读写 C.一次写入，多次读写 D.

答案是：C

HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括 A.利用SequenceFile、MapFile、Har等方式归档小文件 B.多Master设计 C.Block大小适当调小 D.调大namenode内

答案是：D

关于HDFS的文件写入，正确的是 A.支持多用户对同一个文件的写操作 B.用户可以在文件的任意位置进行修改 C.默认将文件复制成三份存放 D.复制的文件默认都存在同一机架上

答案是：C

NameNode在启动时自动进入安全模式，在安全模式阶段，说法错误的是 A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性 B.根据策略对数据块进行必要的复制或删除 C.当数据块最小百分比数满足最小副本数条件时，会

答案是：D

为销售报表展示开发一个MapReduce作业，Mapper输入数据的Key是年份（IntWritable），Value表示商品标识（Text）。下列哪一项决定该Mapper的数据类型？ A.JobConf.setMapInputKeyCl

答案是：D

HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件： A.日志 B.命名空间镜像 C.两者都是

答案是：C

下列关于Hadoop API的说法错误的是 A.Hadoop的文件API不是通用的，只用于HDFS文件系统 B.Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的 C.FileStatus对象存储文件和目录

答案是：A

关于Hadoop单机模式和伪分布式模式的说法，正确的是 A.两者都起守护进程，且守护进程运行在一台机器上 B.单机模式不使用HDFS，但加载守护进程 C.两者都不与守护进程交互，避免复杂性 D.后者比前者增加了HDFS输入输出以及可

答案是：D

HDFS默认的当前工作目录是/user/$USER，fs.default.name的值需要在哪个配置文件内说明 A.mapred-site.xml B.core-site.xml C.hdfs-site.xml D.以上均不是

答案是：B

Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括 A.conf-site.xml B.mapred

答案是：A

配置Hadoop时，JAVA_HOME包含在哪一个配置文件中 A.hadoop-default.xml B.hadoop-env.sh C.hadoop-site.xml D.configuration.xsl

答案是：B

Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是 A.Hadoop B.Nutch C.Lucene D.Solr

答案是：D

HBase分布式模式最好需要（）个节点？ A.1 B.2 C.3 D.最少

答案是：C

HBase虚拟分布式模式需要（）个节点？ A.1 B.2 C.3 D.最少3个

答案是：A

HBase中的批量加载底层使用（）实现。 A.MapReduce B.Hive C.Coprocessor D.Bloom Filter

答案是：A

HFile数据格式中的KeyValue数据格式中Value部分是（）。 A.拥有复杂结构的字符串 B.字符串 C.二进制数据 D.压缩数据

答案是：C

HFile数据格式中的Magic字段用于（）。 A.存储随机数，防止数据损坏 B.存储数据的起点 C.存储数据块的起点 D.指定字段的长度

答案是：A

HFile数据格式中的MetaIndex字段用于（）。 A.Meta块的长度 B.Meta块的结束点 C.Meta块数据内容 D.Meta块的起始点

答案是：D

HFile数据格式中的Data字段用于（）。 A.存储实际的KeyValue数据 B.存储数据的起点 C.指定字段的长度 D.存储数据块的起点

答案是：A

LSM结构的数据首先存储在（）。 A.硬盘上 B.内存中 C.磁盘阵列中 D.闪存中

答案是：B

LSM的读操作和写操作是独立的？ A.是。 B.否。 C.LSM并不区分读和写 D.LSM中读写是同一种操作

答案是：A

LSM更能保证哪种操作的性能？ A.读 B.写 C.随机读 D.合并

答案是：B

下面对LSM结构描述正确的是？ A.顺序存储 B.直接写硬盘 C.需要将数据Flush到磁盘 D.是一种搜索平衡树

答案是：AC

下面哪些概念是HBase框架中使用的？ A.HDFS B.GridFS C.Zookeeper D.EXT3

答案是：AC

下面哪些选项正确描述了HBase的特性？ A.高可靠性 B.高性能 C.面向列 D.可伸缩

答案是：ABCD

MapReduce与HBase的关系，哪些描述是正确的？ A.两者不可或缺，MapReduce是HBase可以正常运行的保证 B.两者不是强关联关系，没有MapReduce，HBase可以正常运行 C.MapReduce可以直接访问H

答案是：BC

下面对HBase的描述哪些是正确的？ A.不是开源的 B.是面向列的 C.是分布式的 D.是一种NoSQL数据库

答案是：BCD

LSM含义是？ A.日志结构合并树 B.二叉树 C.平衡二叉树 D.基于日志结构的合并树

答案是：A

下面与HDFS类似的框架是？ A.NTFS B.FAT32 C.GFS D.EXT3

答案是：C

下面与Zookeeper类似的框架是？ A.Protobuf B.Java C.Kafka D.Chubby

答案是：D

HBase依赖（）提供强大的计算能力 A.Zookeeper B.Chubby C.RPC D.MapReduce

答案是：D

HBase依赖（）提供消息通信机制 A.Zookeeper B.Chubby C.RPC D.Socket

答案是：A

HBase依靠（）存储底层数据 A.HDFS B.Hadoop C.Memory D.MapReduce

答案是：A

HBase来源于哪一项？ A.The Google File System B.MapReduce C.BigTable D.Chubby

答案是：C

大数据的特点不包括下面哪一项______。 A.巨大的数据量 B.多结构化数据 C.增长速度快 D.价值密度高

答案是：D

关于SecondaryNameNode 下面哪项是正确的（） A.它是NameNode 的热备 B.它对内存没有要求 C.它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 D.SecondaryNameN

答案是：C

下面与HDFS类似的框架是（）？ A.NTFS B.FAT32 C.GFS D.EXT3

答案是：C

HBase依赖______提供消息通信机制 A.Zookeeper B.Chubby C.RPC D.Socket

答案是：A

HBase依赖______提供强大的计算能力。 A.Zookeeper B.Chubby C.RPC D.MapReduce

答案是：D

HBase依靠______存储底层数据。 A.HDFS B.Hadoop C.Memory D.MapReduce

答案是：A

HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是______。 A.一次写入，少次读 B.多次写入，少次读 C.多次写入，多次读 D.一次写入，多次读

答案是：D

下列关于MapReduce说法不正确的是______。 A.MapReduce是一种计算框架 B.MapReduce来源于google的学术论文 C.MapReduce程序只能用java语言编写 D.MapReduce隐藏了并行计算

答案是：C

下列哪项通常是集群的最主要瓶颈______。 A.CPU B.网络 C.磁盘IO D.内存

答案是：C

HDFS 默认Block Size的大小是______。 A.32MB B.64MB C.128MB D.256M

答案是：B

下列哪个程序通常与NameNode 在同一个节点启动_____。 A.TaskTracker B.DataNode C.SecondaryNameNode D.Jobtracker

答案是：D

Hadoop的作者是下面哪一位______。 A.Martin Fowler B.Doug cutting C.Kent Beck D.Grace Hopper

答案是：B

以下哪一项不属于Hadoop可以运行的模式（） A.单机（本地）模式 B.伪分布式模式 C.互联模式 D.分布式模式

答案是：C