欢迎光临,有需要请联系站长!
想要快速找到正确答案?
立即关注 超新尔雅学习通微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
中国大学MOOCHadoop开发技术作业答案
Hadoop开发技术
学校: 无
平台: 超星学习通
题目如下:
1. 所谓大数据,狭义上可以定义为( )
A. 用现有的一般技术难以管理的大量数据的集合
B. 随着互联网的发展,在我们身边产生的大量数据
C. 随着硬件和软件技术的发展,数据的存储、处理成本大幅下降,从而促进数据大量产生
D. 随着云计算的兴起而产生的大量数据
答案: 用现有的一般技术难以管理的大量数据的集合
2. 大数据的特点不包括下面哪一项_____( )_____。
A. 巨大的数据量
B. 多结构化数据
C. 增长速度
D. 价值密度高 二 简答题
答案: 价值密度高 二 简答题
3. 大数据具有哪些特点?
A. 数据的“大量化”
B. 数据的“快速化”
C. 数据的“多样化”
D. 数据的“价值化”
答案: 数据的“大量化”# 数据的“快速化”# 数据的“多样化”# 数据的“价值化”
4. 下面哪些属于大数据的应用领域?
A. 智能医疗研发
B. 监控身体情况
C. 实时掌握交通状况
D. 金融交易
答案: 智能医疗研发# 监控身体情况# 实时掌握交通状况# 金融交易
5. 下列哪一个不属于Hadoop大数据层的功能? ( )
A. 数据挖掘
B. 离线分析
C. 实时查询
D. BI分析
答案: 实时查询
6. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功? ( )
A. Namenode,Datanode, TaskTracker
B. Namenode,Datanode, secondaryNameNode
C. Namenode,Datanode, Hmaster
D. Namenode,JobTracker, secondaryNameNode
答案: Namenode,JobTracker, secondaryNameNode
7. 分布式文件系统指的是什么? ( )
A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B. 用于在Hadoop与传统数据库之间进行数据传递
C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
8. 关于Hadoop单机模式和伪分布式的说法正确的是( )
A. 两者都启动守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
9. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
10. Slave节点要存储数据,所以它的磁盘越大越好。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
11. HDFS中的block默认保存几份。 ( )
A. 3
B. 2
C. 1
D. 不确定
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
12. 下列哪一项不属于HDFS采用抽象的块概念带来的好处? ( )
A. 强大的跨平台兼容性
B. 支持大规模文件存储
C. 简化系统设计
D. 适合数据备份
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
13. 下面对FsImage的描述,哪个是错误的? ( )
A. FsImage文件没有记录文件包含哪些块以及每个块存储在哪个数据节点
B. FsImage文件包含文件系统中所有目录和文件inode的序列化形式
C. FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
D. FsImage文件记录了所有针对文件的创建、删除、重命名等操作
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
14. 下面对SecondaryNameNode第二名称节点的描述,哪个是错误的? ( )
A. 它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
B. SecondaryNameNode一般是并行运行在多台机器上
C. SecondaryNameNode通过HTTP GET方式从NameNode上获取到FsImage和EditLog文件,并下载到本地的相应目录下
D. SecondaryNameNode是HDFS架构中的一个组成部分
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
15. 一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?
A. 1
B. 2
C. 3
D. 4
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
16. HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为( )
A. 一个map读取64MB,另外一个map读取11MB
B. 64M
C. 75M
D. 60M
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
17. 配置机架感知的好处,下面哪项( )不正确。
A. 如果一个机架出问题,不会影响数据读写
B. 写入数据的时候会写到不同机架的DataNode中
C. MapReduce会根据机架获取离自己比较近的网络数据
D. 各个机架之间不需要有网络
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
18. 关于 SecondaryNameNode 哪项是正确的( )
A. 它是 NameNode 的热备
B. 它对内存没有要求
C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D. SecondaryNameNode 应与 NameNode 部署到一个节点
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
19. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是( )。
A. 一次写入,少次读
B. 多次写入,少次读
C. 多次写入,多次读
D. 一次写入,多次读
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
20. HDFS的优点包括( )
A. 高容错性,适合批处理
B. 构建在廉价机器上
C. 适合大数据处理,流式文件访问
D. 对延时要求在毫秒级别的应用
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
21. 关于SecondaryNameNode哪项是正确的?( )
A. 它是NameNode的热备
B. 它对内存没有要求
C. 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
D. SecondaryNameNode应与NameNode部署到一个节点
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
22. 下面哪项负责HDFS数据存储。( )
A. NameNode
B. client
C. Datanode
D. secondaryNameNode
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
23. 下列哪个程序通常与NameNode在一个节点启动?( )
A. NameNode
B. Datanode
C. TaskTracker
D. Jobtracker
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
24. HDFS采用了什么模型?
A. 主从结构模型
B. 分层模型
C. 管道-过滤器模式
D. 点对点模式
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
25. 数据节点(DataNode)的主要功能包括哪些?( )
A. 负责数据的存储和读取
B. 根据客户端或者是名称节点的调度来进行数据的存储和检索
C. 用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
D. 向名称节点定期发送自己所存储的块的列表
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
26. 下列不属于NameNode的功能是什么。 ( )
A. 提供名称查询服务
B. 保存Block信息,汇报Block信息
C. 保存metadata信息
D. metadata信息在启动后会加载到内存
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
27. 【单选题】 在mapreduce计算过程中如何决定partition的个数?
A. maptask的个数
B. reducetask的个数
C. 系统默认个数
D. 只有一个
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
28. 在mapreduce计算过程中如何决定partition的个数?
A. maptask的个数
B. reducetask的个数
C. 系统默认个数
D. 只有一个
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
29. 下列关于hadoop中partition描述正确的是?
A. reduce的个数小于分区个数且不等于1的时候会报错
B. 默认只有一个reduce,虽然自定义了分区,但不会使用自定义分区类
C. 自定义分区的分区号默认从0开始
D. 分区个数小于reduce的个数时,会有空文件出现
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
30. 【单选题】关于 MapReduce 中的默认分组行为,以下哪个描述是正确的?
A. 默认情况下,所有 key-value 对都会被视作同一个组。
B. 默认情况下,每个不同的 key 会被视作一个独立的组。
C. 可以通过修改 Hadoop 配置文件来改变默认分组行为。
D. 默认分组行为无法修改,只能通过自定义逻辑来实现。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
31. 【单选题】在 MapReduce 程序中,如果希望按照学生姓名首字母的 ASCII 值进行分组,应该如何实现?
A. 在 Mapper 类中修改 key 的值。
B. 在 Partitioner 类中实现自定义分区逻辑。
C. 在 Reducer 类中处理数据时根据 key 排序。
D. 实现自定义的 GroupingComparator 类,并覆盖其 compare 方法。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
32. 【单选题】以下哪一项不是 MapReduce 自定义分组可能的应用场景?
A. 将相同班级的学生成绩分组到同一个 Reduce 任务处理。
B. 将同一日期的日志信息分组到同一个 Reduce 任务处理。
C. 控制 Map 任务的执行顺序。
D. 将具有相同前缀的 URL 访问记录分组处理。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
33. 【单选题】在 MapReduce 程序中,若要实现基于学生班级的自定义分组,应该在哪个类中实现自定义逻辑?
A. Mapper 类
B. Reducer 类
C. Partitioner 类
D. GroupingComparator 类
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
34. 【单选题】关于 MapReduce 中的自定义分组,以下哪个说法是正确的?
A. 自定义分组允许开发者控制哪些数据作为一组传递给同一个 Reduce 任务。
B. 默认情况下,每个不同的 key 都会被视作一个独立的组。
C. 分组操作发生在 Map 阶段,与 Reduce 阶段无关。
D. 分组操作只能通过修改 MapReduce 的源代码来实现。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
35. 关于 MapReduce 中的默认分组行为,以下哪个描述是正确的?
A. 默认情况下,所有 key-value 对都会被视作同一个组。
B. 默认情况下,每个不同的 key 会被视作一个独立的组。
C. 可以通过修改 Hadoop 配置文件来改变默认分组行为。
D. 默认分组行为无法修改,只能通过自定义逻辑来实现。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
36. 在 MapReduce 程序中,如果希望按照学生姓名首字母的 ASCII 值进行分组,应该如何实现?
A. 在 Mapper 类中修改 key 的值。
B. 在 Partitioner 类中实现自定义分区逻辑。
C. 在 Reducer 类中处理数据时根据 key 排序。
D. 实现自定义的 GroupingComparator 类,并覆盖其 compare 方法。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
37. 以下哪一项不是 MapReduce 自定义分组可能的应用场景?
A. 将相同班级的学生成绩分组到同一个 Reduce 任务处理。
B. 将同一日期的日志信息分组到同一个 Reduce 任务处理。
C. 控制 Map 任务的执行顺序。
D. 将具有相同前缀的 URL 访问记录分组处理。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
38. 在 MapReduce 程序中,若要实现基于学生班级的自定义分组,应该在哪个类中实现自定义逻辑?
A. Mapper 类
B. Reducer 类
C. Partitioner 类
D. GroupingComparator 类
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
39. 关于 MapReduce 中的自定义分组,以下哪个说法是正确的?
A. 自定义分组允许开发者控制哪些数据作为一组传递给同一个 Reduce 任务。
B. 默认情况下,每个不同的 key 都会被视作一个独立的组。
C. 分组操作发生在 Map 阶段,与 Reduce 阶段无关。
D. 分组操作只能通过修改 MapReduce 的源代码来实现。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
40. 以下哪项不属于Hadoop可以运行的模式( )。
A. 单机(本地)模式
B. 伪分布式模式
C. 互联模式
D. 分布式模式
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
41. 分布式文件系统指的是什么? ( )
A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B. 用于在Hadoop与传统数据库之间进行数据传递
C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
D. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
42. 关于Hadoop单机模式和伪分布式的说法正确的是( )
A. 两者都启动守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。