欢迎光临,有需要请联系站长!
想要快速找到正确答案?
立即关注 超新尔雅学习通微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
中国大学MOOC数据清洗(2023级)作业答案
数据清洗(2023级)
学校: 九八五题库
学校: 超星学习通
题目如下:
1. 1. 下列选项中,Spoon提供的用户界面是基于()。
A. SWT
B. Swing
C. AWT
D. GUI
答案: SWT
2. 2. 下列说法,关于Kettle工具说法正确的是()。
A. Kettle是基于R语言开发的
B. Kettle不能运行在JVM平台上
C. Kettle是绿色无需安装的
D. Kettle是用于ETL和数据爬取开发的
答案: Kettle是绿色无需安装的
3. 3. 下列选项中,“跳”支持的方式有()。
A. 分发方式
B. 复制方式
C. 分发和复制方式
D. 以上均不正确
答案: 分发和复制方式
4. 4. 下列选项中,作业的基本构成部分是()。
A. 转换项
B. 数据行
C. 作业项
D. 作业行
答案: 作业项
5. 5. 下列选项中,属于Kettle中字段的数据类型的有()。
A. String
B. Number
C. Integer
D. Boolean
答案: String# Number# Integer# Boolean
6. 6. 作业项向下一个作业项传递的结果对象,包括()。
A. 一组数据行
B. 一组文件名
C. 行数
D. 错误数
答案: 一组数据行# 一组文件名# 行数# 错误数
7. 7. 数据库连接中的“一般”标签,需要设置的参数有()。
A. 连接名称
B. 命名参数
C. 连接方式
D. 连接类型
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
8. 8. Kettle工具是绿色无需安装。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
9. 9. 每个ETL工具都会有自己的设计原则,而Kettle工具例外。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
10. 10. 作业项和转换中的步骤相同。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
11. 1. 下列说法中,关于结构冲突说法正确的是()。
A. 结构冲突的典型表现是同一数据源中同一对象用不同的方式来表示
B. 结构冲突的典型表现是不同的数据源中不同对象用不同的方式来表示
C. 结构冲突的典型表现是不同的数据源中同一对象用相同的方式来表示
D. 结构冲突的典型表现是不同的数据源中同一对象用不同的方式来表示
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
12. 2. 下列说法中,关于依赖型脏数据说法错误的是()。
A. 依赖型脏数据的处理很难有通用的方法
B. 依赖型脏数据中的缺失数据主要包括数据空值和数据重复
C. 依赖型数据中的重复数据是指一个现实实体在数据集合中以多个不完全相同的记录来表示
D. 依赖型脏数据主要包括缺失数据和重复数据等脏数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
13. 3. 下列选项中,数据的质量是否能满足决策的关键所在是()。
A. 完整性
B. 准确性
C. 简洁性
D. 适用性
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
14. 4. 下列选项中,关于数据质量的评价指标中完整性的说法正确的是()。
A. 数据缺失的情况是整条数据记录缺失
B. 数据缺失可能是数据中某个字段信息的记录缺失
C. 数据完整性是评价数据质量的核心
D. 数据质量的完整性是很难去评估的
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
15. 5. 下列选项中,哪些方面属于数据合法性检验()。
A. 数据的格式
B. 数据的结构
C. 数据的范围
D. 数据的相关性
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
16. 6. 下列选项中,属于脏数据的有()。
A. 不完整数据
B. 重复数据
C. 完整数据
D. 错误数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
17. 7. 下列选项,属于典型的单数据源实例层问题的有()。
A. 缺失值
B. 拼写错误
C. 属性依赖冲突
D. 相似重复记录
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
18. 8. 下列选项中,关于数据质量说法正确的是()。
A. 对于一个邮件列表的管理员来说,数据质量与姓名、地址有关,高质量的数据意味着清晰、准确、不存在二义性以及不重复的邮件传送地址
B. 对于数据清洗工具销售商来说,数据质量与姓名、地址有关,他们的工具是否能够规范地校验和匹配客户记录
C. 对于数仓工程师来说,数据质量是将他们接收的应用数据经过相关的处理,存储到表格中或者显示到窗口中
D. 对于一个数据挖掘和决策支持系统的使用者来说,数据质量意味着准确、无重复且符合许多特定要求的数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
19. 9. 依赖型脏数据包括缺失数据和错误数据等脏数据。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
20. 10. 对于一个无关的数据,只要质量很高,就可以对决策起到很大的作用。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
21. 11. 数据的合法性检验是一个非常省时的环节,也是一个必不可少的环节,并不需要高度自动话。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
22. 12. 数据的准确性就是要求数据中的噪声尽可能的少,为提高数据的准确性需对数据集进行降噪处理。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
23. 13. 从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
24. 14. 对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
25. 15. 数据的准确性和简洁性是为了保证数据的完整性。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
26. 16. 名字冲突表现在同一个名字表示不同的对象,或不同的名字表示同一个对象。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
27. 17. 独立型脏数据可通过记录或本身属性检验出是否包含脏数据,不需要依赖其他记录或属性来检测
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
28. 18. 多数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
29. 1. 下列说法中,关于ETL说法正确的是()。
A. ETL是英文Extract-Transfer-Load的缩写
B. ETL是实现商务智能的核心和灵魂
C. ETL设计的好坏与BI项目的成败无关
D. 基于ETL的数据清洗不是挖掘有价值数据的一种方案
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
30. 2. 下列选项,不属于ETL的步骤是()。
A. 数据采集
B. 数据抽取
C. 数据转换
D. 数据加载
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
31. 3. 下列说法中,关于触发器方式抽取增量数据说法正确的是()。
A. ETL的增量抽取则是从增量日志中抽取,而不是直接在源表中抽取数据
B. ETL的增量抽取则是从源表中抽取,而不是直接在增量日志中抽取数据
C. ETL的增量抽取可以从增量日志中抽取数据,也可以直接从源表中抽取数据
D. ETL的增量抽取既不可以从增量日志中抽取数据,也不可以直接从源表中抽取数据
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
32. 4. 下列选项中,不属于数据增量抽取的方式有()。
A. 触发器方式
B. 时间戳方式
C. 全表比对方式
D. 全量方式
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
33. 5. 常见ETL实现方式中的编写SQL语句可以快速建立ETL工程,屏蔽复杂的编码任务、加快速度和降低难度。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
34. 6. 在时间戳方式中,插入数据的时间戳是由系统时间指定。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
35. 7. 数据抽取就是从异构数据源抽取数据,所有数据源中的数据都有实际的价值。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
36. 8. 如果数据源为外部文件的话,可以直接使用SQL语句来进行数据清洗工作。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
37. 9. 全量抽取类似于数据迁移或数据复制,它将原数据表中的数据全部抽取出来。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
38. 10. ETL的目的是将企业中的不完整数据、重复数据以及错误数据等脏数据内容通过清洗转换操作转变为符合企业要求的数据,便于为企业的决策提供分析依据。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
39. 11. 在ETL使用过程中,数据的全量抽取比数据的增量抽取应用更为广泛。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
40. 12. 增量抽取时,通过读源表数据决定加载哪些数据及如何加载。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
41. 1. 下列工具中,主要应用于爬虫和数据清洗等领域的是()。
A. Pentaho Kettle
B. Informatica PowerCenter
C. DataStage
D. Hawk
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
42. 2. 下列选项中,属于ETL最复杂的部分的是()。
A. 数据采集
B. 数据抽取
C. 数据清洗转换
D. 数据加载
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
43. 3. 下列说法,关于增量加载说法正确的是()。
A. ETL的增量加载和增量抽取一致
B. 增量加载是指目标表仅更新源数据表中变化的数据
C. 增量加载是指全表删除后再进行全部(全量)数据加载
D. 从技术角度来说,全量加载和增量加载相比较,增量加载更为的简单
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
44. 4. 下列算法中,不可用于检测基于记录的重复数据的算法是()。
A. 编辑距离算法
B. 优先队列算法
C. N-Gram 聚类算法
D. 排序邻居算法
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
45. 5. 下列选项中,可以运行Kettle工具的系统是()。
A. Windows
B. Linux
C. Unix
D. 以上均不可运行Kettle
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
46. 6. 当数据上报、接口调用时都会产生大量的不完整数据,不完整数据的产生是不可避免的现象,而不完整的数据对大数据环境下的决策无影响。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
47. 7. 全量加载的关键在于如何正确的设计相应的方法,用于从源数据表中抽取增量的数据,以及变化“牵连”数据(虽没有变化,但受到变化数据影响的数据)。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
48. 8. 对重复记录数据进行清洗,可以提高数据库的使用率,降低系统消耗,并提高数据的质量。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
49. 9. Kettle是一款国外免费开源的ETL工具,纯python语言编写。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
50. 10. 一般来说,可以通过编写SQL语句和利用加载工具将数据加载到数据仓库中。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
51. 11. Hawk是一种数据采集和清洗工具,依据GPL协议开源,基于C#语言编写的。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
52. 12. 数据加载的主要任务是将数据从临时数据表或文件中,加载到指定的数据仓库中。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
53. 13. Transformation是用于完成整个工作流的控制;而Job是完成数据的基础转换。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
54. 14. 数值数据输成全角数字字符、字符串数据后面出现一个回车操作、日期格式不正确、日期越界等均会造成错误数据的出现。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
55. 15. DataStage不支持HBase、Hive、Amazon以及MongoDB等数据库的连接。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
56. 16. 不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
57. 17. 错误数据通常表现为多条记录所表达的含义相同,或同一目标实体的记录虽然在形式上有所不同,但其描述的目标却相同。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
58. 18. Informatica PowerCenter只提供了一个组件,用于进行数据清洗和匹配。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
59. 1. 下列说法中,关于制表符文件说法正确的是()。
A. 制表符文件中的数据以表格结构储存
B. 制表符文件中每条记录的各字段之间使用逗号分隔
C. 制表符文件中的数据以列储存
D. 以上均不正确
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
60. 2. 下列选项中,基于数据库技术的HTML网页抽取技术的研究经过了( )个阶段。
A. 2
B. 3
C. 4
D. 5
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
61. 3. 一般情况下,制表符的种类包含()。
A. 左对齐式制表符
B. 居中式制表符
C. 右对齐式制表符
D. 小数点对齐式制表符
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
62. 4. 常用的文本文件类型有两种,分别是【】和CSV文件。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
63. 5. 是Comma-Separated Values的缩写,即逗号分隔值。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
64. 6. CSV文件是以【】形式存储表格数据(数字和文本)。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
65. 7. HyperText Markup Language,简称HTML,即超文本标记语言,它包含了一套标记标签,主要用于【】和描述网页。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
66. 8. Web网页上出现的数据形式主要有三种,分别是【】形式、XML形式以及【】形式。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
67. 9. 通过制表符分隔的文本数据与未使用制表符分隔的数据相比,前者更便于观察识别,同时也方便对数据进行抽取操作。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
68. 10. CSV文件只能使用逗号作为分隔符。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
69. 11. HTML可以以文档的形式展示,HTML文档中包含HTML标签和纯文本。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
70. 1. 不宜删除异常值的情况,具体如下:
A. 通常情况下,数据中出现的异常值较少。如果采集的数据中有超过30%的异常值数据,那么意味着需要进一步研究数据。
B. 如果异常值存在且代表了一种真实存在的现象,那就不可随意删除。例如,调查100个村的胃癌发病率,可能确实有个别村庄的发病率远远高于其它村,这时就不能随意删除,而是要把这些异常点纳入,重新拟合模型,研究其规律。
C. 分析数据的结果至关重要,因此即使很小的变化也会很重要。例如,可以更好地放弃关于人们最喜欢电视节目的异常值,而不是放弃关于飞机封条失效的温度
D. 异常值过于极端而不可信(例如,可能由于测量误差)。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
71. 2. 是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
72. 3. 如果异常值过于极端而不可信(例如,可能由于测量误差),则应该将其排除;如果异常值是合理的,则需要进行分析是否有异常值数据。如果这两种类型的数据分析得出的结果一致,则可以删除该异常值。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
73. 4. 在最近邻的分析中,有两种不同的分析策略:第一种策略是采用给定邻域半径,依据点的领域中包含的对象多少判定离群点,如果一个点的领域内包含的对象少于整个数据集中的一定比例,则标识它为离群点;第二种策略是利用k最近邻距离的大小判定离群点,若k值太小(如1),则少量的邻近离群点可能导致较低的离群程度;若k太大,则点数少于k的簇中所有的对象可能都成了离群点。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
74. 5. 在基于密度的分析中,首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;使用回归模型,异常是相对远离预测值的对象。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
75. 6. 箱形图判断异常值的标准是以四分位数和四分位距为基础的。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
76. 7. 简单统计方法是对属性值进行一个描述性的统计,从而查看哪些值是不合理的。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
77. 8. 无监督式异常值的检测,通过寻找与其他数据最不匹配的实例检测出未标记测试数据的异常。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
78. 9. 半监督是异常值的检测,需要一个已经被标记“正常”与“异常”的数据集,并设计训练分类器,用来区分正常值和异常值。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。
79. 10. 只可以通过简单统计方法、3σ准则两种方法检测异常值。( )
答案:请关注【九八五题库】微信公众号,发送题目获取正确答案。