欢迎光临,有需要请联系站长!
想要快速找到正确答案?
立即关注 超新尔雅学习通微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
数据采集与预处理 - 第四次形考作业(占总成绩10%)
课程名称:数据采集与预处理 发布教师:李海波 作业来源:第8学习单元 数据清洗工具实战 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第6、7、8单元内容之后必须完成本次作业,并请在规定时间内提交,本次作业占考核总成绩的10%。
单选题
1. 下列选项中,关于groupby()方法说法不正确的是( )。 (分值:2.0分)
A. 分组键可以是列表或数组,但长度不需要与待分组轴的长度相同
B. 可以使用函数进行分组
C. 可使用series或字典分组
D. 可以通过DataFrame中的列名的值进行分组
2. 下列选项中,关于agg()方法使用不正确是( )。 (分值:2.0分)
A. agg()方法不能对产生的标量值进行广播
B. agg()方法中func参数可以传入自定义函数
C. agg()方法中func参数只能传入一个函数
D. agg()方法中func参数可以传入多个函数
3. 下列选项中,关于transform()方法说法正确的是( )。 (分值:2.0分)
A. func参数可以传入多个内置函数
B. 会对产生的标量值进行广播操作
C. 不会与原数据保持相同形状
D. func参数只能传入内置函数
4. 请阅读下面一段程序: import pandas as pd (pd.DataFrame([[2, 3],] * 3, columns=['A', 'B'])).apply(lambda x: x + 1) 执行上述程序后,最终输出的结果为( )。 (分值:2.0分)
A. A B 0 2 3 1 2 3 2 2 3
B. A B 0 3 2 1 3 2 2 3 2
C. A B 0 4 3 1 4 3 2 4 3
D. A B 0 3 4 1 3 4 2 3 4
5. 下列选项中,关于apply()说法不正确的是( )。 (分值:2.0分)
A. 可以接收多个函数
B. 返回的结果一定与原数据的形状相同
C. 可以使用广播功能
D. 可以使用自定义函数
6. 下列选项表述错误的是( )。 (分值:2.0分)
A. 通过专有的操作语句,可以对数据库中的数据进行操作
B. 数据库通常分为关系型数据库和非关系型数据库
C. 关系型数据库具有高扩展性和高性能的优点
D. 数据库可以通过降低数据的冗余度减小数据的存储空间
7. 下列选项表述错误的是( )。 (分值:2.0分)
A. 在数据量较大的情况下,关系型数据库在查询速度上通常不及非关系型数据库
B. 关系型数据库具有容易理解、使用方便、安全性能高等优点
C. 非关系型数据库具有读写性能高、存储数据格式多样等优点
D. 非关系型数据库比关系型数据库安全性能高,而且提供多种数据存储格式
8. 以下关于MySQL的说法错误的是( )。 (分值:2.0分)
A. MySQL是一个开源软件。
B. MySQL⾮常灵活,适⽤于⼩到中型的数据处理。
C. MySQL是一个跨平台的数据库系统: Windows , Mac O 成人学历 tps://www.yuyue-exam.com" title="渝粤教育">渝粤教育 n" title="广东开放大学 渝粤文库 ">广东开放大学 S , Linux 和 Unix 均适⽤。
D. MySQL是没有服务器的,不需要服务器进程或系统来操作。
9. 关于MySQL中的数据类型,下列选项表述不正确的是( )。 (分值:2.0分)
A. VARCHAR(length)表示最大长度 为length的可变长度字符串。
B. CHAR(length)表示最大长度为length的可变长度字符串。
C. TEXT表示最大长度为64KB的可变长度字符串。
D. DATE和TIME都可以作为日期型数据。
10. 下列哪个⼯具不能实现数据清洗功能?( ) (分值:2.0分)
A. OpenRefine
B. Excel
C. Weka
D. photoshop
11. Weka使⽤什么编程语⾔进⾏开发?( ) (分值:2.0分)
A. C
B. Python
C. C++
D. Java
12. 下列哪个选项不属于Weka 渝粤题库 "https://211tiku.com" title="国家开放大学">国家开放大学 集合的数据挖掘功能?( ) (分值:2.0分)
A. 数据预处理
B. 数据可视化
C. 搭建神经⽹络
D. 关联规则挖掘
13. OpenRefine的⼯作⽅式是?( ) (分值:2.0分)
A. 矩阵
B. 列和字段
C. 图
D. 单元格
14. OpenRefine不⽀持下列那种⽂件格式?( ) (分值:2.0分)
A. json⽂件
B. tsv⽂件
C. py⽂件
D. csv⽂件
15. 在OpenRefine界⾯,下列哪个变量不属于 GREL 语⾔?( ) (分值:2.0分)
A. grad
B. row
C. cell
D. value
16. 在OpenRefine界⾯,下列哪个选项能够查看数据集data中是否含有缺失值?( ) (分值:2.0分)
A. data.index
B. data.cell
C. isNull(data)
D. data.value
17. 下列选项表述不正确的是( )。 (分值:2.0分)
A. OpenRefine使用的是计算机的3333端口
B. 可以在OpenRefine界面的Language Settings 选项处进行语言的选择
C. OpenRefine使用的是计算机的8000端口
D. 可以在命令行使用ctrl+c命令退出OpenRefine软件
18. 下列选项表述不正确的是( )。 (分值:2.0分)
A. GREL为OpenRefine的内建语言,不能与正则表达式结合进行数据转换
B. OpenRefine支持多种数据导入方式
C. OpenRefine支持撤销操作
D. OpenRefine支持多种格式的数据文件
19. 在openrefine的内建语言中,能将string s转换为小写的是( )。 (分值:2.0分)
A. endsWith(string s, string sub)
B. toLowercase(string s)
C. toUppercase(string s)
D. startsWith(string s,string sub)
简答题/计算题
1. 请简述常用的分组方式。 (分值:12.0分)
2. 现有表douban,表内有若干条出版社数据信息。 id为出版社编号,publish_ name列为出版社名称,book_number列为出版书籍数量,publish_ link为出版社链接网址。 请使用select和like语句查询出名字以北京开头的出版社名称( publish_ name)。并提交与判定SQL语句。 (分值:12.0分)
3. 现有如下图所示的学生信息,请根据图中的信息完成以下操作: (1)根据年级信息为分组键,对学生信息进行分组,并输出大一学生信息。(18分) (2)分别计算出四个年级中身高最高的同学。(10分) (3)计算大一学生与大三学生的平均体重。(10分) 请将程序写在下面的文本框内。 (分值:38.0分)