覆盖学起Plus、超星学习通等平台的全学科作业答案、历年真题与考试速查系统
2025秋江苏开放大学数据采集与预处理第四次形考作业(占总成绩10%)
招生简章 2025-09-10 16:16:08 2 0
中国大学MOOC作业考试答案

想要快速找到正确答案?

立即关注 超新尔雅学习通微信公众号,轻松解决学习难题!

超新尔雅学习通
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

数据采集与预处理 - 第四次形考作业(占总成绩10%)

课程名称:数据采集与预处理 发布教师:李海波 作业来源:第8学习单元 数据清洗工具实战 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第6、7、8单元内容之后必须完成本次作业,并请在规定时间内提交,本次作业占考核总成绩的10%。

单选题

1. 下列选项中,关于groupby()方法说法不正确的是( )。 (分值:2.0分)

A. 分组键可以是列表或数组,但长度不需要与待分组轴的长度相同

B. 可以使用函数进行分组

C. 可使用series或字典分组

D. 可以通过DataFrame中的列名的值进行分组

2. 下列选项中,关于agg()方法使用不正确是( )。 (分值:2.0分)

A. agg()方法不能对产生的标量值进行广播

B. agg()方法中func参数可以传入自定义函数

C. agg()方法中func参数只能传入一个函数

D. agg()方法中func参数可以传入多个函数

3. 下列选项中,关于transform()方法说法正确的是( )。 (分值:2.0分)

A. func参数可以传入多个内置函数

B. 会对产生的标量值进行广播操作

C. 不会与原数据保持相同形状

D. func参数只能传入内置函数

4. 请阅读下面一段程序: import pandas as pd (pd.DataFrame([[2, 3],] * 3, columns=['A', 'B'])).apply(lambda x: x + 1) 执行上述程序后,最终输出的结果为( )。 (分值:2.0分)

A. A B 0 2 3 1 2 3 2 2 3

B. A B 0 3 2 1 3 2 2 3 2

C. A B 0 4 3 1 4 3 2 4 3

D. A B 0 3 4 1 3 4 2 3 4

5. 下列选项中,关于apply()说法不正确的是( )。 (分值:2.0分)

A. 可以接收多个函数

B. 返回的结果一定与原数据的形状相同

C. 可以使用广播功能

D. 可以使用自定义函数

6. 下列选项表述错误的是( )。 (分值:2.0分)

A. 通过专有的操作语句,可以对数据库中的数据进行操作

B. 数据库通常分为关系型数据库和非关系型数据库

C. 关系型数据库具有高扩展性和高性能的优点

D. 数据库可以通过降低数据的冗余度减小数据的存储空间

7. 下列选项表述错误的是( )。 (分值:2.0分)

A. 在数据量较大的情况下,关系型数据库在查询速度上通常不及非关系型数据库

B. 关系型数据库具有容易理解、使用方便、安全性能高等优点

C. 非关系型数据库具有读写性能高、存储数据格式多样等优点

D. 非关系型数据库比关系型数据库安全性能高,而且提供多种数据存储格式

8. 以下关于MySQL的说法错误的是( )。 (分值:2.0分)

A. MySQL是一个开源软件。

B. MySQL⾮常灵活,适⽤于⼩到中型的数据处理。

C. MySQL是一个跨平台的数据库系统: Windows , Mac O 成人学历 tps://www.yuyue-exam.com" title="渝粤教育">渝粤教育 n" title="广东开放大学 渝粤文库 ">广东开放大学 S , Linux 和 Unix 均适⽤。

D. MySQL是没有服务器的,不需要服务器进程或系统来操作。

9. 关于MySQL中的数据类型,下列选项表述不正确的是( )。 (分值:2.0分)

A. VARCHAR(length)表示最大长度 为length的可变长度字符串。

B. CHAR(length)表示最大长度为length的可变长度字符串。

C. TEXT表示最大长度为64KB的可变长度字符串。

D. DATE和TIME都可以作为日期型数据。

10. 下列哪个⼯具不能实现数据清洗功能?( ) (分值:2.0分)

A. OpenRefine

B. Excel

C. Weka

D. photoshop

11. Weka使⽤什么编程语⾔进⾏开发?( ) (分值:2.0分)

A. C

B. Python

C. C++

D. Java

12. 下列哪个选项不属于Weka 渝粤题库 "https://211tiku.com" title="国家开放大学">国家开放大学 集合的数据挖掘功能?( ) (分值:2.0分)

A. 数据预处理

B. 数据可视化

C. 搭建神经⽹络

D. 关联规则挖掘

13. OpenRefine的⼯作⽅式是?( ) (分值:2.0分)

A. 矩阵

B. 列和字段

C. 图

D. 单元格

14. OpenRefine不⽀持下列那种⽂件格式?( ) (分值:2.0分)

A. json⽂件

B. tsv⽂件

C. py⽂件

D. csv⽂件

15. 在OpenRefine界⾯,下列哪个变量不属于 GREL 语⾔?( ) (分值:2.0分)

A. grad

B. row

C. cell

D. value

16. 在OpenRefine界⾯,下列哪个选项能够查看数据集data中是否含有缺失值?( ) (分值:2.0分)

A. data.index

B. data.cell

C. isNull(data)

D. data.value

17. 下列选项表述不正确的是( )。 (分值:2.0分)

A. OpenRefine使用的是计算机的3333端口

B. 可以在OpenRefine界面的Language Settings 选项处进行语言的选择

C. OpenRefine使用的是计算机的8000端口

D. 可以在命令行使用ctrl+c命令退出OpenRefine软件

18. 下列选项表述不正确的是( )。 (分值:2.0分)

A. GREL为OpenRefine的内建语言,不能与正则表达式结合进行数据转换

B. OpenRefine支持多种数据导入方式

C. OpenRefine支持撤销操作

D. OpenRefine支持多种格式的数据文件

19. 在openrefine的内建语言中,能将string s转换为小写的是( )。 (分值:2.0分)

A. endsWith(string s, string sub)

B. toLowercase(string s)

C. toUppercase(string s)

D. startsWith(string s,string sub)

简答题/计算题

1. 请简述常用的分组方式。 (分值:12.0分)

2. 现有表douban,表内有若干条出版社数据信息。 id为出版社编号,publish_ name列为出版社名称,book_number列为出版书籍数量,publish_ link为出版社链接网址。 请使用select和like语句查询出名字以北京开头的出版社名称( publish_ name)。并提交与判定SQL语句。 (分值:12.0分)

3. 现有如下图所示的学生信息,请根据图中的信息完成以下操作: (1)根据年级信息为分组键,对学生信息进行分组,并输出大一学生信息。(18分) (2)分别计算出四个年级中身高最高的同学。(10分) (3)计算大一学生与大三学生的平均体重。(10分) 请将程序写在下面的文本框内。 (分值:38.0分)

文章目录


    文章说明
    本文标签:
    ©版权声明
    本站提供的文章均来自网上,如有侵权请邮件与我们联系处理。敬请谅解!
    相关文章
    评论留言

    昵称

    个人资料
    个人资料
    学通智库​ 是专为 ​学起Plus、超星学习通、安徽继续教育、云上河开​ 等主流学习平台用户打造的一站式资源中心。
    • 文章105864
    • 评论0
    • 微语0
    标签