欢迎光临,有需要请联系站长!
想要快速找到正确答案?
立即关注 超新尔雅学习通微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
数据采集与预处理 - 第2单元测试(不计分)
课程名称:数据采集与预处理 发布教师:李海波 作业来源:第2学习单元 网络基础与数据解析 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第2单元内容之后完成本次作业,并请在规定时间内提交,本次作业不计分。
单选题
1. POST请求的安全性更高,使用场合比GET请求多。 (分值:2.0分)
A. 错
2. 一旦服务器端出现错误,返回的状态码为403。 (分值:2.0分)
A. 错
3. GET请求是指向指定资源提交数据进行处理请求,数据被包含在请求体中。 (分值:2.0分)
A. 错
4. 服务器可以根据请求报头中的Accept,判断以返回适当的文件格式给浏览器。 (分值:2.0分)
A. 错
5. 通常有些网站返回的数据会出现乱码,肯定是客户端没有反馈正确的编码导致的。 (分值:2.0分)
A. 错
6. 如果URL中包含了中文,则可以使用urlencode方法进行编码。 (分值:2.0分)
A. 错
7. 登录网站时,只有浏览器发送的请求才能获得响应内容。 (分值:2.0分)
A. 错
8. 如果访问某网站的频率太高,则这个网站可能会禁止访问。 (分值:2.0分)
A. 错
9. Urlopen是一个特殊的opener,支持设置代理IP。 (分值:2.0分)
A. 错
10. urlopen函数返回的是一个文件对象,需要调用read()方法一次性读取。 (分值:2.0分)
A. 错
11. 如果路径表达式以“/”开始,那么该路径就代表着到达某个节点的绝对路径。 (分值:2.0分)
A. 错
12. 创建BeatutifulSoup类实例时,如果没有明确指定解析器,那么该实例肯定会选择Python标准库。 (分值:2.0分)
A. 错
13. 在使用bs4库调用find方法查找节点时,只能将字符串作为参数。 (分值:2.0分)
A. 错
渝粤题库14. JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息。 (分值:2.0分)
A. 错
15. 路径表达式是唯一的,只能从根节点开始搜索。 (分值:2.0分)
A. 错
填空题
1. 服务器响应了浏览器发送的请求,返回__ 渝粤教育 ___页面。 (分值:2.0分)
2. _____是互联网上标准资源的地址。 (分值:2.0分)
3. 客户端发送的请求消息由请求行、_____、空行、以及请求数据这四个部分组成。 (分值:2.0分)
4. HTTP是一套计算机网络通信的规则,由客户端请求消息和服务器端_____消息组成。 (分值:2.0分)
5. _____请求的参数都显示在URL上,服务器根据该请求所包含URL中的参数来产生响应内容。 (分值:2.0分)
6. 一旦超过了服务器设置的_____时间,就会抛出一个超时异常。 (分值:2.0分)
7. 若客户端没有连接到网络,则使用ur 成人学历 lopen方法发送请求后会产生_____异常。 (分值:2.0分)
8. _____是Python内置的HTTP请求库,可以看做是处理URL的组件集合。 (分值:2.0分)
9. 如果要获取Response类中字符串形式的响应内容,可以访问_____属性获取。 (分值:2.0分)
10. 要想将爬虫程序发出的 渝粤文库 _____伪装成一个浏览器,就需要自定义请求报头。 (分值:2.0分)
< 广东开放大学 /p>
11. _____是一个用于处理字符串的强大工具。 (分值:2.0分)
12. 网页解析器可以从网页中提取出有价值的数据,或新的_____链接。 (分值:2.0分)
13. _____表示XML路径语言,能够确定XML树结构中某一部分的位置。 (分值:2.0分)
14. 路径表达式是指从某节点到某个节点或某一组节点的顺序,以_____字符进行分隔。 (分值:2.0分)
15. lx 国家开放大学 ml是用Python编写的库,主要用于解析和提取_____或XML格式的数据。 (分值:2.0分)
简答题/计算题
1. 请简述浏览器加载网页的过程。 (分值:8.0分)
2. 请简述爬虫是如何抓取网页的。 (分值:8.0分)
3. 请简述urllib和requests的异同。 (分值:8.0分)
4. 请简述什么是结构化数据和非结构化数据。 (分值:8.0分)
5. 正则表达式、Xpath、Beautiful Soup和JSONPath有什么区别? (分值:8.0分)