中国大学MOOCPython网络爬虫作业答案 - 学通智库｜学起Plus/超星/安徽继教/云上河开全平台题库中心

学通智库｜学起Plus/超星/安徽继教/云上河开全平台题库中心

学通智库｜学起Plus/超星/安徽继教/云上河开全平台题库中心 / 超新学习通 / 中国大学MOOCPython网络爬虫作业答案

中国大学MOOCPython网络爬虫作业答案

超新学习通 2025-05-20 04:24:28 16 0

中国大学MOOC作业考试答案

想要快速找到正确答案？

立即关注超新尔雅学习通微信公众号，轻松解决学习难题！

超新尔雅学习通

扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

中国大学MOOCPython网络爬虫作业答案

Python网络爬虫

学校: 九八五题库

学校: 超星学习通

题目如下：

1. 1. 下列数据中，能够被网络爬虫抓取的是()。

A. 用户的注册信息

B. 网站后台信息

C. 互联网公开的且可访问到的信息

D. 互联网非公开信息

答案: 互联网公开的且可访问到的信息

2. 2. 下列选项中，被称为全网爬虫的是()。

A. 增量式网络爬虫

B. 通用网络爬虫

C. 深层爬虫

D. 聚焦网络爬虫

答案: 通用网络爬虫

3. 3. 下列选项中，被称为主题网络爬虫的是()。

A. 增量式网络爬虫

B. 通用网络爬虫

C. 深层爬虫

D. 聚焦网络爬虫

答案: 聚焦网络爬虫

4. 4. 下列选项中，哪一个是获取数据的方式?()。

A. 企业产生的数据

B. 数据平台购买的数据

C. 政府/机构公开的数据

D. 爬取的网络数据

答案: 企业产生的数据# 数据平台购买的数据# 政府/机构公开的数据# 爬取的网络数据

5. 5. 按照使用场景，可以将爬虫划分为哪几种?()

A. 通用网络爬虫

B. 表层爬虫

C. 深层爬虫

D. 聚焦网络爬虫

答案: 通用网络爬虫# 聚焦网络爬虫

6. 6. 网络爬虫是一种按照一定的规则，____请求万维网网站并提取网络数据的程序或脚本。

答案: 自动

7. 7. 爬虫数据是指互联网上____的且可以访问到的网页信息。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

8. 8. 无论是搜索引擎，还是个人或单位获取目标数据，都需要从公开网站上爬取大量数据。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

9. 9. 爬虫可以按照一定的规则，手动请求万维网网站的数据。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

10. 10. 网络爬虫能够爬取互联网上的任何数据。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

11. 11. 聚焦爬虫是一种“面向特定主题需求”的网络爬虫程序。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

12. 12. 增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不会重新下载没有发生变化的页面。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

13. 1. 下列选项中，用于在robots.txt文件中描述搜索引擎名字的是()。

A. User-agent

B. Disallow

C. Allow

D. accept

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

14. 2. 关于聚焦爬虫的工作原理，下列描述正确的是()。

A. 聚焦爬虫会根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接

B. 有用的链接会放入等待抓取的URL队列

C. 根据一定的搜索策略，从URL队列中选择下一步要抓取的网页URL

D. 我们需要根据爬取需求定义聚焦爬虫的爬取目标，并进行相关的描述。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

15. 3. 下列选项中，属于应对反爬虫策略的是()。

A. 伪装User-agent

B. 使用代理IP

C. 降低访问频率

D. 识别验证码

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

16. 4. 当网络爬虫访问网站时，会优先检查该站点的根目录下是否存在____文件。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

17. 5. 为了方便网站管理员通知爬虫更新网站的内容，网站提供了____文件。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

18. 6. 搜索引擎的爬行行为需要符合一定的规则，遵从一些命令或文件的内容。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

19. 7. 搜索引擎的爬行行为需要符合一定的规则，遵从一些命令或文件的内容。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

20. 8. 搜索引擎只能抓取HTML文件，不能抓取其它类型的文件。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

21. 9. 如果某个URL还未抓取过，则这个URL会放入到待抓取URL队列中。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

22. 10. 爬虫从待抓取的IP地址队列中依次IP地址，以找到对应的网站服务器。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

23. 11. 已抓取URL队列记载了爬虫系统已经下载过的网页URL，能够避免网页的重复抓取。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

24. 12. 有些网页对于爬虫来说是无法抓取到的，这部分网页构成了可知网页集合。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

25. 13. 爬虫需要遵循有礼貌的原则，这样才能与更多的网站建立友好关系。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

26. 14. 如果网站中存在robots.txt文件，那么网络爬虫会按照该文件的内容确定访问的范围。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

27. 15. 如果网站中没有robots.txt文件，那么所有的网络爬虫都能访问网站上所有没有被口令保护的页面。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

28. 16. 任何网站都会定义robots.txt文件，能够让爬虫了解爬取网站存在着哪些限制。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

29. 17. Robots协议只是一种建议，它没有实际的约束力。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

30. 18. robots.txt文件只能有一条User-agent记录。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

31. 19. 任何一条Disallow记录为空，都说明该网站的所有部分都允许被访问。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

32. 20. 只要将User-agent设为知名的用户代理，爬虫就能够成功地伪装成浏览器。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

33. 21. 通过降低访问网站的频率，一定能够阻止对方从访问量上认出爬虫的身份。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

34. 1. 下列协议类型中，用于表示访问远程网络资源的超文本传输协议的是()。

A. file

B. http

C. mailto

D. ftp

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

35. 2. 下列端口号中，用来表示的HTTP程序的是()。

A. 80

B. 443

C. 403

D. 200

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

36. 3. 下列请求方法中，用于提交表单或者上传文件的是()。

A. PUT

B. GET

C. HEAD

D. POST

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

37. 4. 下列报头中，用于表明客户端希望接收HTML文本的是()。

A. Accept: */*

B. Accept:image/gif

C. Accept:text/html

D. Accept: text/xml

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

38. 5. 下列字符编码中，可以解决多种语言文本显示问题的是()。

A. utf-8

B. ISO-8859-1

C. gb2312

D. gbk

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

39. 6. 下列响应报头中，用于告诉客户端资源文件的类型和编码的是()。

A. Connection

B. Content-Encoding

C. Content-Type

D. Server

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

40. 7. 下列状态码中，表示服务器拒绝访问的是()。

A. 402

B. 403

C. 404

D. 405

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

41. 8. Fiddler工具窗口的Headers标签的功能是()。

A. 显示客户端发送到服务器的 HTTP 请求的 header

B. 显示POST请求的body部分为文本

C. 将整个请求显示为纯文本

D. 显示JSON格式文件

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

42. 9. 下列Fiddler工具的菜单中，可以查看GET请求的参数和POST请求body内容的是()。

A. Headers

B. TextView

C. WebForms

D. Raw

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

43. 10. 下列选项中，属于URL的组成元素的是()。

A. 协议头

B. IP地址

C. 服务器

D. 路径

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

44. 11. 下列选项中，哪些组成了客户端发送到服务器的请求消息?()

A. 请求行

B. 请求头

C. 空行

D. 请求数据

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

45. 12. 下列状态码中，用于表示服务器成功接收请求并完成处理的是()。

A. 200

B. 201

C. 100

D. 300

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

46. 13. 网络爬虫抓取数据的过程可以理解为模拟____操作的过程。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

47. 14. ____是在地址和冒号后面的数字，用于标识在一台计算机上运行的不同程序。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

48. 15. 路径是由0或多个____符号隔开的字符串，以指定资源在服务器中的位置。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

49. 16. HTTP是一套计算机通过网络进行____的规则。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

50. 17. 字符编码____表示标准的简体中文字符集。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

51. 18. 服务器返回____状态码，代表服务器无法找到被请求的页面。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

52. 19. 互联网上每个文件都有一个唯一的URL。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

53. 20. 一个IP地址只能对应一个域名。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

54. 21. 浏览器会根据HTML语法结构，将网页完整的显示出来。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

55. 22. POST请求的参数都显示在URL上。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

56. 23. GET请求的参数不在URL中，而在请求体中。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

57. 24. 通常页面会根据不同的User-Agent自动做出适配，甚至返回不同的响应内容。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

58. 25. 如果在HTTP请求消息中没有设置可接受的字符编码，则客户端无法显示任何字符。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

59. 26. 通常我们会看到有些网站出现乱码，往往就是服务器端没有返回正确的编码。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

60. 27. 如果服务器返回200状态码，则表示客户端发送请求成功。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

61. 28. 如果服务器返回的状态码为500，则表示客户端发送的请求出现错误。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

62. 29. 处于400~499范围的状态码表示客户端的请求出现。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

63. 1. 下列选项中，用作发送HTTP请求的模块是()。

A. urllib.request

B. urllib.error

C. urllib.parse

D. urllib.robotparser

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

64. 2. 下列参数中，用于传入urlopen()函数中设置超时时长的是()。

A. url

B. data

C. timeout

D. context

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

65. 3. 请阅读下列一段示例程序: import urllib.request response = urllib.request.urlopen('http://python.org') print(response.getcode()) 若程序运行成功，那么输出的结果可能为()。

A. 500

B. 400

C. 300

D. 200

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

66. 4. 下列函数中，用于对URL进行编码的是()。

A. encode

B. urlencode

C. unquote

D. decode

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

67. 5. 下列函数中，用于对URL进行解码的是()。

A. encode

B. urlencode

C. unquote

D. decode

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

68. 6. 下列选项中，用作给某个请求添加请求报头的方法是()。

A. add_header

B. insert_header

C. header

D. add

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

69. 7. 下列属性中，用于返回服务器产生HTTPError异常的错误码的是()。

A. encode

B. coding

C. code

D. encoding

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

70. 8. 下列几个类中，用于操作请求会话的是()。

A. Request

B. Session

C. Response

D. Error

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

71. 9. 下列函数中，用于构建一个HTTP请求的是()。

A. request()

B. head()

C. get()

D. post()

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

72. 10. 下列属性中，用于表示Response类对象返回的状态码的是()。

A. content

B. encoding

C. text

D. status_code

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

73. 11. 如果要设置响应内容的编码方式，可以使用()属性进行设置。

A. content

B. encoding

C. text

D. status_code

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

74. 12. 请阅读下列一段示例程序: import requests url = "https://www.baidu.com/" response = requests.get(url) response.encoding = 'ISO-8859-1' print(response.text) 上述程序运行后，会使用哪种编码方式返回文本?()

A. utf-8

B. gbk

C. ISO-8859-1

D. gbk2312

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

75. 13. 请阅读下列一段示例程序: response = urllib.request.urlopen('http://www.baidu.com') 关于上述程序，下列描述正确的是()。

A. urlopen()函数用于实现对百度首页的访问

B. 上述函数传入了一个表示URL地址的字符串

C. 上述函数只能传入一个url参数

D. 返回的response就是百度首页的源代码

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

76. 14. 一旦某个URL中包含了()时，需要对这个URL进行编码。

A. 数字

B. 字母

C. 中文

D. /

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

77. 15. 关于requests和urllib的描述中，正确的是()。

A. requests库是Python内置的HTTP请求库

B. urllib是基于Python开发的第三方请求库

C. requests在urllib的基础上进行了高度的封装

D. requests不仅继承了urllib的所有特性，而且还支持一些其它的特性

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

78. 16. urlopen()函数既可以传入一个表示URL的字符串，也可以是一个Request对象。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

79. 17. 如果使用urlopen()函数是没有传入data参数，那么此时发送的是GET请求。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

80. 18. 一旦调用urlopen()函数时传入了data参数，就需要将请求改为POST方式。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

81. 19. 通过urlopen函数发送请求后，服务器会直接返回网页的源代码。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

82. 20. 如果希望发送包含报头的请求，那么可以创建Request对象传入urlopen函数中。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

83. 21. POST传输数据时，会把所有的参数直接放在URL中。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

84. 22. 一旦URL中包含了中文或其它特殊字符，就需要对这个URL进行编码。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

85. 23. 如果不是从浏览器发出的请求，则一定不能获取到任何响应内容的。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

86. 24. 如果同一个IP过于频繁地访问某个网站，那么该网站可能会禁止来自该IP的访问。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

87. 25. 如果想设置代理，那么可以使用系统自带的urlopen函数。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

88. 26. URLError是HTTPError的子类。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

89. 27. 当关闭客户端的浏览器后，会话所包含的全部内容一定会马上释放掉。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

90. 1. 下列选项中，可以用来解析文本的技术有()。

A. 正则表达式

B. XPath

C. Beautiful Soup

D. JSONPath

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

91. 2. 下列选项中，主要负责解析JSON文档的技术是()。

A. 正则表达式

B. XPath

C. Beautiful Soup

D. JSONPath

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

92. 3. 下列模块或库中，能够支持正则表达式语法使用的是()。

A. lxml

B. re

C. json

D. beautifulsoup4

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

93. 4. 下列选项中，支持使用XPath语法的库是()。

A. lxml

B. re

C. json

D. beautifulsoup4

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

94. 5. 下列选项中，能够与JSONPath语法配合使用解析JSON文档的是()。

A. lxml

B. re

C. json

D. beautifulsoup4

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

95. 6. 阅读下面一段示例程序: import re words = "你好，Jane!我是你的fans,很高兴meet you" pattern = re.compile(r"[\u4e00-\u9fa5]+") result = pattern.findall(words) print(result) 运行上述程序，最终得到的结果为()。

A. ['你好']

B. ['你好', '我是你的']

C. ['你好', '我是你的', '很高兴']

D. '你好'

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

96. 7. 下列符号中，能够分隔XPath表达式中任意两个节点的是()。

A. #

B. /

C. %

D. *

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

97. 8. 下列表达式中，用于表示从根节点开始选取的是()。

A. body

B. /

C. //

D. @

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

98. 9. 下列符号中，可以选取路径表达式中的未知节点的是()。

A. @

B. *

C. ?

D. #

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

99. 10. 下列选项中，可以匹配任何属性节点的是()。

A. *

B. node()

C. @*

D. node

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

100. 11. 表达式()表示同时选取文档中的所有title和price元素。

A. //title

B. //price

C. //title & //price

D. //title | //price

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

101. 12. 下列一些类中，用来表示XML中节点的是()。

A. Node

B. ElementPath

C. Element

D. ElementTree

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

102. 13. 阅读下面的程序:

A. from lxml import etree root = etree.XML("GeorgeJerryTomJohnReminderDon't forget the meeting!") print(root.find("to").text) 运行上述程序，程序输出的结果为()。 A.George

B. Jerry

C. Tom

D. John

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

103. 14. 下列选项中，用于表示bs4中的标签的类是()。

A. Tag

B. NavigableString

C. BeautifulSoup

D. Comment

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

104. 15. 如果没有明确选择解析器，那么BeatutifulSoup对象一般选取解析器的顺序为()。

A. Python标准库，lxml，html5lib

B. Python标准库，html5lib，lxml

C. lxml，html5lib，Python标准库

D. lxml，Python标准库，html5lib

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

105. 16. 如果调用find_all方法时传入一个正则表达式，那么BeatutifulSoup对象会通过re模块的()函数进行匹配。

A. split()

B. findall()

C. search()

D. match()

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

106. 17. 下列选项中，可以作为JSON中的对象的是()。

A. "name": "Jane"

B. {18}

C. { "age":18}

D. ["Python", "Java"]

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

107. 18. 阅读下面的程序: import json demo_dict = {"city": "北京", "name": "小明"} print(json.dumps(demo_dict, ensure_ascii=False)) 运行程序，程序最终输出的结果为()。

A. {"city": "北京", "name": "小明"}

B. {"city": "\u5317\u4eac", "name": "\u5c0f\u660e"}

C. {}

D. 运行错误

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

108. 19. 下列符号中，用来表示JSONPath语法中的根节点的是()。

A. $

B. /

C. \

D. #

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

109. 20. 下列选项中，属于非结构化数据的是()。

A. 文本

B. 图像

C. 办公文档

D. JSON

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

110. 21. Python支持一些解析网页的技术，主要有()。

A. 正则表达式

B. XPath

C. Beautiful Soup

D. JSONPath

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

111. 22. 下列技术中，可以用来解析HTML和XML文档的是()。

A. 正则表达式

B. XPath

C. Beautiful Soup

D. JSONPath

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

112. 23. 截止到目前，bs4库支持使用的解析器有()。

A. Python标准库

B. lxml

C. html5lib

D. xmllib

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

113. 24. 在BeatutifulSoup对象调用find方法查找节点时，则该方法的name参数可以传入哪些类型的值?()

A. 字符串

B. 正则表达式

C. 字典

D. 列表

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

114. 25. 下列选项中，可以作为JSON中的值的是()。

A. 数字

B. 字符串

C. true 或 false

D. 数组

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

115. 26. 网页上显示的图像属于非结构化数据。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

116. 27. 网页上显示的文本属于结构化数据。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

117. 28. 通过Beautiful Soup技术不能解析XML文档。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

118. 29. 如果要在Python中解析JSON文档，则可以使用XPath技术实现。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

119. 30. 大多数情况下，可以使用[u4e00-u9fa5]进行匹配中文字符。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

120. 31. XPath使用路径表达式选取XML文档中的节点或者节点集。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

121. 32. 表达式“//”可以从匹配的当前节点来选取文档中的节点，不用再考虑它们的位置。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

122. 33. 如果路径表达式以/开头，那么该路径代表着到达某个节点的绝对路径。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

123. 34. XPath路径表达式使用?来选取未知的节点。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

124. 35. 路径表达式既可以从根节点开始，也可以从任意位置的节点开始。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

125. 36. 路径表达式是唯一的。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

126. 37. 如果要获取节点的名称，则可以访问tag属性进行获取。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

127. 38. 通过Element类的构造方法创建节点时，可以为该节点添加属性。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

128. 39. 创建BeatutifulSoup对象时，若没有明确指定解析器，则该对象会根据系统安装的库自动选择。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

129. 40. 创建BeatutifulSoup对象时，默认使用的解析器为Python标准库。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

130. 41. 若系统没有安装指定的解析器，则BeatutifulSoup对象默认会解析报错。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

131. 42. 如果系统没有安装lxml解析器，那么程序将无法得到解析后的对象。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

132. 43. 当BeatutifulSoup对象调用find_all方法时，若传入一个字符串，则该对象会查找与字符串完全匹配的内容。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

133. 44. 一旦达到了find_all方法中设置的limit数值，就会停止查找。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

134. 45. CSS选择器指明了{}中的样式作用于网页中的哪些元素。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

135. 46. JSON是一种轻量级的数据交换格式。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

136. 47. JSON比XML的语法更简单，层次结构更加清晰，易于阅读。

答案：请关注【九八五题库】微信公众号，发送题目获取正确答案。

推荐阅读

版权所有：学通智库｜学起Plus/超星/安徽继教/云上河开全平台题库中心
文章标题：中国大学MOOCPython网络爬虫作业答案
文章链接：https://www.211tiku.cn/cxey/23628.html
本站文章来自网上，侵权联系站长，立即删除。

文章作者：学通智库
文章标题：中国大学MOOCPython网络爬虫作业答案
文章链接：https://www.211tiku.cn/cxey/23628.html
本站所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议，转载请注明来自学通智库！

📚 推荐阅读

文章说明

本文标签：

©版权声明

本站提供的文章均来自网上，如有侵权请邮件与我们联系处理。敬请谅解！

相关文章

评论留言