南开大学23年春学期《网络爬虫与信息提取》在线作业一

奥鹏南开大学新学期作业参考

23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《网络爬虫与信息提取》在线作业-00001

当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
A:startup
B:starwar
C:drawl
D:crawl
正确答案问询微信:424329

Redis中读取数据语句lrange chapter 0 3,那么表示读列表中()个值
A:2
B:3
C:4
D:5
正确答案问询微信:424329

PyMongo中逻辑查询表示小于等于的符号是()
A:$gt
B:$lt
C:$gte$$lte
正确答案问询微信:424329

Python中把列表转换为集合需要使用##函数
A:set
B:list
C:convert
D:change
正确答案问询微信:424329

HTTP常用状态码表明服务器内部资源出故障了的是()
A:500
B:503
C:403
D:404
正确答案问询微信:424329

启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf
A:config
B:install
C:start
D:begin
正确答案问询微信:424329

要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库()
A:uiautomator
B:automator
C:ui_automator
D:pyautomator
正确答案问询微信:424329

HTTP常用状态码表明服务器不允许访问那个资源的是()
A:500
B:503
C:403
D:405
正确答案问询微信:424329

网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A:robot.txt
B:robot.html
C:robots.txt
D:robots.html
正确答案问询微信:424329

服务器端记录信息确定用户身份的数据是
A:session
B:cookies
C:moonpies
D:localstorage
正确答案问询微信:424329

使用UI Automatorr让屏幕向左滚动的操作是得到相应控件后使用命令()
A:scroll.left
B:scroll.horiz.left
C:scroll.forward
D:scroll.horiz.forward
正确答案问询微信:424329

浏览器用来记录用户状态信息的数据叫
A:session
B:cookies
C:moonpies
D:selenium
正确答案问询微信:424329

PyMongo中逻辑查询表示大于的符号是()
A:$gt
B:$lt
C:$gte$$lte
正确答案问询微信:424329

Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A:Python
B:Json
C:正则表达式
D:Ajax
正确答案问询微信:424329

Python中专门用来处理图像的第三方库是
A:lxml
B:Pillow
C:beautifulsoup
D:pytesseract
正确答案问询微信:424329

以下HTTP状态码与302等价的是
A:301
B:303
C:304
D:307
正确答案问询微信:424329

下面代码一共执行循环多少次():
for i in range(10):
print(i ** i)
A:9
B:10
C:11#0
正确答案问询微信:424329

MongoDB中数据存储的形式类似于()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329

下列说法错误的是()
A:mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B:命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C:使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D:如果返回的是JSON类型的字符串,python无法进行解析。
正确答案问询微信:424329

下列关于mitmproxy的使用说法正确的是()
A:mitmproxy的端口为8080端口。
B:设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
C:用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
D:如果要访问HTTPS网站,还需要安装mitmproxy的证书
正确答案问询微信:424329

下载器中间件的作用有哪些?
A:更换代理IP
B:更换Cookies
C:更换User-Agent
D:自动重试
正确答案问询微信:424329

以下哪种方法是MongoDB的查找方法()
A:find
B:find_one
C:finds
D:find_all
正确答案问询微信:424329

Python中一个函数可以有()个return语句
A:0
B:1
C:多个
D:2
正确答案问询微信:424329

MongoDB中获取名字为db的库的语句为()
A:client.db
B:client('db')
C:client['db']
D:client{'db'}
正确答案问询微信:424329

Python中哪种容器生成后可以修改内容
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329

Python中一个函数没有返回值则可以写()
A:没有return
B:return
C:return None
D:return NULL
正确答案问询微信:424329

Python中()与元组由类似的数据读取方式
A:字符串
B:列表
C:字典
D:集合
正确答案问询微信:424329

要使用tesseract来进行图像识别,需要安装两个第三方库
A:requests
B:beautifulsoup
C:Pillow
D:pytesseract
正确答案问询微信:424329

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
A:对
B:错
正确答案问询微信:424329

MongoDB URI的格式为:
mongodb://服务器IP或域名:端口@用户名:密码
A:对
B:错
正确答案问询微信:424329

如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A:对
B:错
正确答案问询微信:424329

当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
A:对
B:错
正确答案问询微信:424329

Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
A:对
B:错
正确答案问询微信:424329

mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
A:对
B:错
正确答案问询微信:424329

如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。
A:对
B:错
正确答案问询微信:424329

cookies在http请求中是明文传输的。
A:对
B:错
正确答案问询微信:424329

MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为:
handler.奥鹏南开大学新学期作业参考 代做2元一门find().sort('列名', 1或-1或0)
A:对
B:错
正确答案问询微信:424329

在使用多线程处理问题时,线程池设置越大越好
A:对
B:错
正确答案问询微信:424329

Python中使用下面代码打开文件也需要对文件进行close关闭操作
with open('文件路径', '文件操作方式', encoding='utf-8') as f
A:对
B:错
正确答案问询微信:424329

robots.txt是一种规范,在法律范畴内
A:对
B:错
正确答案问询微信:424329

上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。
A:对
B:错
正确答案问询微信:424329

requests中get请求方法的使用为requests.get('网址', data=data)
A:对
B:错
正确答案问询微信:424329

Charles和Chrome开发者工具相比,只是多了一个搜索功能。
A:对
B:错
正确答案问询微信:424329

需要实名认证的打码网站更加安全可靠。
A:对
B:错
正确答案问询微信:424329

Redis的列表是一个单向队列
A:对
B:错
正确答案问询微信:424329

爬虫中间件的激活需要另外写一个文件来进行
A:对
B:错
正确答案问询微信:424329

如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。
A:对
B:错
正确答案问询微信:424329

使用Charles直接抓取HTTPS的数据包,就会出现大量的Method为CONNECT的请求,但是这些请求又全部都会失败,是没有安装SSL证书导致的
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网