南开大学23年秋学期《网络爬虫与信息提取》在线作业二
奥鹏南开大学23年秋季新学期作业参考
23秋学期(仅限-高起专1909、专升本1909)《网络爬虫与信息提取》在线作业-00002
当需要把Python里面的数据发送给网页时,应先将其转换成()
A:Json字符串
B:GET
C:POST
D:Request
正确答案问询微信:424329
Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
Python中Object={'obj_1':'1','obj_2':'2'},则Objcet是()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
当需要把Python里面的数据发送给网页时,需要先转换成()字符串
A:Python
B:Json
C:正则表达式
D:Ajax
正确答案问询微信:424329
Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
HTTP常用状态码表明服务器不允许访问那个资源的是()
A:500
B:503
C:403
D:405
正确答案问询微信:424329
Python中退出循环应用关键字()
A:break
B:continue
C:exit
D:return
正确答案问询微信:424329
使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}
A:headers
B:文本内容
C:目标网站
D:user-agent
正确答案问询微信:424329
requests中post请求方法的使用为requests.post('网址', data=data)中的data为()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案问询微信:424329
通常使用()工具来模拟浏览器进行爬虫请求
A:Selenium
B:Chrome
C:ChromeDriver
D:WebDriver
正确答案问询微信:424329
当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A:process_spider_output()
B:process_spider_exception()
C:process_spider_input()
D:process_start_ requests()
正确答案问询微信:424329
下面代码一共执行循环多少次():
i=0
while i<10:
i+=1
A:9
B:10
C:11#0
正确答案问询微信:424329
使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令()
A:scroll
B:scroll_up
C:scroll_forword
D:scroll_back
正确答案问询微信:424329
某些网站在发起Ajax请求时会携带()字符串用于身份验证
A:Token
B:Cookie
C:ReqTime
D:sum
正确答案问询微信:424329
Python中以下哪个容器里的元素不能重复()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
Python操作CSV文件可通过()容器的方式操作单元格
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A:curl
B:tar -zxvf
C:mkdir
D:cp
正确答案问询微信:424329
Python中若定义object="12345",则print(object[::-1])输出()
A:1
B:5
C:54321
D:程序报错
正确答案问询微信:424329
在奥鹏南开大学23年秋季新学期作业参考Mac OS下安装MongoDB使用命令() install mongodb
A:brew
B:apt-get
C:sudo
D:apt
正确答案问询微信:424329
网络爬虫的用途有()
A:收集数据
B:尽职调查
C:提高流量
D:攻击服务器
正确答案问询微信:424329
以下HTTP状态码表示服务器没有正常返回结果的是
A:200
B:301
C:404
D:500
正确答案问询微信:424329
requests中post请求方法的第二个参数可以为()
A:字典
B:列表
C:json数据
D:字符串
正确答案问询微信:424329
HTTP常用状态码表明表明服务器本身发生错误的有()
A:403
B:404
C:500
D:503
正确答案问询微信:424329
MongoDB中获取名字为db的库的语句为()
A:client.db
B:client('db')
C:client['db']
D:client{'db'}
正确答案问询微信:424329
使用BeautifulSoup对象后可以使用()来查找内容
A:find_all
B:find
C:search
D:search_all
正确答案问询微信:424329
Python中的容器有()
A:列表
B:元组
C:字典
D:集合
正确答案问询微信:424329
PyMongo删除操作有()
A:delete
B:delete_all
C:delete_one
D:delete_many
正确答案问询微信:424329
PyMongo更新操作有()
A:update
B:update_all
C:update_one
D:update_many
正确答案问询微信:424329
Redis中的值可以支持()
A:列表
B:哈希
C:集合
D:有序集合
正确答案问询微信:424329
使用UI Automatorr操作实体键的命令为device.press.实体按键名称()
A:对
B:错
正确答案问询微信:424329
当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
A:对
B:错
正确答案问询微信:424329
XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
A:对
B:错
正确答案问询微信:424329
Python中写CSV文件的writerow方法参数为包含字典的列表类型
A:对
B:错
正确答案问询微信:424329
Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
A:对
B:错
正确答案问询微信:424329
process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A:对
B:错
正确答案问询微信:424329
Redis中写数据命令lpush中l代表list
A:对
B:错
正确答案问询微信:424329
为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
A:对
B:错
正确答案问询微信:424329
HTTP状态码503表示服务器内部故障。
A:对
B:错
正确答案问询微信:424329
Robo 3T与RoboMongo是完全不一样的软件
A:对
B:错
正确答案问询微信:424329
使用AJAX技术,可以在不刷新网页的情况下更新网页数据
A:对
B:错
正确答案问询微信:424329
Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。
A:对
B:错
正确答案问询微信:424329
UI Automator Viewer与Python uiautomator可以同时使用
A:对
B:错
正确答案问询微信:424329
在默认情况下,Scrapyd可以从外网访问
A:对
B:错
正确答案问询微信:424329
需要实名认证的打码网站更加安全可靠。
A:对
B:错
正确答案问询微信:424329
requests中post请求方法的使用为requests.post('网址', data=data)
A:对
B:错
正确答案问询微信:424329
HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
A:对
B:错
正确答案问询微信:424329
自己能查看的数据,允许擅自拿给第三方查看
A:对
B:错
正确答案问询微信:424329
chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看.
A:对
B:错
正确答案问询微信:424329
在请求头中设置User-Agent即可正常请求网站
A:对
B:错
正确答案问询微信:424329