南开大学22秋学期《网络爬虫与信息提取》在线作业二

奥鹏教育南开大学平时作业

南开大学22秋学期《网络爬虫与信息提取》在线作业二插图

22秋学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息奥鹏教育南开大学平时作业提取》在线作业-00002

Redis若要进入交互环境,需要打开终端输入()
A:redis-cli
B:redis
C:redis-cmd
D:redis-start
正确答案获取微信:424329

可以通过()绕过网站登录。
A:session
B:cookies
C:moonpies
D:localstorage
正确答案获取微信:424329

Python中若定义object=(1, 2, 3, 4, 5),则print(object[1:3])输出()
A:12
B:123
C:23
D:234
正确答案获取微信:424329

当爬虫运行到yield scrapy.Request()或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A:process_spider_output()
B:process_spider_exception()
C:process_spider_input()
D:process_start_ requests()
正确答案获取微信:424329

下面关于Charles使用说法错误的是()
A:在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰。
B:通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息。
C:如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles。
D:Charles无法支持计算机上除了浏览器之外的其他软件。
正确答案获取微信:424329

在Linux中哪个命令是添加权限的()
A:chmod
B:sudo
C:cp
D:mkdir
正确答案获取微信:424329

Python中列表可以用()方法在末尾添加元素
A:add
B:append
C:plus
D:+
正确答案获取微信:424329

Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A:列表
B:元组
C:字典
D:集合
正确答案获取微信:424329

Python中退出循环应用关键字()
A:break
B:continue
C:exit
D:return
正确答案获取微信:424329

以下哪个命令是创建文件夹命令()
A:curl
B:tar -zxvf
C:mkdir
D:cp
正确答案获取微信:424329

使用Xpath获取文本使用()
A:text
B:text()
C:content
D:content()
正确答案获取微信:424329

Python写CSV文件需要哪个方法()
A:CSVWriter
B:CsvWriter
C:DictWriter
D:FileWriter
正确答案获取微信:424329

使用UI Automator打开微信的操作是获取相应图标后使用命令()
A:touch
B:click
C:push
D:hover
正确答案获取微信:424329

Python中Object={1, 2, 3, 4, 5},则Objcet是()
A:列表
B:元组
C:字典
D:集合
正确答案获取微信:424329

()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
A:Scrapyd
B:ScrapyDeploy
C:Deploy
D:Scrapy_Deploy
正确答案获取微信:424329

在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A:spiders文件夹
B:item.py
C:pipeline.py
D:settings.py
正确答案获取微信:424329

启动MongoDB使用命令mongod –() usr/local/etc/mongod.conf
A:config
B:install
C:start
D:begin
正确答案获取微信:424329

HTTP常用状态码表明服务器上没有请求的资源的是()
A:500
B:503
C:403
D:404
正确答案获取微信:424329

以下表示请求资源重定向的HTTP状态码为
A:200
B:301
C:404
D:500
正确答案获取微信:424329

如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令:()
A:adb device
B:adb devices
C:adb devices -l
D:adb devices -list
正确答案获取微信:424329

一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A:有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B:在发现某个请求已经被设置过代理后,什么也不做,直接返回
C:在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D:周期性验证数据库中的无效代理,及时将其删除
正确答案获取微信:424329

Python中()容器有推导式
A:列表
B:元组
C:字典
D:集合
正确答案获取微信:424329

在配置ios使用Charles的操作中,正确的有()
A:对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B:选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C:输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D:安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
正确答案获取微信:424329

以下哪种方法是MongoDB的查找方法()
A:find
B:find_one
C:finds
D:find_all
正确答案获取微信:424329

如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A:服务器日志
B:数据库日志记录
C:程序日志记录
D:服务器监控
正确答案获取微信:424329

使用Selennium获取网页中元素的方法有
A:find_element_by_name
B:find_element_by_id
C:find_elements_by_name
D:find_elements_by_id
正确答案获取微信:424329

常用的会话跟踪技术是
A:session
B:cookies
C:moonpies
D:localstorage
正确答案获取微信:424329

Redis中的值可以支持()
A:列表
B:哈希
C:集合
D:有序集合
正确答案获取微信:424329

PyMongo删除操作有()
A:delete
B:delete_all
C:delete_one
D:delete_many
正确答案获取微信:424329

Python中()与元组由类似的数据读取方式
A:字符串
B:列表
C:字典
D:集合
正确答案获取微信:424329

虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
A:对
B:错
正确答案获取微信:424329

为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
A:对
B:错
正确答案获取微信:424329

process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A:对
B:错
正确答案获取微信:424329

中间人攻击也是抓包的一种。
A:对
B:错
正确答案获取微信:424329

在使用多线程处理问题时,线程池设置越大越好
A:对
B:错
正确答案获取微信:424329

Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。
A:对
B:错
正确答案获取微信:424329

在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
A:对
B:错
正确答案获取微信:424329

爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
A:对
B:错
正确答案获取微信:424329

爬虫中间件的激活需要另外写一个文件来进行
A:对
B:错
正确答案获取微信:424329

charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。
A:对
B:错
正确答案获取微信:424329

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
A:对
B:错
正确答案获取微信:424329

Robo 3T与RoboMongo是完全不一样的软件
A:对
B:错
正确答案获取微信:424329

一般来说在页面都通过GET将用户登录信息传递到服务器端。
A:对
B:错
正确答案获取微信:424329

device.sleep()方法是使用UI Automatorr关闭屏幕的命令
A:对
B:错
正确答案获取微信:424329

上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。
A:对
B:错
正确答案获取微信:424329

如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A:对
B:错
正确答案获取微信:424329

为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。
A:对
B:错
正确答案获取微信:424329

代理中间件的可用代理列表一定要写在settings.py里面
A:对
B:错
正确答案获取微信:424329

引用中间件时后面的数字代表的是中间件的执行顺序,例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543
A:对
B:错
正确答案获取微信:424329

数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击
A:对
B:错
正确答案获取微信:424329

提供优质的教育资源

公众号: 超前自学网