南开大学22秋学期《网络爬虫与信息提取》在线作业三

奥鹏教育南开大学平时作业

南开大学22秋学期《网络爬虫与信息提取》在线作业三插图

22秋学期(高起本1709-1803、全层次1809-2103)《网络爬虫与信息提取》在线作业-00003

Scrapy自带的待爬队列是()
A:deque
B:queue
C:list
D:lqueue
正确答案获取微信:424329

Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A:列表
B:元组
C:字典
D:集合
正确答案获取微信:424329

Redis是一个开源的使用()语言编写
A:ANSI C
B:C++
C:JAVA
D:Python
正确答案获取微信:424329

Python写CSV文件需要哪个方法()
A:CSVWriter
B:CsvWriter
C:DictWriter
D:FileWriter
正确答案获取微信:424329

使用Xpath构造属性值包含相同字符串的路径采用()方法
A:contain
B:contains
C:include
D:includes
正确答案获取微信:424329

以下关于Charles的说法正确的是( )
A:Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包
B:Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。
C:Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。
D:在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。
正确答案获取微信:424329

Redis中写数据到列表中,使用关键字()
A:push
B:append
C:lpush
D:lappend
正确答案获取微信:424329

打开终端,输入(),屏幕上会出现Python的路径
A:python path
B:path python
C:which python
D:python which
正确答案获取微信:424329

Python中跳过本次循环应用关键字()
A:break
B:continue
C:exit
D:return
正确答案获取微信:424329

Chrome的开发者工具中哪个选项可以查找到cookies
A:Elements
B:Sources
C:Network
D:Peformance
正确答案获取微信:424329

下列哪项不是HTTP的请求类型()
A:GET
B:POST
C:PUT
D:SET
正确答案获取微信:424329

通常使用()工具来模拟浏览器进行爬虫请求
A:Selenium
B:Chrome
C:ChromeDriver
D:WebDriver
正确答案获取微信:424329

chrome默认打开开发者工具的快捷是
A:F5
B:F11
C:F12
D:F2
正确答案获取微信:424329

Python中专门用来处理图像的第三方库是
A:lxml
B:Pillow
C:beautifulsoup
D:pytesseract
正确答案获取微信:424329

要想让Scrapy结合Redis,应该对Scrapy爬虫请求的调度算法进行修改,以下哪种修改不能完成这一任务?()
A:队列
B:栈
C:上锁
D:优先级队列
正确答案获取微信:424329

以下表示请求资源重定向的HTTP状态码为
A:200
B:301
C:404
D:500
正确答案获取微信:424329

请问按哪个键可以打开Chrome自带的开发者工具()
A:F10
B:F1
C:F11
D:F12
正确答案获取微信:424329

如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A:列表
B:元组
C:字典
D:集合
正确答案获取微信:424329

执行下面代码,结果为():
name_list = []
if name_list and name_list[100] == '张三':
print('OK')
A:程序报错
B:OK
C:NULL
D:无输出
正确答案获取微信:424329

使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A:exist
B:exists
C:isnull
D:contains
正确答案获取微信:424329

为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A:仔细检查代码
B:开发爬虫中间件
C:开发下载器中间件
D:等待
正确答案获取微信:424329

使用BeautifulSoup对象后可以使用()来查找内容
A:find_all
B:find
C:search
D:search_all
正确答案获取微信:424329

MongoDB中获取名字为set1的集合的语句为()
A:database.set1
B:database('set1')
C:database['set1']
D:database{'set1'}
正确答案获取微信:424329

以下哪些可以独立成为Python编译器()
A:Pycharm
B:IDLE
C:Eclipse
D:Visual Studio 2010
正确答案获取微信:424329

使用Selennium获取网页中元素的方法有
A:find_element_by_name奥鹏教育南开大学平时作业
B:find_element_by_id
C:find_elements_by_name
D:find_elements_by_id
正确答案获取微信:424329

下列关于在IOS上配置charles的说法正确的是()
A:不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B:手机和电脑需要在同一个局域网下。
C:HTTP代理可以使用“自动”选项。
D:安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
正确答案获取微信:424329

网络爬虫的用途有()
A:收集数据
B:尽职调查
C:提高流量
D:攻击服务器
正确答案获取微信:424329

PyMongo删除操作有()
A:delete
B:delete_all
C:delete_one
D:delete_many
正确答案获取微信:424329

PyMongo更新操作有()
A:update
B:update_all
C:update_one
D:update_many
正确答案获取微信:424329

BS4可以用来从()中提取数据
A:HTML
B:XML
C:数据库
D:JSON
正确答案获取微信:424329

在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
A:对
B:错
正确答案获取微信:424329

使用UI Automatorr操作实体键的命令为device.press.实体按键名称()
A:对
B:错
正确答案获取微信:424329

代理中间件的可用代理列表一定要写在settings.py里面
A:对
B:错
正确答案获取微信:424329

引用中间件时后面的数字代表的是中间件的执行顺序,例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543
A:对
B:错
正确答案获取微信:424329

如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程
A:对
B:错
正确答案获取微信:424329

对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888.
A:对
B:错
正确答案获取微信:424329

Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
A:对
B:错
正确答案获取微信:424329

使用异步加载技术的网站,被加载的内容可以在源代码中找到
A:对
B:错
正确答案获取微信:424329

”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫
A:对
B:错
正确答案获取微信:424329

Redis中使用lrange读取数据后数据也会删除
A:对
B:错
正确答案获取微信:424329

在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
A:对
B:错
正确答案获取微信:424329

需要登录的网站一般通过GET请求就可以实现登录。
A:对
B:错
正确答案获取微信:424329

爬虫中间件的激活需要另外写一个文件来进行
A:对
B:错
正确答案获取微信:424329

requests中post请求方法的使用为requests.post('网址', data=data)
A:对
B:错
正确答案获取微信:424329

数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击
A:对
B:错
正确答案获取微信:424329

数据在MongoDB中是按照“库(Database)”—“集合(Collections)”—“文档(Document)”的层级关系来存储的。
A:对
B:错
正确答案获取微信:424329

如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A:对
B:错
正确答案获取微信:424329

HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
A:对
B:错
正确答案获取微信:424329

MongoDB是一个关系数据库产品
A:对
B:错
正确答案获取微信:424329

HTTP状态码302与307完全同义。
A:对
B:错
正确答案获取微信:424329

提供优质的教育资源

公众号: 超前自学网