南开大学22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(一)》在线作业二
奥鹏南开在线作业满分答案参考
22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(一)》在线作业-00002
1.UMP系通过()来实现实现管理每台物理机上的MySQL实例
选项A:Controller服务器
选项B:Procy服务器
选项C:愚公系统
选项D:Agent服务器
满分答案问询微信:424329
2.Storm框架不适用于哪个领域()。
选项A:实时分析
选项B:实时交通
选项C:远程RPC
选项D:历史记录查询
满分答案问询微信:424329
3.批处理系统关注(),流处理系统关注()。
选项A:吞吐率,延时
选项B:延时,吞吐率
选项C:延时,速度
选项D:速度,吞吐率
满分答案问询微信:424329
4.HBase的目标是处理非常庞大的表,可以通过()方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表
选项A:垂直扩展
选项B:水平扩展
选项C:拓扑扩展
选项D:叠加
满分答案问询微信:424329
5.名称节点和数据节点之间则使用()协议进行交互
选项A:名称节点
选项B:第二名称节点
选项C:数据节点
选项D:TCP
满分答案问询微信:424329
6.应用于存储、索引并管理面向文档的数据或者类似的半结构化数据,比如,用于后台具有大量读写操作的网站的数据库是哪种()
选项A:列族数据库
选项B:键值数据库
选项C:图数据库
选项D:文档数据库
满分答案问询微信:424329
7.Google Fusion Tables是哪种可视化工具()
选项A:信息图表
选项B:地图工具
选项C:时间线工具
选项D:分析工具
满分答案问询微信:424329
8.HDFS中ClientProtocol的()方法通知名称节点关闭文件
选项A:close
选项B:finish
选项C:exit
选项D:complete
满分答案问询微信:424329
9.关于分布式并行编程,以下说法错误的是()。
选项A:“摩尔定律”,CPU性能大约每隔12个月翻一番
选项B:“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能
选项C:分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力
选项D:谷歌公司最先提出了分布式并行编程模型MapReduce
满分答案问询微信:424329
10.SQL Azure体系结构层中哪层是硬件和操作系统
选项A:Client Layer
选项B:Services Layer
选项C:Platform Layer
选项D:Infrastructure Layer
满分答案问询微信:424329
11.静态数据采取()计算模式
选项A:批量
选项B:实时
选项C:大数据
选项D:动态
满分答案问询微信:424329
12.以下哪种属于图数据库()
选项A:MongoDB
选项B:Redis
选项C:Hbase
选项D:Neo4j
满分答案问询微信:424329
13.Hadoop中执行MapReduce任务不含哪种方式()。
选项A:Mahout
选项B:Hadoop jar
选项C:Shell脚本
选项D:Python
满分答案问询微信:424329
14.Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings()。
选项A:ShuffleGrouping
选项B:AllGrouping
选项C:GlobalGrouping
选项D:FiedlsGrouping
满分答案问询微信:424329
15.行式数据库采用()存储模型
选项A:NSM
选项B:DSM
选项C:Hbase
选项D:MySQL
满分答案问询微信:424329
16.Pregel计算模型中每个顶点ID的类型是()
选项A:String
选项B:Int
选项C:Double
选项D:结构体
满分答案问询微信:424329
17.HDFS中FSDataInputStream封装了()
选项A:HDFSInputStream
选项B:DFSInputStream
选项C:DataInputStream
选项D:FSInputStream
满分答案问询微信:424329
18.HDFS中NameNode将从SecondaryNameNode接收到的新的FsImage替换旧的FsImage文件,同时将edit.new替换##文件
选项A:edit
选项B:edit.old
选项C:FsImage
选项D:EditLog
满分答案问询微信:424329
19.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。
选项A:Time Tunnel
选项B:Spark
选项C:Super Mario
选项D:Storm
满分答案问询微信:424329
20.Hbase中()文件记录了-ROOT-表的位置
选项A:Master
选项B:Region
选项C:Zookeeper
选项D:Chubby
满分答案问询微信:424329
21.以下针对Hive的说法不正确的是()。
选项A:Hive是一个基于Hadoop的数据仓库工具
选项B:Hive是关系数据库
选项C:Hive QL是一种查询语言
选项D:Hive可以提供查询分析存储等功能
满分答案问询微信:424329
22.R是哪种可视化工具()
选项A:信息图表
选项B:地图工具
选项C:时间线工具
选项D:分析工具
满分答案问询微信:424329
23.优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活
提供嵌入式文档功能的数据库是()
选项A:列族数据库
选项B:键值数据库
选项C:图数据库
选项D:文档数据库
满分答案问询微信:424329
24.信息技术发展史上的第三次信息化浪潮解决的问题是什么()。
选项A:信息处理
选项B:信息增长
选项C:信息爆炸
选项D:信息传输
满分答案问询微信:424329
25.Hbase中-ROOT-表有()个Region
选项A:1
选项B:10
选项C:10-1000
选项D:0
满分答案问询微信:424329
26.UMP系统中面对分库分表用户如何进行资源调度()
选项A:可以共享同一个MySQL实例
选项B:每个用户独占一个MySQL实例
选项C:会占用多个独立的MySQL实例
选项D:随机分配MySQL实例
满分答案问询微信:424329
27.HDFS读数据过程中()具体实现了FileSystem
选项A:DistributedFileSystem
选项B:GFSSystem
选项C:FileSystem
选项D:HDFSSystem
满分答案问询微信:424329
28.Hbase在寻址过程客户端只需询问Zookeeper服务器,不需要链接()
选项A:Master
选项B:Region
选项C:Zookeeper
选项D:Chubby
满分答案问询微信:424329
29.以下亚马逊的产品中哪个是分布式内存缓存
选项A:ElastiCache
选项B:RDS
选项C:DynamoDB
选项D:Redshift
满分答案问询微信:424329
30.()可解决HDFS中名称节点运行期间EditLog不断变大的问题
选项A:NameNode
选项B:SecondaryNameNode
选项C:DataNode
选项D:Block
满分答案问询微信:424329
31.以下哪种数据库属于NoSQL数据库()
选项A:MySQL
选项B:DynamoDB
选项C:InfiniteGraph
选项D:MongoDB
满分答案问询微信:424329
32.流计算系统的需求有()。
选项A:实时性
选项B:廉价
选项C:高性能
选项D:高带宽
选项E:分布式
满分答案问询微信:424329
33.以下说法正确的是()。
选项A:Kafka是一种高吞吐量的分布式发布订阅消息系统
选项B:Spark是并行框架
选项C:Pig是一个基于Hadoop的大规模数据计算平台
选项D:Storm是一种流计算框架
满分答案问询微信:424329
34.关系数据库与NoSQL数据库相比适用于哪些领域()
选项A:电信
选项B:银行
选项C:互联网企业大数据处理
选项D:传统企业的数据分析
满分答案问询微信:424329
35.以下亚马逊的产品中哪个属于存储部分
选项A:EC2
选项B:EBS
选项C:S3
选项D:ELB
满分答案问询微信:424329
36.关于Map端Shuffle过程中的合并与归并,说法正确的是()。
选项A:两个键值对和,如果合并,会得到
选项B:合并不会改变最终结果
选项C:两个键值对和,如果归并,会得到
选项D:两个键值对和,如果归并,会得到>
满分答案问询微信:424329
37.HDFS的命名空间包含()
选项A:节点
选项B:目录
选项C:文件
选项D:块
满分答案问询微信:424329
38.以下图计算软件哪种属于以图顶点为中心的、基于消息传递奥鹏南开在线作业满分答案参考批处理的并行引擎
选项A:Giraph
选项B:Pregel
选项C:Hama
选项D:DEX
满分答案问询微信:424329
39.以下哪种数据库属于NoSQL数据库()
选项A:MongoDB
选项B:Oracle
选项C:Neo4j
选项D:Redis
选项E:Hbase
满分答案问询微信:424329
40.Hadoop集群的整体性能取决于哪些性能间的平衡
选项A:CPU
选项B:GPU
选项C:内存
选项D:存储
选项E:网络
满分答案问询微信:424329
41.数据实时计算阶段对采集的数据进行实时的分析和计算。流处理系统接收数据采集系统不断发来的实时数据,实时地进行分析计算,不需要反馈实时结果。
选项A:对
选项B:错
满分答案问询微信:424329
42.传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中,之后由用户通过查询操作和数据管理系统进行交互
选项A:对
选项B:错
满分答案问询微信:424329
43.图算法如果用MapReduce实现,需要一系列的MapReduce的调用。从一个阶段到下一个阶段,它需要传递整个图的状态,会产生大量不必要的序列化和反序列化开销。而Pregel使用超步简化了这个过程
选项A:对
选项B:错
满分答案问询微信:424329
44.Ambari通过Web进行Hadoop集群的管理配置。
选项A:对
选项B:错
满分答案问询微信:424329
45.HBase只有一个索引——行键,通过巧妙的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来
选项A:对
选项B:错
满分答案问询微信:424329
46.Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是HDFS中的文件。
选项A:对
选项B:错
满分答案问询微信:424329
47.HDFS 在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。
选项A:对
选项B:错
满分答案问询微信:424329
48.数据产生方式的用户原创内容阶段的数据产生方式是主动的。
选项A:对
选项B:错
满分答案问询微信:424329
49.大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。
选项A:对
选项B:错
满分答案问询微信:424329
50.Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储
选项A:对
选项B:错
满分答案问询微信:424329