南开大学23年春《大数据开发技术（二）》在线作业三

奥鹏南开大学新学期作业参考

23春学期（仅限-高起专1903、专升本1903）《大数据开发技术（二）》在线作业-00003

Spark中运行交互式SQL查询的大规模并行查询引擎是（）
A:Spark Core
B:Spark SQL
C:BlinkDB
D:Mllib
正确答案问询微信：424329

Spark GraphX中类Graph的groupEdges方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性
正确答案问询微信：424329

GraphX中（）方法可以查询顶点信息
A:numVertices
B:numEdges
C:vertices
D:edges
正确答案问询微信：424329

以下哪个方法可以从外部存储中创建RDD（）
A:parallelize
B:makeRDD
C:textFile
D:loadFile
正确答案问询微信：424329

一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍
A:2
B:10
C:100
D:1000
正确答案问询微信：424329

Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStream
A:union
B:reduce
C:join
D:cogroup
正确答案问询微信：424329

Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是（）
A:filter
B:flatten
C:grouby
D:flatmap
正确答案问询微信：424329

Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的Dstream
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
正确答案问询微信：424329

请问RDD的（）操作把RDD 所有元素转换成数组并返回到Driver 端
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信：424329

GraphX中VertexRDD[VD]继承自（）
A:EdgeRDD
B:RDD[Edge]
C:VertexRDD[VD]
D:RDD[(VertexId，VD)]
正确答案问询微信：424329

GraphX中（）方法可以缓存整个图，并指定存储级别
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

GraphX中graph.triplets可以得到（）
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
正确答案问询微信：424329

MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练分类树
A:trainClassifier
B:trainRegressor
C:LogisticRegressionModel
D:LabeledPoint
正确答案问询微信：424329

PairRDD中（）函数可以对具有相同键的值进行分组
A:mapValues
B:groupBy
C:groupByKey
D:reduceByKey
正确答案问询微信：424329

请问RDD的（）操作是将两个RDD组合成Key/Value形式的RDD
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信：424329

spark-submit配置项中（）表示executor使用的总核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

spark-submit配置项中（）表示每个executor使用的内核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

Scala中（）方法返回Map所有的value
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

var a=10;
while(a20){
a+=1;
}
共循环了（）次
A:9
B:10
C:11
D:12
正确答案问询微信：424329

图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图
正确答案问询微信：424329

Scala中（）方法返回一个列表，包含除了第一个元素之外的其他元素
A:head
B:init
C:tail
D:last
正确答案问询微信：424329

Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

PairRDD可以通过（）获得仅包含值的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

以下哪个不是Scala的数据类型（）
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信：424329

Scala中构造列表的两个基本单位是（）
A:Nil
B:Nill
C:::
D:List
正确答案问询微信：424329

Scala支持（）
A:匿名函数
B:高阶函数
C:函数嵌套
D:柯里化
正确答案问询微信：424329

PairRDD中（）函数可以进行分组
A:mapValues
B:groupBy
C:groupByKey
D:reduceByKey
正确答案问询微信：424329

RDD是一个（）的数据结构
A:可读写
B:只读的
C:容错的
D:可进行并行操作的
正确答案问询微信：424329

Spark DataFrame中（）方法可以获取所有数据
A:collect
B:take
C:takeAsList
D:collectAsList
正确答案问询微信：424329

Spark DataFrame中（）方法可以获取若干行数据
A:first
B:head
C:take
D:collect
正确答案问询微信：424329

MLBase包括（）
A:Mllib
B:MLI
C:SparkR
D:GraphX
正确答案问询微信：424329

MLlib中用于线性回归算法的包主要有（）
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression
正确答案问询微信：424329

Spark支持的文件格式包括（）
A:文本文件
B:JSON
C:CSV
D:SequenceFile
正确答案问询微信：424329

以下哪个方法可以实现Spark SQL对数据的查询（）
A:SqlContext
B:MySQLContext
C:HiveContext
D:context
正确答案问询微信：424329

Scala 语言中提供的数组是用来存储动态大小的同类型元素
A:对
B:错
正确答案问询微信：424329

Scala Set(集合)是没有重复的对象集合，所有的元素都是唯一的
A:对
B:错
正确答案问询微信：424329

Scala中Map 合并时会移除重复的 key
A:对
B:错
正确答案问询微信：424329

RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组
A:对
B:错
正确答案问询微信：424329

MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。
A:对
B:错
正确答案问询微信：424329

Scala中高阶函数可以使用函数作为参数，也可以使用函数作为输出结果。
A:对
B:错
正确答案问询微信：424329

Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗
A:对
B:错
正确答案问询微信：424329

RDD中zip操作要求两个RDD的parti奥鹏南开大学新学期作业参考代做2元一门tion数量以及元素数量都相同
A:对
B:错
正确答案问询微信：424329

Spark Streming中DStream代表着一系列的持续的RDDs
A:对
B:错
正确答案问询微信：424329

RDD的行动操作通过某种函数将一个RDD 转换为一个新的RDD ，但是转换操作是懒操作，不会立刻执行计算。
A:对
B:错
正确答案问询微信：424329

RDD是一个可读写的数据结构
A:对
B:错
正确答案问询微信：424329

Scala中默认情况下使用的是可变的Map
A:对
B:错
正确答案问询微信：424329

RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错
正确答案问询微信：424329

Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
A:对
B:错
正确答案问询微信：424329

RDD中join操作根据键对两个RDD进行内连接，将两个RDD 中键相同的数据的值相加。
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源