南开23春学期（高起专1903、专升本1903）《大数据开发技术（二）》在线作业三

奥鹏南开大学新学期作业参考

南开大学23春学期（高起专1903、专升本1903）《大数据开发技术（二）》在线作业

1.Spark中运行交互式SQL查询的大规模并行查询引擎是（）
选项A：Spark Core
选项B：Spark SQL
选项C：BlinkDB
选项D：Mllib
正确答案问询微信：424329

2.Spark GraphX中类Graph的groupEdges方法可以（）
选项A：反转图中所有边的方向
选项B：按照设定条件取出子图
选项C：取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
选项D：合并边相同的属性
正确答案问询微信：424329

3.GraphX中（）方法可以查询顶点信息
选项A：numVertices
选项B：numEdges
选项C：vertices
选项D：edges
正确答案问询微信：424329

4.以下哪个方法可以从外部存储中创建RDD（）
选项A：parallelize
选项B：makeRDD
选项C：textFile
选项D：loadFile
正确答案问询微信：424329

5.一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍
选项A：2
选项B：10
选项C：100
选项D：1000
正确答案问询微信：424329

6.Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStream
选项A：union
选项B：reduce
选项C：join
选项D：cogroup
正确答案问询微信：424329

7.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是（）
选项A：filter
选项B：flatten
选项C：grouby
选项D：flatmap
正确答案问询微信：424329

8.Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的Dstream
选项A：window
选项B：countByWindow
选项C：reduceByWindow
选项D：reduceByKeyAndWindow
正确答案问询微信：424329

9.请问RDD的（）操作把RDD 所有元素转换成数组并返回到Driver 端
选项A：join
选项B：zip
选项C：combineByKey
选项D：collect
正确答案问询微信：424329

10.GraphX中VertexRDD[VD]继承自（）
选项A：EdgeRDD
选项B：RDD[Edge]
选项C：VertexRDD[VD]
选项D：RDD[(VertexId，VD)]
正确答案问询微信：424329

11.GraphX中（）方法可以缓存整个图，并指定存储级别
选项A：cache
选项B：presist
选项C：unpersistVertices
选项D：edges.unpersist
正确答案问询微信：424329

12.Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

13.GraphX中graph.triplets可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
正确答案问询微信：424329

14.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练分类树
选项A：trainClassifier
选项B：trainRegressor
选项C：LogisticRegressionModel
选项D：LabeledPoint
正确答案问询微信：424329

15.PairRDD中（）函数可以对具有相同键的值进行分组
选项A：mapValues
选项B：groupBy
选项C：groupByKey
选项D：reduceByKey
正确答案问询微信：424329

16.请问RDD的（）操作是将两个RDD组合成Key/Value形式的RDD
选项A：join
选项B：zip
选项C：combineByKey
选项D：collect
正确答案问询微信：424329

17.spark-submit配置项中（）表示executor使用的总核数
选项A：–num-executors NUM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
正确答案问询微信：424329

18.spark-submit配置项中（）表示每个executor使用的内核数
选项A：–num-executors NUM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
正确答案问询微信：424329

19.Scala中（）方法返回Map所有的value
选项A：key
选项B：keys
选项C：value
选项D：values
正确答案问询微信：424329

20.var a=10;
while(a20){
a+=1;
}
共循环了（）次
选项A：9
选项B：10
选项C：11
选项D：12
正确答案问询微信：424329

21.图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
选项A：完全图
选项B：有向完全图
选项C：无向图
选项D：简单图
正确答案问询微信：424329

22.Scala中（）方法返回一个列表，包含除了第一个元素之外的其他元素
选项A：head
选项B：init
选项C：tail
选项D：last
正确答案问询微信：424329

23.Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

24.PairRDD可以通过（）获得仅包含值的RDD
选项A：key
选项B：keys
选项C：value
选项D：values
正确答案问询微信：424329

25.以下哪个不是Scala的数据类型（）
选项A：AnyRef
选项B：Anything
选项C：NULL
选项D：Nothing
正确答案问询微信：424329

26.Scala中构造列表的两个基本单位是（）
选项A：Nil
选项B：Nill
选项C：::
选项D：List
正确答案问询微信：424329

27.Scala支持（）
选项A：匿名函数
选项B：高阶函数
选项C：函数嵌套
选项D：柯里化
正确答案问询微信：424329

28.PairRDD中（）函数可以进行分组
选项A：mapValues
选项B：groupBy
选项C：groupByKey
选项D：reduceByKey
正确答案问询微信：424329

29.RDD是一个（）的数据结构
选项A：可读写
选项B：只读的
选项C：容错的
选项D：可进行并行操作的
正确答案问询微信：424329

30.Spark DataFrame中（）方法可以获取所有数据
选项A：collect
选项B：take
选项C：takeAsList
选项D：collectAsList
正确答案问询微信：424329

31.Spark DataFrame中（）方法可以获取若干行数据
选项A：first
选项B：head
选项C：take
选项D：collect
正确答案问询微信：424329

32.MLBase包括（）
选项A：Mllib
选项B：MLI
选项C：SparkR
选项D：GraphX
正确答案问询微信：424329

33.MLlib中用于线性回归算法的包主要有（）
选项A：LinearRegressionWithSGD
选项B：RidgeRegressionWithSGD
选项C：LassoWithSGD
选项D：LeftRegression
正确答案问询微信：424329

34.Spark支持的文件格式包括（奥鹏南开大学新学期作业参考）
选项A：文本文件
选项B：JSON
选项C：CSV
选项D：SequenceFile
正确答案问询微信：424329

35.以下哪个方法可以实现Spark SQL对数据的查询（）
选项A：SqlContext
选项B：MySQLContext
选项C：HiveContext
选项D：context
正确答案问询微信：424329

36.Scala 语言中提供的数组是用来存储动态大小的同类型元素
选项A：对
选项B：错
正确答案问询微信：424329

37.Scala Set(集合)是没有重复的对象集合，所有的元素都是唯一的
选项A：对
选项B：错
正确答案问询微信：424329

38.Scala中Map 合并时会移除重复的 key
选项A：对
选项B：错
正确答案问询微信：424329

39.RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组
选项A：对
选项B：错
正确答案问询微信：424329

40.MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。
选项A：对
选项B：错
正确答案问询微信：424329

41.Scala中高阶函数可以使用函数作为参数，也可以使用函数作为输出结果。
选项A：对
选项B：错
正确答案问询微信：424329

42.Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗
选项A：对
选项B：错
正确答案问询微信：424329

43.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
选项A：对
选项B：错
正确答案问询微信：424329

44.Spark Streming中DStream代表着一系列的持续的RDDs
选项A：对
选项B：错
正确答案问询微信：424329

45.RDD的行动操作通过某种函数将一个RDD 转换为一个新的RDD ，但是转换操作是懒操作，不会立刻执行计算。
选项A：对
选项B：错
正确答案问询微信：424329

46.RDD是一个可读写的数据结构
选项A：对
选项B：错
正确答案问询微信：424329

47.Scala中默认情况下使用的是可变的Map
选项A：对
选项B：错
正确答案问询微信：424329

48.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
选项A：对
选项B：错
正确答案问询微信：424329

49.Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
选项A：对
选项B：错
正确答案问询微信：424329

50.RDD中join操作根据键对两个RDD进行内连接，将两个RDD 中键相同的数据的值相加。
选项A：对
选项B：错
正确答案问询微信：424329

提供优质的教育资源