南开23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业三

奥鹏南开大学新学期作业参考

南开23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业三插图

南开大学23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业

1.Spark中运行交互式SQL查询的大规模并行查询引擎是()
选项A:Spark Core
选项B:Spark SQL
选项C:BlinkDB
选项D:Mllib
正确答案问询微信:424329

2.Spark GraphX中类Graph的groupEdges方法可以()
选项A:反转图中所有边的方向
选项B:按照设定条件取出子图
选项C:取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
选项D:合并边相同的属性
正确答案问询微信:424329

3.GraphX中()方法可以查询顶点信息
选项A:numVertices
选项B:numEdges
选项C:vertices
选项D:edges
正确答案问询微信:424329

4.以下哪个方法可以从外部存储中创建RDD()
选项A:parallelize
选项B:makeRDD
选项C:textFile
选项D:loadFile
正确答案问询微信:424329

5.一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的()多倍
选项A:2
选项B:10
选项C:100
选项D:1000
正确答案问询微信:424329

6.Spark Streming中()函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStream
选项A:union
选项B:reduce
选项C:join
选项D:cogroup
正确答案问询微信:424329

7.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()
选项A:filter
选项B:flatten
选项C:grouby
选项D:flatmap
正确答案问询微信:424329

8.Dstream窗口操作中()方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到一个新的Dstream
选项A:window
选项B:countByWindow
选项C:reduceByWindow
选项D:reduceByKeyAndWindow
正确答案问询微信:424329

9.请问RDD的()操作把RDD 所有元素转换成数组并返回到Driver 端
选项A:join
选项B:zip
选项C:combineByKey
选项D:collect
正确答案问询微信:424329

10.GraphX中VertexRDD[VD]继承自()
选项A:EdgeRDD
选项B:RDD[Edge]
选项C:VertexRDD[VD]
选项D:RDD[(VertexId,VD)]
正确答案问询微信:424329

11.GraphX中()方法可以缓存整个图,并指定存储级别
选项A:cache
选项B:presist
选项C:unpersistVertices
选项D:edges.unpersist
正确答案问询微信:424329

12.Graph类中如果根据边数据创建图,数据需要转换成RDD[Edge[ED]类型,应该用()方法
选项A:Graph(vertices,edges, defaultVertexAttr)
选项B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329

13.GraphX中graph.triplets可以得到()
选项A:顶点视图
选项B:边视图
选项C:顶点与边的三元组整体视图
选项D:有向图
正确答案问询微信:424329

14.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法()训练分类树
选项A:trainClassifier
选项B:trainRegressor
选项C:LogisticRegressionModel
选项D:LabeledPoint
正确答案问询微信:424329

15.PairRDD中()函数可以对具有相同键的值进行分组
选项A:mapValues
选项B:groupBy
选项C:groupByKey
选项D:reduceByKey
正确答案问询微信:424329

16.请问RDD的()操作是将两个RDD组合成Key/Value形式的RDD
选项A:join
选项B:zip
选项C:combineByKey
选项D:collect
正确答案问询微信:424329

17.spark-submit配置项中()表示executor使用的总核数
选项A:–num-executors NUM
选项B:–executor-memory MEM
选项C:–total-executor-cores NUM
选项D:–executor-coures NUM
正确答案问询微信:424329

18.spark-submit配置项中()表示每个executor使用的内核数
选项A:–num-executors NUM
选项B:–executor-memory MEM
选项C:–total-executor-cores NUM
选项D:–executor-coures NUM
正确答案问询微信:424329

19.Scala中()方法返回Map所有的value
选项A:key
选项B:keys
选项C:value
选项D:values
正确答案问询微信:424329

20.var a=10;
while(a20){
a+=1;
}
共循环了()次
选项A:9
选项B:10
选项C:11
选项D:12
正确答案问询微信:424329

21.图结构中如果任意两个顶点之间都存在有向边,那么称之为()
选项A:完全图
选项B:有向完全图
选项C:无向图
选项D:简单图
正确答案问询微信:424329

22.Scala中()方法返回一个列表,包含除了第一个元素之外的其他元素
选项A:head
选项B:init
选项C:tail
选项D:last
正确答案问询微信:424329

23.Graph类中如果要直接通过边数据文件创建图,要求数据按空格分隔,应该用()方法
选项A:Graph(vertices,edges, defaultVertexAttr)
选项B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329

24.PairRDD可以通过()获得仅包含值的RDD
选项A:key
选项B:keys
选项C:value
选项D:values
正确答案问询微信:424329

25.以下哪个不是Scala的数据类型()
选项A:AnyRef
选项B:Anything
选项C:NULL
选项D:Nothing
正确答案问询微信:424329

26.Scala中构造列表的两个基本单位是 ()
选项A:Nil
选项B:Nill
选项C:::
选项D:List
正确答案问询微信:424329

27.Scala支持()
选项A:匿名函数
选项B:高阶函数
选项C:函数嵌套
选项D:柯里化
正确答案问询微信:424329

28.PairRDD中()函数可以进行分组
选项A:mapValues
选项B:groupBy
选项C:groupByKey
选项D:reduceByKey
正确答案问询微信:424329

29.RDD是一个()的数据结构
选项A:可读写
选项B:只读的
选项C:容错的
选项D:可进行并行操作的
正确答案问询微信:424329

30.Spark DataFrame中()方法可以获取所有数据
选项A:collect
选项B:take
选项C:takeAsList
选项D:collectAsList
正确答案问询微信:424329

31.Spark DataFrame中()方法可以获取若干行数据
选项A:first
选项B:head
选项C:take
选项D:collect
正确答案问询微信:424329

32.MLBase包括()
选项A:Mllib
选项B:MLI
选项C:SparkR
选项D:GraphX
正确答案问询微信:424329

33.MLlib中用于线性回归算法的包主要有()
选项A:LinearRegressionWithSGD
选项B:RidgeRegressionWithSGD
选项C:LassoWithSGD
选项D:LeftRegression
正确答案问询微信:424329

34.Spark支持的文件格式包括(奥鹏南开大学新学期作业参考)
选项A:文本文件
选项B:JSON
选项C:CSV
选项D:SequenceFile
正确答案问询微信:424329

35.以下哪个方法可以实现Spark SQL对数据的查询()
选项A:SqlContext
选项B:MySQLContext
选项C:HiveContext
选项D:context
正确答案问询微信:424329

36.Scala 语言中提供的数组是用来存储动态大小的同类型元素
选项A:对
选项B:错
正确答案问询微信:424329

37.Scala Set(集合)是没有重复的对象集合,所有的元素都是唯一的
选项A:对
选项B:错
正确答案问询微信:424329

38.Scala中Map 合并时会移除重复的 key
选项A:对
选项B:错
正确答案问询微信:424329

39.RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组
选项A:对
选项B:错
正确答案问询微信:424329

40.MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。
选项A:对
选项B:错
正确答案问询微信:424329

41.Scala中高阶函数可以使用函数作为参数,也可以使用函数作为输出结果。
选项A:对
选项B:错
正确答案问询微信:424329

42.Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗
选项A:对
选项B:错
正确答案问询微信:424329

43.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
选项A:对
选项B:错
正确答案问询微信:424329

44.Spark Streming中DStream代表着一系列的持续的RDDs
选项A:对
选项B:错
正确答案问询微信:424329

45.RDD的行动操作通过某种函数将一个RDD 转换为一个新的RDD , 但是转换操作是懒操作,不会立刻执行计算。
选项A:对
选项B:错
正确答案问询微信:424329

46.RDD是一个可读写的数据结构
选项A:对
选项B:错
正确答案问询微信:424329

47.Scala中默认情况下使用的是可变的Map
选项A:对
选项B:错
正确答案问询微信:424329

48.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
选项A:对
选项B:错
正确答案问询微信:424329

49.Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
选项A:对
选项B:错
正确答案问询微信:424329

50.RDD中join操作根据键对两个RDD进行内连接,将两个RDD 中键相同的数据的值相加。
选项A:对
选项B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网