南开23春学期（高起专1903、专升本1903）《大数据开发技术（二）》在线作业二

奥鹏南开大学新学期作业参考

南开大学23春学期（高起专1903、专升本1903）《大数据开发技术（二）》在线作业

1.spark-submit配置项中（）表示Driver程序使用的内存大小
选项A：–driver-memory MEM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
正确答案问询微信：424329

2.请问RDD的（）操作用于将相同键的数据聚合
选项A：join
选项B：zip
选项C：combineByKey
选项D：collect
正确答案问询微信：424329

3.（）是Spark的数据挖掘算法库
选项A：Spark Core
选项B：BlinkDB
选项C：GraphX
选项D：Mllib
正确答案问询微信：424329

4.spark-submit配置项中（）表示executor内存大小
选项A：–num-executors NUM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
正确答案问询微信：424329

5.以下哪个函数可以对两个RDD进行合并（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
正确答案问询微信：424329

6.Scala列表方法中返回所有元素，除了最后一个的方法是（）
选项A：drop
选项B：head
选项C：filter
选项D：init
正确答案问询微信：424329

7.var a=10;
do{
a+=1;
}while(a20)
共循环了（）次
选项A：9
选项B：10
选项C：11
选项D：12
正确答案问询微信：424329

8.GraphX中（）是存放着Edg对象的RDD
选项A：RDD[Edge]
选项B：EdgeRDD
奥鹏南开大学新学期作业参考选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

9.Mllib中线性会馆算法中的参数numIterations表示（）
选项A：要运行的迭代次数
选项B：梯度下降的步长
选项C：是否给数据加干扰特征或者偏差特征
选项D：Lasso 和ridge 的正规化参数
正确答案问询微信：424329

10.当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作
选项A：transfer
选项B：change
选项C：map
选项D：build
正确答案问询微信：424329

11.图的结构通常表示为：G(V,E)，其中，G表示（）
选项A：图
选项B：子图
选项C：顶点
选项D：边
正确答案问询微信：424329

12.图是一种数据元素间为（）关系的数据结构
选项A：多对多
选项B：一对一
选项C：一对多
选项D：多对一
正确答案问询微信：424329

13.GraphX中（）方法可以释放边缓存
选项A：cache
选项B：presist
选项C：unpersistVertices
选项D：edges.unpersist
正确答案问询微信：424329

14.GraphX中graph.vertices可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
正确答案问询微信：424329

15.Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。
选项A：第一个
选项B：所有
选项C：前10个
选项D：前100个
正确答案问询微信：424329

16.Spark Streming中（）函数可以对统计DStream中每个RDD包含的元素的个数，得到一个新的DStream
选项A：count
选项B：union
选项C：length
选项D：reduce
正确答案问询微信：424329

17.PairRDD可以通过（）获得仅包含键的RDD
选项A：key
选项B：keys
选项C：value
选项D：values
正确答案问询微信：424329

18.Spark中DataFrame的（）方法是进行分组查询
选项A：order by
选项B：group by
选项C：select by
选项D：sort by
正确答案问询微信：424329

19.Mllib中metrics.recallByThreshold
表示（）指标
选项A：准确度
选项B：召回率
选项C：F值
选项D：ROC曲线
正确答案问询微信：424329

20.Mllib中metrics.precisionByThreshold表示（）指标
选项A：准确度
选项B：召回率
选项C：F值
选项D：ROC曲线
正确答案问询微信：424329

21.图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
选项A：完全图
选项B：有向完全图
选项C：无向图
选项D：简单图
正确答案问询微信：424329

22.以下哪个不是Scala的数据类型（）
选项A：Int
选项B：Short Int
选项C：Long
选项D：Any
正确答案问询微信：424329

23.Spark GraphX中类Graph的reverse方法可以（）
选项A：反转图中所有边的方向
选项B：按照设定条件取出子图
选项C：取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
选项D：合并边相同的属性
正确答案问询微信：424329

24.Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。
选项A：print
选项B：saveAsTextFiles
选项C：saveAsObjectFiles
选项D：saveAsHadoopFiles
正确答案问询微信：424329

25.GraphX中（）方法可以释放顶点缓存
选项A：cache
选项B：presist
选项C：unpersistVertices
选项D：edges.unpersist
正确答案问询微信：424329

26.Spark DataFrame中（）方法可以获取若干行数据
选项A：first
选项B：head
选项C：take
选项D：collect
正确答案问询微信：424329

27.以下是机器学习的常用算法的是（）
选项A：回归算法
选项B：聚类算法
选项C：降维算法
选项D：分类算法
正确答案问询微信：424329

28.Spark DataFrame中（）方法可以返回一个Array对象
选项A：collect
选项B：take
选项C：takeAsList
选项D：collectAsList
正确答案问询微信：424329

29.Scala支持（）
选项A：匿名函数
选项B：高阶函数
选项C：函数嵌套
选项D：柯里化
正确答案问询微信：424329

30.RDD是一个（）的数据结构
选项A：可读写
选项B：只读的
选项C：容错的
选项D：可进行并行操作的
正确答案问询微信：424329

31.Spark支持的文件格式包括（）
选项A：文本文件
选项B：JSON
选项C：CSV
选项D：SequenceFile
正确答案问询微信：424329

32.Spark支持使用（）语言编写应用
选项A：Scala
选项B：Python
选项C：Java
选项D：R
正确答案问询微信：424329

33.决策树是（）的常用算法
选项A：分类
选项B：聚类
选项C：降维
选项D：回归
正确答案问询微信：424329

34.Spark Streaming能够和（）无缝集成
选项A：Hadoop
选项B：Spark SQL
选项C：Mllib
选项D：GraphX
正确答案问询微信：424329

35.Spark SQL 可以通过（）方法加载json文件为DataFrame
选项A：format
选项B：json
选项C：get
选项D：read
正确答案问询微信：424329

36.Scala在子类中重写超类的抽象方法时，需要使用override关键字
选项A：对
选项B：错
正确答案问询微信：424329

37.Spark可以通过反射机制推断RDD模式
选项A：对
选项B：错
正确答案问询微信：424329

38.Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map
选项A：对
选项B：错
正确答案问询微信：424329

39.Scala是不可扩展的
选项A：对
选项B：错
正确答案问询微信：424329

40.Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。
选项A：对
选项B：错
正确答案问询微信：424329

41.Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别
选项A：对
选项B：错
正确答案问询微信：424329

42.Scala中元组是是一种可迭代的键值对（key/value）结构。
选项A：对
选项B：错
正确答案问询微信：424329

43.PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。
选项A：对
选项B：错
正确答案问询微信：424329

44.DataFrame是一个分布式的Row对象的数据集合
选项A：对
选项B：错
正确答案问询微信：424329

45.Spark持久化RDD 后，在再一次需要计算该RDD 时将需要重新计算
选项A：对
选项B：错
正确答案问询微信：424329

46.MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。
选项A：对
选项B：错
正确答案问询微信：424329

47.Spark SQL包括基本的SQL语法和HiveQL语法
选项A：对
选项B：错
正确答案问询微信：424329

48.Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素
选项A：对
选项B：错
正确答案问询微信：424329

49.RDD的subtract用于用于将后一个RDD 中在前一个RDD 出现的元素删除
选项A：对
选项B：错
正确答案问询微信：424329

50.Scala 集合分为可变的和不可变的集合
选项A：对
选项B：错
正确答案问询微信：424329

提供优质的教育资源