南开23春学期（高起本：1709-2103、专升本高起专：1903-2103）《大数据开发技术（二）》在线作业一

奥鹏南开大学新学期作业参考

南开大学23春学期（高起本：1709-2103、专升本/高起专：1903-2103）《大数据开发技术（二）》在线作业

1.Scala函数组合器可以通过一个函数重新计算列表中所有元素，但是没有返回值的方法是（）
选项A：map
选项B：foreach
选项C：flatten
选项D：flatmap
正确答案问询微信：424329

2.GraphX中（）是存放着存放顶点的RDD
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

3.Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是（）
选项A：filter
选项B：flatten
选项C：grouby
选项D：flatmap
正确答案问询微信：424329

4.PairRDD中（）函数可以合并具有相同键的值
选项A：mapValues
选项B：groupBy
选项C：groupByKey
选项D：reduceByKey
正确答案问询微信：424329

5.Spark Streming中（）函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream，这可以用来在DStream做任意RDD操作。
选项A：transform
选项B：r奥鹏南开大学新学期作业参考educe
选项C：join
选项D：cogroup
正确答案问询微信：424329

6.Spark中DataFrame的（）方法是进行分组查询
选项A：order by
选项B：group by
选项C：select by
选项D：sort by
正确答案问询微信：424329

7.Spark Streming中（）函数可以对源DStream的每个元素通过函数func返回一个新的DStream
选项A：map
选项B：flatMap
选项C：filter
选项D：union
正确答案问询微信：424329

8.Scala列表方法中返回所有元素，除了最后一个的方法是（）
选项A：drop
选项B：head
选项C：filter
选项D：init
正确答案问询微信：424329

9.Scala通过（）来定义变量
选项A：val
选项B：val
选项C：define
选项D：def
正确答案问询微信：424329

10.Scala列表方法中将函数应用到列表的所有元素的方法是（）
选项A：filter
选项B：foreach
选项C：map
选项D：mkString
正确答案问询微信：424329

11.Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。
选项A：print
选项B：saveAsTextFiles
选项C：saveAsObjectFiles
选项D：saveAsHadoopFiles
正确答案问询微信：424329

12.spark-submit配置项中（）表示启动的executor数量
选项A：–num-executors NUM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
正确答案问询微信：424329

13.Mllib中metrics.recallByThreshold
表示（）指标
选项A：准确度
选项B：召回率
选项C：F值
选项D：ROC曲线
正确答案问询微信：424329

14.Scala中如果函数无返回值，则函数返回类型为（）
选项A：NULL
选项B：Void
选项C：Nothing
选项D：Unit
正确答案问询微信：424329

15.GraphX中graph.vertices可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
正确答案问询微信：424329

16.GraphX中（）是完整提供边的各种操作类
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

17.Spark Streming中DStream的每个RDD都是由（）分割开来的数据集
选项A：分区
选项B：一小段时间
选项C：数据量
选项D：随机
正确答案问询微信：424329

18.Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
选项A：print
选项B：saveAsTextFiles
选项C：saveAsObjectFiles
选项D：saveAsHadoopFiles
正确答案问询微信：424329

19.Scala中（）方法返回一个列表，包含除了最后一个元素之外的其他元素
选项A：head
选项B：init
选项C：tail
选项D：last
正确答案问询微信：424329

20.GraphX中（）是存放着Edg对象的RDD
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

21.Spark中DataFrame的（）方法是进行排序查询
选项A：order by
选项B：group by
选项C：select by
选项D：sort by
正确答案问询微信：424329

22.Scala中重写一个非抽象方法必须使用（）修饰符。
选项A：extends
选项B：override
选项C：extend
选项D：overrides
正确答案问询微信：424329

23.Mllib中线性会馆算法中的参数numIterations表示（）
选项A：要运行的迭代次数
选项B：梯度下降的步长
选项C：是否给数据加干扰特征或者偏差特征
选项D：Lasso 和ridge 的正规化参数
正确答案问询微信：424329

24.GraphX中（）方法可以查询边数
选项A：numVertices
选项B：numEdges
选项C：vertices
选项D：edges
正确答案问询微信：424329

25.Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）
选项A：filter
选项B：flatten
选项C：grouby
选项D：flatmap
正确答案问询微信：424329

26.Spark Core包含的功能有（）
选项A：任务调度
选项B：内存管理
选项C：SQL查询
选项D：容错机制
正确答案问询微信：424329

27.Scala支持（）
选项A：匿名函数
选项B：高阶函数
选项C：函数嵌套
选项D：柯里化
正确答案问询微信：424329

28.Spark DataFrame中（）方法可以返回一个List
选项A：collect
选项B：take
选项C：takeAsList
选项D：collectAsList
正确答案问询微信：424329

29.Spark可以通过哪些外部存储创建RDD（）
选项A：文本文件
选项B：目录
选项C：压缩文件
选项D：通配符匹配的文件
正确答案问询微信：424329

30.GraphX中（）方法可以缓存整个图
选项A：cache
选项B：presist
选项C：unpersistVertices
选项D：edges.unpersist
正确答案问询微信：424329

31.Spark中DataFrame的（）方法是查询指定字段的数据信息
选项A：select
选项B：selectExpr
选项C：col
选项D：apply
正确答案问询微信：424329

32.Scala中构造列表的两个基本单位是（）
选项A：Nil
选项B：Nill
选项C：::
选项D：List
正确答案问询微信：424329

33.Scala系统支持（）作为对象成员
选项A：通用类
选项B：内部类
选项C：抽象类
选项D：复合类
正确答案问询微信：424329

34.以下算法中属于监督学习算法的是（）
选项A：KNN算法
选项B：逻辑回归
选项C：随机森林
选项D：Kmeans
正确答案问询微信：424329

35.以下哪个方法可以实现Spark SQL对数据的查询（）
选项A：SqlContext
选项B：MySQLContext
选项C：HiveContext
选项D：context
正确答案问询微信：424329

36.RDD的sortBy排序默认是升序
选项A：对
选项B：错
正确答案问询微信：424329

37.RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
选项A：对
选项B：错
正确答案问询微信：424329

38.Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。
选项A：对
选项B：错
正确答案问询微信：424329

39.如果其中有一个节点因为某种原因出现故障时， Spark 需要用到缓存数据时不会重算丢失的分区，因此不需要计算所有的分区。
选项A：对
选项B：错
正确答案问询微信：424329

40.RDD的行动操作通过某种函数将一个RDD 转换为一个新的RDD ，但是转换操作是懒操作，不会立刻执行计算。
选项A：对
选项B：错
正确答案问询微信：424329

41.Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素
选项A：对
选项B：错
正确答案问询微信：424329

42.PairRDD中groupByKey是对具有相同键的值进行分组
选项A：对
选项B：错
正确答案问询微信：424329

43.Scala中创建一个方法时经常用void表示该方法无返回值
选项A：对
选项B：错
正确答案问询微信：424329

44.Scala中++i和i++表示变量i自增1
选项A：对
选项B：错
正确答案问询微信：424329

45.图的出度数是以当前顶点为起点的边的数量
选项A：对
选项B：错
正确答案问询微信：424329

46.Dstream输出操作中foreachRDD的正确用法是使用rdd.foreachPartition方法创建一个单独的连接对象，然后使用该连接对象输出所有RDD分区中的数据到外部系统
选项A：对
选项B：错
正确答案问询微信：424329

47.DataFrame是一个分布式的Row对象的数据集合
选项A：对
选项B：错
正确答案问询微信：424329

48.Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值
选项A：对
选项B：错
正确答案问询微信：424329

49.Scala中Map的isEmpty函数在Map为空时返回false
选项A：对
选项B：错
正确答案问询微信：424329

50.RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD
选项A：对
选项B：错
正确答案问询微信：424329

提供优质的教育资源