南开大学22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业一

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业-00001

1.GraphX中graph.edges可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
满分答案问询微信：424329

2.请问RDD的（）操作把RDD 所有元素转换成数组并返回到Driver 端
选项A：join
选项B：zip
选项C：combineByKey
选项D：collect
满分答案问询微信：424329

3.图的结构通常表示为：G(V,E)，其中，E是图G中()
选项A：顶点
选项B：顶点的集合
选项C：边
选项D：边的集合
满分答案问询微信：424329

4.GraphX中（）方法可以释放边缓存
选项A：cache
选项B：presist
选项C：unpersistVertices
选项D：edges.unpersist
满分答案问询微信：424329

5.Dstream输出操作中（）方法将DStream中的内容以文本的形式保存为文本文件
选项A：print
选项B：saveAsTextFiles
选项C：saveAsObjectFiles
选项D：saveAsHadoopFiles
满分答案问询微信：424329

6.Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得奥鹏南开在线作业满分答案参考到一个新的Dstream
选项A：window
选项B：countByWindow
选项C：reduceByWindow
选项D：reduceByKeyAndWindow
满分答案问询微信：424329

7.以下哪个函数可以求两个RDD交集（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
满分答案问询微信：424329

8.Spark GraphX中类Graph的joinVertices方法可以（）
选项A：收集邻居顶点的顶点Id和顶点属性
选项B：收集邻居顶点的顶点Id
选项C：向指定顶点发送信息并聚合信息
选项D：将顶点信息更新到图中
满分答案问询微信：424329

9.spark-submit配置项中（）表示Driver程序使用的内存大小
选项A：–driver-memory MEM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
满分答案问询微信：424329

10.Scala列表方法中输出符号指定条件的所有元素的方法是（）
选项A：drop
选项B：head
选项C：filter
选项D：init
满分答案问询微信：424329

11.一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍
选项A：2
选项B：10
选项C：100
选项D：1000
满分答案问询微信：424329

12.以下哪个函数可以求两个RDD的笛卡尔积（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
满分答案问询微信：424329

13.RDD的（）操作通常用来划分单词
选项A：filter
选项B：union
选项C：flatmap
选项D：mapPartitions
满分答案问询微信：424329

14.GraphX中graph.vertices可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
满分答案问询微信：424329

15.spark-submit配置项中（）表示executor使用的总核数
选项A：–num-executors NUM
选项B：–executor-memory MEM
选项C：–total-executor-cores NUM
选项D：–executor-coures NUM
满分答案问询微信：424329

16.Mllib中metrics.fMeasureByThreshold
表示（）指标
选项A：准确度
选项B：召回率
选项C：F值
选项D：ROC曲线
满分答案问询微信：424329

17.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）
选项A：filter
选项B：foreach
选项C：map
选项D：mkString
满分答案问询微信：424329

18.（）是Spark的核心，提供底层框架及核心支持
选项A：Spark Core
选项B：Spark SQL
选项C：Spark Streaming
选项D：Mllib
满分答案问询微信：424329

19.Spark GraphX中类Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以（）
选项A：收集邻居顶点的顶点Id和顶点属性
选项B：收集邻居顶点的顶点Id
选项C：向指定顶点发送信息并聚合信息
选项D：将顶点信息更新到图中
满分答案问询微信：424329

20.Spark Streming中（）函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的Dstream
选项A：map
选项B：flatMap
选项C：filter
选项D：union
满分答案问询微信：424329

21.Mllib中线性会馆算法中的参数numIterations表示（）
选项A：要运行的迭代次数
选项B：梯度下降的步长
选项C：是否给数据加干扰特征或者偏差特征
选项D：Lasso 和ridge 的正规化参数
满分答案问询微信：424329

22.GraphX中（）方法可以查询顶点个数
选项A：numVertices
选项B：numEdges
选项C：vertices
选项D：edges
满分答案问询微信：424329

23.图的结构通常表示为：G(V,E)，其中，G表示（）
选项A：图
选项B：子图
选项C：顶点
选项D：边
满分答案问询微信：424329

24.Scala中（）方法返回一个列表，包含除了第一个元素之外的其他元素
选项A：head
选项B：init
选项C：tail
选项D：last
满分答案问询微信：424329

25.Dstream输出操作中（）方法在Driver中打印出DStream中数据的前10个元素。
选项A：print
选项B：saveAsTextFiles
选项C：saveAsObjectFiles
选项D：saveAsHadoopFiles
满分答案问询微信：424329

26.Scala函数支持（）
选项A：递归函数
选项B：高阶函数
选项C：柯里化
选项D：匿名函数
满分答案问询微信：424329

27.Scala中使用（）方法来连接两个集合
选项A：append
选项B：++
选项C：concat
选项D：Set.++()
满分答案问询微信：424329

28.以下哪个是Scala的数据类型（）
选项A：Any
选项B：NULL
选项C：Nothing
选项D：AnyRef
满分答案问询微信：424329

29.Scala支持（）
选项A：显式参数
选项B：隐式参数
选项C：转换
选项D：多态方法
满分答案问询微信：424329

30.Mllib实现了一些常见的机器学习算法和应用程序，包括（）
选项A：分类
选项B：聚类
选项C：降维
选项D：回归
满分答案问询微信：424329

31.以下是机器学习的常用算法的是（）
选项A：回归算法
选项B：聚类算法
选项C：降维算法
选项D：分类算法
满分答案问询微信：424329

32.Scala中构造列表的两个基本单位是（）
选项A：Nil
选项B：Nill
选项C：::
选项D：List
满分答案问询微信：424329

33.Spark DataFrame中（）方法可以返回一个List
选项A：collect
选项B：take
选项C：takeAsList
选项D：collectAsList
满分答案问询微信：424329

34.Spark SQL读取的数据源支持（）
选项A：Hive表
选项B：Parquent文件
选项C：JSON数据
选项D：关系数据库
满分答案问询微信：424329

35.以下算法中属于分类算法的是（）
选项A：KNN算法
选项B：逻辑回归
选项C：随机森林
选项D：Kmeans
满分答案问询微信：424329

36.PairRDD中groupByKey是对具有相同键的值进行分组
选项A：对
选项B：错
满分答案问询微信：424329

37.Spark Streming中DStream可以通过外部数据源（Kafka，Flume，Twitter等）来获取，也可以通过现有DStream的高级操作（Transformation操作）获得
选项A：对
选项B：错
满分答案问询微信：424329

38.聚类是一种无监督学习的方法，用于将高度相似的数据分到一类中
选项A：对
选项B：错
满分答案问询微信：424329

39.图（Graph）是一种复杂的非线性结构
选项A：对
选项B：错
满分答案问询微信：424329

40.RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
选项A：对
选项B：错
满分答案问询微信：424329

41.Spark RDD 是惰性求值的，如果需要对一个RDD 多次使用，那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。
选项A：对
选项B：错
满分答案问询微信：424329

42.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
选项A：对
选项B：错
满分答案问询微信：424329

43.Dstream输出操作中foreachRDD的正确用法是使用rdd.foreachPartition方法创建一个单独的连接对象，然后使用该连接对象输出所有RDD分区中的数据到外部系统
选项A：对
选项B：错
满分答案问询微信：424329

44.Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。
选项A：对
选项B：错
满分答案问询微信：424329

45.Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map
选项A：对
选项B：错
满分答案问询微信：424329

46.Scala 配备了一种表现型的系统，它以静态的方式进行抽象，以安全和连贯的方式进行使用。
选项A：对
选项B：错
满分答案问询微信：424329

47.Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。
选项A：对
选项B：错
满分答案问询微信：424329

48.Scala是一种纯面向对象的语言，每个值都是对象。
选项A：对
选项B：错
满分答案问询微信：424329

49.Scala中元组是是一种可迭代的键值对（key/value）结构。
选项A：对
选项B：错
满分答案问询微信：424329

50.RDD的union函数会将两个RDD元素合并成一个并且去处重复元素
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源