南开大学22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业三

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业-00003

1.以下算法中属于聚类算法的是（）
选项A：KNN算法
选项B：逻辑回归
选项C：随机森林
选项D：Kmeans
满分答案问询微信：424329

2.Spark GraphX中类Graph的reverse方法可以（）
选项A：反转图中所有边的方向
选项B：按照设定条件取出子图
选项C：取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
选项D：合并边相同的属性
满分答案问询微信：424329

3.GraphX中（）是提供顶点的各种操作方法的对象
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
满分答案问询微信：424329

4.Spark Streming中DStream的每个RDD都是由（）分割开来的数据集
选项A：分区
选项B：一小段时间
选项C：数据量
选项D：随机
满分答案问询微信：424329

5.请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值
选项A：search
选项B：find
选项C：findByKey
选项D：lookup
满分答案问询微信：424329

6.GraphX中（）方法可以查询边信息
选项A：numVertices
选项B：numEdges
选项C：vertices
选项D：edges
满分答案问询微信：424329

7.Scala源代码被编译成（）字节码，所以它可以运行于JVM之上
选项A：Spark
选项B：Scala
选项C：Java
选项D：JDK
满分答案问询微信：424329

8.Scala中重写一个非抽象方法必须使用（）修饰符。
选项A：extends
选项B：override
选项C：extend
选项D：overrides
满分答案问询微信：424329

9.Graph类中如果奥鹏南开在线作业满分答案参考要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
满分答案问询微信：424329

10.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）
选项A：filter
选项B：foreach
选项C：map
选项D：mkString
满分答案问询微信：424329

11.Mllib中线性会馆算法中的参数stepSize表示（）
选项A：要运行的迭代次数
选项B：梯度下降的步长
选项C：是否给数据加干扰特征或者偏差特征
选项D：Lasso 和ridge 的正规化参数
满分答案问询微信：424329

12.Scala列表方法中丢弃前n个元素，并返回新列表的方法是（）
选项A：drop
选项B：head
选项C：filter
选项D：init
满分答案问询微信：424329

13.以下算法中属于无监督学习算法的是（）
选项A：KNN算法
选项B：逻辑回归
选项C：随机森林
选项D：Kmeans
满分答案问询微信：424329

14.var a=10;
do{
a+=1;
}while(a20)
共循环了（）次
选项A：9
选项B：10
选项C：11
选项D：12
满分答案问询微信：424329

15.Scala中如果函数无返回值，则函数返回类型为（）
选项A：NULL
选项B：Void
选项C：Nothing
选项D：Unit
满分答案问询微信：424329

16.var a=10;
while(a20){
a+=1;
}
共循环了（）次
选项A：9
选项B：10
选项C：11
选项D：12
满分答案问询微信：424329

17.递归函数意味着函数可以调用它（）
选项A：其他函数
选项B：主函数
选项C：子函数
选项D：自身
满分答案问询微信：424329

18.Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）
选项A：map
选项B：foreach
选项C：flatten
选项D：flatmap
满分答案问询微信：424329

19.Spark中DataFrame的（）方法是进行排序查询
选项A：order by
选项B：group by
选项C：select by
选项D：sort by
满分答案问询微信：424329

20.Spark Streming中（）函数可以对统计DStream中每个RDD包含的元素的个数，得到一个新的DStream
选项A：count
选项B：union
选项C：length
选项D：reduce
满分答案问询微信：424329

21.Spark Streming中（）函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的Dstream
选项A：map
选项B：flatMap
选项C：filter
选项D：union
满分答案问询微信：424329

22.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上
选项A：SparkR
选项B：BlinkDB
选项C：GraphX
选项D：Mllib
满分答案问询微信：424329

23.Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
满分答案问询微信：424329

24.Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）
选项A：filter
选项B：flatten
选项C：grouby
选项D：flatmap
满分答案问询微信：424329

25.以下哪个函数可以求两个RDD交集（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
满分答案问询微信：424329

26.Spark Streaming能够处理来自（）的数据
选项A：Kafka
选项B：Flume
选项C：Twitter
选项D：ZeroMQ
满分答案问询微信：424329

27.Scala系统支持（）作为对象成员
选项A：通用类
选项B：内部类
选项C：抽象类
选项D：复合类
满分答案问询微信：424329

28.Scala中可以用（）方法来连接两个或多个列表
选项A：::
选项B：#:::
选项C：List.:::()
选项D：List.concat()
满分答案问询微信：424329

29.Scala中构造列表的两个基本单位是（）
选项A：Nil
选项B：Nill
选项C：::
选项D：List
满分答案问询微信：424329

30.Spark创建DataFrame对象方式有（）
选项A：结构化数据文件
选项B：外部数据库
选项C：RDD
选项D：Hive中的表
满分答案问询微信：424329

31.Spark的RDD持久化操作有()方式
选项A：cache
选项B：presist
选项C：storage
选项D：long
满分答案问询微信：424329

32.TF-IDF中TF指的是（）
选项A：词频
选项B：词在文档中出现的次数
选项C：逆文档概率
选项D：词在文档集中出现的概率
选项E：词在文档集中出现的概率
满分答案问询微信：424329

33.MapReudce不适合（）任务
选项A：大数据计算
选项B：迭代
选项C：交互式
选项D：离线分析
满分答案问询微信：424329

34.Spark支持的文件格式包括（）
选项A：文本文件
选项B：JSON
选项C：CSV
选项D：SequenceFile
满分答案问询微信：424329

35.Spark Streaming的特点有（）
选项A：单极性
选项B：可伸缩
选项C：高吞吐量
选项D：容错能力强
满分答案问询微信：424329

36.RDD的sortBy排序默认是升序
选项A：对
选项B：错
满分答案问询微信：424329

37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。
选项A：对
选项B：错
满分答案问询微信：424329

38.Scala中Map的isEmpty函数在Map为空时返回false
选项A：对
选项B：错
满分答案问询微信：424329

39.Spark中DataFrame 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action 操作才会进行计算并返回查询结果。
选项A：对
选项B：错
满分答案问询微信：424329

40.RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。
选项A：对
选项B：错
满分答案问询微信：424329

41.RDD是一个可读写的数据结构
选项A：对
选项B：错
满分答案问询微信：424329

42.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
选项A：对
选项B：错
满分答案问询微信：424329

43.RDD中join操作最后只返回两个RDD 都存在的键的连接结果。
选项A：对
选项B：错
满分答案问询微信：424329

44.Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗
选项A：对
选项B：错
满分答案问询微信：424329

45.SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD
选项A：对
选项B：错
满分答案问询微信：424329

46.Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。
选项A：对
选项B：错
满分答案问询微信：424329

47.PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。
选项A：对
选项B：错
满分答案问询微信：424329

48.PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作
选项A：对
选项B：错
满分答案问询微信：424329

49.MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。
选项A：对
选项B：错
满分答案问询微信：424329

50.RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源