南开23春学期（高起本：1709-2103、专升本高起专：1903-2103）《大数据开发技术（二）》在线作业二

奥鹏南开大学新学期作业参考

南开大学23春学期（高起本：1709-2103、专升本/高起专：1903-2103）《大数据开发技术（二）》在线作业

1.以下哪个函数可以求两个RDD的笛卡尔积（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
正确答案问询微信：424329

2.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上
选项A：SparkR
选项B：BlinkDB
选项C：GraphX
选项D：Mllib
正确答案问询微信：424329

3.RDD的（）操作通常用来划分单词
选项A：filter
选项B：union
选项C：flatmap
选项D：mapPartitions
正确答案问询微信：424329

4.以下哪个不是Scala的数据类型（）
选项A：AnyRef
选项B：Anything
选项C：NULL
选项D：Nothing
正确答案问询微信：424329

5.Spark GraphX中类Graph的reverse方法可以（）
选项A：反转图中所有边的方向
选项B：按照设定条件取出子图
选项C：取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
选项D：合并边相同的属性
正确答案问询微信：424329

6.图结构中如果任意两个顶点之间都存在边，那么称之为（）
选项A：完全图
选项B：有向完全图
选项C：无向图
选项D：简单图
正确答案问询微信：424329

7.Spark中DataFrame的（）方法是进行条件查询
选项A：where
选项B：join
选项C：limit
选项D：apply
正确答案问询微信：424329

8.Scala中（）方法返回一个列表，包含除了最后一个元素之外的其他元素
选项A：head
选项B：init
选项C：tail
选项D：last
正确答案问询微信：424329

9.var a=10;
for(a-1 until 20){
println(a);
}
共循环了（）次
选项A：10
选项B：11
选项C：20
选项D：19
正确答案问询微信：424329

10.以下哪个函数可以求两个RDD差集（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
正确答案问询微信：424329

11.以下哪个函数可以对两个RDD进行合并（）
选项A：union
选项B：substract
选项C：intersection
选项D：cartesian
正确答案问询微信：424329

12.Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(r奥鹏南开大学新学期作业参考awEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

13.Scala中（）方法返回Map所有的value
选项A：key
选项B：keys
选项C：value
选项D：values
正确答案问询微信：424329

14.GraphX中graph.vertices可以得到（）
选项A：顶点视图
选项B：边视图
选项C：顶点与边的三元组整体视图
选项D：有向图
正确答案问询微信：424329

15.GraphX中（）是完整提供边的各种操作类
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

16.GraphX中（）是存放着存放顶点的RDD
选项A：RDD[Edge]
选项B：EdgeRDD
选项C：RDD[(VertexId,VD)]
选项D：VertexRDD
正确答案问询微信：424329

17.Spark GraphX中类Graph的collectNeighbors(edgeDirection: EdgeDirection)方法可以（）
选项A：收集邻居顶点的顶点Id和顶点属性
选项B：收集邻居顶点的顶点Id
选项C：向指定顶点发送信息并聚合信息
选项D：将顶点信息更新到图中
正确答案问询微信：424329

18.在MLlib中，逻辑回归算法的输入值为（）类型
选项A：Double
选项B：LabledPoint
选项C：Point
选项D：SGB
正确答案问询微信：424329

19.Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法
选项A：Graph(vertices,edges, defaultVertexAttr)
选项B：Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C：Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D：GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

20.（）是Spark的数据挖掘算法库
选项A：Spark Core
选项B：BlinkDB
选项C：GraphX
选项D：Mllib
正确答案问询微信：424329

21.Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStream
选项A：union
选项B：reduce
选项C：join
选项D：cogroup
正确答案问询微信：424329

22.Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是（）
选项A：map
选项B：foreach
选项C：flatten
选项D：flatmap
正确答案问询微信：424329

23.Mllib中线性会馆算法中的参数numIterations表示（）
选项A：要运行的迭代次数
选项B：梯度下降的步长
选项C：是否给数据加干扰特征或者偏差特征
选项D：Lasso 和ridge 的正规化参数
正确答案问询微信：424329

24.Scala列表方法中获取列表的第一个元素的方法是（）
选项A：drop
选项B：head
选项C：filter
选项D：init
正确答案问询微信：424329

25.Spark Streming中（）函数可以对源DStream的每个元素通过函数func返回一个新的DStream
选项A：map
选项B：flatMap
选项C：filter
选项D：union
正确答案问询微信：424329

26.以下是机器学习的常用算法的是（）
选项A：回归算法
选项B：聚类算法
选项C：降维算法
选项D：分类算法
正确答案问询微信：424329

27.TF-IDF中IDF指的是（）
选项A：词频
选项B：词在文档中出现的次数
选项C：逆文档概率
选项D：词在文档集中出现的概率
选项E：词在文档集中出现的概率
正确答案问询微信：424329

28.Spark Streaming能够和（）无缝集成
选项A：Hadoop
选项B：Spark SQL
选项C：Mllib
选项D：GraphX
正确答案问询微信：424329

29.RDD是一个（）的数据结构
选项A：可读写
选项B：只读的
选项C：容错的
选项D：可进行并行操作的
正确答案问询微信：424329

30.Spark DataFrame中（）方法可以返回一个Array对象
选项A：collect
选项B：take
选项C：takeAsList
选项D：collectAsList
正确答案问询微信：424329

31.以下算法中属于监督学习算法的是（）
选项A：KNN算法
选项B：逻辑回归
选项C：随机森林
选项D：Kmeans
正确答案问询微信：424329

32.Scala函数支持（）
选项A：递归函数
选项B：高阶函数
选项C：柯里化
选项D：匿名函数
正确答案问询微信：424329

33.MLlib中进行数据标准化的方式有（）
选项A：Normalizer
选项B：Standard
选项C：StandardScaleer
选项D：MinMaxScaler
正确答案问询微信：424329

34.Spark Core包含的功能有（）
选项A：任务调度
选项B：内存管理
选项C：SQL查询
选项D：容错机制
正确答案问询微信：424329

35.Scala中使用（）方法来查看两个集合的交集元素
选项A：对
选项B：错
正确答案问询微信：424329

36.Scala中默认情况下使用的是可变的Map
选项A：对
选项B：错
正确答案问询微信：424329

提供优质的教育资源