南开23春学期(高起本:1709-2103、专升本高起专:1903-2103)《大数据开发技术(二)》在线作业二
奥鹏南开大学新学期作业参考

南开大学23春学期(高起本:1709-2103、专升本/高起专:1903-2103)《大数据开发技术(二)》在线作业
1.以下哪个函数可以求两个RDD的笛卡尔积()
选项A:union
选项B:substract
选项C:intersection
选项D:cartesian
正确答案问询微信:424329
2.()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上
选项A:SparkR
选项B:BlinkDB
选项C:GraphX
选项D:Mllib
正确答案问询微信:424329
3.RDD的()操作通常用来划分单词
选项A:filter
选项B:union
选项C:flatmap
选项D:mapPartitions
正确答案问询微信:424329
4.以下哪个不是Scala的数据类型()
选项A:AnyRef
选项B:Anything
选项C:NULL
选项D:Nothing
正确答案问询微信:424329
5.Spark GraphX中类Graph的reverse方法可以()
选项A:反转图中所有边的方向
选项B:按照设定条件取出子图
选项C:取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
选项D:合并边相同的属性
正确答案问询微信:424329
6.图结构中如果任意两个顶点之间都存在边,那么称之为()
选项A:完全图
选项B:有向完全图
选项C:无向图
选项D:简单图
正确答案问询微信:424329
7.Spark中DataFrame的()方法是进行条件查询
选项A:where
选项B:join
选项C:limit
选项D:apply
正确答案问询微信:424329
8.Scala中()方法返回一个列表,包含除了最后一个元素之外的其他元素
选项A:head
选项B:init
选项C:tail
选项D:last
正确答案问询微信:424329
9.var a=10;
for(a-1 until 20){
println(a);
}
共循环了()次
选项A:10
选项B:11
选项C:20
选项D:19
正确答案问询微信:424329
10.以下哪个函数可以求两个RDD差集 ()
选项A:union
选项B:substract
选项C:intersection
选项D:cartesian
正确答案问询微信:424329
11.以下哪个函数可以对两个RDD进行合并()
选项A:union
选项B:substract
选项C:intersection
选项D:cartesian
正确答案问询微信:424329
12.Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用()方法
选项A:Graph(vertices,edges, defaultVertexAttr)
选项B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C:Graph.fromEdgeTuples(r奥鹏南开大学新学期作业参考awEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329
13.Scala中()方法返回Map所有的value
选项A:key
选项B:keys
选项C:value
选项D:values
正确答案问询微信:424329
14.GraphX中graph.vertices可以得到()
选项A:顶点视图
选项B:边视图
选项C:顶点与边的三元组整体视图
选项D:有向图
正确答案问询微信:424329
15.GraphX中()是完整提供边的各种操作类
选项A:RDD[Edge]
选项B:EdgeRDD
选项C:RDD[(VertexId,VD)]
选项D:VertexRDD
正确答案问询微信:424329
16.GraphX中()是存放着存放顶点的RDD
选项A:RDD[Edge]
选项B:EdgeRDD
选项C:RDD[(VertexId,VD)]
选项D:VertexRDD
正确答案问询微信:424329
17.Spark GraphX中类Graph的collectNeighbors(edgeDirection: EdgeDirection)方法可以()
选项A:收集邻居顶点的顶点Id和顶点属性
选项B:收集邻居顶点的顶点Id
选项C:向指定顶点发送信息并聚合信息
选项D:将顶点信息更新到图中
正确答案问询微信:424329
18.在MLlib中,逻辑回归算法的输入值为()类型
选项A:Double
选项B:LabledPoint
选项C:Point
选项D:SGB
正确答案问询微信:424329
19.Graph类中如果根据边数据创建图,数据需要转换成RDD[Edge[ED]类型,应该用()方法
选项A:Graph(vertices,edges, defaultVertexAttr)
选项B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
选项C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
选项D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329
20.()是Spark的数据挖掘算法库
选项A:Spark Core
选项B:BlinkDB
选项C:GraphX
选项D:Mllib
正确答案问询微信:424329
21.Spark Streming中()函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStream
选项A:union
选项B:reduce
选项C:join
选项D:cogroup
正确答案问询微信:424329
22.Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是()
选项A:map
选项B:foreach
选项C:flatten
选项D:flatmap
正确答案问询微信:424329
23.Mllib中线性会馆算法中的参数numIterations表示()
选项A:要运行的迭代次数
选项B:梯度下降的步长
选项C:是否给数据加干扰特征或者偏差特征
选项D:Lasso 和ridge 的正规化参数
正确答案问询微信:424329
24.Scala列表方法中获取列表的第一个元素的方法是()
选项A:drop
选项B:head
选项C:filter
选项D:init
正确答案问询微信:424329
25.Spark Streming中()函数可以对源DStream的每个元素通过函数func返回一个新的DStream
选项A:map
选项B:flatMap
选项C:filter
选项D:union
正确答案问询微信:424329
26.以下是机器学习的常用算法的是()
选项A:回归算法
选项B:聚类算法
选项C:降维算法
选项D:分类算法
正确答案问询微信:424329
27.TF-IDF中IDF指的是()
选项A:词频
选项B:词在文档中出现的次数
选项C:逆文档概率
选项D:词在文档集中出现的概率
选项E:词在文档集中出现的概率
正确答案问询微信:424329
28.Spark Streaming能够和()无缝集成
选项A:Hadoop
选项B:Spark SQL
选项C:Mllib
选项D:GraphX
正确答案问询微信:424329
29.RDD是一个()的数据结构
选项A:可读写
选项B:只读的
选项C:容错的
选项D:可进行并行操作的
正确答案问询微信:424329
30.Spark DataFrame中()方法可以返回一个Array对象
选项A:collect
选项B:take
选项C:takeAsList
选项D:collectAsList
正确答案问询微信:424329
31.以下算法中属于监督学习算法的是()
选项A:KNN算法
选项B:逻辑回归
选项C:随机森林
选项D:Kmeans
正确答案问询微信:424329
32.Scala函数支持()
选项A:递归函数
选项B:高阶函数
选项C:柯里化
选项D:匿名函数
正确答案问询微信:424329
33.MLlib中进行数据标准化的方式有()
选项A:Normalizer
选项B:Standard
选项C:StandardScaleer
选项D:MinMaxScaler
正确答案问询微信:424329
34.Spark Core包含的功能有()
选项A:任务调度
选项B:内存管理
选项C:SQL查询
选项D:容错机制
正确答案问询微信:424329
35.Scala中使用()方法来查看两个集合的交集元素
选项A:对
选项B:错
正确答案问询微信:424329
36.Scala中默认情况下使用的是可变的Map
选项A:对
选项B:错
正确答案问询微信:424329