南开大学23年春《大数据开发技术（二）》在线作业二

奥鹏南开大学新学期作业参考

23春学期（仅限-高起专1903、专升本1903）《大数据开发技术（二）》在线作业-00002

spark-submit配置项中（）表示Driver程序使用的内存大小
A:–driver-memory MEM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

请问RDD的（）操作用于将相同键的数据聚合
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信：424329

（）是Spark的数据挖掘算法库
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib
正确答案问询微信：424329

spark-submit配置项中（）表示executor内存大小
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

以下哪个函数可以对两个RDD进行合并（）
A:union
B:substract
C:intersection
D:cartesian
正确答案问询微信：424329

Scala列表方法中返回所有元素，除了最后一个的方法是（）
A:drop
B:head
C:filter
D:init
正确答案问询微信：424329

var a=10;
do{
a+=1;
}while(a20)
共循环了（）次
A:9
B:10
C:11
D:12
正确答案问询微信：424329

GraphX中（）是存放着Edg对象的RDD
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
正确答案问询微信：424329

Mllib中线性会馆算法中的参数numIterations表示（）
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信：424329

当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作
A:transfer
B:change
C:map
D:build
正确答案问询微信：424329

图的结构通常表示为：G(V,E)，其中，G表示（）
A:图
B:子图
C:顶点
D:边
正确答案问询微信：424329

图是一种数据元素间为（）关系的数据结构
A:多对多
B:一对一
C:一对多
D:多对一
正确答案问询微信：424329

GraphX中（）方法可以释放边缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

GraphX中graph.vertices可以得到（）
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
正确答案问询微信：424329

Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。
A:第一个
B:所有
C:前10个
D:前100个
正确答案问询微信：424329

Spark Streming中（）函数可以对统计DStream中每个RDD包含的元素的个数，得到一个新的DStream
A:count
B:union
C:length
D:reduce
正确答案问询微信：424329

PairRDD可以通过（）获得仅包含键的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

Spark中DataFrame的（）方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
正确答案问询微信：424329

Mllib中metrics.recal奥鹏南开大学新学期作业参考代做2元一门lByThreshold
表示（）指标
A:准确度
B:召回率
C:F值
D:ROC曲线
正确答案问询微信：424329

Mllib中metrics.precisionByThreshold表示（）指标
A:准确度
B:召回率
C:F值
D:ROC曲线
正确答案问询微信：424329

图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图
正确答案问询微信：424329

以下哪个不是Scala的数据类型（）
A:Int
B:Short Int
C:Long
D:Any
正确答案问询微信：424329

Spark GraphX中类Graph的reverse方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性
正确答案问询微信：424329

Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信：424329

GraphX中（）方法可以释放顶点缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

Spark DataFrame中（）方法可以获取若干行数据
A:first
B:head
C:take
D:collect
正确答案问询微信：424329

以下是机器学习的常用算法的是（）
A:回归算法
B:聚类算法
C:降维算法
D:分类算法
正确答案问询微信：424329

Spark DataFrame中（）方法可以返回一个Array对象
A:collect
B:take
C:takeAsList
D:collectAsList
正确答案问询微信：424329

Scala支持（）
A:匿名函数
B:高阶函数
C:函数嵌套
D:柯里化
正确答案问询微信：424329

RDD是一个（）的数据结构
A:可读写
B:只读的
C:容错的
D:可进行并行操作的
正确答案问询微信：424329

Spark支持的文件格式包括（）
A:文本文件
B:JSON
C:CSV
D:SequenceFile
正确答案问询微信：424329

Spark支持使用（）语言编写应用
A:Scala
B:Python
C:Java
D:R
正确答案问询微信：424329

决策树是（）的常用算法
A:分类
B:聚类
C:降维
D:回归
正确答案问询微信：424329

Spark Streaming能够和（）无缝集成
A:Hadoop
B:Spark SQL
C:Mllib
D:GraphX
正确答案问询微信：424329

Spark SQL 可以通过（）方法加载json文件为DataFrame
A:format
B:json
C:get
D:read
正确答案问询微信：424329

Scala在子类中重写超类的抽象方法时，需要使用override关键字
A:对
B:错
正确答案问询微信：424329

Spark可以通过反射机制推断RDD模式
A:对
B:错
正确答案问询微信：424329

Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map
A:对
B:错
正确答案问询微信：424329

Scala是不可扩展的
A:对
B:错
正确答案问询微信：424329

Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。
A:对
B:错
正确答案问询微信：424329

Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别
A:对
B:错
正确答案问询微信：424329

Scala中元组是是一种可迭代的键值对（key/value）结构。
A:对
B:错
正确答案问询微信：424329

PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。
A:对
B:错
正确答案问询微信：424329

DataFrame是一个分布式的Row对象的数据集合
A:对
B:错
正确答案问询微信：424329

Spark持久化RDD 后，在再一次需要计算该RDD 时将需要重新计算
A:对
B:错
正确答案问询微信：424329

MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。
A:对
B:错
正确答案问询微信：424329

Spark SQL包括基本的SQL语法和HiveQL语法
A:对
B:错
正确答案问询微信：424329

Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素
A:对
B:错
正确答案问询微信：424329

RDD的subtract用于用于将后一个RDD 中在前一个RDD 出现的元素删除
A:对
B:错
正确答案问询微信：424329

Scala 集合分为可变的和不可变的集合
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源