南开大学23年秋学期《大数据开发技术（二）》在线作业三

奥鹏南开大学23年秋季新学期作业参考

23秋学期（仅限-高起专1909、专升本1909）《大数据开发技术（二）》在线作业-00003

Spark中DataFrame的（）方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
正确答案问询微信：424329

Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信：424329

以下哪个不是Scala的数据类型（）
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信：424329

Scala通过（）来定义变量
A:val
B:val
C:define
D:def
正确答案问询微信：424329

Spark Streming中（）函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。
A:union
B:reduce
C:join
D:cogroup
正确答案问询微信：424329

下列Scala代码应输出（）：
var a=0;
var b=0
var sum=0;
for(a-1 until 3; b-1 until 3) {
sum+=a+b;
}
println(sum);
A:36
B:35
C:11
D:12
正确答案问询微信：424329

Scala列表中（）可以表示为一个空列表
A:Nill
B:Nil
C:List
D:None
正确答案问询微信：424329

请问RDD的（）操作用于将相同键的数据聚合
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信：424329

以下算法中属于无监督学习算法的是（）
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
正确答案问询微信：424329

Scala可以使用（）关键字实现单例模式
A:object
B:static
C:private
D:public
正确答案问询微信：424329

一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的（）多倍
A:2
B:10
C:100
D:1000
正确答案问询微信：424329

Scala通过（）来定义常量
A:val
B:val
C:define
D:def
正确答案问询微信：424329

PairRDD可以通过（）获得仅包含键的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

Spark Streming中（）函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream，这可以用来在DStream做任意RDD操作。
A:transform
B:reduce
C:join
D:cogroup
正确答案问询微信：424329

以下哪个函数可以求两个RDD差集（）
A:union
B:substract
C:intersection
D:cartesian
正确答案问询微信：424329

spark-submit配置项中（）表示executor内存大小
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

spark-submit配置项中（）表示executor使用的总核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

Mllib中线性会馆算法中的参数stepSize表示（）
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信：424329

Scala列表方法中返回所有元素，除了最后一个的方法是（）
A:drop
B:head
C:filter
D:init
正确答案问询微信：424329

GraphX中（）是完整提供边的各种操作类
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
正确答案问询微信：424329

请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值
A:search
B:find
C:findByKey
D:lookup
正确答案问询微信：424329

RDD的（）操作通常用来划分单词
A:filter
B:union
C:flatmap
D:mapPartitions
正确答案问询微信：424329

图的结构通常表示为：G(V,E)，其中，E是图G中()
A:顶点
B:顶点的集合
C:边
D:边的集合
正确答案问询微信：424329

Scala列表方法中获取列表的第一个元素的方法是（）
A:drop
B:head
C:filter
D:init
正确答案问询微信：424329

Spark是一个（）计算框架
A:快速
B:分布式
C:可扩展
D:容错
正确答案问询微信：424329

Spark包含的高级工具有（）
A:Spark SQL
B:Mllib
C:GraphX
D:park Streaming
正确答案问询微信：424329

Scala中使用（）方法来连接两个集合
A:append
B:++
C:concat
D:Set.++()
正确答案问询微信：424329

Spark可以通过哪些外部存储创建RDD（）
A:文本文件
B:目录
C:压缩文件
D:通配符匹配的文件
正确答案问询微信：424329

以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区（）
A:resetpartition
B:repartiton
C:Partition
D:coalesce
正确答案问询微信：424329

GraphX中（）方法可以缓存整个图
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
正确答案问询微信：424329

Spark SQL可以处理（）
A:RDD
B:Parquet文件
C:JSON文件
D:Hive表
正确答案问询微信：424329

Spark Streaming支持实时流式数据，包括（）
A:Web服务器日志文件
B:社交网络数据
C:实时交易数据
D:类似Kafka的信息数据
正确答案问询微信：424329

Spark DataFrame中（）方法可以获取若干行数据
A:first
B:head
C:take
D:collect
正确答案问询微信：424329

聚类是一种无监督学习的方法，用于将高度相似的数据分到一类中
A:对
B:错
正确答案问询微信：424329

RDD中join操作根据键对两个RDD进行内连接，将两个RDD 中键相同的数据的值相加。
A:对
B:错
正确答案问询微信：424329

mllib.feature中存在一些常见的特征转化方法，主要包括创建特征向量和标准化数据
A:对
B:错
正确答案问询微信：424329

PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作
A:对
B:错
正确答案问询微信：424329

默认情况下，Scala 使用的是可变集合
A:对
B:错
正确答案问询微信：424329

PairRDD中groupByKey是对具有相同键的值进行分组
A:对
B:错
正确答案问询微信：424329

Spark SQL仅仅包括基本的SQL语法
A:对
B:错
正确答案问询微信：424329

如果其中有一个节点因为某种原因出现故障时， Spar奥鹏南开大学23年秋季新学期作业参考k 需要用到缓存数据时不会重算丢失的分区，因此不需要计算所有的分区。
A:对
B:错
正确答案问询微信：424329

图的出度数是以当前顶点为起点的边的数量
A:对
B:错
正确答案问询微信：424329

Scala中列表是可变的
A:对
B:错
正确答案问询微信：424329

Scala列表中last返回列表最后一个元素
A:对
B:错
正确答案问询微信：424329

RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
A:对
B:错
正确答案问询微信：424329

RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组
A:对
B:错
正确答案问询微信：424329

PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。
A:对
B:错
正确答案问询微信：424329

RDD的intersection方法用于求出两个RDD 的共同元素
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源