南开大学23年秋学期《大数据开发技术(二)》在线作业三
奥鹏南开大学23年秋季新学期作业参考
23秋学期(仅限-高起专1909、专升本1909)《大数据开发技术(二)》在线作业-00003
Spark中DataFrame的()方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
正确答案问询微信:424329
Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信:424329
以下哪个不是Scala的数据类型()
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信:424329
Scala通过()来定义变量
A:val
B:val
C:define
D:def
正确答案问询微信:424329
Spark Streming中()函数当被调用的两个DStream分别含有(K, V) 和(K, W)键值对时,返回一个(K, Seq[V], Seq[W])类型的新的DStream。
A:union
B:reduce
C:join
D:cogroup
正确答案问询微信:424329
下列Scala代码应输出():
var a=0;
var b=0
var sum=0;
for(a-1 until 3; b-1 until 3) {
sum+=a+b;
}
println(sum);
A:36
B:35
C:11
D:12
正确答案问询微信:424329
Scala列表中()可以表示为一个空列表
A:Nill
B:Nil
C:List
D:None
正确答案问询微信:424329
请问RDD的()操作用于将相同键的数据聚合
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信:424329
以下算法中属于无监督学习算法的是()
A:KNN算法
B:逻辑回归
C:随机森林
D:Kmeans
正确答案问询微信:424329
Scala可以使用()关键字实现单例模式
A:object
B:static
C:private
D:public
正确答案问询微信:424329
一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的()多倍
A:2
B:10
C:100
D:1000
正确答案问询微信:424329
Scala通过()来定义常量
A:val
B:val
C:define
D:def
正确答案问询微信:424329
PairRDD可以通过()获得仅包含键的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信:424329
Spark Streming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。
A:transform
B:reduce
C:join
D:cogroup
正确答案问询微信:424329
以下哪个函数可以求两个RDD差集 ()
A:union
B:substract
C:intersection
D:cartesian
正确答案问询微信:424329
spark-submit配置项中()表示executor内存大小
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信:424329
spark-submit配置项中()表示executor使用的总核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信:424329
Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用()方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329
Mllib中线性会馆算法中的参数stepSize表示()
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信:424329
Scala列表方法中返回所有元素,除了最后一个的方法是()
A:drop
B:head
C:filter
D:init
正确答案问询微信:424329
GraphX中()是完整提供边的各种操作类
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
正确答案问询微信:424329
请问RDD的()操作作用于K-V类型的RDD上,返回指定K的所有V值
A:search
B:find
C:findByKey
D:lookup
正确答案问询微信:424329
RDD的()操作通常用来划分单词
A:filter
B:union
C:flatmap
D:mapPartitions
正确答案问询微信:424329
图的结构通常表示为:G(V,E),其中,E是图G中()
A:顶点
B:顶点的集合
C:边
D:边的集合
正确答案问询微信:424329
Scala列表方法中获取列表的第一个元素的方法是()
A:drop
B:head
C:filter
D:init
正确答案问询微信:424329
Spark是一个()计算框架
A:快速
B:分布式
C:可扩展
D:容错
正确答案问询微信:424329
Spark包含的高级工具有()
A:Spark SQL
B:Mllib
C:GraphX
D:park Streaming
正确答案问询微信:424329
Scala中使用() 方法来连接两个集合
A:append
B:++
C:concat
D:Set.++()
正确答案问询微信:424329
Spark可以通过哪些外部存储创建RDD()
A:文本文件
B:目录
C:压缩文件
D:通配符匹配的文件
正确答案问询微信:424329
以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A:resetpartition
B:repartiton
C:Partition
D:coalesce
正确答案问询微信:424329
GraphX中()方法可以缓存整个图
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信:424329
Spark创建DataFrame对象方式有()
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
正确答案问询微信:424329
Spark SQL可以处理()
A:RDD
B:Parquet文件
C:JSON文件
D:Hive表
正确答案问询微信:424329
Spark Streaming支持实时流式数据,包括()
A:Web服务器日志文件
B:社交网络数据
C:实时交易数据
D:类似Kafka的信息数据
正确答案问询微信:424329
Spark DataFrame中()方法可以获取若干行数据
A:first
B:head
C:take
D:collect
正确答案问询微信:424329
聚类是一种无监督学习的方法,用于将高度相似的数据分到一类中
A:对
B:错
正确答案问询微信:424329
RDD中join操作根据键对两个RDD进行内连接,将两个RDD 中键相同的数据的值相加。
A:对
B:错
正确答案问询微信:424329
mllib.feature中存在一些常见的特征转化方法,主要包括创建特征向量和标准化数据
A:对
B:错
正确答案问询微信:424329
PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作
A:对
B:错
正确答案问询微信:424329
默认情况下,Scala 使用的是可变集合
A:对
B:错
正确答案问询微信:424329
PairRDD中groupByKey是对具有相同键的值进行分组
A:对
B:错
正确答案问询微信:424329
Spark SQL仅仅包括基本的SQL语法
A:对
B:错
正确答案问询微信:424329
如果其中有一个节点因为某种原因出现故障时, Spar奥鹏南开大学23年秋季新学期作业参考k 需要用到缓存数据时不会重算丢失的分区,因此不需要计算所有的分区。
A:对
B:错
正确答案问询微信:424329
图的出度数是以当前顶点为起点的边的数量
A:对
B:错
正确答案问询微信:424329
Scala中列表是可变的
A:对
B:错
正确答案问询微信:424329
Scala列表中last返回列表最后一个元素
A:对
B:错
正确答案问询微信:424329
RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。
A:对
B:错
正确答案问询微信:424329
RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组
A:对
B:错
正确答案问询微信:424329
PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。
A:对
B:错
正确答案问询微信:424329
RDD的intersection方法用于求出两个RDD 的共同元素
A:对
B:错
正确答案问询微信:424329