南开大学23秋学期《大数据开发技术（二）》在线作业二

奥鹏南开大学23年秋季新学期作业参考

23秋学期（高起本：1709-2103、专升本/高起专：2003-2103）《大数据开发技术（二）》在线作业-00002

Graph类中如果要根据分开存放的奥鹏南开大学23年秋季新学期作业参考顶点数据和边数据创建图，应该用（）方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信：424329

PairRDD可以通过（）获得仅包含键的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值
A:search
B:find
C:findByKey
D:lookup
正确答案问询微信：424329

请问RDD的（）操作是将两个RDD组合成Key/Value形式的RDD
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信：424329

Spark GraphX中类Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以（）
A:收集邻居顶点的顶点Id和顶点属性
B:收集邻居顶点的顶点Id
C:向指定顶点发送信息并聚合信息
D:将顶点信息更新到图中
正确答案问询微信：424329

Dstream窗口操作中（）方法返回基于滑动窗口的DStream中的元素的数量
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
正确答案问询微信：424329

Spark中DataFrame的（）方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
正确答案问询微信：424329

以下哪个不是Scala的数据类型（）
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信：424329

Scala函数组合器可以通过一个函数重新计算列表中所有元素，但是没有返回值的方法是（）
A:map
B:foreach
C:flatten
D:flatmap
正确答案问询微信：424329

以下哪个函数可以对RDD进行去重（）
A:sortBy
B:filter
C:distinct
D:intersection
正确答案问询微信：424329

递归函数意味着函数可以调用它（）
A:其他函数
B:主函数
C:子函数
D:自身
正确答案问询微信：424329

Scala列表方法中输出符号指定条件的所有元素的方法是（）
A:drop
B:head
C:filter
D:init
正确答案问询微信：424329

Scala中（）方法返回Map所有的value
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

Spark中DataFrame的（）方法是进行连接查询
A:where
B:join
C:limit
D:apply
正确答案问询微信：424329

下列Scala代码应输出（）：
var a=0;
var b=0
var sum=0;
for(a-1 until 3; b-1 until 3) {
sum+=a+b;
}
println(sum);
A:36
B:35
C:11
D:12
正确答案问询微信：424329

Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信：424329

Scala中重写一个非抽象方法必须使用（）修饰符。
A:extends
B:override
C:extend
D:overrides
正确答案问询微信：424329

GraphX中（）方法可以查询顶点个数
A:numVertices
B:numEdges
C:vertices
D:edges
正确答案问询微信：424329

Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是（）
A:filter
B:flatten
C:grouby
D:flatmap
正确答案问询微信：424329

图结构中如果任意两个顶点之间都存在有向边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图
正确答案问询微信：424329

GraphX中graph.edges可以得到（）
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
正确答案问询微信：424329

Spark Streming中（）函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象
A:map
B:flatMap
C:filter
D:union
正确答案问询微信：424329

Scala 使用（）关键字来继承一个类
A:extends
B:override
C:extend
D:overrides
正确答案问询微信：424329

GraphX中（）方法可以释放边缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

Mllib中线性会馆算法中的参数stepSize表示（）
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信：424329

Spark可以从（）分布式文件系统中读取数据
A:HDFS
B:Hbase
C:Hive
D:Tachyon
正确答案问询微信：424329

以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区（）
A:resetpartition
B:repartiton
C:Partition
D:coalesce
正确答案问询微信：424329

TF-IDF中IDF指的是（）
A:词频
B:词在文档中出现的次数
C:逆文档概率
D:词在文档集中出现的概率
E:词在文档集中出现的概率
正确答案问询微信：424329

GraphX中Edge边对象存有（）字段
A:srcId
B:dstId
C:attr
D:val
正确答案问询微信：424329

以下哪个方法可以实现Spark SQL对数据的查询（）
A:SqlContext
B:MySQLContext
C:HiveContext
D:context
正确答案问询微信：424329

MLBase包括（）
A:Mllib
B:MLI
C:SparkR
D:GraphX
正确答案问询微信：424329

Spark是一个（）计算框架
A:快速
B:分布式
C:可扩展
D:容错
正确答案问询微信：424329

Spark可以通过哪些外部存储创建RDD（）
A:文本文件
B:目录
C:压缩文件
D:通配符匹配的文件
正确答案问询微信：424329

Spark Streaming能够处理来自（）的数据
A:Kafka
B:Flume
C:Twitter
D:ZeroMQ
正确答案问询微信：424329

Spark中的RDD的说法正确的是（）
A:弹性分布式数据集
B:是Spark中最基本的数据抽象
C:代表一个可变的集合
D:代表的集合里面的元素可并行计算
正确答案问询微信：424329

Scala中Map的isEmpty函数在Map为空时返回true
A:对
B:错
正确答案问询微信：424329

Scala是一种纯面向对象的语言，每个值都是对象。
A:对
B:错
正确答案问询微信：424329

RDD的map操作不会改变RDD的分区数目
A:对
B:错
正确答案问询微信：424329

Scala 配备了一种表现型的系统，它以静态的方式进行抽象，以安全和连贯的方式进行使用。
A:对
B:错
正确答案问询微信：424329

Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD 实例。
A:对
B:错
正确答案问询微信：424329

Spark RDD 是惰性求值的，如果需要对一个RDD 多次使用，那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。
A:对
B:错
正确答案问询微信：424329

Scala中Map 合并时会移除重复的 key
A:对
B:错
正确答案问询微信：424329

Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。
A:对
B:错
正确答案问询微信：424329

RDD的mapPartitions操作会导致Partitions数量的变化
A:对
B:错
正确答案问询微信：424329

RDD中combineByKey不允许返回类型与输入数据类型不同的返回值
A:对
B:错
正确答案问询微信：424329

RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
A:对
B:错
正确答案问询微信：424329

用户可以在Hadoop YARN上运行Spark
A:对
B:错
正确答案问询微信：424329

Dstream输出操作中foreachRDD的正确用法是使用rdd.foreachPartition方法创建一个单独的连接对象，然后使用该连接对象输出所有RDD分区中的数据到外部系统
A:对
B:错
正确答案问询微信：424329

RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错
正确答案问询微信：424329

SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源