南开大学23秋学期《大数据开发技术(二)》在线作业二
奥鹏南开大学23年秋季新学期作业参考
23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《大数据开发技术(二)》在线作业-00002
Graph类中如果要根据分开存放的奥鹏南开大学23年秋季新学期作业参考顶点数据和边数据创建图,应该用()方法
A:Graph(vertices,edges, defaultVertexAttr)
B:Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C:Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D:GraphLoader.edgeListFile(sc,filename)
正确答案问询微信:424329
PairRDD可以通过()获得仅包含键的RDD
A:key
B:keys
C:value
D:values
正确答案问询微信:424329
请问RDD的()操作作用于K-V类型的RDD上,返回指定K的所有V值
A:search
B:find
C:findByKey
D:lookup
正确答案问询微信:424329
请问RDD的()操作是将两个RDD组合成Key/Value形式的RDD
A:join
B:zip
C:combineByKey
D:collect
正确答案问询微信:424329
Spark GraphX中类Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以()
A:收集邻居顶点的顶点Id和顶点属性
B:收集邻居顶点的顶点Id
C:向指定顶点发送信息并聚合信息
D:将顶点信息更新到图中
正确答案问询微信:424329
Dstream窗口操作中()方法返回基于滑动窗口的DStream中的元素的数量
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
正确答案问询微信:424329
Spark中DataFrame的()方法是进行分组查询
A:order by
B:group by
C:select by
D:sort by
正确答案问询微信:424329
以下哪个不是Scala的数据类型()
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信:424329
Scala函数组合器可以通过一个函数重新计算列表中所有元素,但是没有返回值的方法是()
A:map
B:foreach
C:flatten
D:flatmap
正确答案问询微信:424329
以下哪个函数可以对RDD进行去重()
A:sortBy
B:filter
C:distinct
D:intersection
正确答案问询微信:424329
递归函数意味着函数可以调用它()
A:其他函数
B:主函数
C:子函数
D:自身
正确答案问询微信:424329
Scala列表方法中输出符号指定条件的所有元素的方法是()
A:drop
B:head
C:filter
D:init
正确答案问询微信:424329
Scala中()方法返回Map所有的value
A:key
B:keys
C:value
D:values
正确答案问询微信:424329
Spark中DataFrame的()方法是进行连接查询
A:where
B:join
C:limit
D:apply
正确答案问询微信:424329
下列Scala代码应输出():
var a=0;
var b=0
var sum=0;
for(a-1 until 3; b-1 until 3) {
sum+=a+b;
}
println(sum);
A:36
B:35
C:11
D:12
正确答案问询微信:424329
Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信:424329
Scala中重写一个非抽象方法必须使用()修饰符。
A:extends
B:override
C:extend
D:overrides
正确答案问询微信:424329
GraphX中()方法可以查询顶点个数
A:numVertices
B:numEdges
C:vertices
D:edges
正确答案问询微信:424329
Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是()
A:filter
B:flatten
C:grouby
D:flatmap
正确答案问询微信:424329
图结构中如果任意两个顶点之间都存在有向边,那么称之为()
A:完全图
B:有向完全图
C:无向图
D:简单图
正确答案问询微信:424329
GraphX中graph.edges可以得到()
A:顶点视图
B:边视图
C:顶点与边的三元组整体视图
D:有向图
正确答案问询微信:424329
Spark Streming中()函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象
A:map
B:flatMap
C:filter
D:union
正确答案问询微信:424329
Scala 使用 () 关键字来继承一个类
A:extends
B:override
C:extend
D:overrides
正确答案问询微信:424329
GraphX中()方法可以释放边缓存
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信:424329
Mllib中线性会馆算法中的参数stepSize表示()
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信:424329
Spark可以从()分布式文件系统中读取数据
A:HDFS
B:Hbase
C:Hive
D:Tachyon
正确答案问询微信:424329
以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A:resetpartition
B:repartiton
C:Partition
D:coalesce
正确答案问询微信:424329
TF-IDF中IDF指的是()
A:词频
B:词在文档中出现的次数
C:逆文档概率
D:词在文档集中出现的概率
E:词在文档集中出现的概率
正确答案问询微信:424329
GraphX中Edge边对象存有()字段
A:srcId
B:dstId
C:attr
D:val
正确答案问询微信:424329
以下哪个方法可以实现Spark SQL对数据的查询()
A:SqlContext
B:MySQLContext
C:HiveContext
D:context
正确答案问询微信:424329
MLBase包括()
A:Mllib
B:MLI
C:SparkR
D:GraphX
正确答案问询微信:424329
Spark是一个()计算框架
A:快速
B:分布式
C:可扩展
D:容错
正确答案问询微信:424329
Spark可以通过哪些外部存储创建RDD()
A:文本文件
B:目录
C:压缩文件
D:通配符匹配的文件
正确答案问询微信:424329
Spark Streaming能够处理来自()的数据
A:Kafka
B:Flume
C:Twitter
D:ZeroMQ
正确答案问询微信:424329
Spark中的RDD的说法正确的是()
A:弹性分布式数据集
B:是Spark中最基本的数据抽象
C:代表一个可变的集合
D:代表的集合里面的元素可并行计算
正确答案问询微信:424329
Scala中Map的isEmpty函数在Map为空时返回true
A:对
B:错
正确答案问询微信:424329
Scala是一种纯面向对象的语言,每个值都是对象。
A:对
B:错
正确答案问询微信:424329
RDD的map操作不会改变RDD的分区数目
A:对
B:错
正确答案问询微信:424329
Scala 配备了一种表现型的系统,它以静态的方式进行抽象,以安全和连贯的方式进行使用。
A:对
B:错
正确答案问询微信:424329
Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD 实例。
A:对
B:错
正确答案问询微信:424329
Spark RDD 是惰性求值的, 如果需要对一个RDD 多次使用,那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。
A:对
B:错
正确答案问询微信:424329
Scala中Map 合并时会移除重复的 key
A:对
B:错
正确答案问询微信:424329
Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。
A:对
B:错
正确答案问询微信:424329
RDD的mapPartitions操作会导致Partitions数量的变化
A:对
B:错
正确答案问询微信:424329
RDD中combineByKey不允许返回类型与输入数据类型不同的返回值
A:对
B:错
正确答案问询微信:424329
RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。
A:对
B:错
正确答案问询微信:424329
用户可以在Hadoop YARN上运行Spark
A:对
B:错
正确答案问询微信:424329
Dstream输出操作中foreachRDD的正确用法是使用rdd.foreachPartition方法创建一个单独的连接对象,然后使用该连接对象输出所有RDD分区中的数据到外部系统
A:对
B:错
正确答案问询微信:424329
RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除
A:对
B:错
正确答案问询微信:424329
SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD
A:对
B:错
正确答案问询微信:424329