南开大学23秋学期《大数据开发技术（二）》在线作业一

奥鹏南开大学23年秋季新学期作业参考

23秋学期（高起本：1709-2103、专升本/高起专：2003-2103）《大数据开发技术（二）》在线作业-00001

Scala中（）方法返回Map所有的key
A:key
B:keys
C:value
D:values
正确答案问询微信：424329

spark-submit配置项中（）表示每个executor使用的内核数
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

在MLlib中，逻辑回归算法的输入值为（）类型
A:Double
B:LabledPoint
C:Point
D:SGB
正确奥鹏南开大学23年秋季新学期作业参考答案问询微信：424329

Mllib中线性会馆算法中的参数numIterations表示（）
A:要运行的迭代次数
B:梯度下降的步长
C:是否给数据加干扰特征或者偏差特征
D:Lasso 和ridge 的正规化参数
正确答案问询微信：424329

GraphX中（）是存放着存放顶点的RDD
A:RDD[Edge]
B:EdgeRDD
C:RDD[(VertexId,VD)]
D:VertexRDD
正确答案问询微信：424329

图是一种数据元素间为（）关系的数据结构
A:多对多
B:一对一
C:一对多
D:多对一
正确答案问询微信：424329

以下哪个不是Scala的数据类型（）
A:AnyRef
B:Anything
C:NULL
D:Nothing
正确答案问询微信：424329

Spark GraphX中类Graph的reverse方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性
正确答案问询微信：424329

以下哪个函数可以求两个RDD的笛卡尔积（）
A:union
B:substract
C:intersection
D:cartesian
正确答案问询微信：424329

Spark中的每个RDD一般情况下是由（）个分区组成的
A:0
B:1
C:多
D:无数
正确答案问询微信：424329

（）可以解决图计算问题
A:Spark Core
B:BlinkDB
C:GraphX
D:Mllib
正确答案问询微信：424329

请问RDD的（）操作用来计算RDD中所有元素个数
A:count
B:num
C:length
D:number
正确答案问询微信：424329

Mllib中metrics.fMeasureByThreshold
表示（）指标
A:准确度
B:召回率
C:F值
D:ROC曲线
正确答案问询微信：424329

MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练分类树
A:trainClassifier
B:trainRegressor
C:LogisticRegressionModel
D:LabeledPoint
正确答案问询微信：424329

Spark中DataFrame的（）方法是进行连接查询
A:where
B:join
C:limit
D:apply
正确答案问询微信：424329

Spark中DataFrame的（）方法是进行条件查询
A:where
B:join
C:limit
D:apply
正确答案问询微信：424329

图结构中如果无重复的边或者顶点到自身的边，那么称之为（）
A:完全图
B:有向完全图
C:无向图
D:简单图
正确答案问询微信：424329

Dstream窗口操作中（）方法返回一个基于源DStream的窗口批次计算后得到新的DStream。
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
正确答案问询微信：424329

Dstream窗口操作中（）方法返回基于滑动窗口的DStream中的元素的数量
A:window
B:countByWindow
C:reduceByWindow
D:reduceByKeyAndWindow
正确答案问询微信：424329

当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作
A:transfer
B:change
C:map
D:build
正确答案问询微信：424329

spark-submit配置项中（）表示executor内存大小
A:–num-executors NUM
B:–executor-memory MEM
C:–total-executor-cores NUM
D:–executor-coures NUM
正确答案问询微信：424329

GraphX中VertexRDD[VD]继承自（）
A:EdgeRDD
B:RDD[Edge]
C:VertexRDD[VD]
D:RDD[(VertexId，VD)]
正确答案问询微信：424329

PairRDD的（）方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。
A:join
B:union
C:substract
D:intersection
正确答案问询微信：424329

Spark GraphX中类Graph的mask方法可以（）
A:反转图中所有边的方向
B:按照设定条件取出子图
C:取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性
D:合并边相同的属性
正确答案问询微信：424329

Dstream输出操作中（）方法将DStream中的内容以文本的形式保存为文本文件
A:print
B:saveAsTextFiles
C:saveAsObjectFiles
D:saveAsHadoopFiles
正确答案问询微信：424329

GraphX中（）方法可以缓存整个图
A:cache
B:presist
C:unpersistVertices
D:edges.unpersist
正确答案问询微信：424329

Spark支持的文件格式包括（）
A:文本文件
B:JSON
C:CSV
D:SequenceFile
正确答案问询微信：424329

MLlib中用于线性回归算法的包主要有（）
A:LinearRegressionWithSGD
B:RidgeRegressionWithSGD
C:LassoWithSGD
D:LeftRegression
正确答案问询微信：424329

Spark创建DataFrame对象方式有（）
A:结构化数据文件
B:外部数据库
C:RDD
D:Hive中的表
正确答案问询微信：424329

以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区（）
A:resetpartition
B:repartiton
C:Partition
D:coalesce
正确答案问询微信：424329

Spark DataFrame中（）方法可以获取若干行数据
A:first
B:head
C:take
D:collect
正确答案问询微信：424329

Spark Streaming能够处理来自（）的数据
A:Kafka
B:Flume
C:Twitter
D:ZeroMQ
正确答案问询微信：424329

Spark Streaming支持实时流式数据，包括（）
A:Web服务器日志文件
B:社交网络数据
C:实时交易数据
D:类似Kafka的信息数据
正确答案问询微信：424329

Spark DataFrame中（）方法可以返回一个Array对象
A:collect
B:take
C:takeAsList
D:collectAsList
正确答案问询微信：424329

Scala中构造列表的两个基本单位是（）
A:Nil
B:Nill
C:::
D:List
正确答案问询微信：424329

Spark RDD 是惰性求值的，如果需要对一个RDD 多次使用，那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。
A:对
B:错
正确答案问询微信：424329

Scala中创建一个方法时经常用void表示该方法无返回值
A:对
B:错
正确答案问询微信：424329

Scala调用匿名函数可以将函数赋值给一个常量或变量，然后通过常量名或变量名调用该函数
A:对
B:错
正确答案问询微信：424329

Spark中DataFrame 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action 操作才会进行计算并返回查询结果。
A:对
B:错
正确答案问询微信：424329

Scala中用Unit表示无值，等同于Java中的void
A:对
B:错
正确答案问询微信：424329

Spark Streming中DStream可以通过外部数据源（Kafka，Flume，Twitter等）来获取，也可以通过现有DStream的高级操作（Transformation操作）获得
A:对
B:错
正确答案问询微信：424329

如果其中有一个节点因为某种原因出现故障时， Spark 需要用到缓存数据时不会重算丢失的分区，因此不需要计算所有的分区。
A:对
B:错
正确答案问询微信：424329

Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。
A:对
B:错
正确答案问询微信：424329

MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。
A:对
B:错
正确答案问询微信：424329

Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值
A:对
B:错
正确答案问询微信：424329

RDD是一个可读写的数据结构
A:对
B:错
正确答案问询微信：424329

Scala中列表是可变的
A:对
B:错
正确答案问询微信：424329

PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作
A:对
B:错
正确答案问询微信：424329

RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。
A:对
B:错
正确答案问询微信：424329

RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源