南开23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业二

奥鹏南开大学新学期作业参考

南开23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业二插图

南开大学23春学期(高起专1903、专升本1903)《大数据开发技术(二)》在线作业

1.spark-submit配置项中()表示Driver程序使用的内存大小
选项A:–driver-memory MEM
选项B:–executor-memory MEM
选项C:–total-executor-cores NUM
选项D:–executor-coures NUM
正确答案问询微信:424329

2.请问RDD的()操作用于将相同键的数据聚合
选项A:join
选项B:zip
选项C:combineByKey
选项D:collect
正确答案问询微信:424329

3.()是Spark的数据挖掘算法库
选项A:Spark Core
选项B:BlinkDB
选项C:GraphX
选项D:Mllib
正确答案问询微信:424329

4.spark-submit配置项中()表示executor内存大小
选项A:–num-executors NUM
选项B:–executor-memory MEM
选项C:–total-executor-cores NUM
选项D:–executor-coures NUM
正确答案问询微信:424329

5.以下哪个函数可以对两个RDD进行合并()
选项A:union
选项B:substract
选项C:intersection
选项D:cartesian
正确答案问询微信:424329

6.Scala列表方法中返回所有元素,除了最后一个的方法是()
选项A:drop
选项B:head
选项C:filter
选项D:init
正确答案问询微信:424329

7.var a=10;
do{
a+=1;
}while(a20)
共循环了()次
选项A:9
选项B:10
选项C:11
选项D:12
正确答案问询微信:424329

8.GraphX中()是存放着Edg对象的RDD
选项A:RDD[Edge]
选项B:EdgeRDD
奥鹏南开大学新学期作业参考 选项C:RDD[(VertexId,VD)]
选项D:VertexRDD
正确答案问询微信:424329

9.Mllib中线性会馆算法中的参数numIterations表示()
选项A:要运行的迭代次数
选项B:梯度下降的步长
选项C:是否给数据加干扰特征或者偏差特征
选项D:Lasso 和ridge 的正规化参数
正确答案问询微信:424329

10.当需要将一个普通的RDD转化为一个PairRDD时可以使用()函数来进行操作
选项A:transfer
选项B:change
选项C:map
选项D:build
正确答案问询微信:424329

11.图的结构通常表示为:G(V,E),其中,G表示()
选项A:图
选项B:子图
选项C:顶点
选项D:边
正确答案问询微信:424329

12.图是一种数据元素间为()关系的数据结构
选项A:多对多
选项B:一对一
选项C:一对多
选项D:多对一
正确答案问询微信:424329

13.GraphX中()方法可以释放边缓存
选项A:cache
选项B:presist
选项C:unpersistVertices
选项D:edges.unpersist
正确答案问询微信:424329

14.GraphX中graph.vertices可以得到()
选项A:顶点视图
选项B:边视图
选项C:顶点与边的三元组整体视图
选项D:有向图
正确答案问询微信:424329

15.Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。
选项A:第一个
选项B:所有
选项C:前10个
选项D:前100个
正确答案问询微信:424329

16.Spark Streming中()函数可以对统计DStream中每个RDD包含的元素的个数,得到一个新的DStream
选项A:count
选项B:union
选项C:length
选项D:reduce
正确答案问询微信:424329

17.PairRDD可以通过()获得仅包含键的RDD
选项A:key
选项B:keys
选项C:value
选项D:values
正确答案问询微信:424329

18.Spark中DataFrame的()方法是进行分组查询
选项A:order by
选项B:group by
选项C:select by
选项D:sort by
正确答案问询微信:424329

19.Mllib中metrics.recallByThreshold
表示()指标
选项A:准确度
选项B:召回率
选项C:F值
选项D:ROC曲线
正确答案问询微信:424329

20.Mllib中metrics.precisionByThreshold表示()指标
选项A:准确度
选项B:召回率
选项C:F值
选项D:ROC曲线
正确答案问询微信:424329

21.图结构中如果任意两个顶点之间都存在有向边,那么称之为()
选项A:完全图
选项B:有向完全图
选项C:无向图
选项D:简单图
正确答案问询微信:424329

22.以下哪个不是Scala的数据类型()
选项A:Int
选项B:Short Int
选项C:Long
选项D:Any
正确答案问询微信:424329

23.Spark GraphX中类Graph的reverse方法可以()
选项A:反转图中所有边的方向
选项B:按照设定条件取出子图
选项C:取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
选项D:合并边相同的属性
正确答案问询微信:424329

24.Dstream输出操作中()方法在Driver中打印出DStream中数据的前12个元素。
选项A:print
选项B:saveAsTextFiles
选项C:saveAsObjectFiles
选项D:saveAsHadoopFiles
正确答案问询微信:424329

25.GraphX中()方法可以释放顶点缓存
选项A:cache
选项B:presist
选项C:unpersistVertices
选项D:edges.unpersist
正确答案问询微信:424329

26.Spark DataFrame中()方法可以获取若干行数据
选项A:first
选项B:head
选项C:take
选项D:collect
正确答案问询微信:424329

27.以下是机器学习的常用算法的是()
选项A:回归算法
选项B:聚类算法
选项C:降维算法
选项D:分类算法
正确答案问询微信:424329

28.Spark DataFrame中()方法可以返回一个Array对象
选项A:collect
选项B:take
选项C:takeAsList
选项D:collectAsList
正确答案问询微信:424329

29.Scala支持()
选项A:匿名函数
选项B:高阶函数
选项C:函数嵌套
选项D:柯里化
正确答案问询微信:424329

30.RDD是一个()的数据结构
选项A:可读写
选项B:只读的
选项C:容错的
选项D:可进行并行操作的
正确答案问询微信:424329

31.Spark支持的文件格式包括()
选项A:文本文件
选项B:JSON
选项C:CSV
选项D:SequenceFile
正确答案问询微信:424329

32.Spark支持使用()语言编写应用
选项A:Scala
选项B:Python
选项C:Java
选项D:R
正确答案问询微信:424329

33.决策树是()的常用算法
选项A:分类
选项B:聚类
选项C:降维
选项D:回归
正确答案问询微信:424329

34.Spark Streaming能够和()无缝集成
选项A:Hadoop
选项B:Spark SQL
选项C:Mllib
选项D:GraphX
正确答案问询微信:424329

35.Spark SQL 可以通过()方法加载json文件为DataFrame
选项A:format
选项B:json
选项C:get
选项D:read
正确答案问询微信:424329

36.Scala在子类中重写超类的抽象方法时,需要使用override关键字
选项A:对
选项B:错
正确答案问询微信:424329

37.Spark可以通过反射机制推断RDD模式
选项A:对
选项B:错
正确答案问询微信:424329

38.Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map
选项A:对
选项B:错
正确答案问询微信:424329

39.Scala是不可扩展的
选项A:对
选项B:错
正确答案问询微信:424329

40.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括函数式编程的特性。
选项A:对
选项B:错
正确答案问询微信:424329

41.Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别
选项A:对
选项B:错
正确答案问询微信:424329

42.Scala中元组是是一种可迭代的键值对(key/value)结构。
选项A:对
选项B:错
正确答案问询微信:424329

43.PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。
选项A:对
选项B:错
正确答案问询微信:424329

44.DataFrame是一个分布式的Row对象的数据集合
选项A:对
选项B:错
正确答案问询微信:424329

45.Spark持久化RDD 后,在再一次需要计算该RDD 时将需要重新计算
选项A:对
选项B:错
正确答案问询微信:424329

46.MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。
选项A:对
选项B:错
正确答案问询微信:424329

47.Spark SQL包括基本的SQL语法和HiveQL语法
选项A:对
选项B:错
正确答案问询微信:424329

48.Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素
选项A:对
选项B:错
正确答案问询微信:424329

49.RDD的subtract用于用于将后一个RDD 中在前一个RDD 出现的元素删除
选项A:对
选项B:错
正确答案问询微信:424329

50.Scala 集合分为可变的和不可变的集合
选项A:对
选项B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网