南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业三

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业-00003

1.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。
选项A：运营式系统阶段
选项B：用户原创内容阶段
选项C：感知式系统阶段
满分答案问询微信：424329

2.闵式距离参数是（）时代表曼哈顿距离
选项A：0
选项B：1
选项C：2
选项D：无穷
满分答案问询微信：424329

3.用多台处理机联合求解问题的算法被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

4.维克托?迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（）
选项A：K-means
选项B：Bayes Network
选项C：C4.5
选项D：Apriori
满分答案问询微信：424329

5.类的Q型聚类是指（）
选项A：对样本个体进行聚类
选项B：对指标变量进行聚类。
满分答案问询微信：424329

6.支持向量机的MapReduce实现要进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：自行规定
满分答案问询微信：424329

7.逻辑斯谛函数是一条（）曲线
选项A：抛物线
选项B：三角函数
选项C：S型曲线
选项D：直线
满分答案问询微信：424329

8.LDA导入先验分布是为了应对（）现象
选项A：欠拟合
选项B：话题识别不准
选项C：过拟合
选项D：分词困难
满分答案问询微信：424329

9.置信度(confidence)是衡量兴趣度度量（）的指标
选项A：简洁性
选项B：确定性
选项C：实用性
选项D：新颖性
满分答案问询微信：424329

10.Apriori算法的加速过程依赖于以下哪个策略（）
选项A：抽样
选项B：剪枝
选项C：缓冲
选项D：并行
满分答案问询微信：424329

11.经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
选项A：宽度
选项B：深度
满分答案问询微信：424329

12.大数据分析中，面向有用户参与分析决策的分析任务，不要求实时响应，但是也存在响应时间约束，称为（）
选项A：实时分析
选项B：弱实时分析
选项C：非实时分析
满分答案问询微信：424329

13.任何故意提高网页在搜索引擎结果中的位置，使其与网页的（）不相符的行为，称为Web作弊
选项A：访问量
选项B：实际价值
选项C：搜索量
选项D：用户数量
满分答案问询微信：424329

14.以下哪种类型的数据不是大数据分析模型的分类标准
选项A：结构化数据
选项B：异构数据
选项C：半结构化数据
选项D：非结构化数据
满分答案问询微信：424329

15.评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。
选项A：准确率
选项B：精确率
选项C：召回率
选项D：F1值
满分答案问询微信：424329

16.大数据的特点不包含
选项A：数据体量大
选项B：价值密度高
选项C：处理速度快
选项D：数据不统一
满分答案问询微信：424329

17.针对输入数据、时间与其他资源的要求，给出各种性能的输出结果，得到具有一定预计性的算法模型，被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

18.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段（）。
选项A：运营式系统阶段
选项B：用户原创内容阶段
选项C：感知式系统阶段
满分答案问询微信：424329

19.基于MapReduce的Apriori算法，共进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

20.支持向量机的学习策略是（）
选项A：间隔最大化
选项B：多数表决
选项C：距离度量
满分答案问询微信：424329

21.PageRank是定义在网页集合上的一个（），它对每个网页赋予一个正实数值，表示网页的（）。
选项A：函数
选项B：集合
选项C：搜索排名
选项D：重要程度
满分答案问询微信：424329

22.连续性变量的距离可用以下（）方法衡量
选项A：曼哈顿距离
选项B：切比雪夫距离
选项C：.Jaccard相似系数
选项D：皮尔森相关系数
满分答案问询微信：424329

23.从训练数据中学习一个（）或（），将其称为（）。
选项A：概率分类模型
选项B：分类决策函数
选项C：回归模型
选项D：分类器
满分答案问询微信：424329

24.按社团形成机制分类，社团包括（）
选项A：明显的社团
选项B：预定义社团
选项C：自组织社团
选项D：隐含的社团
满分答案问询微信：424329

25.下列属于分类算法的有（）。
选项A：k近邻法
选项奥鹏南开在线作业满分答案参考B：朴素贝叶斯
选项C：支持向量机
选项D：随机森林
满分答案问询微信：424329

26.概率潜在语义分析中，模型生成的是（），但观测到的是（）。
选项A：单词-话题-文本三元组
选项B：话题-文本二元组
选项C：单词-话题二元组
选项D：单词-文本二元组
满分答案问询微信：424329

27.回归分析方法中，按照输入变量个数分类，可分为
选项A：一元回归
选项B：多元回归
选项C：线性回归
选项D：非线性回归
满分答案问询微信：424329

28.向量空间模型中，是将（）看成（）
选项A：文档
选项B：单词
选项C：词袋
选项D：编码
满分答案问询微信：424329

29.关联分析的作用是什么（）
选项A：用于发现存在于大量数据集中的关联性
选项B：用于发现存在于大量数据集中的相关性
选项C：描述了一个事物中某些属性同时出现的规律
选项D：描述了一个事物中某些属性同时出现的模式
满分答案问询微信：424329

30.基于分类对象的分类有（）
选项A：Q型聚类
选项B：凝聚方式
选项C：R型聚类
选项D：分解方式
满分答案问询微信：424329

31.统计学习的目的是使模型不仅对已知数据而且对未知数据都有很好的预测能力
选项A：对
选项B：错
满分答案问询微信：424329

32.商务智能的基本架构包括逻辑层、业务层和应用层三部分
选项A：对
选项B：错
满分答案问询微信：424329

33.同义词可以表示同一个话题，而多义词可以表示不同的话题。（）
选项A：对
选项B：错
满分答案问询微信：424329

34.潜在语义分析主要用于文本的话题分析.（）
选项A：对
选项B：错
满分答案问询微信：424329

35.熵越大，随机变量的不确定性越小。
选项A：对
选项B：错
满分答案问询微信：424329

36.基于内容的协同过滤算法以用户为核心，即寻找与当前用户有相似喜好的用户群，根据用户群的特征为当前用户给出推荐
选项A：对
选项B：错
满分答案问询微信：424329

37.大数据数据量一定是PB，TB级的
选项A：对
选项B：错
满分答案问询微信：424329

38.Kmeans算法中，相似的样本聚集在相同的类，不相似的样本分散在不同的类。（）
选项A：对
选项B：错
满分答案问询微信：424329

39.一个样本在特征空间的k个最相邻样本中的均属于某一个类别
选项A：对
选项B：错
满分答案问询微信：424329

40.实际操作中，不能用经验风险近似期望风险
选项A：对
选项B：错
满分答案问询微信：424329

41.监督学习中，模型就是索要学习的联合概率分布或决策函数
选项A：对
选项B：错
满分答案问询微信：424329

42.大数据分析可以分为定性数据分析和定量数据分析
选项A：对
选项B：错
满分答案问询微信：424329

43.21世纪时数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓宽了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。
选项A：对
选项B：错
满分答案问询微信：424329

44.大数据分析模型讨论的问题是从大数据中发现什么
选项A：对
选项B：错
满分答案问询微信：424329

45.云计算出现后，数据存储服务衍生出了新的商业模式，数据中心的出现降低了公司的计算和存储成本。
选项A：对
选项B：错
满分答案问询微信：424329

46.层次方法中，要将数据分成若干组并形成一个组的树进行聚类。（）
选项A：对
选项B：错
满分答案问询微信：424329

47.惊喜度不是推荐系统的一个常用的评价角度
选项A：对
选项B：错
满分答案问询微信：424329

48.PageRank可以定义在任何有向图上，后来被应用到社会影响力分析、文本摘要等多个问题。
选项A：对
选项B：错
满分答案问询微信：424329

49.大数据的速度快体现在数据产生速度快和要求分析处理速度快
选项A：对
选项B：错
满分答案问询微信：424329

50.内积相似度可以准确表达两个文本的语义相似度。（）
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源