南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业二

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业-00002

1.pageRank中，将网页链接转化为（）“投票”。
选项A：搜索量
选项B：评价
选项C：访问量
选项D：重要度
满分答案问询微信：424329

2.支持向量机的MapReduce实现要进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：自行规定
满分答案问询微信：424329

3.在网页中增加大量与主题无关的热点作弊词项，并将其文字颜色设置成与背景颜色一致，不可见；提交热点查询给搜索引擎，将排名第一或前列的页面内容复制到其网页中，并隐藏。这样的欺骗搜索引擎技术称为（）
选项A：词项作弊
选项B：链接作弊
满分答案问询微信：424329

4.针对输入数据、时间与其他资源的要求，给出各种性能的输出结果，得到具有一定预计性的算法模型，被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

5.基于MapReduce的Apriori算法，共进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

6.话题向量空间模型中，用（）的一个向量表示该文本。
选项A：特征词
选项B：话题空间
选项C：语义空间
选项D：词向量空间
满分答案问询微信：424329

7.HITS算法中，网页的重要性应该依赖于（）
选项A：每个网页上的超链接个数
选项B：用户提出的查询请求
选项C：网页上超链接重要性
满分答案问询微信：424329

8.朴素贝叶斯中，给定输入x，求解在x出现的前提下各个类别出现的概率，哪个最大，就认为x属于哪个类别。即选择（）最大的类别。
选项A：后验概率
选项B：先验概率
选项C：极大似然估计
满分答案问询微信：424329

9.KNN算法用MapReduce实现，要进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

10.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。
选项A：运营式系统阶段
选项B：用户原创内容阶段
选项C：感知式系统阶段
满分答案问询微信：424329

11.向量空间模型中，将单词在文本中出现的数据用一个（）表示
选项A：单词-文本矩阵
选项B：单词-向量矩阵
选项C：距离矩阵
选项D：权重矩阵
满分答案问询微信：424329

12.LDA导入先验分布是为了应对（）现象
选项A：欠拟合
选项B：话题识别不准
选项C：过拟合
选项D：分词困难
满分答案问询微信：424329

13.经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
选项A：宽度
选项B：深度
满分答案问询微信：424329

14.聚类过程为（）
选项A：数据准备，特征选择，特征提取，聚类，结果评估
选项B：数据准备，特征提取，特征选择，聚类，结果评估
选项C：数据准备，特征提取，聚类，特征选择，结果评估
满分答案问询微信：424329

15.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段（）。
选项A：运营式系统阶段
选项B：用户原创内容阶段
选项C：感知式系统阶段
满分答案问询微信：424329

16.逻辑斯谛函数是一条（）曲线
选项A：抛物线
选项B：三角函数
选项C：S型曲线
选项D：直线
满分答案问询微信：424329

17.向量空间模型中，用（）来描述一个文档
选项A：词
选项B：词袋
选项C：特征词
选项D：特征向量
满分答案问询微信：424329

18.用多台处理机联合求解问题的算法被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

19.k近邻法中的分类决策规则往往是（）
选项A：依权重表决
选项B：多数表决
选项C：前提设定
选项D：随机决定
满分答案问询微信：424329

20.闵式距离参数是（）时代表曼哈顿距离
选项A：0
选项B：1
选项C：2
选项D：无穷
满分答案问询微信：424329

21.大数据四大特征包括（）
选项A：数据量大
选项B：数据类型繁多
选项C：数据价值密度相对较低
选项D：处理速度快，时效性要求高
满分答案问询微信：424329

22.以下什么问题可以归为回归问题（）
选项A：市场趋势预测
选项B：产品质量管理
选项C：客户满意度调查
选项D：投资风险分析
满分答案问询微信：424329

23.基于分类对象的分类有（）
选项A：Q型聚类
选项B：凝聚方式
选项C：R型聚类
选项D：分解方式
满分答案问询微信：424329

24.逻辑斯谛回归的主要用途包括（）
选项A：寻找危险因素
选项B：搜索
选项C：预测
选项D：判别
满分答案问询微信：4243奥鹏南开在线作业满分答案参考29

25.大数据在医疗中的应用有（）
选项A：流行性疾病预防
选项B：慢性病健康管理
选项C：临床决策支持
选项D：医疗器械研发
满分答案问询微信：424329

26.决策树的生成过程是（）
选项A：递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类
选项B：如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
选项C：构建根结点，将所有训练数据都放在根结点
选项D：选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
选项E：如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
满分答案问询微信：424329

27.聚类的核心是（）
选项A：相似度
选项B：距离
选项C：特征
选项D：数据
满分答案问询微信：424329

28.差异性可以用（）度量
选项A：准确率
选项B：损失函数
选项C：距离
选项D：相似性
满分答案问询微信：424329

29.按主题分类，社团包括（）
选项A：明显的社团
选项B：预定义社团
选项C：自组织社团
选项D：隐含的社团
满分答案问询微信：424329

30.连续性变量的距离可用以下（）方法衡量
选项A：曼哈顿距离
选项B：切比雪夫距离
选项C：.Jaccard相似系数
选项D：皮尔森相关系数
满分答案问询微信：424329

31.Girvan-Newman算法中，不同深度结点间的边为无向图。
选项A：对
选项B：错
满分答案问询微信：424329

32.如果一味追求提高对训练数据的预测能力，所选模型的复杂度往往比镇魔性更高，这种现象称为欠拟合
选项A：对
选项B：错
满分答案问询微信：424329

33.MapReduce中，如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了，则这些关联的Reduce任务的也将被重新执行。（）
选项A：对
选项B：错
满分答案问询微信：424329

34.未来考验零售企业的是如何挖掘消费者需求
选项A：对
选项B：错
满分答案问询微信：424329

35.网络实体之间至少存在一种关系
选项A：对
选项B：错
满分答案问询微信：424329

36.协同过滤推荐是基于假设，为用户找到真正感兴趣的内容首先找到与此用户有相似兴趣的用户，然后把他们感兴趣的内容推荐给此用户
选项A：对
选项B：错
满分答案问询微信：424329

37.边的中介度定义为任意节点对的数目。（）
选项A：对
选项B：错
满分答案问询微信：424329

38.效用矩阵的数据可以通过隐式方法获得，得到的数值中0相比较1表示受喜欢度较低
选项A：对
选项B：错
满分答案问询微信：424329

39.监督学习的两个基本策略是经验风险最小化和结构风险最小化
选项A：对
选项B：错
满分答案问询微信：424329

40.k均值聚类是基于样本集合划分的聚类算法.（）
选项A：对
选项B：错
满分答案问询微信：424329

41.每个网页的PageRank值仅由指向它的网页的PageRank值决定。（）
选项A：对
选项B：错
满分答案问询微信：424329

42.实际操作中，不能用经验风险近似期望风险
选项A：对
选项B：错
满分答案问询微信：424329

43.大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
选项A：对
选项B：错
满分答案问询微信：424329

44.PageRank算法是图数据上的无监督学习方法。（）
选项A：对
选项B：错
满分答案问询微信：424329

45.决策树学习的算法递归地选择最优特征。（）
选项A：对
选项B：错
满分答案问询微信：424329

46.推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
选项A：对
选项B：错
满分答案问询微信：424329

47.大数据规则性分析用于预测未来时间发生的概率和演化趋势
选项A：对
选项B：错
满分答案问询微信：424329

48.随机游走过程用一个一阶马尔可夫链来建模。（）
选项A：对
选项B：错
满分答案问询微信：424329

49.监督学习中，模型就是索要学习的联合概率分布或决策函数
选项A：对
选项B：错
满分答案问询微信：424329

50.相比较基于内容的协同过滤，基于用户的协同过滤效果往往更好
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源