南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业一

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业-00001

1.模型参数估计变为以（）为目标函数的最优化问题
选项A：交叉熵损失函数
选项B：合页损失函数
选项C：对数似然函数
选项D：KL散度
满分答案问询微信：424329

2.置信度(confidence)是衡量兴趣度度量（）的指标
选项A：简洁性
选项B：确定性
选项C：实用性
选项D：新颖性
满分答案问询微信：424329

3.潜在语义分析创新地引入了（）
选项A：单词维度
选项B：文本维度
选项C：话题维度
满分答案问询微信：424329

4.针对输入数据、时间与其他资源的要求，给出各种性能的输出结果，得到具有一定预计性的算法模型，被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

5.经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
选项A：宽度
选项B：深度
满分答案问询微信：424329

6.类的R型聚类是指（）
选项A：对样本个体进行聚类
选项B：对指标变量进行聚类。
满分答案问询微信：424329

7.决策树中的叶结点表示（）
选项A：特征
选项B：类
选项C：属性
选项D：值域输出
满分答案问询微信：424329

8.基于MapReduce的Apriori算法，共进行几轮MapReduce（）
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

9.类的Q型聚类是指（）
选项A：对样本个体进行聚类
选项B：对指标变量进行聚类。
满分答案问询微信：424329

10.用多台处理机联合求解问题的算法被称为（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

11.在网页中增加大量与主题无关的热点作弊词项，并将其文字颜色设置成与背景颜色一致，不可见；提交热点查询给搜索引擎，将排名第一或前列的页面内容复制到其网页中，并隐藏。这样的欺骗搜索引擎技术称为（）
选项A：词项作弊
选项B：链接作弊
满分答案问询微信：424329

12.以下哪种类型的数据不是大数据分析模型的分类标准
选项A：结构化数据
选项B：异构数据
选项C：半结构化数据
选项D：非结构化数据
满分答案问询微信：424329

13.任何故意提高网页在搜索引擎结果中的位置，使其与网页的（）不相符的行为，称为Web作弊
选项A：访问量
选项B：实际价值
选项C：搜索量
选项D：用户数量
满分答案问询微信：424329

14.算法中用到了外存的算法是（）
选项A：随机算法
选项B：外存算法
选项C：并行算法
选项D：Anytime算法
满分答案问询微信：424329

15.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。
选项A：运营式系统阶段
选项B：用户原创内容阶段
选项C：感知式系统阶段
满分答案问询微信：424329

16.评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。
选项A：准确率
选项B：精确率
选项C：召回率
选项D：F1值
满分答案问询微信：424329

17.Hash tree在Apriori算法中所起的作用是（）
选项A：存储数据
选项B：查找
选项C：加速查找
选项D：剪枝
满分答案问询微信：424329

18.向量空间的度量，表示文本之间的（）。
选项A：关系
选项B：相似度
选项C：语义关系
选项D：语义相似度
满分答案问询微信：424329

19.支持向量机的学习策略是（）
选项A：间隔最大化
选项B：多数表决
选项C：距离度量
满分答案问询微信：424329

20.以下属于关联分析的是（）
选项A：CPU性能预测
选项B：购物篮分析
选项C：自动判断鸢尾花类别
选项D：股票趋势建模
满分答案问询微信：424329

21.聚类的核心是（）
选项A：相似度
选项B：距离
选项C：特征
选项D：数据
满分答案问询微信：424329

22.向量空间模型中，是将（）看成（）
选项A：文档
选项B：单词
选项C：词袋
选项D：编码
满分答案问询微信：424329

23.社交网络的含义包括（）。
选项A：硬件
选项B：软件
选项C：服务
选项D：应用
满分答案问询微信：424329

24.KNN模型由哪些基本要素决定（）
选项A：距离度量
选项B：特征选择
选项C：k值的选择
选项D：分类决策规则
满分答案问询微信：424329

25.聚合聚类的三个要素是（）
选项A：相似度
选项B：置信度
选项C：合并规则
选项D：停止条件
满分答案问询微信：424329

26.差异性可以用（）度量
选项A：准确率
选项B：损失函数
选项C：距离
选项D：相似性
满分答案问询微信：424329

27.以下哪些统计量可以反映数据的集中趋势
选项A：均值
选项B：中位数
选项C：方差（标准差）
选项D：众数
满分答案问询微信：424329

28.关联规则用于查找项目集合或对象集合之间的（）
选项A：频繁模式
选项B：关联
选项C：相关性
选项D：因果结构
满分答案问询微信：424329

29.潜在语义分析中，要同时决定两部分内容，是（），使两者的乘积是原始矩阵数据的近似。
选项A：话题空间
选项B：文本在话题空间的表示
选项C：话题维度
选项D：词向量空间
满分答案问询微信：424329

30.下列属于朴素贝叶斯缺点的是（）
选项A：分类效果不稳定
选项B：不适合增量式训练
选项C：先验模型可能导致结果不佳
选项D：对缺失数据不太敏感
满分答案问询微信：424329

31.kNN算法中，选择较小的k值“学习”的估计误差会减小。（）
选项A：对
选项B：错
满分答案问询微信：424329

32.ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。
选项A：对
选项B：错
满分答案问询微信：424329

33.DAG中的父节点是唯一的。
选项A：对
选项B：错
满分答案问询微信：424329

34.大数据分析可以分为定性数据分析和定量数据分析
选项A：对
选项B：错
满分答案问询微信：424329

35.朴素贝叶斯中，首先要基于特征条件独立假设学习输入输出的联合概率分布。（）
选项A：对
选项B：错
满分答案问询微信：424329

36.统计学习也成为统计机器学习
选项A：对
选项B：错
满分答案问询微信：424329

37.通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学奥鹏南开在线作业满分答案参考习。（）
选项A：对
选项B：错
满分答案问询微信：424329

38.Kmeans算法的MapReduce实现属于迭代算法。（）
选项A：对
选项B：错
满分答案问询微信：424329

39.大数据虽然拥有大量的价值信息，但是价值密度较低
选项A：对
选项B：错
满分答案问询微信：424329

40.大数据规则性分析用于预测未来时间发生的概率和演化趋势
选项A：对
选项B：错
满分答案问询微信：424329

41.实际操作中，不能用经验风险近似期望风险
选项A：对
选项B：错
满分答案问询微信：424329

42.要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的
选项A：对
选项B：错
满分答案问询微信：424329

43.由不同的距离度量所确定的最近邻点是相同的。（）
选项A：对
选项B：错
满分答案问询微信：424329

44.不满足给定评价度量的关联规则是无趣的。
选项A：对
选项B：错
满分答案问询微信：424329

45.潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。（）
选项A：对
选项B：错
满分答案问询微信：424329

46.网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取，并按照一定规则和筛选标准将数据进行归类，形成数据库文件的一个过程。
选项A：对
选项B：错
满分答案问询微信：424329

47.监督学习的两个基本策略是经验风险最小化和结构风险最小化
选项A：对
选项B：错
满分答案问询微信：424329

48.概率潜在语义分析就是发现由隐变量表示的话题。（）
选项A：对
选项B：错
满分答案问询微信：424329

49.半监督学习通常有大量标注数据、少量未标注数据
选项A：对
选项B：错
满分答案问询微信：424329

50.FP-growth算法的速度要比Apriori算法快。
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源