南开大学22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业一
奥鹏南开在线作业满分答案参考
22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业-00001
1.模型参数估计变为以()为目标函数的最优化问题
选项A:交叉熵损失函数
选项B:合页损失函数
选项C:对数似然函数
选项D:KL散度
满分答案问询微信:424329
2.置信度(confidence)是衡量兴趣度度量( )的指标
选项A:简洁性
选项B:确定性
选项C:实用性
选项D:新颖性
满分答案问询微信:424329
3.潜在语义分析创新地引入了()
选项A:单词维度
选项B:文本维度
选项C:话题维度
满分答案问询微信:424329
4.针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
选项A:随机算法
选项B:外存算法
选项C:并行算法
选项D:Anytime算法
满分答案问询微信:424329
5.经典的Apriori算法是逐层扫描的,也就是说它是()优先的
选项A:宽度
选项B:深度
满分答案问询微信:424329
6.类的R型聚类是指()
选项A:对样本个体进行聚类
选项B:对指标变量进行聚类。
满分答案问询微信:424329
7.决策树中的叶结点表示()
选项A:特征
选项B:类
选项C:属性
选项D:值域输出
满分答案问询微信:424329
8.基于MapReduce的Apriori算法,共进行几轮MapReduce()
选项A:1
选项B:2
选项C:3
选项D:4
满分答案问询微信:424329
9.类的Q型聚类是指()
选项A:对样本个体进行聚类
选项B:对指标变量进行聚类。
满分答案问询微信:424329
10.用多台处理机联合求解问题的算法被称为()
选项A:随机算法
选项B:外存算法
选项C:并行算法
选项D:Anytime算法
满分答案问询微信:424329
11.在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
选项A:词项作弊
选项B:链接作弊
满分答案问询微信:424329
12.以下哪种类型的数据不是大数据分析模型的分类标准
选项A:结构化数据
选项B:异构数据
选项C:半结构化数据
选项D:非结构化数据
满分答案问询微信:424329
13.任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
选项A:访问量
选项B:实际价值
选项C:搜索量
选项D:用户数量
满分答案问询微信:424329
14.算法中用到了外存的算法是()
选项A:随机算法
选项B:外存算法
选项C:并行算法
选项D:Anytime算法
满分答案问询微信:424329
15.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
选项A:运营式系统阶段
选项B:用户原创内容阶段
选项C:感知式系统阶段
满分答案问询微信:424329
16.评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
选项A:准确率
选项B:精确率
选项C:召回率
选项D:F1值
满分答案问询微信:424329
17.Hash tree在Apriori算法中所起的作用是( )
选项A:存储数据
选项B:查找
选项C:加速查找
选项D:剪枝
满分答案问询微信:424329
18.向量空间的度量,表示文本之间的()。
选项A:关系
选项B:相似度
选项C:语义关系
选项D:语义相似度
满分答案问询微信:424329
19.支持向量机的学习策略是()
选项A:间隔最大化
选项B:多数表决
选项C:距离度量
满分答案问询微信:424329
20.以下属于关联分析的是( )
选项A:CPU性能预测
选项B:购物篮分析
选项C:自动判断鸢尾花类别
选项D:股票趋势建模
满分答案问询微信:424329
21.聚类的核心是()
选项A:相似度
选项B:距离
选项C:特征
选项D:数据
满分答案问询微信:424329
22.向量空间模型中,是将()看成()
选项A:文档
选项B:单词
选项C:词袋
选项D:编码
满分答案问询微信:424329
23.社交网络的含义包括()。
选项A:硬件
选项B:软件
选项C:服务
选项D:应用
满分答案问询微信:424329
24.KNN模型由哪些基本要素决定()
选项A:距离度量
选项B:特征选择
选项C:k值的选择
选项D:分类决策规则
满分答案问询微信:424329
25.聚合聚类的三个要素是()
选项A:相似度
选项B:置信度
选项C:合并规则
选项D:停止条件
满分答案问询微信:424329
26.差异性可以用()度量
选项A:准确率
选项B:损失函数
选项C:距离
选项D:相似性
满分答案问询微信:424329
27.以下哪些统计量可以反映数据的集中趋势
选项A:均值
选项B:中位数
选项C:方差(标准差)
选项D:众数
满分答案问询微信:424329
28.关联规则用于查找项目集合或对象集合之间的()
选项A:频繁模式
选项B:关联
选项C:相关性
选项D:因果结构
满分答案问询微信:424329
29.潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
选项A:话题空间
选项B:文本在话题空间的表示
选项C:话题维度
选项D:词向量空间
满分答案问询微信:424329
30.下列属于朴素贝叶斯缺点的是()
选项A:分类效果不稳定
选项B:不适合增量式训练
选项C:先验模型可能导致结果不佳
选项D:对缺失数据不太敏感
满分答案问询微信:424329
31.kNN算法中,选择较小的k值“学习”的估计误差会减小。()
选项A:对
选项B:错
满分答案问询微信:424329
32.ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
选项A:对
选项B:错
满分答案问询微信:424329
33.DAG中的父节点是唯一的。
选项A:对
选项B:错
满分答案问询微信:424329
34.大数据分析可以分为定性数据分析和定量数据分析
选项A:对
选项B:错
满分答案问询微信:424329
35.朴素贝叶斯中,首先要基于特征条件独立假设学习输入输出的联合概率分布。()
选项A:对
选项B:错
满分答案问询微信:424329
36.统计学习也成为统计机器学习
选项A:对
选项B:错
满分答案问询微信:424329
37.通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学奥鹏南开在线作业满分答案参考习。()
选项A:对
选项B:错
满分答案问询微信:424329
38.Kmeans算法的MapReduce实现属于迭代算法。()
选项A:对
选项B:错
满分答案问询微信:424329
39.大数据虽然拥有大量的价值信息,但是价值密度较低
选项A:对
选项B:错
满分答案问询微信:424329
40.大数据规则性分析用于预测未来时间发生的概率和演化趋势
选项A:对
选项B:错
满分答案问询微信:424329
41.实际操作中,不能用经验风险近似期望风险
选项A:对
选项B:错
满分答案问询微信:424329
42.要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
选项A:对
选项B:错
满分答案问询微信:424329
43.由不同的距离度量所确定的最近邻点是相同的。()
选项A:对
选项B:错
满分答案问询微信:424329
44.不满足给定评价度量的关联规则是无趣的。
选项A:对
选项B:错
满分答案问询微信:424329
45.潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。()
选项A:对
选项B:错
满分答案问询微信:424329
46.网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
选项A:对
选项B:错
满分答案问询微信:424329
47.监督学习的两个基本策略是经验风险最小化和结构风险最小化
选项A:对
选项B:错
满分答案问询微信:424329
48.概率潜在语义分析就是发现由隐变量表示的话题。()
选项A:对
选项B:错
满分答案问询微信:424329
49.半监督学习通常有大量标注数据、少量未标注数据
选项A:对
选项B:错
满分答案问询微信:424329
50.FP-growth算法的速度要比Apriori算法快。
选项A:对
选项B:错
满分答案问询微信:424329