南开大学22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业三

奥鹏南开在线作业满分答案参考

22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003

1.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
选项A:普通值
选项B:异常值
选项C:不一致的值
选项D:重复值
满分答案问询微信:424329

2.变量之间的关系一般可以分为确定性关系与()。
选项A:非确定性关系
选项B:线性关系
选项C:函数关系
选项D:相关关系
满分答案问询微信:424329

3.以下哪个不是处理缺失值的方法()
选项A:删除记录
选项B:按照一定原则补充
选项C:不处理
选项D:随意填写
满分答案问询微信:424329

4.单层感知机模型属于()模型。
选项A:二分类的线性分类模型
选项B:二分类的非线性分类模型
选项C:多分类的线性分类模型
选项D:多分类的非线性分类模型
满分答案问询微信:424329

5.K-means聚类适用的数据类型是()。
选项A:数值型数据
选项B:字符型数据
选项C:语音数据
选项D:所有数据
满分答案问询微信:424329

6.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
选项A:最优回归线
选项B:最优分布线
选项C:最优预测线
选项D:最佳分布线
满分答案问询微信:424329

7.单层感知机拥有()层功能神经元。
选项A:一
选项B:二
选项C:三
选项D:四
满分答案问询微信:424329

8.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
选项A:简单函数变换
选项B:规范化
选项C:属性构造
选项D:连续属性离散化
满分答案问询微信:424329

9.Apriori算法的加速过程依赖于以下哪个策略( )
选项A:抽样
选项B:剪枝
选项C:缓冲
选项D:并行
满分答案问询微信:424329

10.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
选项A:4
选项B:5
选项C:6
选项D:7
满分答案问询微信:424329

11.聚类是一种()。
选项A:有监督学习
选项B:无监督学习
选项C:强化学习
选项D:半监督学习
满分答案问询微信:424329

12.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
选项A:异常值
选项B:缺失值
选项C:不一致的值
选项D:重复值
满分答案问询微信:424329

13.层次聚类对给定的数据进行()的分解。
选项A:聚合
选项B:层次
选项C:分拆
选项D:复制
满分答案问询微信:424329

14.多层感知机是由()层神经元组成。
选项A:二
选项B:三
选项C:大于等于二层
选项D:大于等于三层
满分答案问询微信:424329

15.手肘法的核心指标是()。
选项A:SES
选项B:SSE
选项C:RMSE
选项D:MSE
满分答案问询微信:424329

16.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
选项A:异常值
选项B:不一致的值
选项C:重复值
选项D:缺失值
满分答案问询微信:424329

17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
选项A:关联规则发现
选项B:聚类
选项C:分类
选项D:自然语言处理
满分答案问询微信:424329

18.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
选项A:产量每增加一台,单位成本增加100元
选项B:产量每增加一台,单位成本减少1.2元
选项C:产量每增加一台,单位成本平均减少1.2元
选项D:产量每增加一台,单位平均增加100元
满分答案问询微信:424329

19.下列两个变量之间的关系中,哪个是函数关系()。
选项A:人的性别和他的身高
选项B:人的工资与年龄
选项C:正方形的面积和边长
选项D:温度与湿度
满分答案问询微信:424329

20.通过变量标准化计算得到的回归方程称为()。
选项A:标准化回归方程
选项B:标准化偏回归方程
选项C:标准化自回归方程
选项D:标准化多回归方程
满分答案问询微信:424329

21.对于多层感知机,()层拥有激活函数的功能神经元。
选项A:输入层
选项B:隐含层
选项C:输出层
满分答案问询微信:424329

22.一元回归参数估计的参数求解方法有()。
选项A:最大似然法
选项B:距估计法
选项C:最小二乘法
选项D:欧式距离法
满分答案问询微信:424329

23.关联规则的评价度量主要有:()。
选项A:支持度
选项B:置信度
选项C:准确率
选项D:错误率
满分答案问询微信:424329

24.系统日志收集的基本特征有()
选项A:高可用性
选项B:高可靠性
选项C:可扩展性
选项D:高效率
满分答案问询微信:424329

25.多层感知机的学习过程包含()。
选项A:信号的正向传播
选项B:信号的反向传播
选项C:误差的正向传播
选项D:误差的反向传播
满分答案问询微信:424329

26.什么情况下结点不用划分()
选项A:当前结点所包含的样本全属于同一类别
选项B:当前属性集为空,或是所有样本在所有属性上取值相同
选项C:当前结点包含的样本集为空
选项D:还有子集不能被基本正确分类
满分答案问询微信:424329

27.数据科学具有哪些性质()
选项A:有效性
选项B:可用性
选项C:未预料
选项D:可理解
满分答案问询微信:424329

28.k近邻法的基本要素包括()。
选项A:距离度量
选项B:k值的选择
选项C:样本大小
选项D:分类决策规则
满分答案问询微信:424329

29.层次聚类的方法是()
选项A:聚合方法
选项B:分拆方法
选项C:组合方法
选项D:比较方法
满分答案问询微信:424329

30.距离度量中的距离可以是()
选项A:欧式距离
选项B:曼哈顿距离
选项C:Lp距离
选项D:Minkowski距离
满分答案问询微信:424329

31.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
选项A:对
选项B:错
满分答案问询微信:424329

32.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
选项A:对
选项B:错
满分答案问询微信:424329

33.具有双隐层的感知机足以用于解决任何复杂的分类问题。
选项A:对
选项B:错
满分答案问询微信:424329

34.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
选项A:对
选项B:错
满分答案问询微信:424329

35.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
选项A:对
选项B:错
满分答案问询微信:424329

36.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
选项A:对
选项B:错
满分答案问询微信:424329

37.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
选项A:对
选项B:错
满分答案问询微信:424329

38.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
选项A:对
选项B:错
满分答案问询微信:424329

39.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
选项A:对
选项B:错
满分答案问询微信:424329

40.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
选项A:对
选项B:错
满分答案问询微信:424329

41.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
选项A:对
选项B:错
满分答案问询微信:424329

42.交叉表可以帮助人们发现变量之间的相互作用。
选项A:对
选项B:错
满分答案问询微信:424329

43.支持度是衡量关联规则重要性的一个指标。
选项A:对
选项B:错
满分答案问询微信:424329

44.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
选项A:对
选项B:错
满分答案问询微信:424329

45.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
选项A:对
选项B:错
满分答案问询微信:424329

46.uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同奥鹏南开在线作业满分答案参考
选项A:对
选项B:错
满分答案问询微信:424329

47.不满足给定评价度量的关联规则是无趣的。
选项A:对
选项B:错
满分答案问询微信:424329

48.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
选项A:对
选项B:错
满分答案问询微信:424329

49.由不同的距离度量所确定的最近邻点是不同的
选项A:对
选项B:错
满分答案问询微信:424329

50.决策树分类时将该结点的实例强行分到条件概率大的那一类去
选项A:对
选项B:错
满分答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网