南开大学22秋学期《数据科学导论》在线作业三
奥鹏教育南开大学平时作业
22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003
数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A:普通值
B:异常值
C:不一致的值
D:重复值
正确答案获取微信:424329
变量之间的关系一般可以分为确定性关系与()。
A:非确定性关系
B:线性关系
C:函数关系
D:相关关系
正确答案获取微信:424329
以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案获取微信:424329
单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案获取微信:424329
K-means聚类适用的数据类型是()。
A:数值型数据
B:字符型数据
C:语音数据
D:所有数据
正确答案获取微信:424329
在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案获取微信:424329
单层感知机拥有()层功能神经元。
A:一
B:二
C:三
D:四
正确答案获取微信:424329
例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案获取微信:424329
Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行
正确答案获取微信:424329
设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A:4
B:5
C:6
D:7
正确答案获取微信:424329
聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案获取微信:424329
数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A:异常值
B:缺失值
C:不一致的值
D:重复值
正确答案获取微信:424329
层次聚类对给定的数据进行()的分解。
A:聚合
B:层次
C:分拆
D:复制
正确答案获取微信:424329
多层感知机是由()层神经元组成。
A:二
B:三
C:大于等于二层
D:大于等于三层
正确答案获取微信:424329
手肘法的核心指标是()。
A:SES
B:SSE
C:RMSE
D:MSE
正确答案获取微信:424329
比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A:异常值
B:不一致的值
C:重复值
D:缺失值
正确答案获取微信:424329
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:聚类
C:分类
D:自然语言处理
正确答案获取微信:424329
某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案获取微信:424329
下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案获取微信:424329
通过变量标准化计算得到的回归方程称为()。
A:标准化回归方程
B:标准化偏回归方程
C:标准化自回归方程
D:标准化多回归方程
正确答案获取微信:424329
对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案获取微信:424329
一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法
正确答案获取微信:424329
关联规则的评价度量主要有:()。
A:支持度
B:置信度
C:准确率
D:错误率
正确答案获取微信:424329
系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案获取微信:424329
多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案获取微信:424329
什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空,或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类
正确答案获取微信:424329
数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解
正确答案获取微信:424329
k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案获取微信:424329
层次聚类的方法是()
A:聚合方法
B:分拆方法
C:组合方法
D:比较方法
正确答案获取微信:424329
距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案获取微信:424329
探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
A:对
B:错
正确答案获取微信:424329
特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A:对
B:错
正确答案获取微信:424329
具有双隐层的感知机足以用于解决任何复杂的分类问题。
A:对
B:错
正确答案获取微信:424329
贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
A:对
B:错
正确答案获取微信:424329
给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A:对
B:错
正确答案获取微信:424329
当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A:对
B:错
正确答案获取微信:424329
相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
A:对
B:错
正确答案获取微信:424329
Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A:对
B:错
正确答案获取微信:424329
数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
A:对
B:错
正确答案获取微信:424329
选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
A:对
B:错
正确答案获取微信:424329
关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
A:对
B:错
正确答案获取微信:424329
交叉表可以帮助人们发现变量之间的相互作用。
A:对
B:错
正确答案获取微信:424329
支持度是衡量关联规则重要性的一个指标。
A:对
B:错
正确答案获取微信:424329
如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
A:对
B:错
正确答案获取微信:424329
每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
A:对
B:错
正确答案获取微信:424329
uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同
A:对
B:错
正确答案获取微信:424329
不满足给定评价度量的关联规则是无趣的。
A:对
B:错
正确答案获取微信:424329
多层感知机的学习能力有限,只能处理线性可分的二分类问题。
A:对
B:错
正确答案获取微信:424329
由不同的距离度量所确定的最近邻点是不同的
A:对
B:错
正确答案获取微奥鹏教育南开大学平时作业信:424329
决策树分类时将该结点的实例强行分到条件概率大的那一类去
A:对
B:错
正确答案获取微信:424329