南开大学23年秋学期《数据科学导论》在线作业一

奥鹏南开大学23年秋季新学期作业参考

23秋学期（仅限-高起专1909、专升本1909）《数据科学导论》在线作业-00001

以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案问询微信：424329

以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信：424329

手肘法的核心指标是()。
A:SES
B:SSE
C:RMSE
D:MSE
正确答案问询微信：424329

具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A:1,线性
B:2,线性
C:1,非线性
D:2,非线性
正确答案问询微信：424329

在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小，减小
B:减小，增大
C:增大，减小
D:增大，增大
正确答案问询微信：424329

利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A:最小化方差#最小化标准差
B:最小化残差平方和
C:最大化信息熵
正确答案问询微信：424329

单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案问询微信：424329

聚类的最简单最基本方法是()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信：424329

以奥鹏南开大学23年秋季新学期作业参考下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案问询微信：424329

在一元线性回归模型中,残差项服从()分布。
A:泊松
B:正态
C:线性
D:非线性
正确答案问询微信：424329

通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信：424329

K-means聚类适用的数据类型是()。
A:数值型数据
B:字符型数据
C:语音数据
D:所有数据
正确答案问询微信：424329

变量之间的关系一般可以分为确定性关系与()。
A:非确定性关系
B:线性关系
C:函数关系
D:相关关系
正确答案问询微信：424329

通过变量标准化计算得到的回归方程称为()。
A:标准化回归方程
B:标准化偏回归方程
C:标准化自回归方程
D:标准化多回归方程
正确答案问询微信：424329

置信度(confidence)是衡量兴趣度度量( )的指标。
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信：424329

BFR聚类是用于处理数据集()的k-means变体。
A:大
B:中
C:小
D:所有
正确答案问询微信：424329

聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案问询微信：424329

以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱，导致异常的输出
正确答案问询微信：424329

在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案问询微信：424329

在回归分析中,自变量为(),因变量为()。
A:离散型变量，离散型变量
B:连续型变量，离散型变量
C:离散型变量，连续型变量
D:连续型变量，连续型变量
正确答案问询微信：424329

K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信：424329

聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信：424329

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信：424329

下列选项是BFR的对象是()
A:废弃集
B:临时集
C:压缩集
D:留存集
正确答案问询微信：424329

距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案问询微信：424329

一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法
正确答案问询微信：424329

多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案问询微信：424329

Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案问询微信：424329

什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空，或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类
正确答案问询微信：424329

对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信：424329

随着特征维数的增加,样本间区分度提高。
A:对
B:错
正确答案问询微信：424329

决策树的输入为训练集,输出为以node为根结点的一棵决策树
A:对
B:错
正确答案问询微信：424329

利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A:对
B:错
正确答案问询微信：424329

Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A:对
B:错
正确答案问询微信：424329

剪枝是决策树学习算法对付“过拟合”的主要手段
A:对
B:错
正确答案问询微信：424329

K-means聚类是发现给定数据集的K个簇的算法。
A:对
B:错
正确答案问询微信：424329

如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
A:对
B:错
正确答案问询微信：424329

交叉表被广泛用于调查研究,商业智能,工程和科学研究
A:对
B:错
正确答案问询微信：424329

每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
A:对
B:错
正确答案问询微信：424329

利用K近邻法进行分类时,k值过小容易发生过拟合现象。
A:对
B:错
正确答案问询微信：424329

在树的结构中,特征越重要,就越远离根节点。
A:对
B:错
正确答案问询微信：424329

对于项集来说,置信度没有意义。
A:对
B:错
正确答案问询微信：424329

多层感知机的学习能力有限,只能处理线性可分的二分类问题。
A:对
B:错
正确答案问询微信：424329

聚合方法是自底向上的方法。
A:对
B:错
正确答案问询微信：424329

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建
A:对
B:错
正确答案问询微信：424329

方差过小的特征对数据的区分能力强
A:对
B:错
正确答案问询微信：424329

K-means算法采用贪心策略,通过迭代优化来近似求解。
A:对
B:错
正确答案问询微信：424329

决策树分类时将该结点的实例强行分到条件概率大的那一类去
A:对
B:错
正确答案问询微信：424329

当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A:对
B:错
正确答案问询微信：424329

信息熵越小,样本结合的纯度越低
A:对
B:错
正确答案问询微信：424329

提供优质的教育资源