南开大学23年秋学期《数据科学导论》在线作业二
奥鹏南开大学23年秋季新学期作业参考
23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业-00002
以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案问询微信:424329
以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案问询微信:424329
下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案问询微信:424329
以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信:424329
BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维
正确答案问询微信:424329
某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案问询微信:424329
比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A:异常值
B:不一致的值
C:重复值
D:缺失值
正确答案问询微信:424329
BFR聚类是用于处理数据集()的k-means变体。
A:大
B:中
C:小
D:所有
正确答案问询微信:424329
根据映射关系的不同可以分为线性回归和()。
A:对数回归
B:非线性回归
C:逻辑回归
D:多元回归
正确答案问询微信:424329
特征选择的四个步骤中不包括()
A:子集产生
B:子集评估
C:子集搜索
D:子集验证
正确答案问询微信:424329
哪一项不属于规范化的方法()
A:最小-最大规范化
B:零-均值规范化
C:小数定标规范化
D:中位数规范化
正确答案问询微信:424329
在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:离散型变量,连续型变量
D:连续型变量奥鹏南开大学23年秋季新学期作业参考,连续型变量
正确答案问询微信:424329
K-means聚类适用的数据类型是()。
A:数值型数据
B:字符型数据
C:语音数据
D:所有数据
正确答案问询微信:424329
在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大
正确答案问询微信:424329
利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A:最小化方差#最小化标准差
B:最小化残差平方和
C:最大化信息熵
正确答案问询微信:424329
单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案问询微信:424329
以下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案问询微信:424329
在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案问询微信:424329
为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A:1
B:2
C:3
D:4
正确答案问询微信:424329
只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A:计数属性
B:离散属性
C:非对称的二元属性#对称属性
正确答案问询微信:424329
层次聚类的方法是()
A:聚合方法
B:分拆方法
C:组合方法
D:比较方法
正确答案问询微信:424329
K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329
距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案问询微信:424329
对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信:424329
系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329
k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案问询微信:424329
聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信:424329
Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案问询微信:424329
多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案问询微信:424329
数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解
正确答案问询微信:424329
选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
A:对
B:错
正确答案问询微信:424329
如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
A:对
B:错
正确答案问询微信:424329
一个人的身高与体重之间具有函数关系。
A:对
B:错
正确答案问询微信:424329
特征的信息增益越大,则其越不重要。
A:对
B:错
正确答案问询微信:424329
使用SVD方法进行图像压缩不可以保留图像的重要特征。
A:对
B:错
正确答案问询微信:424329
特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A:对
B:错
正确答案问询微信:424329
贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
A:对
B:错
正确答案问询微信:424329
可信度是对关联规则的准确度的衡量。
A:对
B:错
正确答案问询微信:424329
数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
A:对
B:错
正确答案问询微信:424329
为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
A:对
B:错
正确答案问询微信:424329
赤池信息准则是衡量统计模型拟合优良性的一种标准。
A:对
B:错
正确答案问询微信:424329
具有双隐层的感知机足以用于解决任何复杂的分类问题。
A:对
B:错
正确答案问询微信:424329
分拆方法是自底向上的方法。
A:对
B:错
正确答案问询微信:424329
uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同
A:对
B:错
正确答案问询微信:424329
阶跃函数具有不光滑、不连续的特点。
A:对
B:错
正确答案问询微信:424329
Apriori算法是一种典型的关联规则挖掘算法。
A:对
B:错
正确答案问询微信:424329
对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
A:对
B:错
正确答案问询微信:424329
信息熵越小,样本结合的纯度越低
A:对
B:错
正确答案问询微信:424329
由不同的距离度量所确定的最近邻点是不同的
A:对
B:错
正确答案问询微信:424329
相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
A:对
B:错
正确答案问询微信:424329