南开大学23年春学期《数据科学导论》在线作业三
奥鹏南开大学新学期作业参考
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《数据科学导论》在线作业-00003
只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A:计数属性
B:离散属性
C:非对称的二元属性#对称属性
正确答案问询微信:424329
下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案问询微信:424329
以下哪一项不属于数据变换()
A:简单函数变换
B:规范化
C:属性合并
D:连续属性离散化
正确答案问询微信:424329
K-means聚类适用的数据类型是()。
A:数值型数据
B:字符型数据
C:语音数据
D:所有数据
正确答案问询微信:424329
例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信:424329
一元线性回归中,真实值与预测值的差称为样本的()。
A:误差
B:方差
C:测差
D:残差
正确答案问询微信:424329
在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A:最优回归线
B:最优分布线
C:最优预测线
D:最佳分布线
正确答案问询微信:424329
在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A:越小
B:越大
C:无关
D:不确定
正确答案问询微信:424329
在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大
正确答案问询微信:424329
层次聚类对给定的数据进行()的分解。
A:聚合
B:层次
C:分拆
D:复制
正确答案问询微信:424329
在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:离散型变量,连续型变量
D:连续型变量,连续型变量
正确答案问询微信:424329
以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案问询微信:424329
单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案问询微信:424329
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329
单层感知机是由()层神经元组成。
A:一
B:二
C:三
D:四
正确答案问询微信:424329
考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5
正确答案问询微信:424329
BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维
正确答案问询微信:424329
实体识别属于以下哪个过程()
A:数据清洗
B:数据集成
C:数据规约
D:数据变换
正确答案问询微信:424329
聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案问询微信:424329
以下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案问询微信:424329
Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案问询微信:424329
聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信:424329
多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案问询微信:424329
一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法
正确答案问询微信:424329
k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案问询微信:424329
距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案问询微信:424329
系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329
什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空,或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类
正确答案问询微信:424329
K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329
下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信:424329
一个人的身高与体重之间具有函数关系。
A:对
B:错
正确答案问询微信:424329
贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
A:对
B:错
正确答案问询微信:424329
决策树分类时将该结点的实例强行分到条件概率大的那一类去
A:对
B:错
正确答案问询微信:424329
分拆方法是自底向上的方法。
A:对
B:错
正确答案问询微信:424329
决策树的输入为训练集,输出为以node为根结点的一棵决策树
A:对
B:错
正确答案问询微信:424329
不满足给定评价度量的关联规则是无趣的。
A:对
B:错
正确答案问询微信:424329
EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
A:对
B:错
正确答案问询微信:424329
给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A:对
B:错
正确答案问询微信:424329
由不同的距离度量所确定的最近邻点是不同的
A:对
B:错
正确答案问询微信:424329
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
A:对
B:错
正确答案问询微信:424329
特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
奥鹏南开大学新学期作业参考 代做2元一门A:对
B:错
正确答案问询微信:424329
数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
A:对
B:错
正确答案问询微信:424329
利用K近邻法进行分类时,k值过小容易发生过拟合现象。
A:对
B:错
正确答案问询微信:424329
可信度是对关联规则的准确度的衡量。
A:对
B:错
正确答案问询微信:424329
相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
A:对
B:错
正确答案问询微信:424329
在一元线性回归中,输入只包含一个单独的特征。
A:对
B:错
正确答案问询微信:424329
交叉表可以帮助人们发现变量之间的相互作用。
A:对
B:错
正确答案问询微信:424329
朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
A:对
B:错
正确答案问询微信:424329
决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
A:对
B:错
正确答案问询微信:424329
利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A:对
B:错
正确答案问询微信:424329