南开大学23年春《数据科学导论》在线作业三
奥鹏南开大学新学期作业参考
23春学期(仅限-高起专1903、专升本1903)《数据科学导论》在线作业-00003
以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信:424329
我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A:自上而下
B:自下而上
C:自左而右
D:自右而左
正确答案问询微信:424329
以下哪一项不是特征选择常见的方法()
A:过滤式
B:封装式
C:嵌入式
D:开放式
正确答案问询微信:424329
在一元线性回归模型中,残差项服从()分布。
A:泊松
B:正态
C:线性
D:非线性
正确答案问询微信:424329
设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A:4
B:5
C:6
D:7
正确答案问询微信:424329
在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大
正确答案问询微信:424329
手肘法的核心指标是()。
A:SES
B:SSE
C:RMSE
D:MSE
正确答案问询微信:424329
对于k近邻法,下列说法错误的是()。
A:不具有显式的学习过程
B:适用于多分类任务
C:k值越大,分类效果越好
D:通常采用多数表决的分类决策规则
正确答案问询微信:424329
变量之间的关系一般可以奥鹏南开大学新学期作业参考 代做2元一门分为确定性关系与()。
A:非确定性关系
B:线性关系
C:函数关系
D:相关关系
正确答案问询微信:424329
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329
一元线性回归中,真实值与预测值的差称为样本的()。
A:误差
B:方差
C:测差
D:残差
正确答案问询微信:424329
以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案问询微信:424329
某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案问询微信:424329
在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A:越小
B:越大
C:无关
D:不确定
正确答案问询微信:424329
单层感知机拥有()层功能神经元。
A:一
B:二
C:三
D:四
正确答案问询微信:424329
聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案问询微信:424329
以下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案问询微信:424329
哪一项不属于规范化的方法()
A:最小-最大规范化
B:零-均值规范化
C:小数定标规范化
D:中位数规范化
正确答案问询微信:424329
置信度(confidence)是衡量兴趣度度量( )的指标。
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信:424329
特征选择的四个步骤中不包括()
A:子集产生
B:子集评估
C:子集搜索
D:子集验证
正确答案问询微信:424329
k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案问询微信:424329
下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信:424329
系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329
K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329
什么情况下结点不用划分()
A:当前结点所包含的样本全属于同一类别
B:当前属性集为空,或是所有样本在所有属性上取值相同
C:当前结点包含的样本集为空
D:还有子集不能被基本正确分类
正确答案问询微信:424329
Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案问询微信:424329
对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信:424329
数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解
正确答案问询微信:424329
多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案问询微信:424329
相关性的分类,按照相关的方向可以分为()。
A:正相关
B:负相关
C:左相关
D:右相关
正确答案问询微信:424329
关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
A:对
B:错
正确答案问询微信:424329
集中趋势能够表明在一定条件下数据的独特性质与差异
A:对
B:错
正确答案问询微信:424329
获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
A:对
B:错
正确答案问询微信:424329
给定关联规则A→B,意味着:若A发生,B也会发生。
A:对
B:错
正确答案问询微信:424329
Apriori算法是一种典型的关联规则挖掘算法。
A:对
B:错
正确答案问询微信:424329
阶跃函数具有不光滑、不连续的特点。
A:对
B:错
正确答案问询微信:424329
信息熵越大,数据信息的不确定性越小。
A:对
B:错
正确答案问询微信:424329
为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
A:对
B:错
正确答案问询微信:424329
K-means算法采用贪心策略,通过迭代优化来近似求解。
A:对
B:错
正确答案问询微信:424329
决策树的输入为训练集,输出为以node为根结点的一棵决策树
A:对
B:错
正确答案问询微信:424329
决策树分类时将该结点的实例强行分到条件概率大的那一类去
A:对
B:错
正确答案问询微信:424329
决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
A:对
B:错
正确答案问询微信:424329
数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
A:对
B:错
正确答案问询微信:424329
当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A:对
B:错
正确答案问询微信:424329
在数据预处理时,无论什么情况,都可以直接将异常值删除
A:对
B:错
正确答案问询微信:424329
数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
A:对
B:错
正确答案问询微信:424329
茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
A:对
B:错
正确答案问询微信:424329
给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A:对
B:错
正确答案问询微信:424329
多元线性回归模型中,标准化偏回归系数没有单位。
A:对
B:错
正确答案问询微信:424329
啤酒与尿布的故事是聚类分析的典型实例。
A:对
B:错
正确答案问询微信:424329