南开大学23年春《数据科学导论》在线作业二

奥鹏南开大学新学期作业参考

23春学期(仅限-高起专1903、专升本1903)《数据科学导论》在线作业-00002

以下哪些不是缺失值的影响()
A:数据建模将丢失大量有用信息
B:数据建模的不确定性更加显著
C:对整体总是不产生什么作用
D:包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案问询微信:424329

利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A:最小化方差#最小化标准差
B:最小化残差平方和
C:最大化信息熵
正确答案问询微信:424329

通过变量标准化计算得到的回归方程称为()。
A:标准化回归方程
B:标准化偏回归方程
C:标准化自回归方程
D:标准化多回归方程
正确答案问询微信:424329

只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A:计数属性
B:离散属性
C:非对称的二元属性#对称属性
正确答案问询微信:424329

聚类是一种()。
A:有监督学习
B:无监督学习
C:强化学习
D:半监督学习
正确答案问询微信:424329

手肘法的核心指标是()。
A:SES
B:SSE
C:RMSE
D:MSE
正确答案问询微信:424329

比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A:异常值
B:不一致的值
C:重复值
D:缺失值
正确答案问询微信:424329

在回归分析中,自变量为(),因变量为()。
A:离散型变量,离散型变量
B:连续型变量,离散型变量
C:奥鹏南开大学新学期作业参考 代做2元一门离散型变量,连续型变量
D:连续型变量,连续型变量
正确答案问询微信:424329

以下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案问询微信:424329

对于k近邻法,下列说法错误的是()。
A:不具有显式的学习过程
B:适用于多分类任务
C:k值越大,分类效果越好
D:通常采用多数表决的分类决策规则
正确答案问询微信:424329

下面不是分类的常用方法的有()
A:K近邻法
B:朴素贝叶斯
C:决策树
D:条件随机场
正确答案问询微信:424329

BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维
正确答案问询微信:424329

维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329

Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行
正确答案问询微信:424329

以下哪个不是处理缺失值的方法()
A:删除记录
B:按照一定原则补充
C:不处理
D:随意填写
正确答案问询微信:424329

例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A:简单函数变换
B:规范化
C:属性构造
D:连续属性离散化
正确答案问询微信:424329

下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案问询微信:424329

在一元线性回归模型中,残差项服从()分布。
A:泊松
B:正态
C:线性
D:非线性
正确答案问询微信:424329

BFR聚类是用于处理数据集()的k-means变体。
A:大
B:中
C:小
D:所有
正确答案问询微信:424329

实体识别属于以下哪个过程()
A:数据清洗
B:数据集成
C:数据规约
D:数据变换
正确答案问询微信:424329

距离度量中的距离可以是()
A:欧式距离
B:曼哈顿距离
C:Lp距离
D:Minkowski距离
正确答案问询微信:424329

多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案问询微信:424329

聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案问询微信:424329

K-means聚类中K值选取的方法是()。
A:密度分类法
B:手肘法
C:大腿法
D:随机选取
正确答案问询微信:424329

对于多层感知机,()层拥有激活函数的功能神经元。
A:输入层
B:隐含层
C:输出层
正确答案问询微信:424329

Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案问询微信:424329

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案问询微信:424329

一元回归参数估计的参数求解方法有()。
A:最大似然法
B:距估计法
C:最小二乘法
D:欧式距离法
正确答案问询微信:424329

数据科学具有哪些性质()
A:有效性
B:可用性
C:未预料
D:可理解
正确答案问询微信:424329

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案问询微信:424329

k值增大意味着整体模型变得复杂。
A:对
B:错
正确答案问询微信:424329

多元线性回归模型中,标准化偏回归系数没有单位。
A:对
B:错
正确答案问询微信:424329

获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
A:对
B:错
正确答案问询微信:424329

使用SVD方法进行图像压缩不可以保留图像的重要特征。
A:对
B:错
正确答案问询微信:424329

信息熵越大,数据信息的不确定性越小。
A:对
B:错
正确答案问询微信:424329

sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
A:对
B:错
正确答案问询微信:424329

不满足给定评价度量的关联规则是无趣的。
A:对
B:错
正确答案问询微信:424329

一个人的身高与体重之间具有函数关系。
A:对
B:错
正确答案问询微信:424329

当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A:对
B:错
正确答案问询微信:424329

当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A:对
B:错
正确答案问询微信:424329

多层感知机的学习能力有限,只能处理线性可分的二分类问题。
A:对
B:错
正确答案问询微信:424329

决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
A:对
B:错
正确答案问询微信:424329

交叉表被广泛用于调查研究,商业智能,工程和科学研究
A:对
B:错
正确答案问询微信:424329

数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
A:对
B:错
正确答案问询微信:424329

在树的结构中,特征越重要,就越远离根节点。
A:对
B:错
正确答案问询微信:424329

啤酒与尿布的故事是聚类分析的典型实例。
A:对
B:错
正确答案问询微信:424329

为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
A:对
B:错
正确答案问询微信:424329

K-means聚类是发现给定数据集的K个簇的算法。
A:对
B:错
正确答案问询微信:424329

可信度是对关联规则的准确度的衡量。
A:对
B:错
正确答案问询微信:424329

集中趋势能够表明在一定条件下数据的独特性质与差异
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网