南开大学22秋学期《数据科学导论》在线作业二

奥鹏教育南开大学平时作业

南开大学22秋学期《数据科学导论》在线作业二插图

22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00002

实体识别的常见形式()
A:同名异义
B:异名同义
C:单位不统一
D:属性不同
正确答案获取微信:424329

以下哪一项不是特征工程的子问题()
A:特征创建
B:特征提取
C:特征选择
D:特征识别
正确答案获取微信:424329

比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A:异常值
B:不一致的值
C:重复值
D:缺失值
正确答案获取微信:424329

在一元线性回归模型中,残差项服从()分布。
A:泊松
B:正态
C:线性
D:非线性
正确答案获取微信:424329

对于k近邻法,下列说法错误的是()。
A:不具有显式的学习过程
B:适用于多分类任务
C:k值越大,分类效果越好
D:通常采用多数表决的分类决策规则
正确答案获取微信:424329

在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A:减小,减小
B:减小,增大
C:增大,减小
D:增大,增大
正确答案获取微信:424329

BFR聚类用于在()欧氏空间中对数据进行聚类
A:高维
B:中维
C:低维
D:中高维
正确答案获取微信:424329

置信度(confidence)是衡量兴趣度度量( )的指标。
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案获取微信:424329

在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A:越小
B:越大
C:无关
D:不确定
正确答案获取微信:424329

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:聚类
C:分类
D:自然语言处理
正确答案获取微信:424329

多层感知机是由()层神经元组成。
A:二
B:三
C:大于等于二层
D:大于等于三层
正确答案获取微信:424329

下列两个变量之间的关系中,哪个是函数关系()。
A:人的性别和他的身高
B:人的工资与年龄
C:正方形的面积和边长
D:温度与湿度
正确答案获取微信:424329

考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A:1,2,3,4
B:1,2,3,5
C:1,2,4,5
D:1,3,4,5
正确答案获取微信:424329

通过变量标准化计算得到的回归方程称为()。
A:标准化回归方程
B:标准化偏回归方程
C:标准化自回归方程
D:标准化多回归方程
正确答案获取微信:424329

具奥鹏教育南开大学平时作业有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A:1,线性
B:2,线性
C:1,非线性
D:2,非线性
正确答案获取微信:424329

单层感知机模型属于()模型。
A:二分类的线性分类模型
B:二分类的非线性分类模型
C:多分类的线性分类模型
D:多分类的非线性分类模型
正确答案获取微信:424329

某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A:产量每增加一台,单位成本增加100元
B:产量每增加一台,单位成本减少1.2元
C:产量每增加一台,单位成本平均减少1.2元
D:产量每增加一台,单位平均增加100元
正确答案获取微信:424329

以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案获取微信:424329

以下哪一项不属于数据变换()
A:简单函数变换
B:规范化
C:属性合并
D:连续属性离散化
正确答案获取微信:424329

下面不是分类的常用方法的有()
A:K近邻法
B:朴素贝叶斯
C:决策树
D:条件随机场
正确答案获取微信:424329

聚类的主要方法有()。
A:划分聚类
B:层次聚类
C:密度聚类
D:距离聚类
正确答案获取微信:424329

相关性的分类,按照相关的方向可以分为()。
A:正相关
B:负相关
C:左相关
D:右相关
正确答案获取微信:424329

层次聚类的方法是()
A:聚合方法
B:分拆方法
C:组合方法
D:比较方法
正确答案获取微信:424329

系统日志收集的基本特征有()
A:高可用性
B:高可靠性
C:可扩展性
D:高效率
正确答案获取微信:424329

多层感知机的学习过程包含()。
A:信号的正向传播
B:信号的反向传播
C:误差的正向传播
D:误差的反向传播
正确答案获取微信:424329

Apriori算法的计算复杂度受()影响。
A:支持度阈值
B:项数
C:事务数
D:事务平均宽度
正确答案获取微信:424329

下列选项是BFR的对象是()
A:废弃集
B:临时集
C:压缩集
D:留存集
正确答案获取微信:424329

k近邻法的基本要素包括()。
A:距离度量
B:k值的选择
C:样本大小
D:分类决策规则
正确答案获取微信:424329

下面例子属于分类的是()
A:检测图像中是否有人脸出现
B:对客户按照贷款风险大小进行分类
C:识别手写的数字
D:估计商场客流量
正确答案获取微信:424329

关联规则的评价度量主要有:()。
A:支持度
B:置信度
C:准确率
D:错误率
正确答案获取微信:424329

一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
A:对
B:错
正确答案获取微信:424329

支持度是衡量关联规则重要性的一个指标。
A:对
B:错
正确答案获取微信:424329

增加神经元的个数,无法提高神经网络的训练精度。
A:对
B:错
正确答案获取微信:424329

Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A:对
B:错
正确答案获取微信:424329

由不同的距离度量所确定的最近邻点是不同的
A:对
B:错
正确答案获取微信:424329

BFR聚类簇的坐标可以与空间的坐标保持一致。
A:对
B:错
正确答案获取微信:424329

特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A:对
B:错
正确答案获取微信:424329

在树的结构中,特征越重要,就越远离根节点。
A:对
B:错
正确答案获取微信:424329

对于项集来说,置信度没有意义。
A:对
B:错
正确答案获取微信:424329

聚合方法是自底向上的方法。
A:对
B:错
正确答案获取微信:424329

当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
A:对
B:错
正确答案获取微信:424329

茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
A:对
B:错
正确答案获取微信:424329

信息熵越大,数据信息的不确定性越小。
A:对
B:错
正确答案获取微信:424329

探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
A:对
B:错
正确答案获取微信:424329

获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
A:对
B:错
正确答案获取微信:424329

决策树的输入为训练集,输出为以node为根结点的一棵决策树
A:对
B:错
正确答案获取微信:424329

阶跃函数具有不光滑、不连续的特点。
A:对
B:错
正确答案获取微信:424329

分拆方法是自底向上的方法。
A:对
B:错
正确答案获取微信:424329

为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
A:对
B:错
正确答案获取微信:424329

贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
A:对
B:错
正确答案获取微信:424329

提供优质的教育资源

公众号: 超前自学网