南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业一

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业-00001

1.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
选项A：简单函数变换
选项B：规范化
选项C：属性构造
选项D：连续属性离散化
满分答案问询微信：424329

2.实体识别的常见形式()
选项A：同名异义
选项B：异名同义
选项C：单位不统一
选项D：属性不同
满分答案问询微信：424329

3.置信度(confidence)是衡量兴趣度度量( )的指标。
选项A：简洁性
选项B：确定性
选项C：实用性
选项D：新颖性
满分答案问询微信：424329

4.以下哪个不是处理缺失值的方法()
选项A：删除记录
选项B：按照一定原则补充
选项C：不处理
选项D：随意填写
满分答案问询微信：424329

5.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
选项A：4
选项B：5
选项C：6
选项D：7
满分答案问询微信：424329

6.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

7.在一元线性回归模型中,残差项服从()分布。
选项A：泊松
选项B：正态
选项C：线性
选项D：非线性
满分答案问询微信：424329

8.以下哪一项不是特征工程的子问题()
选项A：特征创建
选项B：特征提取
选项C：特征选择
选项D：特征识别
满分答案问询微信：424329

9.聚类的最简单最基本方法是()。
选项A：划分聚类
选项B：层次聚类
选项C：密度聚类
选项D：距离聚类
满分答案问询微信：424329

10.单层感知机模型属于()模型。
选项A：二分类的线性分类模型
选项B：二分类的非线性分类模型
选项C：多分类的线性分类模型
选项D：多分类的非线性分类模型
满分答案问询微信：424329

11.下列两个变量之间的关系中,哪个是函数关系()。
选项A：人的性别和他的身高
选项B：人的工资与年龄
选项C：正方形的面积和边长
选项D：温度与湿度
满分答案问询微信：424329

12.特征选择的四个步骤中不包括()
选项A：子集产生
选项B：子集评估
选项C：子集搜索
选项D：子集验证
满分答案问询微信：424329

13.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
选项A：最优回归线
选项B：最优分布线
选项C：最优预测线
选项D：最佳分布线
满分答案问询微信：424329

14.单层感知机拥有()层功能神经元。
选项A：一
选项B：二
选项C：三
选项D：四
满分答案问询微信：424329

15.一元线性回归中,真实值与预测值的差称为样本的()。
选项A：误差
选项B：方差
选项C：测差
选项D：残差
满分答案问询微信：424329

16.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
选项A：异常值
选项B：不一致的值
选项C：重复值
选项D：缺失值
满分答案问询微信：424329

17.通过变量标准化计算得到的回归方程称为()。
选项A：标准化回归方程
选项B：标准化偏回归方程
选项C：标准化自回归方程
选项D：标准化多回归方程
满分答案问询微信：424329

18.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
选项A：K-means
选项B：Bayes Network
选项C：C4.5
选项D：Apriori
满分答案问询微信：424329

19.BFR聚类用于在()欧氏空间中对数据进行聚类
选项A：高维
选项B：中维
选项C：低维
选项D：中高维
满分答案问询微信：424329

20.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
选项A：越小
奥鹏南开在线作业满分答案参考选项B：越大
选项C：无关
选项D：不确定
满分答案问询微信：424329

21.一元回归参数估计的参数求解方法有()。
选项A：最大似然法
选项B：距估计法
选项C：最小二乘法
选项D：欧式距离法
满分答案问询微信：424329

22.距离度量中的距离可以是()
选项A：欧式距离
选项B：曼哈顿距离
选项C：Lp距离
选项D：Minkowski距离
满分答案问询微信：424329

23.对于多层感知机,()层拥有激活函数的功能神经元。
选项A：输入层
选项B：隐含层
选项C：输出层
满分答案问询微信：424329

24.Apriori算法的计算复杂度受()影响。
选项A：支持度阈值
选项B：项数
选项C：事务数
选项D：事务平均宽度
满分答案问询微信：424329

25.k近邻法的基本要素包括()。
选项A：距离度量
选项B：k值的选择
选项C：样本大小
选项D：分类决策规则
满分答案问询微信：424329

26.系统日志收集的基本特征有()
选项A：高可用性
选项B：高可靠性
选项C：可扩展性
选项D：高效率
满分答案问询微信：424329

27.什么情况下结点不用划分()
选项A：当前结点所包含的样本全属于同一类别
选项B：当前属性集为空，或是所有样本在所有属性上取值相同
选项C：当前结点包含的样本集为空
选项D：还有子集不能被基本正确分类
满分答案问询微信：424329

28.多层感知机的学习过程包含()。
选项A：信号的正向传播
选项B：信号的反向传播
选项C：误差的正向传播
选项D：误差的反向传播
满分答案问询微信：424329

29.聚类的主要方法有()。
选项A：划分聚类
选项B：层次聚类
选项C：密度聚类
选项D：距离聚类
满分答案问询微信：424329

30.层次聚类的方法是()
选项A：聚合方法
选项B：分拆方法
选项C：组合方法
选项D：比较方法
满分答案问询微信：424329

31.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
选项A：对
选项B：错
满分答案问询微信：424329

32.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
选项A：对
选项B：错
满分答案问询微信：424329

33.信息熵越小,样本结合的纯度越低
选项A：对
选项B：错
满分答案问询微信：424329

34.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
选项A：对
选项B：错
满分答案问询微信：424329

35.BFR聚类簇的坐标可以与空间的坐标保持一致。
选项A：对
选项B：错
满分答案问询微信：424329

36.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
选项A：对
选项B：错
满分答案问询微信：424329

37.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
选项A：对
选项B：错
满分答案问询微信：424329

38.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
选项A：对
选项B：错
满分答案问询微信：424329

39.多元线性回归模型中,标准化偏回归系数没有单位。
选项A：对
选项B：错
满分答案问询微信：424329

40.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
选项A：对
选项B：错
满分答案问询微信：424329

41.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
选项A：对
选项B：错
满分答案问询微信：424329

42.赤池信息准则是衡量统计模型拟合优良性的一种标准。
选项A：对
选项B：错
满分答案问询微信：424329

43.交叉表可以帮助人们发现变量之间的相互作用。
选项A：对
选项B：错
满分答案问询微信：424329

44.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
选项A：对
选项B：错
满分答案问询微信：424329

45.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
选项A：对
选项B：错
满分答案问询微信：424329

46.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
选项A：对
选项B：错
满分答案问询微信：424329

47.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
选项A：对
选项B：错
满分答案问询微信：424329

48.聚合方法是自底向上的方法。
选项A：对
选项B：错
满分答案问询微信：424329

49.对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
选项A：对
选项B：错
满分答案问询微信：424329

50.利用K近邻法进行分类时,k值过小容易发生过拟合现象。
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源