南开大学22秋学期《数据挖掘》在线作业二
奥鹏教育南开大学平时作业
22秋学期(高起本1709-1803、全层次1809-2103)《数据挖掘》在线作业-00002
考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为( )。
A:0.75
B:0.35
C:0.468
D:0.574
正确答案获取微信:424329
( )很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。
A:人工填写缺失值方法
B:全局常量填充
C:自动填充
D:删除
正确答案获取微信:424329
( )是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。
A:数据分析
B:数据挖掘
C:聚类
D:分类
正确答案获取微信:424329
下列哪个不是专门用于可视化时间空间数据的技术?( )
A:等高线图
B:饼图
C:曲面图
D:矢量场图
正确答案获取微信:424329
( )的首要挑战是设法解决如何在二维显示上可视化高维空间。
A:数据可视化技术
B:几何投影技术
C:基于图符的可视化技术
D:像素可视化技术
正确答案获取微信:424329
以下属于可伸缩聚类算法的是( )。
A:CURE
B:DENCLUE
C:CLIQUE
D:OPOSSUM
正确答案获取微信:424329
数据挖掘经常需要( ),即合并来自多个数据存储的数据,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。
A:数据集成
B:数据归约
C:数据分类
D:数据聚集
正确答案获取微信:424329
假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。
A:18.3
B:22.6
C:26.8
D:27.9
正确答案获取微信:424329
离群点分析使用基于( )的技术,把可能的离群点看做与其他对象高度相异的对象。
A:分类
B:聚类
C:离散
D:可视化
正确答案获取微信:424329
职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。职位属性是( )。
A:标称属性
B:序数属性
C:数值属性
D:二元属性
正确答案获取微信:424329
数据挖掘是一个基于( )的学习过程,一位好的数据挖掘人员必须对新思想持开放态度。
A:过程
B:分析
C:数据
D:素质
正确答案获取微信:424329
检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。
A:统计方法
B:邻近度
C:密度
D:聚类技术
正确答案获取微信:424329
关于K均值和DBSCAN的比较,以下说法不正确的是( )。
A:K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B:K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C:K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D:K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
正确答案获取微信:424329
以下哪项关于决策树的说法是错误的?( )
A:冗余属性不会对决策树的准确率造成不利的影响
B:子树可能在决策树中重复多次
C:决策树算法对于噪声的干扰非常敏感
D:寻找最佳决策树是NP完全问题
正确答案获取微信:424329
BIRCH是一种( )。
A:分类器
B:聚类算法
C:关联分析算法
D:特征选择算法
正确答案获取微信:424329
数据分析主要采用的是( )的技术。
A:统计学
B:机器学习
C:人工智能
D:数据库
正确答案获取微信:424329
互联网从入口为王、流量为王、应用为王,渐渐转向( )为王的时代。
A:数据
B:分析
C:挖掘
D:分类
正确答案获取微信:424329
下列( )不是将主观信息加入到模式发现任务中的方法。
A:与同一时期其他数据对比
B:可视化
C:基于模板的方法
D:主观兴趣度量
正确答案获取微信:424329
假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽(宽度为50)划分成四个箱时,15在第( )个箱子内。
A:第一个
B:第二个
C:第三个
D:第四个
正确答案获取微信:424329
( )的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
A:数据可视化技术
B:数据库系统
C:基于图符的可视化技术
D:像素可视化技术
正确答案获取微信:424329
在聚类分析当中,( )等技术可以处理任意形状的簇。
A:MIN(单链)
B:MAX(全链)
C:组平均
D:Chameleon
正确答案获取微信:424329
数据集由数据对象组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称( )。
A:样本
B:实例
C:数据点
D:对象
正确答案获取微信:424329
以下哪些学科和数据挖掘有密切联系( )?
A:统计
B:计算机组成原理
C:矿产挖掘
D:人工智能
正确答案获取微信:424329
多媒体数据库是指存储和管理大量多媒体对象的数据库,如( ),以及超文本数据,包含文本,文本标记(text markup),和链接(linkage)。
A:序列数据
B:音频数据
C:图象数据
D:视频数据
正确答案获取微信:424329
要选择一种适合当前任务的数据挖掘系统,重要的是要从多维特性来看它。一般奥鹏教育南开大学平时作业来说,评价一个数据挖掘系统应该包括以下几个方面:( )、数据挖掘系统和数据库或数据仓库系统的结合、可伸缩性、可视化工具、数据挖掘查询语言和图形用户接口。
A:数据类型
B:系统问题
C:数据源
D:数据挖掘的功能和方法
正确答案获取微信:424329
典型的文本挖掘任务包括文本的( )、概念/实体提取、分类系统产生、文档摘要、实体关系建模。
A:分类
B:聚类
C:观点分析
D:情感分析
正确答案获取微信:424329
元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为( )两类。
A:技术元数据
B:事务元数据
C:商业元数据
D:业务元数据
正确答案获取微信:424329
设一个标称属性的状态数目是M。这些状态可以用( )表示。注意这些整数只是用于数据处理,并不代表任何特定的顺序。
A:字母
B:符号
C:一组整数
D:文字
正确答案获取微信:424329
数据质量涉及许多因素,包括准确性、完整性、( )。
A:一致性
B:时效性
C:可信性
D:可解释性
正确答案获取微信:424329
贝叶斯网络由两部分组成,分别是( )。
A:网络结构
B:先验概率
C:后验概率
D:条件概率表
正确答案获取微信:424329
多元回归是简单线性回归的扩展,允许用两个或多个自变量的线性函数对因变量y建模。
A:对
B:错
正确答案获取微信:424329
数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
A:对
B:错
正确答案获取微信:424329
稀有模式很少出现,但特别有趣。
A:对
B:错
正确答案获取微信:424329
数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。
A:对
B:错
正确答案获取微信:424329
序列数据没有时间戳。
A:对
B:错
正确答案获取微信:424329
数据如果能满足其应用要求,那么它是高质量的。
A:对
B:错
正确答案获取微信:424329
数据仓库中间层OLAP服务器只能采用关系型OLAP。
A:对
B:错
正确答案获取微信:424329
数据挖掘是指对数据进行处理和研究,并从数据中提取有用的信息和发现知识的过程。
A:对
B:错
正确答案获取微信:424329
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
A:对
B:错
正确答案获取微信:424329
数据资源可以重复使用,在共享中不断产生新的价值。
A:对
B:错
正确答案获取微信:424329
频繁模式反映数据中属性-值对(或项)之间的强关系,可以用于基于频繁模式的分类。
A:对
B:错
正确答案获取微信:424329
SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)。
A:对
B:错
正确答案获取微信:424329
离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点 。
A:对
B:错
正确答案获取微信:424329
分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。
A:对
B:错
正确答案获取微信:424329
在某些情况下,缺失值并不意味数据有错误。例如,在申请信用卡时,可能要求申请人提供驾驶执照号。没有驾驶执照的申请者可能自然地不填写该字段。
A:对
B:错
正确答案获取微信:424329
属性是一个数据字段,表示数据对象的一个特征。在文献中,属性(attribute)、维(dimension)、特征(feature)和变量(variable)可以互换地使用。
A:对
B:错
正确答案获取微信:424329
销售部门不知道如何解释数据。即便该数据库现在是正确的、完整的、一致的、及时的,但是由于很差的可信性和可解释性,销售部门的用户仍然可能把它看成低质量的数据。
A:对
B:错
正确答案获取微信:424329
数据清理可能是一项繁重的任务。
A:对
B:错
正确答案获取微信:424329
通常,数据仓库用称做数据立方体的多维数据结构建模,其中每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值。
A:对
B:错
正确答案获取微信:424329
给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
A:对
B:错
正确答案获取微信:424329