南开大学22秋学期(高起本1709-1803、全层次1809-2103)《数据挖掘》在线作业三
奥鹏南开在线作业满分答案参考
22秋学期(高起本1709-1803、全层次1809-2103)《数据挖掘》在线作业-00003
1.以下属于可伸缩聚类算法的是( )。
选项A:CURE
选项B:DENCLUE
选项C:CLIQUE
选项D:OPOSSUM
满分答案问询微信:424329
2.标称属性可以取( )例如,地图颜色是一个标称属性,可以有5种状态:红、黄、绿、粉红和蓝。
选项A:两个
选项B:多个状态
选项C:两个或多个状态
选项D:不同状态
满分答案问询微信:424329
3.关于OLAP和OLTP的区别描述,不正确的是( )。
选项A:OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
选项B:与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
选项C:OLAP的特点在于事务量大,但事务内容比较简单且重复率高
选项D:OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
满分答案问询微信:424329
4.在( )的数据集上挖掘将更有效,而且会产生相同或几乎相同的分析结果。
选项A:归约后
选项B:集成后
选项C:离散后
选项D:规范后
满分答案问询微信:424329
5.假设属性income的最小-最大值分别是12000元和98000元。利用最小-最大规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被变换为( )。
选项A:0.821
选项B:1.224
选项C:1.458
选项D:0.716
满分答案问询微信:424329
6.( )是数据挖掘最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。
选项A:事务数据
选项B:数据仓库
选项C:关系数据库
选项D:文本数据
满分答案问询微信:424329
7.以下关于人工神经网络(ANN)的描述错误的有( )。
选项A:神经网络对训练数据中的噪声非常鲁棒
选项B:可以处理冗余特征
选项C:训练ANN是一个很耗时的过程
选项D:至少含有一个隐藏层的多层神经网络
满分答案问询微信:424329
8.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是( )。
选项A:31
选项B:24
选项C:55
选项D:3
满分答案问询微信:424329
9.下面不属于创建新属性的相关方法的是( )。
选项A:特征提取
选项B:特征修改
选项C:映射数据到新的空间
选项D:特征构造
满分答案问询微信:424329
10.数据挖掘是一门新兴的( )学科,是在信息技术领域迅速兴起的计算机技术,数据挖掘技术更重要的是面向应用。
选项A:统计学
选项B:计算机
选项C:数据
选项D:交叉性
满分答案问询微信:424329
11.以下哪些分类方法可以较好地避免样本的不平衡问题?( )
选项A:KNN
选项B:SVM
选项C:Bayes
选项D:神经网络
满分答案问询微信:424329
12.数据仓库和OLAP工具基于多维数据模型。该模型将数据看作( )形式。
选项A:数据立方体(data cube)
选项B:整数
选项C:离散
选项D:不同
满分答案问询微信:424329
13.( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。
选项A:离散化
选项B:属性构造
选项C:聚集
选项D:规范化
满分答案问询微信:424329
14.( )把所有维划分成子集(即子空间),这些子空间按层次可视化。
选项A:层次可视化技术
选项B:几何投影技术
选项C:基于图符的可视化技术
选项D:像素可视化技术
满分答案问询微信:424329
15.( )使用少量图符表示多维数据值。如:切尔诺夫脸和人物线条画。
选项A:数据可视化技术
选项B:几何投影技术
选项C:基于图符的可视化技术
选项D:像素可视化技术
满分答案问询微信:424329
16.在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
选项A:曼哈顿距离
选项B:平方欧几里德距离
选项C:余弦距离
选项D:Bregman散度
满分答案问询微信:424329
17.一个( )只有两个状态:0或1,0表示该变量为空,1表示该变量存在。
选项A:二元变量
选项B:标称变量
选项C:数值变量
选项D:区间变量
满分答案问询微信:424329
18.( )是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。
选项A:数据分析
选项B:数据挖掘
选项C:聚类
选项D:分类
满分答案问询微信:424329
19.决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
选项A:树状
选项B:网状
选项C:星形
选项D:雪花形
满分答案问询微信:424329
20.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。
选项A:无序规则
选项B:穷举规则
选项C:互斥规则
选项D:有序规则
满分答案问询微信:424329
21.文本挖掘是指从海量非结构化自然语言文本数据中,抽取( )信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。
选项A:相关的
选项B:潜在的
选项C:新颖的
选项D:有价值的
满分答案问询微信:424329
22.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,数据仓库通过数据( )来构造数据。
选项A:数据清理
选项B:数据变换
选项C:数据集成
选项D:数据装入
满分答案问询微信:424329
23.光滑(smoothing)是一种数据变换策略,即去掉数据中的噪声。这类技术包括( )。
选项A:分箱
选项B:回归
选项C:聚类
选项D:分类
满分答案问询微信:424329
24.( )都导致不正确的数据。
选项A:缺失值
选项B:噪声
选项C:不一致性
选项D:分层
满分答案问询微信:424329
25.簇有效性的面向相似性的度量包括( )。
选项A:精度
选项B:Rand统计量
选项C:Jaccard系数
选项D:召回率
满分答案问询微信:424329
26.数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。
选项A:统计学
选项B:机器学习
选项C:模式识别
选项D:数据库和数据仓库
满分答案问询微信:424329
27.如下哪些是最近邻分类器的特点( )。
选项A:它使用具体的训练实例进行预测,不必维护源自数据的模型
选项B:分类一个测试样例开销很大
选项C:最近邻分类器基于全局信息进行预测
选项D:可以生产任意形状的决策边界
满分答案问询微信:424329
28.数据归约(data reduction)得到数据集的简化表示,虽然小得多,但能够产生同样或几乎同样的分析结果。数据归约策略包括( )。
选项A:维归约
选项B:数值归约
选项C:层归约
选项D:数据变换
满分答案问询微信:424329
29.( )这些数据特性都是对聚类分析具有很强影响的。
选项A:高维性
选项B:规模
选项C:稀疏性
选项D:噪声和离群点
满分答案问询微信:424329
30.数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。
选项A:受噪声
选项B:不一致
选项C:缺失值
选项D:正确
满分答案问询微信:424329
31.导致不正确的数据可能有多种原因:收集数据的设备故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值,等等。
选项A:对
选项B:错
满分答案问询微信:424329
32.数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。
选项A:对
选项B:错
满分答案问询微信:424329
33.离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点 。
选项A:对
选项B:错
满分答案问询微信:424329
34.通常,数据仓库用称做数据立方体的多维数据结构建模,其中每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值。
选项A:对
选项B:错
满分答案问询微信:424329
35.有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给业务分析人员,因为数据可能是杂乱的。
选项A:对
选项B:错
满分答案问询微信:424329
36.DSS主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。
选项A:对
选项B:错
满分答案问询微信:424329
37.数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
选项A:对
选项B:错
满分答案问询微信:424329
38.离群点可以是合法的数据对象或者值。
选项A:对
选项B:错
满分答案问询微信:424329
39.特征提取技术并不依赖于特定的领域。
奥鹏南开在线作业满分答案参考选项A:对
选项B:错
满分答案问询微信:424329
40.要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。
选项A:对
选项B:错
满分答案问询微信:424329
41.聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。
选项A:对
选项B:错
满分答案问询微信:424329
42.数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售。
选项A:对
选项B:错
满分答案问询微信:424329
43.高维数据的离群点检测方法可以划分成三种主要方法,包括扩充的传统离群点检测、找出子空间的离群点和对高维离群点建模。
选项A:对
选项B:错
满分答案问询微信:424329
44.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
选项A:对
选项B:错
满分答案问询微信:424329
45.预测是预测数据对象的离散类别。
选项A:对
选项B:错
满分答案问询微信:424329
46.规划挖掘(plan mining)就是从规划库中挖掘出有意义的模式或知识。规划挖掘有很多用途,例如可从飞行数据库中发现商务乘客旅行模式。
选项A:对
选项B:错
满分答案问询微信:424329
47.如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。
选项A:对
选项B:错
满分答案问询微信:424329
48.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
选项A:对
选项B:错
满分答案问询微信:424329
49.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
选项A:对
选项B:错
满分答案问询微信:424329
50.数据挖掘结果经常看上去是可靠的,因为它们是基于实际的数据,以看似科学的态度进行处理。这种可靠性看上去非常具有欺骗性,因为数据可能不正确或者与手头的问题无关;汇总之类的数据转换可能会破坏或隐藏重要信息,模式可能不代表任何基本规则等。
选项A:对
选项B:错
满分答案问询微信:424329