南开大学22秋学期《数据挖掘》在线作业三

奥鹏教育南开大学平时作业

南开大学22秋学期《数据挖掘》在线作业三插图

22秋学期(高起本1709-1803、全层次1809-2103)《数据挖掘》在线作业-00003

以下属于可伸缩聚类算法的是( )。
A:CURE
B:DENCLUE
C:CLIQUE
D:OPOSSUM
正确答案获取微信:424329

标称属性可以取( )例如,地图颜色是一个标称属性,可以有5种状态:红、黄、绿、粉红和蓝。
A:两个
B:多个状态
C:两个或多个状态
D:不同状态
正确答案获取微信:424329

关于OLAP和OLTP的区别描述,不正确的是( )。
A:OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
B:与OLAP应用程序不同,OLTP应用程序包含奥鹏教育南开大学平时作业大量相对简单的事务
C:OLAP的特点在于事务量大,但事务内容比较简单且重复率高
D:OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
正确答案获取微信:424329

在( )的数据集上挖掘将更有效,而且会产生相同或几乎相同的分析结果。
A:归约后
B:集成后
C:离散后
D:规范后
正确答案获取微信:424329

假设属性income的最小-最大值分别是12000元和98000元。利用最小-最大规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被变换为( )。
A:0.821
B:1.224
C:1.458
D:0.716
正确答案获取微信:424329

( )是数据挖掘最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。
A:事务数据
B:数据仓库
C:关系数据库
D:文本数据
正确答案获取微信:424329

以下关于人工神经网络(ANN)的描述错误的有( )。
A:神经网络对训练数据中的噪声非常鲁棒
B:可以处理冗余特征
C:训练ANN是一个很耗时的过程
D:至少含有一个隐藏层的多层神经网络
正确答案获取微信:424329

考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是( )。
A:31
B:24
C:55
D:3
正确答案获取微信:424329

下面不属于创建新属性的相关方法的是( )。
A:特征提取
B:特征修改
C:映射数据到新的空间
D:特征构造
正确答案获取微信:424329

数据挖掘是一门新兴的( )学科,是在信息技术领域迅速兴起的计算机技术,数据挖掘技术更重要的是面向应用。
A:统计学
B:计算机
C:数据
D:交叉性
正确答案获取微信:424329

以下哪些分类方法可以较好地避免样本的不平衡问题?( )
A:KNN
B:SVM
C:Bayes
D:神经网络
正确答案获取微信:424329

数据仓库和OLAP工具基于多维数据模型。该模型将数据看作( )形式。
A:数据立方体(data cube)
B:整数
C:离散
D:不同
正确答案获取微信:424329

( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。
A:离散化
B:属性构造
C:聚集
D:规范化
正确答案获取微信:424329

( )把所有维划分成子集(即子空间),这些子空间按层次可视化。
A:层次可视化技术
B:几何投影技术
C:基于图符的可视化技术
D:像素可视化技术
正确答案获取微信:424329

( )使用少量图符表示多维数据值。如:切尔诺夫脸和人物线条画。
A:数据可视化技术
B:几何投影技术
C:基于图符的可视化技术
D:像素可视化技术
正确答案获取微信:424329

在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
A:曼哈顿距离
B:平方欧几里德距离
C:余弦距离
D:Bregman散度
正确答案获取微信:424329

一个( )只有两个状态:0或1,0表示该变量为空,1表示该变量存在。
A:二元变量
B:标称变量
C:数值变量
D:区间变量
正确答案获取微信:424329

( )是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。
A:数据分析
B:数据挖掘
C:聚类
D:分类
正确答案获取微信:424329

决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
A:树状
B:网状
C:星形
D:雪花形
正确答案获取微信:424329

如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。
A:无序规则
B:穷举规则
C:互斥规则
D:有序规则
正确答案获取微信:424329

文本挖掘是指从海量非结构化自然语言文本数据中,抽取( )信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。
A:相关的
B:潜在的
C:新颖的
D:有价值的
正确答案获取微信:424329

数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,数据仓库通过数据( )来构造数据。
A:数据清理
B:数据变换
C:数据集成
D:数据装入
正确答案获取微信:424329

光滑(smoothing)是一种数据变换策略,即去掉数据中的噪声。这类技术包括( )。
A:分箱
B:回归
C:聚类
D:分类
正确答案获取微信:424329

( )都导致不正确的数据。
A:缺失值
B:噪声
C:不一致性
D:分层
正确答案获取微信:424329

簇有效性的面向相似性的度量包括( )。
A:精度
B:Rand统计量
C:Jaccard系数
D:召回率
正确答案获取微信:424329

数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。
A:统计学
B:机器学习
C:模式识别
D:数据库和数据仓库
正确答案获取微信:424329

如下哪些是最近邻分类器的特点( )。
A:它使用具体的训练实例进行预测,不必维护源自数据的模型
B:分类一个测试样例开销很大
C:最近邻分类器基于全局信息进行预测
D:可以生产任意形状的决策边界
正确答案获取微信:424329

数据归约(data reduction)得到数据集的简化表示,虽然小得多,但能够产生同样或几乎同样的分析结果。数据归约策略包括( )。
A:维归约
B:数值归约
C:层归约
D:数据变换
正确答案获取微信:424329

( )这些数据特性都是对聚类分析具有很强影响的。
A:高维性
B:规模
C:稀疏性
D:噪声和离群点
正确答案获取微信:424329

数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。
A:受噪声
B:不一致
C:缺失值
D:正确
正确答案获取微信:424329

导致不正确的数据可能有多种原因:收集数据的设备故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值,等等。
A:对
B:错
正确答案获取微信:424329

数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。
A:对
B:错
正确答案获取微信:424329

离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点 。
A:对
B:错
正确答案获取微信:424329

通常,数据仓库用称做数据立方体的多维数据结构建模,其中每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值。
A:对
B:错
正确答案获取微信:424329

有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给业务分析人员,因为数据可能是杂乱的。
A:对
B:错
正确答案获取微信:424329

DSS主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。
A:对
B:错
正确答案获取微信:424329

数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
A:对
B:错
正确答案获取微信:424329

离群点可以是合法的数据对象或者值。
A:对
B:错
正确答案获取微信:424329

特征提取技术并不依赖于特定的领域。
A:对
B:错
正确答案获取微信:424329

要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。
A:对
B:错
正确答案获取微信:424329

聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。
A:对
B:错
正确答案获取微信:424329

数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售。
A:对
B:错
正确答案获取微信:424329

高维数据的离群点检测方法可以划分成三种主要方法,包括扩充的传统离群点检测、找出子空间的离群点和对高维离群点建模。
A:对
B:错
正确答案获取微信:424329

对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
A:对
B:错
正确答案获取微信:424329

预测是预测数据对象的离散类别。
A:对
B:错
正确答案获取微信:424329

规划挖掘(plan mining)就是从规划库中挖掘出有意义的模式或知识。规划挖掘有很多用途,例如可从飞行数据库中发现商务乘客旅行模式。
A:对
B:错
正确答案获取微信:424329

如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。
A:对
B:错
正确答案获取微信:424329

从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
A:对
B:错
正确答案获取微信:424329

寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
A:对
B:错
正确答案获取微信:424329

数据挖掘结果经常看上去是可靠的,因为它们是基于实际的数据,以看似科学的态度进行处理。这种可靠性看上去非常具有欺骗性,因为数据可能不正确或者与手头的问题无关;汇总之类的数据转换可能会破坏或隐藏重要信息,模式可能不代表任何基本规则等。
A:对
B:错
正确答案获取微信:424329

提供优质的教育资源

公众号: 超前自学网