南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据挖掘》在线作业三

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据挖掘》在线作业-00003

1.以下属于可伸缩聚类算法的是( )。
选项A：CURE
选项B：DENCLUE
选项C：CLIQUE
选项D：OPOSSUM
满分答案问询微信：424329

2.标称属性可以取( )例如,地图颜色是一个标称属性,可以有5种状态:红、黄、绿、粉红和蓝。
选项A：两个
选项B：多个状态
选项C：两个或多个状态
选项D：不同状态
满分答案问询微信：424329

3.关于OLAP和OLTP的区别描述,不正确的是( )。
选项A：OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
选项B：与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
选项C：OLAP的特点在于事务量大,但事务内容比较简单且重复率高
选项D：OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
满分答案问询微信：424329

4.在( )的数据集上挖掘将更有效,而且会产生相同或几乎相同的分析结果。
选项A：归约后
选项B：集成后
选项C：离散后
选项D：规范后
满分答案问询微信：424329

5.假设属性income的最小-最大值分别是12000元和98000元。利用最小-最大规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被变换为( )。
选项A：0.821
选项B：1.224
选项C：1.458
选项D：0.716
满分答案问询微信：424329

6.( )是数据挖掘最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。
选项A：事务数据
选项B：数据仓库
选项C：关系数据库
选项D：文本数据
满分答案问询微信：424329

7.以下关于人工神经网络(ANN)的描述错误的有( )。
选项A：神经网络对训练数据中的噪声非常鲁棒
选项B：可以处理冗余特征
选项C：训练ANN是一个很耗时的过程
选项D：至少含有一个隐藏层的多层神经网络
满分答案问询微信：424329

8.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是( )。
选项A：31
选项B：24
选项C：55
选项D：3
满分答案问询微信：424329

9.下面不属于创建新属性的相关方法的是( )。
选项A：特征提取
选项B：特征修改
选项C：映射数据到新的空间
选项D：特征构造
满分答案问询微信：424329

10.数据挖掘是一门新兴的( )学科,是在信息技术领域迅速兴起的计算机技术,数据挖掘技术更重要的是面向应用。
选项A：统计学
选项B：计算机
选项C：数据
选项D：交叉性
满分答案问询微信：424329

11.以下哪些分类方法可以较好地避免样本的不平衡问题?( )
选项A：KNN
选项B：SVM
选项C：Bayes
选项D：神经网络
满分答案问询微信：424329

12.数据仓库和OLAP工具基于多维数据模型。该模型将数据看作( )形式。
选项A：数据立方体(data cube)
选项B：整数
选项C：离散
选项D：不同
满分答案问询微信：424329

13.( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。
选项A：离散化
选项B：属性构造
选项C：聚集
选项D：规范化
满分答案问询微信：424329

14.( )把所有维划分成子集(即子空间),这些子空间按层次可视化。
选项A：层次可视化技术
选项B：几何投影技术
选项C：基于图符的可视化技术
选项D：像素可视化技术
满分答案问询微信：424329

15.( )使用少量图符表示多维数据值。如:切尔诺夫脸和人物线条画。
选项A：数据可视化技术
选项B：几何投影技术
选项C：基于图符的可视化技术
选项D：像素可视化技术
满分答案问询微信：424329

16.在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
选项A：曼哈顿距离
选项B：平方欧几里德距离
选项C：余弦距离
选项D：Bregman散度
满分答案问询微信：424329

17.一个( )只有两个状态:0或1,0表示该变量为空,1表示该变量存在。
选项A：二元变量
选项B：标称变量
选项C：数值变量
选项D：区间变量
满分答案问询微信：424329

18.( )是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。
选项A：数据分析
选项B：数据挖掘
选项C：聚类
选项D：分类
满分答案问询微信：424329

19.决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
选项A：树状
选项B：网状
选项C：星形
选项D：雪花形
满分答案问询微信：424329

20.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。
选项A：无序规则
选项B：穷举规则
选项C：互斥规则
选项D：有序规则
满分答案问询微信：424329

21.文本挖掘是指从海量非结构化自然语言文本数据中,抽取( )信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。
选项A：相关的
选项B：潜在的
选项C：新颖的
选项D：有价值的
满分答案问询微信：424329

22.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,数据仓库通过数据( )来构造数据。
选项A：数据清理
选项B：数据变换
选项C：数据集成
选项D：数据装入
满分答案问询微信：424329

23.光滑(smoothing)是一种数据变换策略,即去掉数据中的噪声。这类技术包括( )。
选项A：分箱
选项B：回归
选项C：聚类
选项D：分类
满分答案问询微信：424329

24.( )都导致不正确的数据。
选项A：缺失值
选项B：噪声
选项C：不一致性
选项D：分层
满分答案问询微信：424329

25.簇有效性的面向相似性的度量包括( )。
选项A：精度
选项B：Rand统计量
选项C：Jaccard系数
选项D：召回率
满分答案问询微信：424329

26.数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。
选项A：统计学
选项B：机器学习
选项C：模式识别
选项D：数据库和数据仓库
满分答案问询微信：424329

27.如下哪些是最近邻分类器的特点( )。
选项A：它使用具体的训练实例进行预测，不必维护源自数据的模型
选项B：分类一个测试样例开销很大
选项C：最近邻分类器基于全局信息进行预测
选项D：可以生产任意形状的决策边界
满分答案问询微信：424329

28.数据归约(data reduction)得到数据集的简化表示,虽然小得多,但能够产生同样或几乎同样的分析结果。数据归约策略包括( )。
选项A：维归约
选项B：数值归约
选项C：层归约
选项D：数据变换
满分答案问询微信：424329

29.( )这些数据特性都是对聚类分析具有很强影响的。
选项A：高维性
选项B：规模
选项C：稀疏性
选项D：噪声和离群点
满分答案问询微信：424329

30.数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。
选项A：受噪声
选项B：不一致
选项C：缺失值
选项D：正确
满分答案问询微信：424329

31.导致不正确的数据可能有多种原因:收集数据的设备故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值,等等。
选项A：对
选项B：错
满分答案问询微信：424329

32.数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。
选项A：对
选项B：错
满分答案问询微信：424329

33.离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。
选项A：对
选项B：错
满分答案问询微信：424329

34.通常,数据仓库用称做数据立方体的多维数据结构建模,其中每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值。
选项A：对
选项B：错
满分答案问询微信：424329

35.有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给业务分析人员,因为数据可能是杂乱的。
选项A：对
选项B：错
满分答案问询微信：424329

36.DSS主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。
选项A：对
选项B：错
满分答案问询微信：424329

37.数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
选项A：对
选项B：错
满分答案问询微信：424329

38.离群点可以是合法的数据对象或者值。
选项A：对
选项B：错
满分答案问询微信：424329

39.特征提取技术并不依赖于特定的领域。
奥鹏南开在线作业满分答案参考选项A：对
选项B：错
满分答案问询微信：424329

40.要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。
选项A：对
选项B：错
满分答案问询微信：424329

41.聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。
选项A：对
选项B：错
满分答案问询微信：424329

42.数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售。
选项A：对
选项B：错
满分答案问询微信：424329

43.高维数据的离群点检测方法可以划分成三种主要方法,包括扩充的传统离群点检测、找出子空间的离群点和对高维离群点建模。
选项A：对
选项B：错
满分答案问询微信：424329

44.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
选项A：对
选项B：错
满分答案问询微信：424329

45.预测是预测数据对象的离散类别。
选项A：对
选项B：错
满分答案问询微信：424329

46.规划挖掘(plan mining)就是从规划库中挖掘出有意义的模式或知识。规划挖掘有很多用途,例如可从飞行数据库中发现商务乘客旅行模式。
选项A：对
选项B：错
满分答案问询微信：424329

47.如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。
选项A：对
选项B：错
满分答案问询微信：424329

48.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
选项A：对
选项B：错
满分答案问询微信：424329

49.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
选项A：对
选项B：错
满分答案问询微信：424329

50.数据挖掘结果经常看上去是可靠的,因为它们是基于实际的数据,以看似科学的态度进行处理。这种可靠性看上去非常具有欺骗性,因为数据可能不正确或者与手头的问题无关;汇总之类的数据转换可能会破坏或隐藏重要信息,模式可能不代表任何基本规则等。
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源