南开大学22秋学期《数据挖掘》在线作业一

奥鹏教育南开大学平时作业

22秋学期（高起本1709-1803、全层次1809-2103）《数据挖掘》在线作业-00001

离群点分析使用基于( )的技术,把可能的离群点看做与其他对象高度相异的对象。
A:分类
B:聚类
C:离散
D:可视化
正确答案获取微信：424329

一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( )。
A:一年级
B:二年级
C:三年级
D:四年级
正确答案获取微信：424329

分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
A:1
B:2
C:3
D:4
正确答案获取微信：424329

建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值,属于数据挖掘的( )任务。
A:根据内容检索
B:建模描述
C:预测建模
D:寻找模式和规则
正确答案获取微信：424329

聚类技术把( )看做对象。
A:数据
B:数据库
C:簇
D:数据元组
正确答案获取微信：424329

顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄大得多。这样,如果属性未( ),则距离度量在年薪上所取的权重一般要超过距离度量在年龄上所取的权重。
A:挖掘
B:归约
C:存储
D:规范化
正确答案获取微信：424329

( )是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。
A:标称属性
B:序数属性
C:数值属性
D:二元属性
正确答案获取微信：424329

对于倾斜(非对称)数据,数据中心的最好度量是( )。
A:均值
B:中位数
C:众数
D:中列数
正确答案获取微信：424329

检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。
A:统计方法
B:邻近度
C:密度
D:聚类技术
正确答案获取微信：424329

( )能降低数据集的规模,而又不损害数据挖掘的结果。
A:数据集成
B:数据归约
C:数据挖掘
D:数据分类
正确答案获取微信：424329

使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )
A:探索性数据分析
B:建模描述
C:预测建模
D:寻找模式和规则
正确答案获取微信：424329

简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。
A:层次聚类
B:划分聚类
C:非互斥聚类
D:模糊聚类
正确答案获取微信：424329

下列( )不是将主观信息加入到模式发现任务中的方法。
A:与同一时期其他数据对比
B:可视化
C:基于模板的方法
D:主观兴趣度量
正确答案获取微信：424329

( )是KDD。
A:数据挖掘与知识发现
B:领域知识发现
C:文档知识发现
D:动态知识发现
正确答案获取微信：424329

( )是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
A:标称属性
B:序数属性
C:数值属性
D:离散属性
正确答案获取微信：424329

( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。
A:变换
B:归约
C:集成
D:属性子集选择
正确答案获取微信：424329

以下哪些分类方法可以较好地避免样本的不平衡问题?( )
A:KNN
B:SVM
C:Bayes
D:神经网络
正确答案获取微信：424329

如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。
A:无序规则
B:穷举规则
C:互斥规则
D:有序规则
正确答案获取微信：424329

关于OLAP和OLTP的区别描述,不正确的是( )。
A:OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
B:与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
C奥鹏教育南开大学平时作业:OLAP的特点在于事务量大,但事务内容比较简单且重复率高
D:OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
正确答案获取微信：424329

( )用替代的、较小的数据表示形式替换原数据。
A:维归约
B:数量归约
C:离散
D:聚集
正确答案获取微信：424329

零售数据挖掘可有助于( ),设计更好的货品运输与分销策略,减少商业成本。
A:识别顾客购买行为
B:发现顾客购买模式和趋势
C:改进服务质量
D:取得更好的顾客保持力和满意程度
正确答案获取微信：424329

非频繁模式( )。
A:其支持度小于阈值
B:都是不让人感兴趣的
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案获取微信：424329

在银行和金融机构中产生的金融数据通常相对比较( ),这大大方便了系统化的数据分析和数据挖掘。
A:完整
B:可靠
C:高质量
D:不可靠
正确答案获取微信：424329

对于挖掘的应用,数据的最基本形式是( )。
A:数据库数据
B:数据仓库数据
C:事务数据
D:抽样数据
正确答案获取微信：424329

一个文档可能包含结构字段,如( )等等,也可能包含大量的非结构化的文本成分,如摘要和内容。
A:标题
B:作者
C:出版日期
D:长度
正确答案获取微信：424329

哪些不是基于规则分类器的特点( )。
A:规则集的表达能力远不如决策树好
B:基于规则的分类器都对属性空间进行直线划分，并将类指派到每个划分
C:无法被用来产生更易于解释的描述性模型
D:非常适合处理类分布不平衡的数据集
正确答案获取微信：424329

维归约的方法包括( ),它们把原数据变换或投影到较小的空间。
A:小波变换
B:主成分分析
C:傅里叶变换
D:聚类分析
正确答案获取微信：424329

以下各项均是针对数据仓库的不同说法,正确的有( )。
A:数据仓库就是数据库
B:数据仓库是一切商业智能系统的基础
C:数据仓库是面向业务的，支持联机事务处理
D:数据仓库支持决策而非事务处理
正确答案获取微信：424329

针对特定领域的应用,人们开发了许多专用的数据挖掘工具,这包括( )等。这些实践将数据分析技术与特定领域知识结合在一起,提供了满足特定任务的数据挖掘解决方案。
A:生物医学
B:DNA分析
C:金融
D:零售业
正确答案获取微信：424329

数据挖掘为探索和分析大量数据以产生有意义的结果。主要有三种类型:( )。
A:假设检验(Hypothesis testing)
B:有指导数据挖掘(Directed data mining)
C:无指导数据挖掘(Undirected data mining)
D:聚类分析
正确答案获取微信：424329

噪声(noise)是被测量的变量的随机误差或方差。
A:对
B:错
正确答案获取微信：424329

数据预处理的主要步骤,即数据清理、数据集成、数据归约和数据变换。
A:对
B:错
正确答案获取微信：424329

数据清理过程的第一步是偏差检测(discrepancy detection)。导致偏差的因素可能有多种,包括具有很多可选字段的设计糟糕的输入表单、人为的数据输入错误、有意的错误(例如,不愿意泄露自己的信息),以及数据退化(例如,过时的地址)。
A:对
B:错
正确答案获取微信：424329

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。可以利用可视化技术的优点,发现原始数据中不易观察到的数据联系。
A:对
B:错
正确答案获取微信：424329

数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
A:对
B:错
正确答案获取微信：424329

数据是许多核心业务流程的心脏,由业务系统中的事务所产生。
A:对
B:错
正确答案获取微信：424329

不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。
A:对
B:错
正确答案获取微信：424329

寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
A:对
B:错
正确答案获取微信：424329

支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。
A:对
B:错
正确答案获取微信：424329

数据集可能非常大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使这种分析不现实或不可行。这就需要进行数据归约。
A:对
B:错
正确答案获取微信：424329

业务流程将客户从客户生存周期的一个阶段转移到另一个阶段。这些业务流程非常重要,因为它们将使得客户随着时间推移而更具价值。
A:对
B:错
正确答案获取微信：424329

OLTP系统管理历史的数据,而OLAP管理当前数据。
A:对
B:错
正确答案获取微信：424329

分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
A:对
B:错
正确答案获取微信：424329

数据挖掘带来的主要社会关注是隐私和数据安全问题。
A:对
B:错
正确答案获取微信：424329

在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
A:对
B:错
正确答案获取微信：424329

神经网络训练的最终目标:获得一个权重集使得训练数据中的所有元组都能被正确的分类。
A:对
B:错
正确答案获取微信：424329

购物篮分析可以搜索经常在一起或依次购买的商品的集合,研究顾客的购买习惯。
A:对
B:错
正确答案获取微信：424329

聚类分析可以看作是一种非监督的分类。
A:对
B:错
正确答案获取微信：424329

一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。
A:对
B:错
正确答案获取微信：424329

预测的主要方法是回归:线性回归、多元回归、非线性回归。
A:对
B:错
正确答案获取微信：424329

提供优质的教育资源