南开大学22秋学期（高起本1709-1803、全层次1809-2103）《数据挖掘》在线作业一

奥鹏南开在线作业满分答案参考

22秋学期（高起本1709-1803、全层次1809-2103）《数据挖掘》在线作业-00001

1.离群点分析使用基于( )的技术,把可能的离群点看做与其他对象高度相异的对象。
选项A：分类
选项B：聚类
选项C：离散
选项D：可视化
满分答案问询微信：424329

2.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( )。
选项A：一年级
选项B：二年级
选项C：三年级
选项D：四年级
满分答案问询微信：424329

3.分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
选项A：1
选项B：2
选项C：3
选项D：4
满分答案问询微信：424329

4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值,属于数据挖掘的( )任务。
选项A：根据内容检索
选项B：建模描述
选项C：预测建模
选项D：寻找模式和规则
满分答案问询微信：424329

5.聚类技术把( )看做对象。
选项A：数据
选项B：数据库
选项C：簇
选项D：数据元组
满分答案问询微信：424329

6.顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄大得多。这样,如果属性未( ),则距离度量在年薪上所取的权重一般要超过距离度量在年龄上所取的权重。
选项A：挖掘
选项B：归约
选项C：存储
选项D：规范化
满分答案问询微信：424329

7.( )是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。
选项A：标称属性
选项B：序数属性
选项C：数值属性
选项D：二元属性
满分答案问询微信：424329

8.对于倾斜(非对称)数据,数据中心的最好度量是( )。
选项A：均值
选项B：中位数
选项C：众数
选项D：中列数
满分答案问询微信：424329

9.检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。
选项A：统计方法
选项B：邻近度
选项C：密度
选项D：聚类技术
满分答案问询微信：424329

10.( )能降低数据集的规模,而又不损害数据挖掘的结果。
选项A：数据集成
选项B：数据归约
选项C：数据挖掘
选项D：数据分类
满分答案问询微信：424329

11.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )
选项A：探索性数据分析
选项B：建模描述
选项C：预测建模
选项D：寻找模式和规则
满分答案问询微信：424329

12.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。
选项A：层次聚类
选项B：划分聚类
选项C：非互斥聚类
选项D：模糊聚类
满分答案问询微信：424329

13.下列( )不是将主观信息加入到模式发现任务中的方法。
选项A：与同一时期其他数据对比
选项B：可视化
选项C：基于模板的方法
选项D：主观兴趣度量
满分答案问询微信：424329

14.( )是KDD。
选项A：数据挖掘与知识发现
选项B：领域知识发现
选项C：文档知识发现
选项D：动态知识发现
满分答案问询微信：424329

15.( )是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
选项A：标称属性
选项B：序数属性
选项C：数值属性
选项D：离散属性
满分答案问询微信：424329

16.( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。
选项A：变换
选项B：归约
选项C：集成
选项D：属性子集选择
满分答案问询微信：424329

17.以下哪些分类方法可以较好地避免样本的不平衡问题?( )
选项A：KNN
选项B：SVM
选项C：Bayes
选项D：神经网络
满分答案问询微信：424329

18.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。
选项A：无序规则
选项B：穷举规则
选项C：互斥规则
选项D：有序规则
满分答案问询微信：424329

19.关于OLAP和OLTP的区别描述,不正确的是( )。
选项A：OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
选项B：与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
选项C：OLAP的特点在于事务量大,但事务内容比较简单且重复率高
选项D：OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
满分答案问询微信：424329

20.( )用替代的、较小的数据表示形式替换原数据。
选项A：维归约
选项B：数量归约
选项C：离散
选项D：聚集
满分答案问询微信：424329

21.零售数据挖掘可有助于( ),设计更好的货品运输与分销策略,减少商业成本。
选项A：识别顾客购买行为
选项B：发现顾客购买模式和趋势
选项C：改进服务质量
选项D：取得更好的顾客保持力和满意程度
满分答案问询微信：424329

22.非频繁模式( )。
选项A：其支持度小于阈值
选项B：都是不让人感兴趣的
选项C：包含负模式和负相关模式
选项D：对异常数据项敏感
满分答案问询微信：424329

23.在银行和金融机构中产生的金融数据通常相对比较( ),这大大方便了系统化的数据分析和数据挖掘。
选项A：完整
选项B：可靠
选项C：高质量
选项D：不可靠
满分答案问询微信：424329

24.对于挖掘的应用,数据的最基本形式是( )。
选项A：数据库数据
选项B：数据仓库数据
选项C：事务数据
选项D：抽样数据
满分答案问询微信：424329

25.一个文档可能包含结构字段,如( )等等,也可能包含大量的非结构化的文本成分,如摘要和内容。
选项A：标题
选项B：作者
选项C：出版日期
选项D：长度
满分答案问询微信：424329

26.哪些不是基于规则分类器的特点( )。
选项A：规则集的表达能力远不如决策树好
选项B：基于规则的分类器都对属性空间进行直线划分，并将类指派到每个划分
选项C：无法被用来产生更易于解释的描述性模型
选项D：非常适合处理类分布不平衡的数据集
满分答案问询微信：424329

27.维归约的方法包括( ),它们把原数据变换或投影到较小的空间。
选项A：小波变换
选项B：主成分分析
选项C：傅里叶变换
选项D：聚类分析
满分答案问询微信：424329

28.以下各项均是针对数据仓库的不同说法,正确的有( )。
选项A：数据仓库就是数据库
选项B：数据仓库是一切商业智能系统的基础
选项C：数据仓库是面向业务的，支持联机事务处理
选项D：数据仓库支持决策而非事务处理
满分答案问询微信：424329

29.针对特定领域的应用,人们开发了许多专用的数据挖掘工具,这包括( )等。这些实践将数据分析技术与特定领域知识结合在一起,提供了满足特定任务的数据挖掘解决方案。
选项A：生物医学
选项B：DNA分析
选项C：金融
选项D：零售业
满分答案问询微信：424329

30.数据挖掘为探索和分析大量数据以产生有意义的结果。主要有三种类型:( )。
选项A：假设检验(Hypothesis testing)
选项B：有指导数据挖掘(Directed data mining)
选项C：无指导数据挖掘(Undirected data mining)
选项D：聚类分析
满分答案问询微信：424329

31.噪声(noise)是被测量的变量的随机误差或方差。
选项A：对
选项B：错
满分答案问询微信：424329

32.数据预处理的主要步骤,即数据清理、数据集成、数据归约和数据变换。
选项A：对
选项B：错
满分答案问询微信：424329

33.数据清理过程的第一步是偏差检测(discrepancy detection)。导致偏差的因素可能有多种,包括具有很多可选字段的设计糟糕的输入表单、人为的数据输入错误、有意的错误(例如,不愿意泄露自己的信息),以及数据退化(例如,过时的地址)。
选项A：对
选项B：错
满分答案问询微信：424329

34.数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。可以利用可视化技术的优点,发现原始数据中不易观察到的数据联系。
选项A：对
选项B：错
满分答案问询微信：424329

35.数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
选项A：对
选项B：错
满分答案问询微信：424329

36.数据是许多核心业务流程的心脏,由业务系统中的事务所产生。
选项A：对
选项B：错
满分答案问询微信：424329

37.不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。
选项A：对
选项B：错
满分答案问询微信：424329

38.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
选项A：对
选项B：错
满分答案问询微信：424329

39.支持向量机中奥鹏南开在线作业满分答案参考常用的核函数有多项式核函数、径向基核函数和S型核函数。
选项A：对
选项B：错
满分答案问询微信：424329

40.数据集可能非常大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使这种分析不现实或不可行。这就需要进行数据归约。
选项A：对
选项B：错
满分答案问询微信：424329

41.业务流程将客户从客户生存周期的一个阶段转移到另一个阶段。这些业务流程非常重要,因为它们将使得客户随着时间推移而更具价值。
选项A：对
选项B：错
满分答案问询微信：424329

42.OLTP系统管理历史的数据,而OLAP管理当前数据。
选项A：对
选项B：错
满分答案问询微信：424329

43.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
选项A：对
选项B：错
满分答案问询微信：424329

44.数据挖掘带来的主要社会关注是隐私和数据安全问题。
选项A：对
选项B：错
满分答案问询微信：424329

45.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
选项A：对
选项B：错
满分答案问询微信：424329

46.神经网络训练的最终目标:获得一个权重集使得训练数据中的所有元组都能被正确的分类。
选项A：对
选项B：错
满分答案问询微信：424329

47.购物篮分析可以搜索经常在一起或依次购买的商品的集合,研究顾客的购买习惯。
选项A：对
选项B：错
满分答案问询微信：424329

48.聚类分析可以看作是一种非监督的分类。
选项A：对
选项B：错
满分答案问询微信：424329

49.一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。
选项A：对
选项B：错
满分答案问询微信：424329

50.预测的主要方法是回归:线性回归、多元回归、非线性回归。
选项A：对
选项B：错
满分答案问询微信：424329

提供优质的教育资源