南开大学23年秋学期《数据分析》在线作业一
奥鹏南开大学23年秋季新学期作业参考
23秋学期(仅限-高起专1909、专升本1909)《数据分析》在线作业-00001
非频繁模式( )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案问询微信:424329
对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是( )
A:3可以还原出无损的1
B:2可以还原出无损的1
C:3与2是完全等价的
D:2与1是完全等价的
正确答案问询微信:424329
HITS算法中,网页的重要性应该依赖于()
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
正确答案问询微信:424329
潜在语义分析中,以()表示文本的语义内容
A:话题
B:话题向量
C:语义向量
D:距离向量
正确答案问询微信:424329
经典的Apriori算法是逐层扫描的,也就是说它是()优先的
A:宽度
B:深度
正确答案问询微信:424329
度量距离中,表示各个坐标距离最大值的是()
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信:424329
置信度(co奥鹏南开大学23年秋季新学期作业参考nfidence)是衡量兴趣度度量( )的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信:424329
Hash tree在Apriori算法中所起的作用是( )
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案问询微信:424329
KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案问询微信:424329
用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信:424329
支持向量机的学习策略是()
A:间隔最大化
B:多数表决
C:距离度量
正确答案问询微信:424329
聚类过程为()
A:数据准备,特征选择,特征提取,聚类,结果评估
B:数据准备,特征提取,特征选择,聚类,结果评估
C:数据准备,特征提取,聚类,特征选择,结果评估
正确答案问询微信:424329
皮尔森相关系数的变化分为是()
A:[0, 1]
B:[-1, 1]
C:[-1, 0]
D:[0.5, 1]
正确答案问询微信:424329
向量空间模型中,用一个()表示语义
A:向量
B:特征
C:数字
D:距离
正确答案问询微信:424329
()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A:训练误差
B:测试误差
C:统计误差
D:平均误差
正确答案问询微信:424329
话题向量空间模型中,用()的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案问询微信:424329
以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信:424329
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329
最小类间距离是()
A:两类中各个个体距离的最小值
B:两类中心距离
C:两类所有样本对距离的平均值
D:所有样本对之间距离的平均值
正确答案问询微信:424329
按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
正确答案问询微信:424329
以下什么问题可以归为回归问题()
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析
正确答案问询微信:424329
基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
正确答案问询微信:424329
PageRank是定义在网页集合上的一个(),它对每个网页赋予一个正实数值,表示网页的()。
A:函数
B:集合
C:搜索排名
D:重要程度
正确答案问询微信:424329
聚合聚类的三个要素是()
A:相似度
B:置信度
C:合并规则
D:停止条件
正确答案问询微信:424329
类的特征可以通过不同角度来刻画,包括()
A:类的均值
B:类的直径
C:类的样本散布矩阵
D:样本协方差矩阵
正确答案问询微信:424329
决策树中的内部结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信:424329
大数据四大特征包括( )
A:数据量大
B:数据类型繁多
C:数据价值密度相对较低
D:处理速度快,时效性要求高
正确答案问询微信:424329
连续性变量的距离可用以下()方法衡量
A:欧式距离
B:余弦相似度
C:汉明距离
D:马氏距离
正确答案问询微信:424329
连续性变量的距离可用以下()方法衡量
A:曼哈顿距离
B:切比雪夫距离
C:.Jaccard相似系数
D:皮尔森相关系数
正确答案问询微信:424329
大数据虽然拥有大量的价值信息,但是价值密度较低
A:对
B:错
正确答案问询微信:424329
割是指在每组中只有一个结点的边的集合。
A:对
B:错
正确答案问询微信:424329
Apriori算法产生的关联规则总是确定的。
A:对
B:错
正确答案问询微信:424329
MapReduce中,如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了,则这些关联的Reduce任务的也将被重新执行。()
A:对
B:错
正确答案问询微信:424329
二元逻辑斯谛回归模型形式为参数化的逻辑斯谛分布。
A:对
B:错
正确答案问询微信:424329
统计学习也成为统计机器学习
A:对
B:错
正确答案问询微信:424329
文本分析是结构大数据分析的一个基本问题。()
A:对
B:错
正确答案问询微信:424329
如果两个文本的话题相似,那么两者的语义应该也相似。()
A:对
B:错
正确答案问询微信:424329
频繁闭项集可用来无损压缩频繁项集。
A:对
B:错
正确答案问询微信:424329
切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。()
A:对
B:错
正确答案问询微信:424329
k均值聚类归结为从样本到类的函数的选择问题。()
A:对
B:错
正确答案问询微信:424329
支持向量机仅能对线性数据进行分类。()
A:对
B:错
正确答案问询微信:424329
推荐系统根据用户的兴趣特点和购买行为,向用户提供建议
A:对
B:错
正确答案问询微信:424329
k均值聚类中,每个样本只能属于一个类。()
A:对
B:错
正确答案问询微信:424329
未来考验零售企业的是如何挖掘消费者需求
A:对
B:错
正确答案问询微信:424329
中位数的优势是计算简便,不受极端值的影响
A:对
B:错
正确答案问询微信:424329
关联规则可以用枚举的方法产生。
A:对
B:错
正确答案问询微信:424329
推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
A:对
B:错
正确答案问询微信:424329
通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()
A:对
B:错
正确答案问询微信:424329
大数据可视化的意义在于以简单、友好、易用的图形化、智能化的形式将数据呈现给用户,供其分析使用
A:对
B:错
正确答案问询微信:424329