南开大学22秋学期《数据分析》在线作业一

奥鹏教育南开大学平时作业

22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业-00001

模型参数估计变为以（）为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度
正确答案获取微信：424329

置信度(confidence)是衡量兴趣度度量（）的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案获取微信：424329

潜在语义分析创新地引入了（）
A:单词维度
B:文本维度
C:话题维度
正确答案获取微信：424329

针对输入数据、时间与其他资源的要求，给出各种性能的输出结果，得到具有一定预计性的算法模型，被称为（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信：424329

经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
A:宽度
B:深度
正确答案获取微信：424329

类的R型聚类是指（）
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案获取微信：424329

决策树中的叶结点表示（）
A:特征
B:类
C:属性
D:值域输出
正确答案获取微信：424329

基于MapReduce的Apriori算法，共进行几轮MapReduce（）
A:1
B:2
C:3
D:4
正确答案获取微信：424329

类的Q型聚类是指（）
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案获取微信：424329

用多台处理机联合求解问题的算法被称为（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信：424329

在网页中增加大量与主题无关的热点作弊词项，并将其文字颜色设置成与背景颜色一致，不可见；提交热点查询给搜索引擎，将排名第一或前列的页面内容复制到其网页中，并隐藏。这样的欺骗搜索引擎技术称为（）
A:词项作弊
B:链接作弊
正确答案获取微信：424329

以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
正奥鹏教育南开大学平时作业确答案获取微信：424329

任何故意提高网页在搜索引擎结果中的位置，使其与网页的（）不相符的行为，称为Web作弊
A:访问量
B:实际价值
C:搜索量
D:用户数量
正确答案获取微信：424329

算法中用到了外存的算法是（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信：424329

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信：424329

评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。
A:准确率
B:精确率
C:召回率
D:F1值
正确答案获取微信：424329

Hash tree在Apriori算法中所起的作用是（）
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案获取微信：424329

向量空间的度量，表示文本之间的（）。
A:关系
B:相似度
C:语义关系
D:语义相似度
正确答案获取微信：424329

支持向量机的学习策略是（）
A:间隔最大化
B:多数表决
C:距离度量
正确答案获取微信：424329

以下属于关联分析的是（）
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案获取微信：424329

聚类的核心是（）
A:相似度
B:距离
C:特征
D:数据
正确答案获取微信：424329

向量空间模型中，是将（）看成（）
A:文档
B:单词
C:词袋
D:编码
正确答案获取微信：424329

社交网络的含义包括（）。
A:硬件
B:软件
C:服务
D:应用
正确答案获取微信：424329

KNN模型由哪些基本要素决定（）
A:距离度量
B:特征选择
C:k值的选择
D:分类决策规则
正确答案获取微信：424329

聚合聚类的三个要素是（）
A:相似度
B:置信度
C:合并规则
D:停止条件
正确答案获取微信：424329

差异性可以用（）度量
A:准确率
B:损失函数
C:距离
D:相似性
正确答案获取微信：424329

以下哪些统计量可以反映数据的集中趋势
A:均值
B:中位数
C:方差（标准差）
D:众数
正确答案获取微信：424329

关联规则用于查找项目集合或对象集合之间的（）
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案获取微信：424329

潜在语义分析中，要同时决定两部分内容，是（），使两者的乘积是原始矩阵数据的近似。
A:话题空间
B:文本在话题空间的表示
C:话题维度
D:词向量空间
正确答案获取微信：424329

下列属于朴素贝叶斯缺点的是（）
A:分类效果不稳定
B:不适合增量式训练
C:先验模型可能导致结果不佳
D:对缺失数据不太敏感
正确答案获取微信：424329

kNN算法中，选择较小的k值“学习”的估计误差会减小。（）
A:对
B:错
正确答案获取微信：424329

ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。
A:对
B:错
正确答案获取微信：424329

DAG中的父节点是唯一的。
A:对
B:错
正确答案获取微信：424329

大数据分析可以分为定性数据分析和定量数据分析
A:对
B:错
正确答案获取微信：424329

朴素贝叶斯中，首先要基于特征条件独立假设学习输入输出的联合概率分布。（）
A:对
B:错
正确答案获取微信：424329

统计学习也成为统计机器学习
A:对
B:错
正确答案获取微信：424329

通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。（）
A:对
B:错
正确答案获取微信：424329

Kmeans算法的MapReduce实现属于迭代算法。（）
A:对
B:错
正确答案获取微信：424329

大数据虽然拥有大量的价值信息，但是价值密度较低
A:对
B:错
正确答案获取微信：424329

大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案获取微信：424329

实际操作中，不能用经验风险近似期望风险
A:对
B:错
正确答案获取微信：424329

要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的
A:对
B:错
正确答案获取微信：424329

由不同的距离度量所确定的最近邻点是相同的。（）
A:对
B:错
正确答案获取微信：424329

不满足给定评价度量的关联规则是无趣的。
A:对
B:错
正确答案获取微信：424329

潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。（）
A:对
B:错
正确答案获取微信：424329

网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取，并按照一定规则和筛选标准将数据进行归类，形成数据库文件的一个过程。
A:对
B:错
正确答案获取微信：424329

监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案获取微信：424329

概率潜在语义分析就是发现由隐变量表示的话题。（）
A:对
B:错
正确答案获取微信：424329

半监督学习通常有大量标注数据、少量未标注数据
A:对
B:错
正确答案获取微信：424329

FP-growth算法的速度要比Apriori算法快。
A:对
B:错
正确答案获取微信：424329

提供优质的教育资源