南开大学22秋学期《数据分析》在线作业二

奥鹏教育南开大学平时作业

22秋学期（高起本1709-1803、全层次1809-2103）《数据分析》在线作业-00002

pageRank中，将网页链接转化为（）“投票”。
A:搜索量
B:评价
C:访问量
D:重要度
正确答案获取微信：424329

支持向量机的MapReduce实现要进行几轮MapReduce（）
A:1
B:2
C:3
D:自行规定
正确答案获取微信：424329

在网页中增加大量与主题无关的热点作弊词项，并将其文字颜色设置成与背景颜色一致，不可见；提交热点查询给搜索引擎，将排名第一或前列的页面内容复制到其网页中，并隐藏。这样的欺骗搜索引擎技术称为（）
A:词项作弊
B:链接作弊
正确答案获取微信：424329

针对输入数据、时间与其他资源的要求，给出各种性能的输出结果，得到具有一定预计性的算法模型，被称为（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信：424329

基于MapReduce的Apriori算法，共进行几轮MapReduce（）
A:1
B:2
C:3
D:4
正确答案获取微信：424329

话题向量空间模型中，用（）的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案获取微信：424329

HITS算法中，网页的重要性应该依赖于（）
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
正确答案获取微信：424329

朴素贝叶斯中，给定输入x，求解在x出现的前提下各个类别出现的概率，哪个最大，就认为x属于哪个类别。即选择（）最大的类别。
A:后验概率
B:先验概率
C:极大似然估计
正确答案获取微信：424329

KNN算法用MapReduce实现，要进行几轮MapReduce（）
A:1
B:2
C:3
D:4
正确答案获奥鹏教育南开大学平时作业取微信：424329

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信：424329

向量空间模型中，将单词在文本中出现的数据用一个（）表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
正确答案获取微信：424329

LDA导入先验分布是为了应对（）现象
A:欠拟合
B:话题识别不准
C:过拟合
D:分词困难
正确答案获取微信：424329

经典的Apriori算法是逐层扫描的，也就是说它是（）优先的
A:宽度
B:深度
正确答案获取微信：424329

聚类过程为（）
A:数据准备，特征选择，特征提取，聚类，结果评估
B:数据准备，特征提取，特征选择，聚类，结果评估
C:数据准备，特征提取，聚类，特征选择，结果评估
正确答案获取微信：424329

数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段（）。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信：424329

逻辑斯谛函数是一条（）曲线
A:抛物线
B:三角函数
C:S型曲线
D:直线
正确答案获取微信：424329

向量空间模型中，用（）来描述一个文档
A:词
B:词袋
C:特征词
D:特征向量
正确答案获取微信：424329

用多台处理机联合求解问题的算法被称为（）
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信：424329

k近邻法中的分类决策规则往往是（）
A:依权重表决
B:多数表决
C:前提设定
D:随机决定
正确答案获取微信：424329

闵式距离参数是（）时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
正确答案获取微信：424329

大数据四大特征包括（）
A:数据量大
B:数据类型繁多
C:数据价值密度相对较低
D:处理速度快，时效性要求高
正确答案获取微信：424329

以下什么问题可以归为回归问题（）
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析
正确答案获取微信：424329

基于分类对象的分类有（）
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
正确答案获取微信：424329

逻辑斯谛回归的主要用途包括（）
A:寻找危险因素
B:搜索
C:预测
D:判别
正确答案获取微信：424329

大数据在医疗中的应用有（）
A:流行性疾病预防
B:慢性病健康管理
C:临床决策支持
D:医疗器械研发
正确答案获取微信：424329

决策树的生成过程是（）
A:递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类
B:如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
C:构建根结点，将所有训练数据都放在根结点
D:选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
正确答案获取微信：424329

聚类的核心是（）
A:相似度
B:距离
C:特征
D:数据
正确答案获取微信：424329

差异性可以用（）度量
A:准确率
B:损失函数
C:距离
D:相似性
正确答案获取微信：424329

按主题分类，社团包括（）
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
正确答案获取微信：424329

连续性变量的距离可用以下（）方法衡量
A:曼哈顿距离
B:切比雪夫距离
C:.Jaccard相似系数
D:皮尔森相关系数
正确答案获取微信：424329

Girvan-Newman算法中，不同深度结点间的边为无向图。
A:对
B:错
正确答案获取微信：424329

如果一味追求提高对训练数据的预测能力，所选模型的复杂度往往比镇魔性更高，这种现象称为欠拟合
A:对
B:错
正确答案获取微信：424329

MapReduce中，如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了，则这些关联的Reduce任务的也将被重新执行。（）
A:对
B:错
正确答案获取微信：424329

未来考验零售企业的是如何挖掘消费者需求
A:对
B:错
正确答案获取微信：424329

网络实体之间至少存在一种关系
A:对
B:错
正确答案获取微信：424329

协同过滤推荐是基于假设，为用户找到真正感兴趣的内容首先找到与此用户有相似兴趣的用户，然后把他们感兴趣的内容推荐给此用户
A:对
B:错
正确答案获取微信：424329

边的中介度定义为任意节点对的数目。（）
A:对
B:错
正确答案获取微信：424329

效用矩阵的数据可以通过隐式方法获得，得到的数值中0相比较1表示受喜欢度较低
A:对
B:错
正确答案获取微信：424329

监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案获取微信：424329

k均值聚类是基于样本集合划分的聚类算法.（）
A:对
B:错
正确答案获取微信：424329

每个网页的PageRank值仅由指向它的网页的PageRank值决定。（）
A:对
B:错
正确答案获取微信：424329

实际操作中，不能用经验风险近似期望风险
A:对
B:错
正确答案获取微信：424329

大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
A:对
B:错
正确答案获取微信：424329

PageRank算法是图数据上的无监督学习方法。（）
A:对
B:错
正确答案获取微信：424329

决策树学习的算法递归地选择最优特征。（）
A:对
B:错
正确答案获取微信：424329

推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
A:对
B:错
正确答案获取微信：424329

大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案获取微信：424329

随机游走过程用一个一阶马尔可夫链来建模。（）
A:对
B:错
正确答案获取微信：424329

监督学习中，模型就是索要学习的联合概率分布或决策函数
A:对
B:错
正确答案获取微信：424329

相比较基于内容的协同过滤，基于用户的协同过滤效果往往更好
A:对
B:错
正确答案获取微信：424329

提供优质的教育资源