南开大学22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业二
奥鹏南开在线作业满分答案参考
22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业-00002
1.pageRank中,将网页链接转化为()“投票”。
选项A:搜索量
选项B:评价
选项C:访问量
选项D:重要度
满分答案问询微信:424329
2.支持向量机的MapReduce实现要进行几轮MapReduce()
选项A:1
选项B:2
选项C:3
选项D:自行规定
满分答案问询微信:424329
3.在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
选项A:词项作弊
选项B:链接作弊
满分答案问询微信:424329
4.针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
选项A:随机算法
选项B:外存算法
选项C:并行算法
选项D:Anytime算法
满分答案问询微信:424329
5.基于MapReduce的Apriori算法,共进行几轮MapReduce()
选项A:1
选项B:2
选项C:3
选项D:4
满分答案问询微信:424329
6.话题向量空间模型中,用()的一个向量表示该文本。
选项A:特征词
选项B:话题空间
选项C:语义空间
选项D:词向量空间
满分答案问询微信:424329
7.HITS算法中,网页的重要性应该依赖于()
选项A:每个网页上的超链接个数
选项B:用户提出的查询请求
选项C:网页上超链接重要性
满分答案问询微信:424329
8.朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
选项A:后验概率
选项B:先验概率
选项C:极大似然估计
满分答案问询微信:424329
9.KNN算法用MapReduce实现,要进行几轮MapReduce()
选项A:1
选项B:2
选项C:3
选项D:4
满分答案问询微信:424329
10.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
选项A:运营式系统阶段
选项B:用户原创内容阶段
选项C:感知式系统阶段
满分答案问询微信:424329
11.向量空间模型中,将单词在文本中出现的数据用一个()表示
选项A:单词-文本矩阵
选项B:单词-向量矩阵
选项C:距离矩阵
选项D:权重矩阵
满分答案问询微信:424329
12.LDA导入先验分布是为了应对()现象
选项A:欠拟合
选项B:话题识别不准
选项C:过拟合
选项D:分词困难
满分答案问询微信:424329
13.经典的Apriori算法是逐层扫描的,也就是说它是()优先的
选项A:宽度
选项B:深度
满分答案问询微信:424329
14.聚类过程为()
选项A:数据准备,特征选择,特征提取,聚类,结果评估
选项B:数据准备,特征提取,特征选择,聚类,结果评估
选项C:数据准备,特征提取,聚类,特征选择,结果评估
满分答案问询微信:424329
15.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
选项A:运营式系统阶段
选项B:用户原创内容阶段
选项C:感知式系统阶段
满分答案问询微信:424329
16.逻辑斯谛函数是一条()曲线
选项A:抛物线
选项B:三角函数
选项C:S型曲线
选项D:直线
满分答案问询微信:424329
17.向量空间模型中,用()来描述一个文档
选项A:词
选项B:词袋
选项C:特征词
选项D:特征向量
满分答案问询微信:424329
18.用多台处理机联合求解问题的算法被称为()
选项A:随机算法
选项B:外存算法
选项C:并行算法
选项D:Anytime算法
满分答案问询微信:424329
19.k近邻法中的分类决策规则往往是()
选项A:依权重表决
选项B:多数表决
选项C:前提设定
选项D:随机决定
满分答案问询微信:424329
20.闵式距离参数是()时代表曼哈顿距离
选项A:0
选项B:1
选项C:2
选项D:无穷
满分答案问询微信:424329
21.大数据四大特征包括( )
选项A:数据量大
选项B:数据类型繁多
选项C:数据价值密度相对较低
选项D:处理速度快,时效性要求高
满分答案问询微信:424329
22.以下什么问题可以归为回归问题()
选项A:市场趋势预测
选项B:产品质量管理
选项C:客户满意度调查
选项D:投资风险分析
满分答案问询微信:424329
23.基于分类对象的分类有()
选项A:Q型聚类
选项B:凝聚方式
选项C:R型聚类
选项D:分解方式
满分答案问询微信:424329
24.逻辑斯谛回归的主要用途包括()
选项A:寻找危险因素
选项B:搜索
选项C:预测
选项D:判别
满分答案问询微信:4243奥鹏南开在线作业满分答案参考29
25.大数据在医疗中的应用有()
选项A:流行性疾病预防
选项B:慢性病健康管理
选项C:临床决策支持
选项D:医疗器械研发
满分答案问询微信:424329
26.决策树的生成过程是()
选项A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
选项B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
选项C:构建根结点,将所有训练数据都放在根结点
选项D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
选项E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
满分答案问询微信:424329
27.聚类的核心是()
选项A:相似度
选项B:距离
选项C:特征
选项D:数据
满分答案问询微信:424329
28.差异性可以用()度量
选项A:准确率
选项B:损失函数
选项C:距离
选项D:相似性
满分答案问询微信:424329
29.按主题分类,社团包括()
选项A:明显的社团
选项B:预定义社团
选项C:自组织社团
选项D:隐含的社团
满分答案问询微信:424329
30.连续性变量的距离可用以下()方法衡量
选项A:曼哈顿距离
选项B:切比雪夫距离
选项C:.Jaccard相似系数
选项D:皮尔森相关系数
满分答案问询微信:424329
31.Girvan-Newman算法中,不同深度结点间的边为无向图。
选项A:对
选项B:错
满分答案问询微信:424329
32.如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合
选项A:对
选项B:错
满分答案问询微信:424329
33.MapReduce中,如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了,则这些关联的Reduce任务的也将被重新执行。()
选项A:对
选项B:错
满分答案问询微信:424329
34.未来考验零售企业的是如何挖掘消费者需求
选项A:对
选项B:错
满分答案问询微信:424329
35.网络实体之间至少存在一种关系
选项A:对
选项B:错
满分答案问询微信:424329
36.协同过滤推荐是基于假设,为用户找到真正感兴趣的内容首先找到与此用户有相似兴趣的用户,然后把他们感兴趣的内容推荐给此用户
选项A:对
选项B:错
满分答案问询微信:424329
37.边的中介度定义为任意节点对的数目。()
选项A:对
选项B:错
满分答案问询微信:424329
38.效用矩阵的数据可以通过隐式方法获得,得到的数值中0相比较1表示受喜欢度较低
选项A:对
选项B:错
满分答案问询微信:424329
39.监督学习的两个基本策略是经验风险最小化和结构风险最小化
选项A:对
选项B:错
满分答案问询微信:424329
40.k均值聚类是基于样本集合划分的聚类算法.()
选项A:对
选项B:错
满分答案问询微信:424329
41.每个网页的PageRank值仅由指向它的网页的PageRank值决定。()
选项A:对
选项B:错
满分答案问询微信:424329
42.实际操作中,不能用经验风险近似期望风险
选项A:对
选项B:错
满分答案问询微信:424329
43.大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
选项A:对
选项B:错
满分答案问询微信:424329
44.PageRank算法是图数据上的无监督学习方法。()
选项A:对
选项B:错
满分答案问询微信:424329
45.决策树学习的算法递归地选择最优特征。()
选项A:对
选项B:错
满分答案问询微信:424329
46.推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
选项A:对
选项B:错
满分答案问询微信:424329
47.大数据规则性分析用于预测未来时间发生的概率和演化趋势
选项A:对
选项B:错
满分答案问询微信:424329
48.随机游走过程用一个一阶马尔可夫链来建模。()
选项A:对
选项B:错
满分答案问询微信:424329
49.监督学习中,模型就是索要学习的联合概率分布或决策函数
选项A:对
选项B:错
满分答案问询微信:424329
50.相比较基于内容的协同过滤,基于用户的协同过滤效果往往更好
选项A:对
选项B:错
满分答案问询微信:424329