南开大学23秋学期《数据分析》在线作业二
奥鹏南开大学23年秋季新学期作业参考
23秋学期(高起本:1709-2103、专升本/高起专:2003-2103)《数据分析》在线作业-00002
KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案问询微信:424329
()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A:训练误差
B:测试误差
C:统计误差
D:平均误差
正确答案问询微信:424329
潜在语义分析创新地引入了()
A:单词维度
B:文本维度
C:话题维度
正确答案问询微信:424329
用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
潜在语义分析中,以()表示文本的语义内容
A:话题
B:话题向量
C:语义向量
D:距离向量
正确答案问询微信:424329
pageRank中,将网页链接转化为()“投票”。
A:搜索量
B:评价
C:访问量
D:重要度
正确答案问询微信:424329
大数据的特点不包含
A:数据体量大
B:价值密度高
C:处理速度快
D:数据不统一
正确答案问询微信:424329
皮尔森相关系数的变化分为是()
A:[0, 1]
B:[-1, 1]
C:[-1, 0]
D:[0.5, 1]
正确答案问询微信:424329
聚合聚类算法的代表是()
A:AGNES
B:Apriori
C:KNN
D:FP-Growth
正确答案问询微信:424329
Apriori算法使用到以下哪些( )
A:格结构、有向无环图
B:二叉树、哈希树
C:格结构、哈希树
D:多叉树、有向无环图
正确答案问询微信:424329
哪个选项不属于大数据4V特点?
A:Volume
B:Valid
C:Variety
D:Value
正确答案问询微信:424329
逻辑回归优化的目标函数为()
A:极大似然估计
B:对数似然函数
C:特征独立假设
D:贝叶斯定理
正确答案问询微信:424329
在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
A:词项作弊
B:链接作弊
正确答案问询微信:424329
HITS算法中,网页的重要性应该依赖于()
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
正确答案问询微信:424329
特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
正确答案问询微信:424329
算法中用到了外存的算法是()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
话题向量空间模型中,用()的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案问询微信:424329
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
正确答案问询微信:424329
大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A:实时分析
B:弱实时分析
C:非实时分析
正确答案问询微信:424329
PageRank是定义在网页集合上的一个(),它对每个网页赋予一个正实数值,表示网页的()。
A:函数
B:集合
C:搜索排名
D:重要程度
正确答案问询微信:424329
基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
正确答案问询微信:424329
聚类方法包括()
A:划分方法
B:层次方法
C:对象方法
D:基于密度的方法
正确答案问询微信:424329
层次方法中,自底向上的方法是哪种()
A:凝聚法
B:分裂法
C:K-均值算法
D:K-中心点算法
正确答案问询微信:424329
聚合聚类的三个要素是()
A:相似度
B:置信度
C:合并规则
D:停止条件
正确答案问询微信:424329
ID3算法流程为()
A:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B:所有特征的信息增益均很小或没有特征可以选择
C:得到一个决策树
D:对子结点递归地调用,构建决策树
正确答案问询微信:424329
链奥鹏南开大学23年秋季新学期作业参考接分析是对网络链接的()等各种现象进行分析
A:自身属性
B:链接对象
C:链接网络
正确答案问询微信:424329
概率潜在语义分析中,模型生成的是(),但观测到的是()。
A:单词-话题-文本三元组
B:话题-文本二元组
C:单词-话题二元组
D:单词-文本二元组
正确答案问询微信:424329
连续性变量的距离可用以下()方法衡量
A:欧式距离
B:余弦相似度
C:汉明距离
D:马氏距离
正确答案问询微信:424329
关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案问询微信:424329
网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
A:对
B:错
正确答案问询微信:424329
越来越多的企业通过架设海量数据采集系统,多用于系统日志采集,这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。
A:对
B:错
正确答案问询微信:424329
相比较基于内容的协同过滤,基于用户的协同过滤效果往往更好
A:对
B:错
正确答案问询微信:424329
SVM的学习策略可形式化为一个一个求解凸二次规划的问题
A:对
B:错
正确答案问询微信:424329
潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。()
A:对
B:错
正确答案问询微信:424329
大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。
A:对
B:错
正确答案问询微信:424329
一个文本只含有一个话题。()
A:对
B:错
正确答案问询微信:424329
监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案问询微信:424329
簇的相似度根据簇的质心度量。()
A:对
B:错
正确答案问询微信:424329
城市公共交通规划、教育资源配置、医疗资源配置、商业中心建设、房地产规划、产业规划、城市建设等都可以借助于大数据技术进行良好的规划和动态调整。
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较小的k值“学习”的近似误差会减小。()
A:对
B:错
正确答案问询微信:424329
网络实体之间至少存在一种关系
A:对
B:错
正确答案问询微信:424329
通过大数据的分析将会更精确地预测未来的天气,帮助农民做好自然灾害的预防工作,帮助政府实现农业的精细化管理和科学决策。
A:对
B:错
正确答案问询微信:424329
频繁闭项集可用来无损压缩频繁项集。
A:对
B:错
正确答案问询微信:424329
对于社交网络有非随机性或局部性假设
A:对
B:错
正确答案问询微信:424329
应用场景的多样化、数据规模的不断增加,使得传统的关系数据库在很多情况下仍然能够满足需求
A:对
B:错
正确答案问询微信:424329
TF-IDF算法中,IDF指的是文档频率
A:对
B:错
正确答案问询微信:424329
决策树模型可读性好,具有描述性,有助于人工分析。()
A:对
B:错
正确答案问询微信:424329
层次方法中,要将数据分成若干组并形成一个组的树进行聚类。()
A:对
B:错
正确答案问询微信:424329
PageRank算法是图数据上的无监督学习方法。()
A:对
B:错
正确答案问询微信:424329