南开大学22秋学期《数据分析》在线作业二

奥鹏教育南开大学平时作业

南开大学22秋学期《数据分析》在线作业二插图

22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业-00002

pageRank中,将网页链接转化为()“投票”。
A:搜索量
B:评价
C:访问量
D:重要度
正确答案获取微信:424329

支持向量机的MapReduce实现要进行几轮MapReduce()
A:1
B:2
C:3
D:自行规定
正确答案获取微信:424329

在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
A:词项作弊
B:链接作弊
正确答案获取微信:424329

针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信:424329

基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案获取微信:424329

话题向量空间模型中,用()的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案获取微信:424329

HITS算法中,网页的重要性应该依赖于()
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
正确答案获取微信:424329

朴素贝叶斯中,给定输入x,求解在x出现的前提下各个类别出现的概率,哪个最大,就认为x属于哪个类别。即选择()最大的类别。
A:后验概率
B:先验概率
C:极大似然估计
正确答案获取微信:424329

KNN算法用MapReduce实现,要进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案获奥鹏教育南开大学平时作业取微信:424329

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信:424329

向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
正确答案获取微信:424329

LDA导入先验分布是为了应对()现象
A:欠拟合
B:话题识别不准
C:过拟合
D:分词困难
正确答案获取微信:424329

经典的Apriori算法是逐层扫描的,也就是说它是()优先的
A:宽度
B:深度
正确答案获取微信:424329

聚类过程为()
A:数据准备,特征选择,特征提取,聚类,结果评估
B:数据准备,特征提取,特征选择,聚类,结果评估
C:数据准备,特征提取,聚类,特征选择,结果评估
正确答案获取微信:424329

数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信:424329

逻辑斯谛函数是一条()曲线
A:抛物线
B:三角函数
C:S型曲线
D:直线
正确答案获取微信:424329

向量空间模型中,用()来描述一个文档
A:词
B:词袋
C:特征词
D:特征向量
正确答案获取微信:424329

用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信:424329

k近邻法中的分类决策规则往往是()
A:依权重表决
B:多数表决
C:前提设定
D:随机决定
正确答案获取微信:424329

闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
正确答案获取微信:424329

大数据四大特征包括( )
A:数据量大
B:数据类型繁多
C:数据价值密度相对较低
D:处理速度快,时效性要求高
正确答案获取微信:424329

以下什么问题可以归为回归问题()
A:市场趋势预测
B:产品质量管理
C:客户满意度调查
D:投资风险分析
正确答案获取微信:424329

基于分类对象的分类有()
A:Q型聚类
B:凝聚方式
C:R型聚类
D:分解方式
正确答案获取微信:424329

逻辑斯谛回归的主要用途包括()
A:寻找危险因素
B:搜索
C:预测
D:判别
正确答案获取微信:424329

大数据在医疗中的应用有()
A:流行性疾病预防
B:慢性病健康管理
C:临床决策支持
D:医疗器械研发
正确答案获取微信:424329

决策树的生成过程是()
A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:构建根结点,将所有训练数据都放在根结点
D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
正确答案获取微信:424329

聚类的核心是()
A:相似度
B:距离
C:特征
D:数据
正确答案获取微信:424329

差异性可以用()度量
A:准确率
B:损失函数
C:距离
D:相似性
正确答案获取微信:424329

按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
正确答案获取微信:424329

连续性变量的距离可用以下()方法衡量
A:曼哈顿距离
B:切比雪夫距离
C:.Jaccard相似系数
D:皮尔森相关系数
正确答案获取微信:424329

Girvan-Newman算法中,不同深度结点间的边为无向图。
A:对
B:错
正确答案获取微信:424329

如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合
A:对
B:错
正确答案获取微信:424329

MapReduce中,如果Reduce任务所需要的Map的中间结果数据因为那台失效的机器而丢失了,则这些关联的Reduce任务的也将被重新执行。()
A:对
B:错
正确答案获取微信:424329

未来考验零售企业的是如何挖掘消费者需求
A:对
B:错
正确答案获取微信:424329

网络实体之间至少存在一种关系
A:对
B:错
正确答案获取微信:424329

协同过滤推荐是基于假设,为用户找到真正感兴趣的内容首先找到与此用户有相似兴趣的用户,然后把他们感兴趣的内容推荐给此用户
A:对
B:错
正确答案获取微信:424329

边的中介度定义为任意节点对的数目。()
A:对
B:错
正确答案获取微信:424329

效用矩阵的数据可以通过隐式方法获得,得到的数值中0相比较1表示受喜欢度较低
A:对
B:错
正确答案获取微信:424329

监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案获取微信:424329

k均值聚类是基于样本集合划分的聚类算法.()
A:对
B:错
正确答案获取微信:424329

每个网页的PageRank值仅由指向它的网页的PageRank值决定。()
A:对
B:错
正确答案获取微信:424329

实际操作中,不能用经验风险近似期望风险
A:对
B:错
正确答案获取微信:424329

大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
A:对
B:错
正确答案获取微信:424329

PageRank算法是图数据上的无监督学习方法。()
A:对
B:错
正确答案获取微信:424329

决策树学习的算法递归地选择最优特征。()
A:对
B:错
正确答案获取微信:424329

推荐系统经常被应用于在线商城、个性化阅读以及电影推荐
A:对
B:错
正确答案获取微信:424329

大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案获取微信:424329

随机游走过程用一个一阶马尔可夫链来建模。()
A:对
B:错
正确答案获取微信:424329

监督学习中,模型就是索要学习的联合概率分布或决策函数
A:对
B:错
正确答案获取微信:424329

相比较基于内容的协同过滤,基于用户的协同过滤效果往往更好
A:对
B:错
正确答案获取微信:424329

提供优质的教育资源

公众号: 超前自学网