南开大学23年秋学期《数据分析》在线作业三
奥鹏南开大学23年秋季新学期作业参考
23秋学期(仅限-高起专1909、专升本1909)《数据分析》在线作业-00003
评价分类器效果时,表示将正类样本预测为正类数与总正类数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
正确答案问询微信:424329
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329
置信度(confidence)是衡量兴趣度度量( )的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案问询微信:424329
最小类间距离是()
A:两类中各个个体距离的最小值
B:两类中心距离
C:两类所有样本对距离的平均值
D:所有样本对之间距离的平均值
正确答案问询微信:424329
向量空间模型中,用一个()表示语义
A:向量
B:特征
C:数字
D:距离
正确答案问询微信:424329
决策树学习应用()准则选择特征
A:经验条件熵
B:经验熵
C:互信息
D:信息增益
正确答案问询微信:424329
大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A:实时分析
B:弱实时分析
C:非实时分析
正确答案问询微信:424329
话题向量空间模型中,用()的一个向量表示该文本。
A:特征词
B:话题空间
C:语义空间
D:词向量空间
正确答案问询微信:424329
非频繁模式( )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案问询微信:424329
大数据的特点不包含
A:数据体量大
B:价值密度高
C:处理速度快
D:数据不统一
正确答案问询微信:424329
Hash tree在Apriori算法中所起的作用是( )
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案问询微信:424329
LDA导入先验分布是为了应对()现象
A:欠拟合
B:话题识别不准
C:过拟合
D:分词困难
正确答案问询微信:424329
逻辑斯谛函数是一条()曲线
A:抛物线
B:三角函数
C:S型曲线
D:直线
正确答案问询微信:424329
哪个选项不属于大数据4V特点?
A:Volume
B:Valid
C:Variety
D:Value
正确答案问询微信:424329
支持向量机的MapReduce实现要进行几轮MapReduce()
A:1
B:2
C:3
D:自行规定
正确答案问询微信:424329
支持向量机的学习策略是()
A:间隔最大化
B:多数表决
C:距离度量
正确答案问询微信:424329
针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329
度量距离中,表示各个坐标距离最大值的是()
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信:424329
pageRank中,将网页链接转化为()“投票”。
A:搜索量
B:评价
C:访问量
D:重要度
正确答案问询微信:424329
决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信:424329
两个个体之间的距离需满足什么条件()
A:自反性
B:非负性
C:对称性
D:三角形法则
正确答案问询微信:424329
下列属于分类算法的有()。
A:k近邻法
B:朴素贝叶斯
C:支持向量机
D:随机森林
正确答案问询微信:424329
常见的推荐系统算法包括()
A:基于流行度的推荐算法
B:基于内容的推荐算法
C:协同过滤推荐算法
正确答案问询微信:424329
ID3算法流程为()
A:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B:所有特征的信息增益均很小或没有特征可以选择
C:得到一个决策树
D:对子结点递归地调用,构建决策树
正确答案问询微信:424329
关联规则挖掘的算法主要有()和()
A:Apriori
B:KNN
C:贝叶斯算法
D:FP-G奥鹏南开大学23年秋季新学期作业参考rowth
正确答案问询微信:424329
聚合聚类的三个要素是()
A:相似度
B:置信度
C:合并规则
D:停止条件
正确答案问询微信:424329
大数据聚类分析中,归并依据的是()
A:特征的相似度
B:特征的距离
C:特征显著性
D:置信度
正确答案问询微信:424329
按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
正确答案问询微信:424329
从训练数据中学习一个()或(),将其称为()。
A:概率分类模型
B:分类决策函数
C:回归模型
D:分类器
正确答案问询微信:424329
PageRank是定义在网页集合上的一个(),它对每个网页赋予一个正实数值,表示网页的()。
A:函数
B:集合
C:搜索排名
D:重要程度
正确答案问询微信:424329
均值的不足是易受极端值的影响
A:对
B:错
正确答案问询微信:424329
Apriori算法为完成频繁项集挖掘,需对各项集的支持度进行计数,但在计数之前,需要完成各项集的生成工作。()
A:对
B:错
正确答案问询微信:424329
应用场景的多样化、数据规模的不断增加,使得传统的关系数据库在很多情况下仍然能够满足需求
A:对
B:错
正确答案问询微信:424329
统计学习的目的是使模型不仅对已知数据而且对未知数据都有很好的预测能力
A:对
B:错
正确答案问询微信:424329
监督学习是从标注数据中学习预测模型的机器学习问题
A:对
B:错
正确答案问询微信:424329
二元逻辑回归的参数估计中,采用对数似然函数估计
A:对
B:错
正确答案问询微信:424329
大数据在行业应用很广泛,行业领域包括电视媒体,汽车行业,医疗行业,保险行业等等。
A:对
B:错
正确答案问询微信:424329
损失函数的期望成为风险函数
A:对
B:错
正确答案问询微信:424329
常用的文本相似度计算方法包括:计算文本词集合的Jaccard距离和计算向量化词集合的余弦距离
A:对
B:错
正确答案问询微信:424329
惊喜度不是推荐系统的一个常用的评价角度
A:对
B:错
正确答案问询微信:424329
簇的相似度根据簇的质心度量。()
A:对
B:错
正确答案问询微信:424329
类的中心距离可行是因为总是可以求解出类的中心。()
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较大的k值“学习”的近似误差会减小。()
A:对
B:错
正确答案问询微信:424329
概率潜在语义分析是一种有监督学习方法。()
A:对
B:错
正确答案问询微信:424329
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
A:对
B:错
正确答案问询微信:424329
对于社交网络有非随机性或局部性假设
A:对
B:错
正确答案问询微信:424329
推荐与用户喜欢的演员、导演相同或流派相似的电影,是一种基于内容的推荐算法
A:对
B:错
正确答案问询微信:424329
层次方法中,要将数据分成若干组并形成一个组的树进行聚类。()
A:对
B:错
正确答案问询微信:424329
大数据可视化的意义在于以简单、友好、易用的图形化、智能化的形式将数据呈现给用户,供其分析使用
A:对
B:错
正确答案问询微信:424329
聚类分析中,一个类是样本的一个子集。
A:对
B:错
正确答案问询微信:424329