南开大学23年秋学期《数据分析》在线作业二

奥鹏南开大学23年秋季新学期作业参考

23秋学期(仅限-高起专1909、专升本1909)《数据分析》在线作业-00002

类的R型聚类是指()
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案问询微信:424329

潜在语义分析中,以()表示文本的语义内容
A:话题
B:话题向量
C:语义向量
D:距离向量
正确答案问询微信:424329

模型参数估计变为以()为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度
正确答案问询微信:424329

使用了随机函数的算法是哪个算法()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案问询微信:424329

以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案问询微信:424329

任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
A:访问量
B:实际价值
C:搜索量
D:用户数量
正确答案问询微信:424329

以下哪个会降低Apriori算法的挖掘效率( )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
正确答案问询微信:424329

向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
正确答案问询微信:424329

在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
A:词项作弊
B:链接作弊
正奥鹏南开大学23年秋季新学期作业参考确答案问询微信:424329

向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度
正确答案问询微信:424329

维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329

非频繁模式( )
A:其置信度小于阈值
B:令人不感兴趣
C:包含负模式和负相关模式
D:对异常数据项敏感
正确答案问询微信:424329

在文本信息处理系统中,所处理的原始数据是()
A:结构化的自然语言文本
B:非结构化的自然语言文本
C:非结构化的编码
D:结构化的编码
正确答案问询微信:424329

逻辑斯谛函数是一条()曲线
A:抛物线
B:三角函数
C:S型曲线
D:直线
正确答案问询微信:424329

经典的Apriori算法是逐层扫描的,也就是说它是()优先的
A:宽度
B:深度
正确答案问询微信:424329

评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
正确答案问询微信:424329

为了计算中介度,必须计算所有边上()的数目。
A:所有路径
B:最短路径
C:结点入度
D:节点出度
正确答案问询微信:424329

k近邻法中的分类决策规则往往是()
A:依权重表决
B:多数表决
C:前提设定
D:随机决定
正确答案问询微信:424329

评估模型的分类预测准确率,使用()进行评估;
A:训练数据集
B:验证数据集
C:测试数据集
D:未知数据
正确答案问询微信:424329

度量距离中,表示各个坐标距离最大值的是()
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信:424329

下列属于分类算法的有()。
A:k近邻法
B:朴素贝叶斯
C:支持向量机
D:随机森林
正确答案问询微信:424329

下列哪些任务适合构建分类模型()
A:银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B:邮件系统可以根据email标题和内容区分出垃圾邮件
C:医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D:房价预测
正确答案问询微信:424329

PageRank是定义在网页集合上的一个(),它对每个网页赋予一个正实数值,表示网页的()。
A:函数
B:集合
C:搜索排名
D:重要程度
正确答案问询微信:424329

连续性变量的距离可用以下()方法衡量
A:欧式距离
B:余弦相似度
C:汉明距离
D:马氏距离
正确答案问询微信:424329

统计学习方法的组成
A:监督学习
B:无监督学习
C:强化学习
正确答案问询微信:424329

Q型聚类的结果具有()的特点
A:直观
B:细致
C:全面
D:合理
正确答案问询微信:424329

大数据在教育中的应用
A:网上公开课
B:慕课
C:智慧校园
D:翻转课堂
正确答案问询微信:424329

决策树中的信息增益等价于()中类与特征的()
A:训练数据
B:测试数据
C:交叉熵
D:互信息
正确答案问询微信:424329

以下哪些统计量可以反映数据的集中趋势
A:均值
B:中位数
C:方差(标准差)
D:众数
正确答案问询微信:424329

KNN模型由哪些基本要素决定()
A:距离度量
B:特征选择
C:k值的选择
D:分类决策规则
正确答案问询微信:424329

监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案问询微信:424329

城市公共交通规划、教育资源配置、医疗资源配置、商业中心建设、房地产规划、产业规划、城市建设等都可以借助于大数据技术进行良好的规划和动态调整。
A:对
B:错
正确答案问询微信:424329

网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
A:对
B:错
正确答案问询微信:424329

如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合
A:对
B:错
正确答案问询微信:424329

中位数的优势是计算简便,不受极端值的影响
A:对
B:错
正确答案问询微信:424329

大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
A:对
B:错
正确答案问询微信:424329

如果一个网页被很多网页所指向,那么该网页很可能是重要的。()
A:对
B:错
正确答案问询微信:424329

社团可以帮助搜索引擎提供更好的搜索服务
。()
A:对
B:错
正确答案问询微信:424329

大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案问询微信:424329

DAG中的父节点是唯一的。
A:对
B:错
正确答案问询微信:424329

支持向量机是所有知名的数据挖掘算法中最健壮、最准确的方法之一。()
A:对
B:错
正确答案问询微信:424329

Q型聚类主要采取基于距离的相似性度量。
()
A:对
B:错
正确答案问询微信:424329

统计学习的目的是使模型不仅对已知数据而且对未知数据都有很好的预测能力
A:对
B:错
正确答案问询微信:424329

MapReduce中,当一个任务失败时,此任务会在同一个节点重新执行。()
A:对
B:错
正确答案问询微信:424329

类的最短、最长距离的缺点是容易受极值点的影响。()
A:对
B:错
正确答案问询微信:424329

K-means的缺点是效率低。()
A:对
B:错
正确答案问询微信:424329

HITS的性能跟PageRank相差较多。()
A:对
B:错
正确答案问询微信:424329

IDC给出的大数据定义是大数据(Big Data)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
A:对
B:错
正确答案问询微信:424329

切比雪夫距离计算是取哥哥坐标数值的绝对值的最大值。()
A:对
B:错
正确答案问询微信:424329

Kmeans算法的MapReduce实现属于迭代算法。()
A:对
B:错
正确答案问询微信:424329

提供优质的教育资源

公众号: 超前自学网