南开大学22秋学期《数据分析》在线作业一
奥鹏教育南开大学平时作业
22秋学期(高起本1709-1803、全层次1809-2103)《数据分析》在线作业-00001
模型参数估计变为以()为目标函数的最优化问题
A:交叉熵损失函数
B:合页损失函数
C:对数似然函数
D:KL散度
正确答案获取微信:424329
置信度(confidence)是衡量兴趣度度量( )的指标
A:简洁性
B:确定性
C:实用性
D:新颖性
正确答案获取微信:424329
潜在语义分析创新地引入了()
A:单词维度
B:文本维度
C:话题维度
正确答案获取微信:424329
针对输入数据、时间与其他资源的要求,给出各种性能的输出结果,得到具有一定预计性的算法模型,被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信:424329
经典的Apriori算法是逐层扫描的,也就是说它是()优先的
A:宽度
B:深度
正确答案获取微信:424329
类的R型聚类是指()
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案获取微信:424329
决策树中的叶结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案获取微信:424329
基于MapReduce的Apriori算法,共进行几轮MapReduce()
A:1
B:2
C:3
D:4
正确答案获取微信:424329
类的Q型聚类是指()
A:对样本个体进行聚类
B:对指标变量进行聚类。
正确答案获取微信:424329
用多台处理机联合求解问题的算法被称为()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信:424329
在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗搜索引擎技术称为()
A:词项作弊
B:链接作弊
正确答案获取微信:424329
以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
正奥鹏教育南开大学平时作业确答案获取微信:424329
任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作弊
A:访问量
B:实际价值
C:搜索量
D:用户数量
正确答案获取微信:424329
算法中用到了外存的算法是()
A:随机算法
B:外存算法
C:并行算法
D:Anytime算法
正确答案获取微信:424329
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案获取微信:424329
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A:准确率
B:精确率
C:召回率
D:F1值
正确答案获取微信:424329
Hash tree在Apriori算法中所起的作用是( )
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案获取微信:424329
向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度
正确答案获取微信:424329
支持向量机的学习策略是()
A:间隔最大化
B:多数表决
C:距离度量
正确答案获取微信:424329
以下属于关联分析的是( )
A:CPU性能预测
B:购物篮分析
C:自动判断鸢尾花类别
D:股票趋势建模
正确答案获取微信:424329
聚类的核心是()
A:相似度
B:距离
C:特征
D:数据
正确答案获取微信:424329
向量空间模型中,是将()看成()
A:文档
B:单词
C:词袋
D:编码
正确答案获取微信:424329
社交网络的含义包括()。
A:硬件
B:软件
C:服务
D:应用
正确答案获取微信:424329
KNN模型由哪些基本要素决定()
A:距离度量
B:特征选择
C:k值的选择
D:分类决策规则
正确答案获取微信:424329
聚合聚类的三个要素是()
A:相似度
B:置信度
C:合并规则
D:停止条件
正确答案获取微信:424329
差异性可以用()度量
A:准确率
B:损失函数
C:距离
D:相似性
正确答案获取微信:424329
以下哪些统计量可以反映数据的集中趋势
A:均值
B:中位数
C:方差(标准差)
D:众数
正确答案获取微信:424329
关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案获取微信:424329
潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
A:话题空间
B:文本在话题空间的表示
C:话题维度
D:词向量空间
正确答案获取微信:424329
下列属于朴素贝叶斯缺点的是()
A:分类效果不稳定
B:不适合增量式训练
C:先验模型可能导致结果不佳
D:对缺失数据不太敏感
正确答案获取微信:424329
kNN算法中,选择较小的k值“学习”的估计误差会减小。()
A:对
B:错
正确答案获取微信:424329
ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
A:对
B:错
正确答案获取微信:424329
DAG中的父节点是唯一的。
A:对
B:错
正确答案获取微信:424329
大数据分析可以分为定性数据分析和定量数据分析
A:对
B:错
正确答案获取微信:424329
朴素贝叶斯中,首先要基于特征条件独立假设学习输入输出的联合概率分布。()
A:对
B:错
正确答案获取微信:424329
统计学习也成为统计机器学习
A:对
B:错
正确答案获取微信:424329
通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()
A:对
B:错
正确答案获取微信:424329
Kmeans算法的MapReduce实现属于迭代算法。()
A:对
B:错
正确答案获取微信:424329
大数据虽然拥有大量的价值信息,但是价值密度较低
A:对
B:错
正确答案获取微信:424329
大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案获取微信:424329
实际操作中,不能用经验风险近似期望风险
A:对
B:错
正确答案获取微信:424329
要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
A:对
B:错
正确答案获取微信:424329
由不同的距离度量所确定的最近邻点是相同的。()
A:对
B:错
正确答案获取微信:424329
不满足给定评价度量的关联规则是无趣的。
A:对
B:错
正确答案获取微信:424329
潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。()
A:对
B:错
正确答案获取微信:424329
网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
A:对
B:错
正确答案获取微信:424329
监督学习的两个基本策略是经验风险最小化和结构风险最小化
A:对
B:错
正确答案获取微信:424329
概率潜在语义分析就是发现由隐变量表示的话题。()
A:对
B:错
正确答案获取微信:424329
半监督学习通常有大量标注数据、少量未标注数据
A:对
B:错
正确答案获取微信:424329
FP-growth算法的速度要比Apriori算法快。
A:对
B:错
正确答案获取微信:424329