南开大学23年春学期《数据分析》在线作业二
奥鹏南开大学新学期作业参考
23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《数据分析》在线作业-00002
度量距离中,表示各个坐标距离最大值的是()
A:欧氏距离
B:曼哈顿距离
C:切比雪夫距离
正确答案问询微信:424329
向量空间的度量,表示文本之间的()。
A:关系
B:相似度
C:语义关系
D:语义相似度
正确答案问询微信:424329
并行算法包括()
A:MapRedce
B:关联分析
C:KNN
D:Kmeans
正确答案问询微信:424329
Apriori算法的加速过程依赖于以下哪个策略( )
A:抽样
B:剪枝
C:缓冲
D:并行
正确答案问询微信:424329
Hash tree在Apriori算法中所起的作用是( )
A:存储数据
B:查找
C:加速查找
D:剪枝
正确答案问询微信:424329
在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()
A:不可达网页
B:可达网页
C:自有网页
正确答案问询微信:424329
对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是( )
A:3可以还原出无损的1
B:2可以还原出无损的1
C:3与2是完全等价的
D:2与1是完全等价的
正确答案问询微信:424329
在文本信息处理系统中,所处理的原始数据是()
A:结构化的自然语言文本
B:非结构化的自然语言文本
C:非结构化的编码
D:结构化的编码
正确答案问询微信:424329
HITS算法中,网页的重要性应该依赖于()
A:每个网页上的超链接个数
B:用户提出的查询请求
C:网页上超链接重要性
正确答案问询微信:424329
为了计算中介度,必须计算所有边上()的数目。
A:所有路径
B:最短路径
C:结点入度
D:节点出度
正确答案问询微信:424329
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329
以下哪个会降低Apriori算法的挖掘效率( )
A:支持度阈值增大
B:项数减少
C:事务数减少
D:减小硬盘读写速率
正确答案问询微信:424329
大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()
A:实时分析
B:弱实时分析
C:非实时分析
正确答案问询微信:424329
闵式距离参数是()时代表曼哈顿距离
A:0
B:1
C:2
D:无穷
正确答案问询微信:424329
数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
正确答案问询微信:424329
哪个选项不属于大数据4V特点?
A:Volume
B:Valid
C:Variety
D:Value
正确答案问询微信:424329
维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中奥鹏南开大学新学期作业参考 代做2元一门的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A:K-means
B:Bayes Network
C:C4.5
D:Apriori
正确答案问询微信:424329
以下哪种类型的数据不是大数据分析模型的分类标准
A:结构化数据
B:异构数据
C:半结构化数据
D:非结构化数据
正确答案问询微信:424329
向量空间模型中,将单词在文本中出现的数据用一个()表示
A:单词-文本矩阵
B:单词-向量矩阵
C:距离矩阵
D:权重矩阵
正确答案问询微信:424329
特征空间中两个实例点的()是两个实例点相似程度的反映。
A:关联性
B:向量值
C:距离
正确答案问询微信:424329
两个个体之间的距离需满足什么条件()
A:自反性
B:非负性
C:对称性
D:三角形法则
正确答案问询微信:424329
Q型聚类的结果具有()的特点
A:直观
B:细致
C:全面
D:合理
正确答案问询微信:424329
决策树的生成过程是()
A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B:如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C:构建根结点,将所有训练数据都放在根结点
D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
正确答案问询微信:424329
关联规则用于查找项目集合或对象集合之间的()
A:频繁模式
B:关联
C:相关性
D:因果结构
正确答案问询微信:424329
按主题分类,社团包括()
A:明显的社团
B:预定义社团
C:自组织社团
D:隐含的社团
正确答案问询微信:424329
随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。
A:序列
B:隐变量
C:状态
D:重要程度
正确答案问询微信:424329
概率潜在语义分析中,模型生成的是(),但观测到的是()。
A:单词-话题-文本三元组
B:话题-文本二元组
C:单词-话题二元组
D:单词-文本二元组
正确答案问询微信:424329
决策树中的内部结点表示()
A:特征
B:类
C:属性
D:值域输出
正确答案问询微信:424329
大数据在电信中的应用有
A:基于用户、业务及流量分级的多维管控机制
B:精准的客户分析及营销
C:利用位置和轨迹信息服务社会
正确答案问询微信:424329
大数据在教育中的应用
A:网上公开课
B:慕课
C:智慧校园
D:翻转课堂
正确答案问询微信:424329
Apriori算法的优点是速度快。()
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较小的k值“学习”的近似误差会减小。()
A:对
B:错
正确答案问询微信:424329
决策树模型的缺点是分类效率低。()
A:对
B:错
正确答案问询微信:424329
Apriori算法采用了逐层搜索的迭代方法。()
A:对
B:错
正确答案问询微信:424329
kNN算法中,选择较小的k值“学习”的估计误差会减小。()
A:对
B:错
正确答案问询微信:424329
MapReduce中,当一个任务失败时,此任务会在同一个节点重新执行。()
A:对
B:错
正确答案问询微信:424329
二元逻辑回归的参数估计中,采用对数似然函数估计
A:对
B:错
正确答案问询微信:424329
大数据规则性分析用于预测未来时间发生的概率和演化趋势
A:对
B:错
正确答案问询微信:424329
PageRank可以定义在任何有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。
A:对
B:错
正确答案问询微信:424329
当一个节点宕机时,本机节点上已经完成运行的Map任务和正在运行中的Map和Reduce任务都将被调度重新执行。()
A:对
B:错
正确答案问询微信:424329
k均值聚类是硬聚类。()
A:对
B:错
正确答案问询微信:424329
类的均值,又称为类的中心。()
A:对
B:错
正确答案问询微信:424329
k均值聚类中,每个样本只能属于一个类。()
A:对
B:错
正确答案问询微信:424329
中文词语之间也有分界符()
A:对
B:错
正确答案问询微信:424329
决策树学习的分类规则不能根据学习归纳得出。()
A:对
B:错
正确答案问询微信:424329
社团可以帮助搜索引擎提供更好的搜索服务
。()
A:对
B:错
正确答案问询微信:424329
麦肯锡研究院发布的报告Big Data: The next frontier for innovation, competition, and productivity,
第一次给大数据做出了相对清晰的定义
A:对
B:错
正确答案问询微信:424329
一个样本在特征空间的k个最相邻样本中的均属于某一个类别
A:对
B:错
正确答案问询微信:424329
大数据虽然拥有大量的价值信息,但是价值密度较低
A:对
B:错
正确答案问询微信:424329
互联网可以抽象成有向图结构,网页是结点,超链接是有向边。
A:对
B:错
正确答案问询微信:424329