北京语言大学《大数据技术与应用》在线作业一
奥鹏教育北京语言大学平时在线作业
21秋《大数据技术与应用》作业1-00001
数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A:2
B:4
C:6
D:8
答案问询微信:424329
在pandas中脏数据的典型表示有()
A:np.nan
B:*
C:?
D:no
答案问询微信:424329
利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
A:isnull
B:head
C:tail
D:dropna
答案问询微信:424329
数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的中四分位数为
A:2
B:4
C:6
D:8
答案问询微信:424329
数据集{1,2,3,5,7,8,9}的中位数是
A:3
B:5
C:7
D:4
答案问询微信:424329
用训练好的LOF实例对数据进行LOF分数计算并排序的语句是
A:from sklean.neighbors import LocalOutlierFactor
B:clf=LocalOutlierFactor(n_neighbors=20)
C:y_pred=clf.fit_predict(X)
D:X_scores = clf.negative_outlier_factor_
答案问询微信:424329
利用pandas处理数据缺失值时,用于发现重复值的函数为
A:isnull
B:duplicated
C:fillna
D:dropna
答案问询微信:424329
分类的目标是
A:将一组对象分组以发现它们之间是否存在某种关系
B:从一组预定义的类中查找新对象所属的类
C:提高数据标签利用效率
D:以上都不对
答案问询微信:424329
项集 S ={ },则项集S称为
A:1项集
B:2项集
C:3项集
D:空集
答案问询微信:424329
训练随机森林模型实例的语句是
A:from sklearn.tree import DecisionTreetClassifier
B:clf=DecisionTreetClassifier()
C:clf.fit(Xtrain,Ytrain)
D:predictions=clf.predict(Xtest)
答案问询微信:424329
:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A:训练数据集
B:测试数据集
C:训练数据的类别标签数组
D:测试数据的类别标签数组
答案问询微信:424329
数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A:20
B:22
C:20.5
D:28
答案问询微信:424329
关联规则 X→Y 表示中Y称为
A:前件
B:后件
C:中间件
D:以上都不对
答案问询微信:424329
数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的四分位差为
A:20
B:22
C:20.5
D:18.5
答案问询微信:424329
用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
A:from sklean.neighbors import LocalOutlierFactor
B:clf=LocalOutlierFactor(n_neighbors=20)
C:y_pred=clf.fit_predict(X)
D:X_scores = clf.negative_outlier_factor_
答案问询微信:424329
常用的描述统计分析方法包括
A:对比分析法
B:平均分析法
C:交叉分析法
D:以上都不对
答案问询微信:424329
关联规则反映的是
A:可分类性
B:可分割性
C:事物之间相互依存性
D:事物之间相互关联性
答案问询微信:424329
数据集中趋势分析的常用指标包括
A:平均值
B:中位数
C:众数
D:四分位数
答案问询微信:424329
数据挖掘是适应信息社会从海量数据中提取信息的需要而产生的新学科,也是交叉学科,包括
A:统计学
B:机器学习
C:数据库
D:模式识别
答案问询微信:424329
常用的分类方法包括
A:朴素贝叶斯分类器
B:决策树
C:KNN
D:以上都不对
答案问询微信:424329
分箱法是针对连续的数值型数据中噪声进行处理
A:对
B:错
答案问询微信:424329
因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
A:对
B:错
答案问询微信:424329
数据类型等级最高的是定类数据
A:对
B:错
答案问询微信:424329
分类算法的目的是找到数据的最优拟合
A:对
B:错
答案问询微信:424329
数据类型等级最低的是定比奥鹏教育北京语言大学平时在线作业数据
A:对
B:错
答案问询微信:424329