北京语言大学《大数据技术与应用》在线作业二

奥鹏教育北京语言大学平时在线作业

21秋《大数据技术与应用》作业2-00001

用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句
A:from sklean.neighbors import LocalOutlierFactor
B:clf=LocalOutlierFactor(n_neighbors=20)
C:y_pred=clf.fit_predict(X)
D:X_scores = clf.negative_outlier_factor_
答案问询微信：424329

利用pandas处理数据缺失值时，用于填充缺失值的函数为
A:isnull
B:head
C:fillna
D:dropna
答案问询微信：424329

决策树生成过程中，以信息增益作为特征选择准则生成决策树的算法是
A:ID3
B:C4.5
C:CART
D:以上都不对
答案问询微信：424329

决策树的生成是一个递归过程，在决策树基本算法中，满足哪种情形，会导致递归过程返回停止
A:特征选择次数超过一定限制
B:当前属性集为空，或所有样本在所有属性上取值相同
C:决策树深度超过2
D:以上都不对
答案问询微信：424329

:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A:训练数据集
B:测试数据集
C:训练数据的类别标签数组
D:测试数据的类别标签数组
答案问询微信：424329

以下不属于大数据分析方法的是（）
A:统计分析
B:数学模型
C:机器学习
D:人工智能
答案问询微信：424329

用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
A:from sklean.ensemble import IsolationForest
B:LocalOutlierFactor
C:clf= IsolationForest(max_samples=100,random_state=0)
D:clf.fit(X_train)
E:y_pred=clf.fit_predict(X)
F:y_pred_test = clf.predict(X_test)
答案问询微信：424329

用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是
A:from fcmeans import FCM
B:fcm=FCM(n_clusters=3)
C:fcm.fit(X)
D:fcm_labels=fcm.u.argmax(axis=1)
答案问询微信：424329

数据集{1,2,2,2,3,4}的众数是
A:1
B:2
C:3
D:4
答案问询微信：424329

不包含任何项的项集是指
A:项
B:空集
C:超项集
D:子项集
答案问询微信：424329

利用Sklearn构建KNN分类器，用于KNN分类器训练的程序为
A:knn.fit(X_train,y_train)
B:y_pred=knn.predict(X_test)
C:knn=KNeighborsClassifier(n_neighbors=k)
D:以上都不对
答案问询微信：424329

数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A:2
B:4
C:6
D:8
答案问询微信：424329

关联规则 X→Y 表示中X称为
A:前件
B:后件
C:中间件
D:以上都不对
答案问询微信：424329

从软件库中导入模糊C均值聚类算法类的语句是
A:from fcmeans import FCM
B:fcm=FCM(n_clusters=3)
C:fcm.fit(X)
D:fcm_labels=fcm.u.argmax(axis=1)
答案问询微信：424329

如果一个项集包含K个项，则该项集称为
A:项
B:空集
C:超项集
D:K项集
答案问询微信：424329

数据集中趋势分析的常用指标包括
A:平均值
B:中位数
C:众数
D:四分位数
答案问询微信：424329

以下哪些是数据可视化图表
A:柱状图
B:折线图
C:饼图
D:散点图
答案问询微信：424329

分箱法包括
A:等深分箱
B:众数分箱
C:等宽分箱
D:以上都不对
答案问询微信：424329

在数据清洗过程中，用于处理噪声值的方法包括
A:盖帽法
B:分箱法
C:聚类法
D:以上都不对
答案问询微信：424329

定性数据包括
A:有序数据
B:无序数据
C:定类等级数据
D:定性等级数据
答案问询微信：424329

回归算法的目的是寻找决策边界
A:对
B:错
答案问询微信：424329

描述性数据分析属于比较高级复杂的数据分析手段
A:对
B:错
答案问询微信：424329

盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除
A:对
B:错
答案问询微信：424329

定性数据包括离散数据和连续奥鹏教育北京语言大学平时在线作业数据
A:对
B:错
答案问询微信：424329

等宽分箱方法是指每个分箱中样本数量一致
A:对
B:错
答案问询微信：424329

提供优质的教育资源