北京语言大学《大数据技术与应用》在线作业4

奥鹏教育北京语言大学平时在线作业

21秋《大数据技术与应用》作业4-00001

用训练好的随机森林对样本进行类别预测的语句是
A:from sklearn.tree import DecisionTreetClassifier
B:clf=DecisionTreetClassifier()
C:clf.fit(Xtrain,Ytrain)
D:predictions=clf.predict(Xtest)
答案问询微信：424329

以下不是数据可视化工具库的是（）
A:pandas
B:matplotlib
C:matlab
D:seaborn
答案问询微信：424329

数据集{1,2,3,5,7,8,9}的中位数是
A:3
B:5
C:7
D:4
答案问询微信：424329

下面代码能够提取模糊C均值聚类算法类簇中心特征的语句是
A:from fcmeans import FCM
B:fcm=FCM(n_clusters=4)
C:fcm.fit(X)
D:fcm_centers=fcm.cednters
答案问询微信：424329

局部异常因子(LOF)算法属于
A:基于统计的异常值检测方法
B:基于密度的异常检测方法
C:基于聚类的异常值检测
D:基于决策树的异常检测
答案问询微信：424329

逻辑回归中的“逻辑”是指
A:规则
B:Sigmoid函数
C:学者名字
D:以上都不对
答案问询微信：424329

数据集{1,2,2,2,3,4}的众数是
A:1
B:2
C:3
D:4
答案问询微信：424329

利用pandas处理数据缺失值时，用于发现缺失值的函数为
A:isnull
B:head
C:tail
D:info
答案问询微信：424329

利用pandas处理数据缺失值时，用于填充缺失值的函数为
A:isnull
B:head
C:fillna
D:dropna
答案问询微信：424329

关联规则最基础的元素是
A:项
B:项集
C:超项集
D:子项集
答案问询微信：424329

from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中可以看出，KNN分类器的k值设置为
A:1
B:2
C:3
D:4
答案问询微信：424329

决策树生成过程中，以信息增益率作为特征选择准则生成决策树的算法是
A:ID3
B:C4.5
C:CART
D:以上都不对
答案问询微信：424329

决策树生成过程的停止条件
A:当前结点包含的样本全属于同一类别，无需划分
B:当前属性集为空，或是所有样本在所有属性上取值相同，无法划分
C:当前结点包含的样本集合为空，不能划分
D:以上都不对
答案问询微信：424329

用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句
A:from sklean.neighbors import LocalOutlierFactor
B:clf=LocalOutlierFactor(n_neighbors=20)
C:y_pred=clf.fit_predict(X)
D:X_scores = clf.negative_outlier_factor_
答案问询微信：424329

处理缺失值的方法有删除和（）
A:替换
B:复制
C:修改
D:屏蔽
答案问询微信：424329

常用的分类方法包括
A:朴素贝叶斯分类器
B:决策树
C:KNN
D:以上都不对
答案问询微信：424329

定性数据包括
A:有序数据
B:无序数据
C:定类等级数据
D:定性等级数据
答案问询微信：424329

数据挖掘（Data Mining）则是知识发现（KDD）的核心部分，它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程，这些信息的表现形式为
A:规则
B:概念
C:规律
D:模式
答案问询微信：424329

异常检测的难点
A:不能明确定义何为正常，何为异常，在某些领域正常和异常并没有明确的界限
B:数据本身存在噪声，致使噪声和异常难以区分
C:正常行为并不是一成不变，也会随着时间演化，如正常用户被盗号之后，进行一系列的非法操作
D:难以获取标记数据，没有数据，再好的算法也是无用
答案问询微信：424329

分箱法包括
A:等深分箱
B:众数分箱
C:等宽分箱
D:以上都不对
答案问询微信：424329

众数在一组数据中只有一个
A:对
B:错
答案问询微信：424329

因为 Bayes 理论能够帮助理解基于概率估计的复杂现况，所以它成为了数据挖掘和概率论的基础
A:对
B:错
答案问询微信：424329

下四分位数是指数据从大到小排列排在第25%位置的数字，即最小的四分位数(下四分位数)
A:对
B:错
答案问询微信：424329

高层次数据无法向低层次转化，会出现F
A:对
B:错
答案问询微信：424329

描述性数据分析属于比较高级复杂的奥鹏教育北京语言大学平时在线作业数据分析手段
A:对
B:错
答案问询微信：424329

提供优质的教育资源