随机森林

使用sklearn

from sklearn.ensemble import RandomForestClassifier
import pandas as pd

# 创建树
model = RandomForestClassifier(n_estimators=100, bootstrap=True, max_depth=4)

# 导入训练集
train = pd.read_table("train.txt", sep="\t", header=0, col_index=False)

# 处理，一般需要把文本处理为数值，这里我把良性处理为0，恶性处理为1
# 切片
ytrain = train["Class"]
xtrain = train.iloc[:, 1:]

# 训练
clsf = model.fit(xtrain, ytrain)

# 导入测试组
test = pd.read_table("test.txt", sep="\t", header=0, col_index=False)

# 预测
predict_clsf = clsf.predict(test)

参考

实战：用Python实现随机森林

上篇才发现bedtools intersect -v是这样的

下篇探针设计软件mrbait