问

在Logistic回归中使用排名数据

L灬MOXIE 发布于 2023-01-20 15:53

机器学习

因为我正努力学习这些概念,所以我将把最大的赏金放在这上面!我试图在逻辑回归中使用一些排名数据.我想用机器学习来制作一个关于网页是否"好"的简单分类器.这只是一次学习练习,所以我不指望取得好成绩; 只是希望学习"过程"和编码技巧.

我把我的数据放在.csv中如下:

URL WebsiteText AlexaRank GooglePageRank

在我的测试CSV中,我们有:

URL WebsiteText AlexaRank GooglePageRank Label

标签是二进制分类,表示"好",1表示"坏",0表示"坏".

我目前只使用网站文本运行我的LR; 我运行TF-IDF.

我有两个问题需要帮助.我将在这个问题上给予最大的赏金并将其授予最佳答案,因为这是我想要的一些好帮助,所以我和其他人可以学习.

如何规范AlexaRank的排名数据？我有一组10,000个网页,我的Alexa排名全部; 但他们没有排名1-10,000.他们排在整个互联网之外,所以虽然http://www.google.com可能排名#1,但 http://www.notasite.com可能会排名#83904803289480.如何在Scikit中对此进行规范化,以便从我的数据中获得最佳结果？

我正以这种方式运行Logistic回归; 我几乎可以肯定我做错了.我正在尝试在网站文本上执行TF-IDF,然后添加其他两个相关列并适合Logistic回归.如果有人能够快速验证我是否正在接受我要在LR中使用的三列,我会很感激.关于如何提高自己的任何和所有反馈也将在这里受到赞赏.

loadData = lambda f: np.genfromtxt(open(f,'r'), delimiter=' ')

print "loading data.."
traindata = list(np.array(p.read_table('train.tsv'))[:,2])#Reading WebsiteText column for TF-IDF.
testdata = list(np.array(p.read_table('test.tsv'))[:,2])
y = np.array(p.read_table('train.tsv'))[:,-1] #reading label

tfv = TfidfVectorizer(min_df=3,  max_features=None, strip_accents='unicode', analyzer='word',

token_pattern=r'\w{1,}', ngram_range=(1, 2), use_idf=1, smooth_idf=1,sublinear_tf=1)

rd = lm.LogisticRegression(penalty='l2', dual=True, tol=0.0001, C=1, fit_intercept=True,    intercept_scaling=1.0, class_weight=None, random_state=None)

X_all = traindata + testdata
lentrain = len(traindata)

print "fitting pipeline"
tfv.fit(X_all)
print "transforming data"
X_all = tfv.transform(X_all)
X = X_all[:lentrain]
X_test = X_all[lentrain:]

print "20 Fold CV Score: ", np.mean(cross_validation.cross_val_score(rd, X, y, cv=20, scoring='roc_auc'))

#Add Two Integer Columns
AlexaAndGoogleTrainData = list(np.array(p.read_table('train.tsv'))[2:,3])#Not sure if I am doing this correctly. Expecting it to contain AlexaRank and GooglePageRank columns.
AlexaAndGoogleTestData = list(np.array(p.read_table('test.tsv'))[2:,3])
AllAlexaAndGoogleInfo = AlexaAndGoogleTestData + AlexaAndGoogleTrainData

#Add two columns to X.
X = np.append(X, AllAlexaAndGoogleInfo, 1) #Think I have done this incorrectly.

print "training on full data"
rd.fit(X,y)
pred = rd.predict_proba(X_test)[:,1]
testfile = p.read_csv('test.tsv', sep="\t", na_values=['?'], index_col=1)
pred_df = p.DataFrame(pred, index=testfile.index, columns=['label'])
pred_df.to_csv('benchmark.csv')
    print "submission file created.."`

非常感谢您的所有反馈 - 如果您需要任何进一步的信息,请发布!

撰写答案

今天，你开发时遇到什么问题呢？

立即提问

热门标签