因为我正努力学习这些概念,所以我将把最大的赏金放在这上面!我试图在逻辑回归中使用一些排名数据.我想用机器学习来制作一个关于网页是否"好"的简单分类器.这只是一次学习练习,所以我不指望取得好成绩; 只是希望学习"过程"和编码技巧.
我把我的数据放在.csv中如下:
URL WebsiteText AlexaRank GooglePageRank
在我的测试CSV中,我们有:
URL WebsiteText AlexaRank GooglePageRank Label
标签是二进制分类,表示"好",1表示"坏",0表示"坏".
我目前只使用网站文本运行我的LR; 我运行TF-IDF.
我有两个问题需要帮助.我将在这个问题上给予最大的赏金并将其授予最佳答案,因为这是我想要的一些好帮助,所以我和其他人可以学习.
如何规范AlexaRank的排名数据?我有一组10,000个网页,我的Alexa排名全部; 但他们没有排名1-10,000
.他们排在整个互联网之外,所以虽然http://www.google.com
可能排名#1
,但
http://www.notasite.com
可能会排名#83904803289480
.如何在Scikit中对此进行规范化,以便从我的数据中获得最佳结果?
我正以这种方式运行Logistic回归; 我几乎可以肯定我做错了.我正在尝试在网站文本上执行TF-IDF,然后添加其他两个相关列并适合Logistic回归.如果有人能够快速验证我是否正在接受我要在LR中使用的三列,我会很感激.关于如何提高自己的任何和所有反馈也将在这里受到赞赏.
loadData = lambda f: np.genfromtxt(open(f,'r'), delimiter=' ') print "loading data.." traindata = list(np.array(p.read_table('train.tsv'))[:,2])#Reading WebsiteText column for TF-IDF. testdata = list(np.array(p.read_table('test.tsv'))[:,2]) y = np.array(p.read_table('train.tsv'))[:,-1] #reading label tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode', analyzer='word', token_pattern=r'\w{1,}', ngram_range=(1, 2), use_idf=1, smooth_idf=1,sublinear_tf=1) rd = lm.LogisticRegression(penalty='l2', dual=True, tol=0.0001, C=1, fit_intercept=True, intercept_scaling=1.0, class_weight=None, random_state=None) X_all = traindata + testdata lentrain = len(traindata) print "fitting pipeline" tfv.fit(X_all) print "transforming data" X_all = tfv.transform(X_all) X = X_all[:lentrain] X_test = X_all[lentrain:] print "20 Fold CV Score: ", np.mean(cross_validation.cross_val_score(rd, X, y, cv=20, scoring='roc_auc')) #Add Two Integer Columns AlexaAndGoogleTrainData = list(np.array(p.read_table('train.tsv'))[2:,3])#Not sure if I am doing this correctly. Expecting it to contain AlexaRank and GooglePageRank columns. AlexaAndGoogleTestData = list(np.array(p.read_table('test.tsv'))[2:,3]) AllAlexaAndGoogleInfo = AlexaAndGoogleTestData + AlexaAndGoogleTrainData #Add two columns to X. X = np.append(X, AllAlexaAndGoogleInfo, 1) #Think I have done this incorrectly. print "training on full data" rd.fit(X,y) pred = rd.predict_proba(X_test)[:,1] testfile = p.read_csv('test.tsv', sep="\t", na_values=['?'], index_col=1) pred_df = p.DataFrame(pred, index=testfile.index, columns=['label']) pred_df.to_csv('benchmark.csv') print "submission file created.."`
非常感谢您的所有反馈 - 如果您需要任何进一步的信息,请发布!