利用决策树预测NBA比赛胜负的Python数据挖掘实践
作者:serafina捡到一枚人鱼 | 来源:互联网 | 2024-12-23 09:07
本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。
### 1. 数据准备与预处理
本文的数据来源包括2013-14赛季NBA的比赛记录和2013年的球队排名。我们首先加载并初步检查这些数据。
```python
import pandas as pd
import time
start = time.time()
file_path = 'path_to_your_data/NBA_2014_games.csv'
data = pd.read_csv(file_path)
print(data.head())
print(f'Data shape: {data.shape}')
print('Duplicate rows:', data[data.duplicated()])
```
接下来,对数据进行清洗,确保日期格式正确,并重命名列标题以提高可读性。
```python
data = pd.read_csv(file_path, parse_dates=['Date'])
data.columns = ['Date', 'Score Type', 'Visitor Team', 'VisitorPts', 'Home Team', 'HomePts', 'OT?', 'Notes']
print(data.head())
```
### 2. 特征工程
为了更好地训练模型,我们需要从原始数据中提取有用的信息作为新特征。例如,我们可以根据历史战绩判断主场或客场比赛的结果。
```python
data['HomeWin'] = data['VisitorPts'] y_true = data['HomeWin'].values
from collections import defaultdict
won_last = defaultdict(int)
data['HomeLastWin'], data['VisitorLastWin'] = None, None
for index, row in data.iterrows():
home_team, visitor_team = row['Home Team'], row['Visitor Team']
data.at[index, 'HomeLastWin'] = won_last[home_team]
data.at[index, 'VisitorLastWin'] = won_last[visitor_team]
won_last[home_team] = row['HomeWin']
won_last[visitor_team] = not row['HomeWin']
print(data[['Home Team', 'HomePts', 'HomeWin', 'HomeLastWin', 'VisitorLastWin']].head())
```
### 3. 模型构建与评估
这里选择决策树作为基础分类器,并通过交叉验证评估其性能。
```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
import numpy as np
clf = DecisionTreeClassifier(random_state=14)
X_previousWins = data[['HomeLastWin', 'VisitorLastWin']].values
scores = cross_val_score(clf, X_previousWins, y_true, scoring='accuracy')
mean_accuracy = np.mean(scores) * 100
print(f'Accuracy using previous wins: {mean_accuracy:.2f}%')
```
此外,还可以引入更多特征(如球队排名差异)来改进模型表现。
```python
standings = pd.read_csv('path_to_your_data/NBA_2013_standings.csv')
data['HomeTeamRanksHigher'] = 0
for index, row in data.iterrows():
home_team, visitor_team = row['Home Team'], row['Visitor Team']
if home_team == 'New Orleans Pelicans':
home_team = 'New Orleans Hornets'
elif visitor_team == 'New Orleans Pelicans':
visitor_team = 'New Orleans Hornets'
home_rank = standings[standings['Team'] == home_team]['Rk'].values[0]
visitor_rank = standings[standings['Team'] == visitor_team]['Rk'].values[0]
data.at[index, 'HomeTeamRanksHigher'] = int(home_rank > visitor_rank)
X_homehigher = data[['HomeLastWin', 'VisitorLastWin', 'HomeTeamRanksHigher']].values
scores = cross_val_score(clf, X_homehigher, y_true, scoring='accuracy')
mean_accuracy_with_rank = np.mean(scores) * 100
print(f'Improved accuracy with ranking: {mean_accuracy_with_rank:.2f}%')
```
最后,尝试使用随机森林进一步优化预测效果,并通过网格搜索确定最佳参数组合。
```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
param_grid = {
'max_features': [2, 3, 'auto'],
'n_estimators': [100, 110, 120],
'criterion': ['gini', 'entropy'],
'min_samples_leaf': [2, 4, 6]
}
rf_clf = RandomForestClassifier(random_state=14, n_jobs=-1)
grid_search = GridSearchCV(rf_clf, param_grid)
grid_search.fit(X_homehigher, y_true)
optimal_accuracy = grid_search.best_score_ * 100
print(f'Optimized accuracy: {optimal_accuracy:.2f}%')
print('Best parameters:', grid_search.best_params_)
end = time.time()
print(f'Total runtime: {end - start:.2f} seconds')
```
以上代码展示了如何利用Python及其相关库完成一个完整的数据挖掘项目流程,包括但不限于数据获取、清理、特征构建、模型训练及调优等方面的工作。
推荐阅读
-
本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ...
[详细]
蜡笔小新 2024-12-28 04:11:47
-
1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ...
[详细]
蜡笔小新 2024-12-27 19:32:17
-
-
本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ...
[详细]
蜡笔小新 2024-12-26 18:05:04
-
golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ...
[详细]
蜡笔小新 2024-12-28 13:47:52
-
本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ...
[详细]
蜡笔小新 2024-12-28 09:46:23
-
本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ...
[详细]
蜡笔小新 2024-12-27 17:40:42
-
本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ...
[详细]
蜡笔小新 2024-12-27 15:04:09
-
本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ...
[详细]
蜡笔小新 2024-12-27 13:14:08
-
本文将介绍如何使用SQL存储过程创建一个完整的年度日历表。通过实例演示,帮助读者掌握存储过程的应用技巧,并提供详细的代码解析和执行步骤。 ...
[详细]
蜡笔小新 2024-12-26 18:20:17
-
本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ...
[详细]
蜡笔小新 2024-12-26 17:34:42
-
本文介绍如何通过创建替代插入触发器,使对视图的插入操作能够正确更新相关的基本表。涉及的表包括:飞机(Aircraft)、员工(Employee)和认证(Certification)。 ...
[详细]
蜡笔小新 2024-12-26 15:53:40
-
本文介绍如何在Element UI的Select组件中使用allow-create属性创建新条目,并处理创建条目为空时出现的错误。我们将详细说明filterable属性的必要性,以及default-first-option属性的作用。 ...
[详细]
蜡笔小新 2024-12-26 12:39:46
-
本文详细探讨了JDBC(Java数据库连接)的内部机制,重点分析其作为服务提供者接口(SPI)框架的应用。通过类图和代码示例,展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ...
[详细]
蜡笔小新 2024-12-25 19:59:15
-
本文档详细介绍了2017年8月31日关于MySQL数据库备份与恢复的教学内容,包括MySQL日志功能、备份策略、备份工具及实战演练。 ...
[详细]
蜡笔小新 2024-12-12 13:25:48
-
本文基于刘洪波老师的《英文词根词缀精讲》,深入探讨了多个重要词根词缀的起源及其相关词汇,帮助读者更好地理解和记忆英语单词。 ...
[详细]
蜡笔小新 2024-12-27 18:59:50
-
serafina捡到一枚人鱼
这个家伙很懒,什么也没留下!