热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【python】pandas库中的merge方法连接两个表后输出为空

importpandasaspd#读取数据,更换列表名datapd.read_table(u.data)datafeilds[userid,itemid
import pandas as pd

#读取数据,更换列表名
data = pd.read_table( 'u.data' )
datafeilds = ['user id', 'item id', 'rating', 'timestamp']
data.columns = datafeilds

#将文件中需要的数据分别存入两个列表
user_id = []
gender = []
userfile = open('u.user')
contents = userfile.readlines()
userfile.close()
for i in range(0,len(contents)):
    line = contents[i].split('|')
    user_id.append( line[0] )
    gender.append( line[2] )
    
#存入数据,为dataframe类型
dictuser = {'user id':user_id, 'gender':gender}
user = pd.DataFrame(dictuser)

rating = pd.merge( data, user, on = 'user id')
print rating


data和user的类型都是dataframe,用user id做为主键连接两张表,data和user中都有数据,
输出如下:
Empty DataFrame
Columns: [user id, item id, rating, timestamp, gender]
Index: []

怎么会是空的呢?

6 个解决方案

#1


因为两个表的user id没有一样的,注意它们的类型

#2


楼主 问题解决了吗 同求答案  

#3


引用 1 楼 uiuiy1 的回复:
因为两个表的user id没有一样的,注意它们的类型

print data.columns[0], user.columns[1]
print type(data.columns[0]), type(user.columns[1])

输出为
user id user id
 
都是string啊

在variable explorer查看rating,有如下错误
TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

#4


#!/usr/bin/python
# -*- coding:utf-8 -*-

import pandas as pd
import numpy as np
 
#读取数据,更换列表名
data = np.loadtxt('u.data',delimiter = " ", dtype=str)
#data = pd.read_table( 'u.data' )
datafeilds = ['user id', 'item id', 'rating', 'timestamp']
#data.columns = datafeilds
df = pd.DataFrame(data,columns=datafeilds)
 
#将文件中需要的数据分别存入两个列表
user_id = []
gender = []
userfile = open('u.user')
contents = userfile.readlines()
userfile.close()
for i in range(0,len(contents)):
    line = contents[i].split('|')
    user_id.append( line[0] )
    gender.append( line[2] )
     
#存入数据,为dataframe类型
dictuser = {'user id':user_id, 'gender':gender}
user = pd.DataFrame(dictuser)
 
rating = pd.merge( df, user, on = 'user id')
print rating

u.data
11 1 1 y1
22 2 2 y1
33 3 3 y1
44 4 4 y1
55 5 5 y1
66 6 6 y1

u.user
11|m|f
22|f|f
33|m|f
44|m|f
55|f|f
66|f|f


#5


十分感谢!按照你的思路解决了问题。

不过,你给出的这一段
df = pd.DataFrame(data,columns=datafeilds)
运行到这就出错了

我在variable explorer看了data的值,显示只有1列,所以我自己用代码清理了一下。
data = np.loadtxt('u.data',delimiter = " ", dtype=str)
datafeilds = ['user id', 'item id', 'rating', 'timestamp']

sline = []

for line in data:
    sline.append( line.split('\t') )
    
array = np.array(sline)
df = pd.DataFrame(array,columns=datafeilds)


最后,还是想请教一下,为何会出现题目中的问题呢?
两个数据都是
user id也都是
到底哪里不一样呢?

再次感谢!

#6


因为看不到你的表格数据,我估计可能是你user id 中的数据没有相同的,这样就会导致merge以后为空表。

推荐阅读
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • 十大经典排序算法动图演示+Python实现
    本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序,常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念,并提供了相关的名词解释。 ... [详细]
  • 本文详细介绍了Python中正则表达式和re模块的使用方法。首先解释了转义符的作用,以及如何在字符串中包含特殊字符。然后介绍了re模块的功能和常用方法。通过学习本文,读者可以掌握正则表达式的基本概念和使用技巧,进一步提高Python编程能力。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 解决python matplotlib画水平直线的问题
    本文介绍了在使用python的matplotlib库画水平直线时可能遇到的问题,并提供了解决方法。通过导入numpy和matplotlib.pyplot模块,设置绘图对象的宽度和高度,以及使用plot函数绘制水平直线,可以解决该问题。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 本文介绍了一个Python函数same_set,用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数,如果两个数组包含相同的元素,则返回1,否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]
  • Python的参数解析argparse模块的学习
    本文介绍了Python中参数解析的重要模块argparse的学习内容。包括位置参数和可选参数的定义和使用方式,以及add_argument()函数的详细参数关键字解释。同时还介绍了命令行参数的操作和可接受数量的设置,其中包括整数类型的参数。通过学习本文内容,可以更好地理解和使用argparse模块进行参数解析。 ... [详细]
  • 颜色迁移(reinhard VS welsh)
    不要谈什么天分,运气,你需要的是一个截稿日,以及一个不交稿就能打爆你狗头的人,然后你就会被自己的才华吓到。------ ... [详细]
author-avatar
津pig
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有