python结合shell查询google关键词排名的实现代码

作者：郭城镣 | 来源：互联网 | 2018-07-17 23:19

这篇文章主要介绍了python结合shell查询google关键词排名的实现代码,需要的朋友可以参考下

最近老婆大人的公司给老婆大人安排了一个根据关键词查询google网站排名的差事。老婆大人的公司是做seo的，查询的关键词及网站特别的多，看着老婆大人这么辛苦的重复着查询工作，心疼啊。所以花点时间用python写了一个根据关键词搜索网站排名的py脚本。

在写这个脚本之前，我也曾在网站搜索过关于在google查排名的脚本。很多是利用google的api。但是我测试了一下，不准。所以，自己写一个吧。

脚本内容如下：(关键词我在网站随便找了几个。以做测试使用)

#vim keyword.py 
import urllib,urllib2,COOKIElib,re,sys,os,time,random 
cj = COOKIElib.COOKIEJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] 
beatskey=['beats+by+dre','beats+by+dre+cheap'] 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
beatsweb=['beatsbydre.com','justlovebeats.com'] 
allweb=['vibramweb','beatsweb'] 
def serchkey(key,start): 
    url="http://www.google.com/search&＃63;hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start) 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) 
        respOnse=urllib2.urlopen(req) 
        cOntent= response.read() 
        f=open('google','w') 
        f.write(content) 
        tiqu=os.popen("grep -ioP '(&＃63;<=).*&＃63;(&＃63;=)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() 
    except: 
        changeip() 
    else: 
        for yuming in pinpai: 
                a=1 
                for shouyuming in tiqu: 
                    real=shouyuming.find(yuming) 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
                        lastkey=key.replace("+"," ") 
                        xinxi="%s\t\t %s\t\t page%s,%s
\n" %(yuming,lastkey,page,a) 
                        xinxifile=open('index.html','a') 
                        xinxifile.write(xinxi) 
                        xinxifile.close() 
                    a=a+1 
def changeip(): 
    ip=random.randint(0,2) 
    de="route del -host google.com" 
    add="route add -host google.com eth1:%s" %ip 
    os.system(de) 
    os.system(add) 
    print "changip to %s" %ip 
pinpaiid=0 
for x in vibramkey,beatskey: 
    if  pinpaiid == 0: 
        pinpai=vibramweb 
    elif pinpaiid == 1: 
        pinpai=beatsweb 
pinpaiid=pinpaiid+1 
    for key in x: 
        for start in 0,10,20,30,40: 
            serchkey(key,start) 
    changeip()    
os.system("sh paiban.sh")

#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html 
line=`wc -l index.html|awk '{print $1}'` 
yuming2=`sed -n 1p index.html|awk '{print $1}'` 
for i in `seq 2 $line` 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then 
sed -i ""$i"s/"$yuming"/\t\t/g" index.html 
else 
yuming2=$yuming 
fi 
done

这段脚本分两部分，第一部分是python利用关键词搜索google的页面。老婆大人说只要每一个关键词的前5页就可以。所以只查询了前5页。
第二部分是将查询出来的结果进行排版。也就是最下面调用paiban.sh 所做的事情，让最终出来的结果为如下格式：

网站1 关键词1 第几页第几名
关键词2 第几页第几名
关键词3 第几页第几名

网站2 关键词1 第几页第几名
关键词2 第几页第几名
关键词3 第几页第几名
下面就来对程序进行讲解。

import urllib,urllib2,COOKIElib,re,sys,os,time,random  #加载模块 
cj = COOKIElib.COOKIEJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] #定义要查询的关键词组1，里面的单引号里面就是要查询的关键词。 
beatskey=['beats+by+dre','beats+by+dre+cheap']    #同上，定义关键词组2，这个是另一组关键词。 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
#定义关健词组1要查询的网站 
beatsweb=[' beatsbydre.com',' justlovebeats.com'] #定义关健词组2要查询的网站 
allweb=['vibramweb','beatsweb']  #这里定义了一个所有网站的组，下面好调用。 
def serchkey(key,start): #这里定义一个函数，key为查询的关健词，start为页面，通过google查询页面可以看出来每个页面除ads外只有十条记录，start=0时显示为第一个页面第一至第十条记录，start=10时，显示第二页的第一至十条记录，以些类推。 
    url="http://www.google.com/search&＃63;hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start)  #这个定义了查询的URL 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] #模拟浏览器访问 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) #用urllib2访问 
        respOnse=urllib2.urlopen(req) 
        cOntent= response.read()#这块是模拟浏览器进行访问url的页面并读取源代码 
        f=open('google','w') 
        f.write(content) #将读取出来的内容保存到google的一个页面里。 
        tiqu=os.popen("grep -ioP '(&＃63;<=).*&＃63;(&＃63;=)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() #这里利用了系统命令了。利用正则的零宽断言提直接取出第一到第十位的网站域名。 
    except: 
        changeip() #这边是怕访问过多被google封了。所以这里有一个换ip的函数，下面有定义。上面如果try失败了，就执行换ip的动作。 
    else: 
        for yuming in pinpai:    #循环读取要查找的网站 
                a=1 
                for shouyuming in tiqu:  #循环读取查找出来的网站 
                    real=shouyuming.find(yuming)  #将查找出来的网站与需要查找的网站进行比对 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
         #这里的查看域名在google搜索后的哪一页。 
                        lastkey=key.replace("+"," ") #将定义的关键词中间的加号去掉。 
                        print yuming,lastkey,page,a 
                        xinxi="%s\t\t %s\t\t 第%s页,排名%s\n" %(yuming,lastkey,page,a) 
                        xinxifile=open('index.html','a') 
                        xinxifile.write(xinxi) 
                        xinxifile.close() #将查找出来的信息写入到index.html文件里 
                    aa=a+1 
def changeip():  #这里是定义查询时换ip的函数。如果机器只有一个ip那就不用这段了。 
    ip=random.randint(0,10)         #随机生成0-10的数 
    del="route del -host google.com"      #删除路由命令 
    add="route add -host google.com eth1:%s" %ip #添加路由命令 
    os.system(del)                #执行删除路由命令 
    os.system(add)   #执行添加路由命令 
    print "changip to %s" %ip           #打印更改路由信息 
pinpaiid=0  
for x in vibramkey,beatskey:     #循环所有的关键词组 
    if  pinpaiid == 0:     # 对应关键词组与要查询的网站组 
        pinpai=vibramweb 
    elif pinpaiid == 1: 
        pinpai=beatsweb 
pinpaiidpinpaiid=pinpaiid+1 
    for key in x:        #循环关键词组里的关键词 
        for start in 0,10,20,30,40:    #定义所要查找的google的页面 
            serchkey(key,start)   
    changeip()              #更改ip函数。在每一组关键词查询完毕后更改ip.

以上命令执行后，我们看一下index.html文件内容。如下：

代码如下:

#cat index.html
vibramforshoes.com cheap five fingers page 1,rank 3
vibramfivetoeshoes.net cheap five fingers page 5,rank 5
vibramforshoes.com vibram five fingers page 1,rank 6
vibramfivetoeshoes.net vibram five fingers page 5,rank 10
beatsbydre.com beats by dre page 1,rank 1
justlovebeats.com beats by dre page 5,rank 7
beatsbydre.com beats by dre cheap page 2,rank 2
beatsbydre.com beats by dre cheap page 2,rank 3
beatsbydre.com beats by dre cheap page 5,rank 10

如图：

这样看很乱，那么我们如何才能达到上面所讲一个站后面对应多个关键词的格式呢，这里我们就要用到 paiban.sh 这个小脚本了。我们把paiban.sh放在py程序的最后，当执行py程序执行完毕后，执行paiban.sh 这个paiban.sh已经加在py程序里面了，所有不需要另外执行。我这里主要看一下区别。所有在py程序里注释了。

#sh  paiban.sh 
#cat index.html 
beatsbydre.com          beats by dre cheap       page 2,rank 2 
                 beats by dre cheap       page 2,rank 3 
                 beats by dre cheap       page 5,rank 10 
                 beats by dre          page 1,rank 1 
justlovebeats.com        beats by dre          page 5,rank 7 
vibramfivetoeshoes.net      cheap five fingers       page 5,rank 5 
                 vibram five fingers       page 5,rank 10 
vibramforshoes.com        cheap five fingers       page 1,rank 3 
                 vibram five fingers       page 1,rank 6

如图：

这样就能达到上面的效果了。排版也很清楚，哪个站对应哪个关键词。在第几页，第几位，一目了然。

我们也对paiban.sh这个脚本做一下解释。

#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html          #先把index.html文件排下序，再写入index.html 
line=`wc -l index.html|awk '{print $1}'`     #统计行 
yuming2=`sed -n 1p index.html|awk '{print $1}'`  #取第一行的域名 给yuming2 
for i in `seq 2 $line`              #从第二行开始了取域名 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then        
sed -i ""$i"s/"$yuming"/\t\t/g" index.html    #如果下一行域名与yuming2域名相同，就把下一行域名替换成空 
else 
yuming2=$yuming                  #如果不相等，就把下一行的域名给yuming2变量       
fi 
done

好了。这个小脚本挺好用的，老婆大人天天在用。为她减轻了不少工作量。直夸我能干。。。，哈哈。。如果有看不明白的，欢迎加QQ讨论。QQ:410018348

推荐阅读

bash
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
int
Python脚本编写创建输出数据库并添加模型和场数据的方法

本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块，然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据，本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外，作者还建立了关于Abaqus的学习交流群，欢迎加入并提问。 ... [详细]

蜡笔小新 2023-12-09 09:41:06
text
markdown [软件代理设置]

本文由编程笔记#小编为大家整理，主要介绍了markdown[软件代理设置]相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-17 18:19:28
bash
[linux] 远程服务器安装unrar（无root）

对于一般的扩展包，我们一般直接pipinstallxxx即可安装，但是unrar直接安装后，发现并不能通过Python程序实现解压的功能& ... [详细]

蜡笔小新 2023-10-17 11:55:50
jsp
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
post
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
int
Python语法上的区别及注意事项

本文介绍了Python2x和Python3x在语法上的区别，包括print语句的变化、除法运算结果的不同、raw_input函数的替代、class写法的变化等。同时还介绍了Python脚本的解释程序的指定方法，以及在不同版本的Python中如何执行脚本。对于想要学习Python的人来说，本文提供了一些注意事项和技巧。 ... [详细]

蜡笔小新 2023-12-14 11:27:53
stream
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
int
iOS Swift中如何实现自动登录？

本文介绍了在iOS Swift中如何实现自动登录的方法，包括使用故事板、SWRevealViewController等技术，以及解决用户注销后重新登录自动跳转到主页的问题。 ... [详细]

蜡笔小新 2023-12-12 11:13:05
int
Java学习笔记之使用反射+泛型构建通用DAO

本文介绍了使用反射和泛型构建通用DAO的方法，通过减少代码冗余度来提高开发效率。通过示例说明了如何使用反射和泛型来实现对不同表的相同操作，从而避免重复编写相似的代码。该方法可以在Java学习中起到较大的帮助作用。 ... [详细]

蜡笔小新 2023-12-11 18:38:04
bash
MacOS系统安装MySQL及设置MySQL服务开机启动和密码修改方法

本文介绍了在MacOS系统上安装MySQL的步骤，并详细说明了如何设置MySQL服务的开机启动和如何修改MySQL的密码。通过下载MySQL的macos版本并按照提示一步一步安装，在系统偏好设置中可以找到MySQL的图标进行设置。同时，还介绍了通过终端命令来修改MySQL的密码的具体操作步骤。 ... [详细]

蜡笔小新 2023-12-11 17:35:39
uri
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
install
5个基本Linux命令行工具的现代化替代品

本文介绍了5个基本Linux命令行工具的现代化替代品，包括du、top和ncdu。这些替代品在功能上进行了改进，提高了可用性，并且适用于现代化系统。其中，ncdu是du的替代品，它提供了与du类似的结果，但在一个基于curses的交互式界面中，重点关注占用磁盘空间较多的目录。 ... [详细]

蜡笔小新 2023-12-09 20:30:48
install
Python项目实战10.2：MySQL读写分离性能优化

本文介绍了在Python项目实战中进行MySQL读写分离的性能优化，包括主从同步的配置和Django实现，以及在两台centos 7系统上安装和配置MySQL的步骤。同时还介绍了创建从数据库的用户和权限的方法。摘要长度为176字。 ... [详细]

蜡笔小新 2023-12-09 19:17:54
int
ZABBIX 3.0 配置监控NGINX性能【OK】

1.在agent端查看配置：nginx-V查看编辑时是否加入状态监控模块：--with-http_stub_status_module--with-http_gzip_stat ... [详细]

蜡笔小新 2023-10-17 19:29:00

郭城镣

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章