最近准备用python做一个网络爬虫的毕业设计求建议?
作者:mobiledu2502886217 | 来源:互联网 | 2017-05-14 02:43
python小白,准备5个月时间做出效果。求建议比如做出来针对什么。具体做为什么应用。流程之类的。实在是很小。白,求指点
python小白,准备5个月时间做出效果。求建议比如做出来针对什么。具体做为 什么应用。流程之类的。实在是很小。白,求指点
回复内容:
做爬虫,特别是python写说容易挺容易,说难也挺难的,
举个栗子 简单的:将http://paste.ubuntu.com上面的所有代码爬下来
写个for循环,调用urllib2的几个函数就成了,基本10行到20行以内的代码
难度0
情景:
1.网站服务器很卡,有些页面打不开,urlopen直接就无限卡死在了某些页面上(2.6以后urlopen有了timeout)
2.爬下来的网站出现乱码,你得分析网页的编码
3.网页用了gzip压缩,你是要在header里面约定好默认不压缩还是页面下载完毕后自己解压
4.你的爬虫太快了,被服务器要求停下来喝口茶
5.服务器不喜欢被爬虫爬,会对对header头部浏览器信息进行分析,如何伪造
6.爬虫整体的设计,用bfs爬还是dfs爬
7.如何用有效的数据结构储存url使得爬过的页面不被重复爬到
8.比如1024之类的网站(逃,你得登录后才能爬到它的内容,如何获取COOKIEs
以上问题都是写爬虫很常见的,由于python强大的库,略微加了一些代码而已
难度1
情景:
1.还是COOKIEs问题,网站肯定会有一个地方是log out,爬虫爬的过程中怎样避免爬到各种Log out导致session失效
2.如果有验证码才能爬到的地方,如何绕开或者识别验证码
3.嫌速度太慢,开50个线程一起爬网站数据
难度2
情景:
1.对于复杂的页面,如何有效的提取它的链接,需要对正则表达式非常熟练
2.有些标签是用Js动态生成的,js本身可以是加密的,甚至奇葩一点是jsfuck,如何爬到这些
难度3
总之爬虫最重要的还是模拟浏览器的行为,具体程序有多复杂,由你想实现的功能和被爬的网站本身所决定
爬虫写得不多,暂时能想到的就这么多,欢迎补充
我的毕设也是爬虫,从毕设角度讲下。首先只写个爬虫是很简单的,所以要加一点噱头。比如多线程,比如智能。其次既然要做一个爬虫,要事先和导师交流下。万一导师的意思是叫你写个搜索引擎,而你写了个爬虫,那就不好了。最后,写几个页面来展示爬虫的结果,既可以增加代码量,也可以充实论文。
看scrapy文档,非常好用。
加点难度,实现个分布式的爬虫,同时要写好客户端和服务端的管理,再配合前端页面管理任务和服务器。。
网页的数据要是抓着没意思,可以抓抓APP的数据⊙▽⊙
Request+Bs4看我的签名,里面有很多案例,供你快速搞定采集,不信来辩!
我也正在写 先抓数据 再进行数据分析 最后在网页上呈现 大致这个思路
看看pyspider:binux/pyspider · GitHub
也许能找到点灵感。。
简单的爬虫不到20行就可以写出来。httplib加上正则。
毕设最重要的一个是点子,一个是技术。这两个部分可以结合,也可以互补。
如果仅仅是一个爬虫,可以从多线程,分布式这些方面考虑。谈谈性能,这方面可以说的很深,毕设也会很有营养。最后写一个漂亮的UI,妥妥的A+有木有。
如果有好的点子,实现一项或者多项特别的功能。技术上欠缺一些也OK。
毕设想要做得好,可以从两个方面考虑
1. 项目技术好,有深度
2. 项目有实际价值,就是能够应用到生活中来
所以要么你的爬虫在技术上很niubility
要么你的爬虫抓取到的数据,it's useful
当然数据本身是不会说话的,你得把数据整理、分析,最后得出结论,那你的毕设也是棒棒的了,这样在技术上差一些也没什么关系
比如爬取某liu的视频(图片太简单),加点噱头,多线程同时抓取不同页面的,哦,写好后记得把程序开源分享下!
推荐阅读
-
本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ...
[详细]
蜡笔小新 2023-12-11 18:24:06
-
本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ...
[详细]
蜡笔小新 2023-12-14 20:08:28
-
-
本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ...
[详细]
蜡笔小新 2023-12-14 14:01:06
-
关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ...
[详细]
蜡笔小新 2023-12-13 21:02:32
-
目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ...
[详细]
蜡笔小新 2023-12-12 12:15:41
-
本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ...
[详细]
蜡笔小新 2023-12-12 10:56:24
-
本文详细介绍了MySQL语句的使用方法,包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库,可以使用命令创建用户,并指定该用户在哪个主机上可以登录。同时,还可以设置用户的登录密码。通过本文,您可以全面了解MySQL语句的使用方法。 ...
[详细]
蜡笔小新 2023-12-11 15:34:14
-
web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ...
[详细]
蜡笔小新 2023-12-11 11:25:16
-
本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ...
[详细]
蜡笔小新 2023-12-09 10:07:18
-
目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ...
[详细]
蜡笔小新 2023-12-09 09:35:02
-
php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置,symfoy2logs黑色记事本源码,vsco ...
[详细]
蜡笔小新 2023-10-17 20:32:59
-
数据库|mysql教程ORACLE,空间,管理,实验,ASSM,下高,水位,影响,数据库-mysql教程易语言黑客软件源码,vscode左侧搜索,ubuntu怎么看上一页,ecs搭 ...
[详细]
蜡笔小新 2023-10-17 17:53:14
-
后端开发|php教程PHP,连接,MySQL,参数后端开发-php教程代码是这样的:大图标网站源码,怎么在vscode中调试css,ubuntu退出命令行,系统默认开tomcat, ...
[详细]
蜡笔小新 2023-10-17 17:11:39
-
{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ...
[详细]
蜡笔小新 2023-10-17 20:20:31
-
Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ...
[详细]
蜡笔小新 2023-10-17 16:29:09
-
mobiledu2502886217
这个家伙很懒,什么也没留下!