java - PHP或者python进行数据采集和分析,有什么比较成熟的框架?

 唱歌好好听i 发布于 2022-11-17 17:14

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集,列表里面能够取得每个文章的id,而每个文章又是通过一个统一的接口(参数带上那个文章id即可获取到对应的json)里面又有一部分数据需要采集然后进行数据分析。

目前有什么比较成熟的框架或者轮子能够实现我的需求吗?(要多线程,而且可以7x24小时稳定运行,因为采集数量巨大)

另外问一下,采集到的内容如何存储(百万到千万),数据里面有一些数字数据,需要进行统计分析,用mysql可以吗?或者说还有其他更加成熟简便的轮子可以用吗?

7 个回答
  • 你可以试试【神箭手云爬虫开发平台。】
    神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。

    2022-11-17 17:46 回答
  • phpquery pyquery

    2022-11-17 17:46 回答
  • python语言的这个scrapy这个还是

    2022-11-17 17:46 回答
  • 有玩过 python selenium + PhantomJs 么?

    2022-11-17 17:46 回答
  • 你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。

    2022-11-17 17:46 回答
  • 如果是数据分析。
    map-reduce 做日志分析
    Dpark 可以解决PV和UV的分析
    Spark也是不错的哦。
    生产数据报表后可以用Pandas进行分析和展示。。

    如果是数据采集。工具就很多了。

    我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。
    用MYSQL不太现实。。。

    2022-11-17 17:46 回答
  • 少年, 你这不就是个爬虫的需求么?

    1. 爬虫框架: scrapy

    2. 数据库选取: 你这个量级用MySQL做好索引完全可以再战五百年

    也可以尝试用MongoDB

    2022-11-17 17:46 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有