如何获取所有维基百科文章的标题列表

 许小晴晴原_890 发布于 2023-01-07 10:48

我想获得所有维基百科文章的所有标题列表.我知道有两种方法可以从维基媒体的wiki中获取内容.一个是API,另一个是数据库转储.

我不想下载wiki转储.首先,它是巨大的,其次,我对查询数据库并不是很有经验.另一方面,API的问题在于我无法找到一种只检索文章标题列表的方法,即使它需要> 4 mio请求,这可能会让我阻止任何进一步的请求.

所以我的问题是

    有没有办法通过API获取维基百科文章的标题?

    有没有办法将多个请求/查询合并为一个?或者我实际上是否必须下载Wikipedia转储?

svick.. 42

allpagesAPI模块,可以让你做到这一点.它的限制(当你设置时aplimit=max)是500,所以要查询所有4.5M文章,你需要大约9000个请求.

但转储是一个更好的选择,因为有许多不同的转储,包括all-titles-in-ns0其名称所暗示的,包含你想要的(59 MB的gzip压缩文本).

1 个回答
  • allpagesAPI模块,可以让你做到这一点.它的限制(当你设置时aplimit=max)是500,所以要查询所有4.5M文章,你需要大约9000个请求.

    但转储是一个更好的选择,因为有许多不同的转储,包括all-titles-in-ns0其名称所暗示的,包含你想要的(59 MB的gzip压缩文本).

    2023-01-07 10:51 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有