我想获得所有维基百科文章的所有标题列表.我知道有两种方法可以从维基媒体的wiki中获取内容.一个是API,另一个是数据库转储.
我不想下载wiki转储.首先,它是巨大的,其次,我对查询数据库并不是很有经验.另一方面,API的问题在于我无法找到一种只检索文章标题列表的方法,即使它需要> 4 mio请求,这可能会让我阻止任何进一步的请求.
所以我的问题是
有没有办法通过API获取维基百科文章的标题?
有没有办法将多个请求/查询合并为一个?或者我实际上是否必须下载Wikipedia转储?
svick.. 42
该allpages
API模块,可以让你做到这一点.它的限制(当你设置时aplimit=max
)是500,所以要查询所有4.5M文章,你需要大约9000个请求.
但转储是一个更好的选择,因为有许多不同的转储,包括all-titles-in-ns0
其名称所暗示的,包含你想要的(59 MB的gzip压缩文本).
该allpages
API模块,可以让你做到这一点.它的限制(当你设置时aplimit=max
)是500,所以要查询所有4.5M文章,你需要大约9000个请求.
但转储是一个更好的选择,因为有许多不同的转储,包括all-titles-in-ns0
其名称所暗示的,包含你想要的(59 MB的gzip压缩文本).