热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

javascript-有没有能解析js的库啊?

我想抓取网站上的内容,但是好多内容都js生成的,请问有没有能够解析js的库方便抓取页面js解析后的html库啊?比如商城产品信息,QQ空间内容等。不管什么语言,能够快速开发就行,谢谢
我想抓取网站上的内容,但是好多内容都js生成的,请问有没有能够解析js的库方便抓取页面js解析后的html库啊?比如商城产品信息,QQ空间内容等。不管什么语言,能够快速开发就行,谢谢

回复内容:

我想抓取网站上的内容,但是好多内容都js生成的,请问有没有能够解析js的库方便抓取页面js解析后的html库啊?比如商城产品信息,QQ空间内容等。不管什么语言,能够快速开发就行,谢谢

这中不仅仅是解析 js,还要浏览器内核的!

推荐几个:

  • QtWebKit,已知有 Python 和 C++ 支持
  • PhantomJS,已知有 Javascript、CoffeeScript 和 Python 支持,也是 Webkit 内核
  • SlimerJS,已知有 Javascript 支持,Gecko 内核,和火狐是一样的,也可以运行于火狐之上
  • CasperJS,已知有 Javascript 支持。上边两个的进一步封装

感觉你的问题可以不一定要那么重量级的东西的。

你要抓的页面内容,你知道它是从 js 来的,那么这个 js 是从哪里来的?可能是页面本身有的,也可能是 ajax 的 json 。

找出包含你需要的内容的这些 js ,然后是 json 的话用一个 json parser ,是 js 的话简单的也可以用正则提取。

phantomJs maybe the best solution for you, also, casperJs is based on phantomJs that can be a useful tool to grab webpage content created by Javascript or ajax

試試 node.js

从你的描述听起来,是想抓页面,但是页面里内容是JS生产的,你用抓页面的方法,抓下来一个空壳子,啥也没有。对吧?

这样的话,我建议你使用“无头浏览器”,首推楼上说的PhantomJS,它本质上就是个浏览器,只是没有用户界面而已,通过编程来调用,最后可以和你的外部代码产生一些交互,给你返回(最终生成的)HTML、给你截图等等。

直接用nodejs,然后执行返回内容就妥了

我一般在这种情况下,都是自己把js代码看一下,找到需要的地方然后自己仿照实现出来,而且java下貌似有一个库是可以执行js代码的,比如我在做新浪微博模拟登录的时候就是直接将网站js中的加密函数提取出来,然后在代码中执行获得结果,最后模拟请求就好了

推荐阅读
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 表单代码 ... [详细]
  • Itwasworkingcorrectly,butyesterdayitstartedgiving401.IhavetriedwithGooglecontactsAPI ... [详细]
  • Java实战之电影在线观看系统的实现
    本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • 本文介绍了如何使用jQuery和AJAX来实现动态更新两个div的方法。通过调用PHP文件并返回JSON字符串,可以将不同的文本分别插入到两个div中,从而实现页面的动态更新。 ... [详细]
  • 从零基础到精通的前台学习路线
    随着互联网的发展,前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线,包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习,可以掌握前台开发的基本技能,并有能力找到一份月薪8000以上的工作。 ... [详细]
  • 本文介绍了Java后台Jsonp处理方法及其应用场景。首先解释了Jsonp是一个非官方的协议,它允许在服务器端通过Script tags返回至客户端,并通过javascript callback的形式实现跨域访问。然后介绍了JSON系统开发方法,它是一种面向数据结构的分析和设计方法,以活动为中心,将一连串的活动顺序组合成一个完整的工作进程。接着给出了一个客户端示例代码,使用了jQuery的ajax方法请求一个Jsonp数据。 ... [详细]
  • RN即ReactNative基于React框架针对移动端的跨平台框架,在学习RN前建议最好熟悉下html,css,js,当然如果比较急,那就直接上手吧,毕竟用学习前面基础的时间,R ... [详细]
  • html结构 ... [详细]
  • OrbitDBPeer 2 Peer Database using CRDTs
    2019独角兽企业重金招聘Python工程师标准Apeer-to-peerdatabaseforthedecentralizedwebOrbitDBisaserverless ... [详细]
  • Python爬取豆瓣数据实现过程解析
    这篇文章主要介绍了Python爬取豆瓣数据实现过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值, ... [详细]
  • 文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ... [详细]
  • 最近在学Python,看了不少资料、视频,对爬虫比较感兴趣,爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]
author-avatar
挚友刘洋共
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有