热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫十六式-第一式:HTTP协议

Hello,大家好啊,我是Connor,有的人一说什么是HTTP协议就犯愁,写东西的时候也没想过什么

Hello,大家好啊,我是Connor,有的人一说什么是HTTP协议就犯愁,写东西的时候也没想过什么是HTTP协议,只是知道HTTP协议是用来网页传输的,但是再深究一点就不明白了,所以今天我们来讲一讲什么是HTTP协议。

Python 爬虫十六式 - 第一式:HTTP协议

1.HTTP 与 HTTPS

1.1 什么是HTTP协议

超文本传输协议(HTTP,HyperText Transfer Protocol) 是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。 HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。

HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服务器模型。

一次HTTP请求的基本流程一般是,在建立TCP连接后,由客户端向服务端发起一次请求request,而服务器在接收到以后返回给客户端一个响应response。所以我们看到的HTTP请求内容一般就分为请求和响应两部分。

HTTP协议通常承载于TCP协议之上,默认HTTP的端口号为80。有时也承载于TLS或SSL协议层之上,这个时候,就成了我们常说的HTTPS,稍后我们会详细说HTTP和HTTPS的区别。

1.2 HTTP协议的特点

  1. http协议支持客户端/服务端模式,也是一种请求/响应模式的协议。

  2. 无连接。所谓的无连接就是服务器收到了客户端的请求之后,响应完成并收到客户端的应答之后,即断开连接。限制每次的连接只处理一次请求。从而节省传输时间。

  3. 无状态。HTTP协议是无状态的,也就是说每一次HTTP请求之间都是相互独立的,没有联系的,服务端不知道客户端具体的状态。比如客户端访问一次网页之后关闭浏览器,然后再一次启动浏览器,再访问该网站,服务器是不知道客户关闭了一次浏览器的。这样设计的原因是因为Web服务器一般需要面对很多浏览器的并发访问,为了提高Web服务器对并发访问的处理能力,在设计HTTP协议时规定Web服务器发送HTTP应答报文和文档时,不保存发出请求的Web浏览器进程的任何状态信息

  4. 简单快捷:所谓的简单快捷是指客户端向服务器请求服务时,一般来说只需要传输请求方法和路径,就能进行访问。

  5. 灵活:客户端可以通过HTTP协议传输任意类型的数据,包括但不限于文本,图片,视频等

1.3 HTTP与HTTPS的区别

HTTP大家都知道是什么东西了,那什么是HTTPS呢?HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,承载于SSL协议层之上。因此加密的详细内容就需要SSL。

区别 HTTP HTTPS
安全性 不安全 安全
是否需要证书 不需要 需要
传输方式 明文传输 加密传输
默认端口 80 443

HTTPS和HTTP相比的主要优势就是体现在它的安全性上,它的缺点也很明显,体现在它的行能和技术方面,具体的优缺点我们不再多说,大家可以自行体会。

2.HTTP 请求

每一个HTTP请求都由三部分组成,分别是:请求行、请求报头、请求正文。

2.1 请求行

请求行一般由 请求方法url路径协议版本 组成,如下所示:

GETwww.baidu.com HTTP/1.1

通过上面我们可以看到请求行分了三个部分,其中 GET 就是请求行中的请求方法, https://www.baidu.com 就是请求行中的url路径, HTTP/1.1 就是它的协议版本。

2.2 请求报头(请求头)

请求头遵循以下格式:

名字:空格 + 值

常用的请求头的属性如下:

属性名 作用
Host 指定的请求资源的域名(主机和端口号)。HTTP请求必须包含HOST,否则系统会以400状态码返回。
User-Agent 简称UA,内容包含发出请求的用户信息,通常UA包含浏览者的信息,主要是浏览器的名称版本和所用的操作系统。这个UA头不仅仅是使用浏览器才存在,只要使用了基于HTTP协议的客户端软件都会发送,无论是手机端还是PDA等,这个UA头是辨别客户端所用设备的重要依据。
Accept 告诉服务器可以接受的文件格式。
COOKIE 告诉浏览器COOKIE信息
Cache-Control 指定请求和响应遵循的缓存机制。
Referer 页面跳转处,表明请求来自于哪个URL,用户是从该哪个页面访问到当前页面的。
Content-Length 内容长度。
Content-Range 响应的资源范围。可以在每次请求中标记请求的资源范围,在连接断开重连时,客户端只请求该资源未下载的部分,而不是重新请求整个资源,实现断点续传。
Accept-Encoding 指定所能够接受的编码方式
Accept-Language 指浏览器可以接受的语言种类 en、en-us指英语 zh、zh-cn指中文。
Connection 客户端与服务器链接类型,keep-alive:保持链接,close:关闭链接。

当然这些知识列举出了平时常用的一些请求头属性,有些网站也会使用自定义的属性,会使用诸如su,x-index等各种非常用属性之外的属性,非常容易鉴别。

2.3 请求正文

请求正文通常只有使用POST方式进行请求的时候才会有请求正文,如果使用GET请求的话,是不会有请求正文的,具体情况将会在后面的GET与POST请求处细说。

2.4 HTTP请求方法

HTTP协议中定义的请求方法有以下几种:

序号 方法 描述
1 GET 请求指定的页面信息,并返回实体主体。
2 HEAD 类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头
3 POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
4 PUT 从客户端向服务器传送的数据取代指定的文档的内容。
5 DELETE 请求服务器删除指定的页面。
6 CONNECT HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
7 OPTIONS 允许客户端查看服务器的性能。
8 TRACE 回显服务器收到的请求,主要用于测试或诊断。

虽然HTTP请求中定义的方法有这么多种,但是我们平常使用的基本只有 GETPOST 两种方法,而且大部分网站都是禁用掉了除 GETPOST 外其他的方法。

因为其他几种方法通过 GET 或者 POST 都能实现,而且对于网站来说更加的安全和可控。

  • GET

    其实简单来说, GET 方法一般用来负责获取数据,或者将一些简短的数据放到URL参数中传递到服务器。比 POST 更加高效和方便。

  • POST

    由于 GET 方法最多在url中携带1024字节数据,且将数据放到URL中传递太不安全,数据量大时URL也会变得冗长。所以传递数据量大或者安全性要求高的数据的时候,最好使用 POST 方法来传递数据。

3.HTTP响应

每一个HTTP请求也都由三部分组成和请求行类似,分别是:响应行、响应报头、响应正文。

3.1 响应行

状态行由HTTP协议版本号, 状态码, 状态消息三部分组成。如下所示:

HTTP/1.1 200 OK

上面我们看到了响应行的内容,其中 HTTP/1.1 是协议版本号, 200 是状态码, OK 是状态消息。

2.2响应正文

响应头格式和请求头格式相同,遵循以下格式:

名字:空格 + 值

常用的响应头属性如下:

属性名 作用
Allow 服务器支持哪些请求方法(如GET、POST等)
Date 表示消息发送的时间,时间的描述格式为格林威治时间
Set-COOKIE 用于把COOKIE发送到客户端浏览器,每一个写入COOKIE都会生成一个Set-COOKIE
Expires 可以理解为过期时间,当到期之后浏览器会从服务器重新获取,放弃本地缓存文档
Content-Type WEB服务器告诉客户端自己响应的对象的类型和字符集
Content-Encoding 文档的编码(Encode)方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间
Content-Length 指明实体正文的长度,以字节方式存储的十进制数字来表示
Location 用于重定向一个新的位置,包含新的URL地址。表示客户应当到哪里去提取文档
Refresh 表示浏览器应该在多少时间之后刷新文档,以秒计

3.3 响应正文

服务器返回的数据。

3.4 状态码

当客户端向服务端发起一次请求后,服务端在返回的响应头中会包含一个HTTP状态码,以表明这一次请求的状态。下面是一些常见的状态码:

  • 200 - 请求成功
  • 301 - 资源(网页等)被永久转移到其它URL
  • 404 - 请求的资源(网页等)不存在
  • 500 - 内部服务器错误

HTTP的状态码是由三位数字来表示的,由第一位数字来表示状态码的类型,一般来说有五种类型:

分类 分类描述
1** 信息,服务器收到请求,需要请求者继续执行操作
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误

以下是详细的状态码列表:

状态码 状态码英文名称 中文描述
100 Continue 继续。客户端应继续其请求
101 Switching Protocols 切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议
200 OK 请求成功。一般用于GET与POST请求
201 Created 已创建。成功请求并创建了新的资源
202 Accepted 已接受。已经接受请求,但未处理完成
203 Non-Authoritative Information 非授权信息。请求成功。但返回的meta信息不在原始的服务器,而是一个副本
204 No Content 无内容。服务器成功处理,但未返回内容。在未更新网页的情况下,可确保浏览器继续显示当前文档
205 Reset Content 重置内容。服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域
206 Partial Content 部分内容。服务器成功处理了部分GET请求
300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择
301 Moved Permanently 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302 Found 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI
303 See Other 查看其它地址。与301类似。使用GET和POST请求查看
304 Not Modified 未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源
305 Use Proxy 使用代理。所请求的资源必须通过代理访问
306 Unused 已经被废弃的HTTP状态码
307 Temporary Redirect 临时重定向。与302类似。使用GET请求重定向
400 Bad Request 客户端请求的语法错误,服务器无法理解
401 Unauthorized 请求要求用户的身份认证
402 Payment Required 保留,将来使用
403 Forbidden 服务器理解请求客户端的请求,但是拒绝执行此请求
404 Not Found 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面
405 Method Not Allowed 客户端请求中的方法被禁止
406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求
407 Proxy Authentication Required 请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权
408 Request Time-out 服务器等待客户端发送的请求时间过长,超时
409 Conflict 服务器完成客户端的PUT请求是可能返回此代码,服务器处理请求时发生了冲突
410 Gone 客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置
411 Length Required 服务器无法处理客户端发送的不带Content-Length的请求信息
412 Precondition Failed 客户端请求信息的先决条件错误
413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息
414 Request-URI Too Large 请求的URI过长(URI通常为网址),服务器无法处理
415 Unsupported Media Type 服务器无法处理请求附带的媒体格式
416 Requested range not satisfiable 客户端请求的范围无效
417 Expectation Failed 服务器无法满足Expect的请求头信息
500 Internal Server Error 服务器内部错误,无法完成请求
501 Not Implemented 服务器不支持请求的功能,无法完成请求
502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求
503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求
505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理

4. URI、URL、URN

4.1 URI、URL、URN的定义

什么是URI? 什么是URL? 什么又是URN?三个概念中我们接触的最多的就是URL,那URN和URI又是什么东西呢?怎么以前没听过呢?我们来看他们三个的定义:

URI:Uniform Resource Identifier,即统一资源标志符,用来唯一的标识一个资源。

URL:Uniform Resource Locator,统一资源定位符。即URL可以用来标识一个资源,而且还指明了如何locate这个资源。

URN:Uniform Resource Name,统一资源命名。即通过名字来表示资源的。

下面我们重点说一下URL的格式,再来说一下URI、URL、URN的区别:

4.2 URL的格式:

一个完整的URL包含协议名称,主机名称(IP或者域名)、端口号(没写端口号默认 为80端口)、路径、查询字符串和锚这6个部分。比如:

http:80//www.quanshuwang.com/modules/article/search.php?searchkey=abcd&searchtype=1&page=2#top

http 是它的协议名称, www.quanshuwang.com 就是它的域名, :80 是它的端口号,http和https的默认端口号我们上面都说过了,不再细述, /modules/article/search.php 是它的路径, searchtype=1&page=2 是它的查询字符串, #top 是它的锚点

4.3 URI,URL,URN之间的关系:

Python 爬虫十六式 - 第一式:HTTP协议

上图中我们可以看到,URL和URN是URI的子集,URI是统一资源标志符,而URL除了有标识的功能之外,还有定位的功能,可以用来描述资源的具体位置,还指明了获取资源所采用的协议。

URN也是URL的一种表现形式,它和URL的区别就是与资源的位置无关,正式由于位置的无关性,被某个URN标识的资源在位置发生变化时,其URI可以保持不变。但是我们在平时的使用中几乎没有用URN的,更多的用的是URL。所以URL和URN都是URI的一种扩展,一种表现形式,URL和URN肯定是一个URI,但是URI不一定是URN或URL。

5. COOKIE

COOKIE 有时也用其复数形式 COOKIEs ,英文是饼干的意思。指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

COOKIE 其实就是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。 服务器在接收到 COOKIE 以后,会验证 COOKIE 的信息,以此来辨别用户的身份,当然如果有需求,服务器还可以根据需要对COOKIE的内容进行修改。

5.1 COOKIE的作用

COOKIE 其实是HTTP请求头的扩展部分,由于HTTP协议是无状态的协议,所以为了在网页上实现登陆之类的需求,所以扩展了 COOKIE 这样的功能。

每一次HTTP请求在数据交换完毕之后就会关闭连接,所以下一次HTTP请求就无法让服务端得知你和上一次请求的关系。而使用了 COOKIE 之后,你在第一次登陆之类的请求成功之后,服务器会在 Response 的头信息中给你返回 COOKIE 信息,你下一次访问的时候带上这个COOKIE信息,则服务器就能识别你为上一次成功登陆的用户。

5.2 COOKIE的内容

COOKIE 一般保存的格式为json格式,由一些属性组成。

- name: COOKIE 的名称 - value: COOKIE 的值 - domain:可以使用此 COOKIE 的域名 - path:可以使用此 COOKIE 的页面路径 - expires/Max-Age:此 COOKIE 的超时时间 - secure:设置是否只能通过https来传递此条 COOKIE

5.3 domain属性

域名一般来说分为顶级域名,二级域名,三级域名等等。

例如baidu.com是一个顶级域名,而www.baidu.com和map.baidu.com就是二级域名,依次类推。

而在我们的 COOKIE 来说,都有一个 domain 属性,这个属性限制了访问哪些域名时可以使用这一条 COOKIE 。因为每个网站基本上都会分发 COOKIE ,所以 domain 属性就可以让我们在访问新浪时不会带上百度分发给我们的 COOKIE

而在同一系的域名中,顶级域名是无法使用其二级域名的 COOKIE 的,也就是说访问baidu.com的时候是不会带上map.baidu.com分发的 COOKIE 的,二级域名之间的 COOKIE 也不可以共享。但访问二级域名时是可以使用顶级域名的 COOKIE 的。

5.4 path属性

path属性为可以访问此COOKIE的页面路径。比如domain是abc.com,path是/test,那么只有/test路径下的页面可以读取此COOKIE。

5.5 expires/Max-Age属性

字段为此COOKIE超时时间。若设置其值为一个时间,那么当到达此时间后,此COOKIE失效。不设置的话默认值是Session,意思是COOKIE会和session一起失效。当浏览器关闭(不是浏览器标签页,而是整个浏览器) 后,此COOKIE失效。

6. Session

Session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个session。这个词在各个领域都有在使用。

而我们web领域,一般使用的是其本义, 一个浏览器窗口从打开到关闭这个期间

Session的目的则是,在一个客户从打开浏览器到关闭浏览器这个期间内,发起的所有请求都可以被识别为同一个用户。而实现的方式则是,在一个客户打开浏览器开始访问网站的时候,会生成一个SessionID,这个ID每次的访问都会带上,而服务器会识别这个SessionID并且将与这个SessionID有关的数据保存在服务器上。由此来实现客户端的状态识别。

Session与COOKIE相反,Session是存储在服务器上的数据,只由客户端传上来的SessionId来进行判定,所以相对于COOKIE,Session的安全性更高。

一般SessionID会在浏览器被关闭时丢弃,或者服务器会验证Session的活跃程度,例如30分钟某一个SessionID都没有活跃,那么也会被识别为失效。

以上就是HTTP有关的所有内容了,我是Connor,一个什么都不会的小白,如果觉得我说的有什么不对的地方,欢迎指出!如果觉得我写的还不错的话,帮我点个赞吧(❤ ω ❤)

Python 爬虫十六式 - 第一式:HTTP协议

以上所述就是小编给大家介绍的《Python 爬虫十六式 - 第一式:HTTP协议》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 我们 的支持!


推荐阅读
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • HTML学习02 图像标签的使用和属性
    本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
  • 本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据,SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令,以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件,当满足任意一个保存条件时,服务器会自动执行BGSAVE命令。此外,还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]
  • iOS超签签名服务器搭建及其优劣势
    本文介绍了搭建iOS超签签名服务器的原因和优势,包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势,即一个证书只能安装100个,成本较高。文章还详细介绍了超签的实现原理,包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后,还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 单页面应用 VS 多页面应用的区别和适用场景
    本文主要介绍了单页面应用(SPA)和多页面应用(MPA)的区别和适用场景。单页面应用只有一个主页面,所有内容都包含在主页面中,页面切换快但需要做相关的调优;多页面应用有多个独立的页面,每个页面都要加载相关资源,页面切换慢但适用于对SEO要求较高的应用。文章还提到了两者在资源加载、过渡动画、路由模式和数据传递方面的差异。 ... [详细]
  • Linux下部署Symfoy2对app/cache和app/logs目录的权限设置,symfoy2logs
    php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置,symfoy2logs黑色记事本源码,vsco ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 本文介绍了关于apache、phpmyadmin、mysql、php、emacs、path等知识点,以及如何搭建php环境。文章提供了详细的安装步骤和所需软件列表,希望能帮助读者解决与LAMP相关的技术问题。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
author-avatar
王大胖_wa_ngli
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有