前面我们用浏览器使用 HTTP 协议去访问网络。 但是有一点大家需要记住, 浏览器只是 web 客户端的一种。
可以这么说, 任何一个向 web 服务器发送求来获得应用程序的都是客户端。
浏览器作为一个比较特别的客户端,主要用于浏览网页内容并同其他 web 站点交互。
而一个更普通的客户端可以完成更多的工作,不仅可以下载数据, 还可以存储、操作数据, 甚至可以将其传送到另外一个地方或者传给另外一个应用。
python 提供的 urllib 模块, 使用它, 就可以编写可以下载或或者访问互联网上信息的简单 web 客户端。
你首先需要做的就是为程序提供一个有效的 web 网址, 这个 web 网站就是一个URL
。
我们先了解URL
是什么?
URL
URL 是Uniform Resource Locator的缩写, 中文叫:统一资源定位符。
浏览网页需要 URL, 这个 URL 就表示这个网页的地址。 这个地址用来在 web 上定位定位一个文档。
如街道地址一样, URL 地址也有一些结构。URL 使用如下的这种格式:
prot_sch://net_loc/path;params?query#frag
URL组件 | 描述 |
---|---|
pro_sch | 网络协议, 如:http, https |
net_loc | 服务器所在地 |
path | 使用/分割的路径 |
params | 可选参数 |
? | 可选, 表示后面是查询参数 |
query | 可选, 用连接符(&)分割的一系列键值对, 如: user=lisi&pwd=aaa |
#frag | 可选, 指定文档内特点锚的部分 |