urllib.request.urlopen()基本使用_urllib.request.urlopen(url)-程序员宅基地

技术标签: python  Python基础详解  

1. urlopen( ) 方法

用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果。返回的结果是一个http响应对象,这个响应对象中记录了本次http访问的响应头和响应体

urllib.request.urlopen 参数介绍
urllib.request.urlopen(  url,   data=None,   [timeout, ]*,  cafile=None, capath=None, cadefault=False, context=None)

import urllib.request

url = 'https://www.python.org'
# 方式一
response = urllib.request.urlopen(url)
print(type(response))  # <class 'http.client.HTTPResponse'>
# 方式二
request = urllib.request.Request(url)
res = urllib.request.urlopen(url)
print(type(res))  # <class 'http.client.HTTPResponse'>

print(response.status)  # 200 获取响应状态码
print(response.reason)  # OK
print(response.version)  # 11
print(response)    # 获取响应,结果为:<http.client.HTTPResponse object at 0x10be801d0>
print(response.headers)   # 获取响应头
# Server: nginx
# Content-Type: text/html; charset=utf-8
# X-Frame-Options: DENY
# Via: 1.1 vegur
# Via: 1.1 varnish
# Content-Length: 48830
# Accept-Ranges: bytes
# Date: Thu, 12 Mar 2020 10:34:07 GMT
print(response.url)       # https://www.python.org  获取响应url
print(response.read())                  # 获取响应体 二进制字符串
print(response.read().decode("utf-8"))  # 对响应体进行解码
# 按行读取
print(response.readline())      # 读取一行
print(response.readline())      # 读取下一行
print(response.readlines())    # 读取多行。得到一个列表 每个元素是一行

通过结果可以发现response是一个HTTPResposne类型的对象,它主要包含的方法有read()、readinto()、getheader(name)、getheaders()、fileno()等函数和msg、version、status、reason、debuglevel、closed等属性。
例如response.read()就可以得到返回的网页内容,response.status就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。

2、添加data参数的时候就是以post请求方式请求,若没有data参数就是get请求方式

from urllib import request, parse

# 用parse模块,通过bytes(parse.urlencode())可以将post数据进行转换并放到
# urllib.request.urlopen的data参数中。这样就完成了一次post请求。
data = bytes(parse.urlencode({'word': 'hello'}), encoding='utf8')
response = request.urlopen('http://httpbin.org/post', data=data)
print(response.read())

3、timeout参数使用

在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给
请求设置一个超时时间,而不是让程序一直在等待结果。所以使用 timeout参数设置超时时间

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
print(response.read())   # 正常结束,控制台显示:socket.time : timed out
response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
print(response.read())   # 超时,控制台显示:urllib.error.URLErrot : <urlopen error timed out>

4、Request(url=url, data=data, method='POST') 方法

web开发中,同一个url往往可以对应若干套不同的数据(或者界面,如手机、电脑),后台可以根据发起请求的前端的用户代理的不同,而决定应该给前端做出什么样的响应,如果检测到没有用户代理可以拒绝访问。

有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要携带一些headers头部信息才能访问,最长见的有user-agent参数所以需要伪装请求头,去访问目标站。

urllib.ruquest.Request 参数介绍:

           urllib.ruquest.Request(url=url,headers=headers,data=data,method='POST')

 headers 参数使用;给请求添加头部信息,定制自己请求网站时的头部信息,使得请求伪装成浏览器等终端

url = "http://www.baidu.com/"
req = request.Request(url=url, headers={'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, likeGecko)Chrome/71.0.3578.80Safari/537.36'})
res = request.urlopen(req)  # 用加入了请求头的请求对象发起请求
print(res.status)           # 打印状态码

添加请求头的post请求方式

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
            'Host': 'httpbin.org'
          }
dict = {'name': 'taotao'}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

添加请求头的第二种post方式, 好处是自己可以定义一个请求头字典,然后循环进行添加

from urllib import request, parse

url = 'http://httpbin.org/post'
dict = {'name': 'Germey'}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

5、urllib.parse模块 方法

url解析模块

1. urlparse( ) 方法 拆分url

URL解析函数侧重于将URL字符串拆分为其组件,或者将URL组件组合为URL字符串

拆分的时候协议类型部分就会是scheme=“ ”指定的部分。如果url里面已经带了协议,scheme指定的协议不会生效

urllib.parse.urlparse(urlstring, scheme=" ", allow_fragments=True)

urlparse("www.baidu.com/index.html;user?id=5#comment",scheme="https")

from urllib.parse import urlparse, urlunparse

# 对传入的url地址进行拆分; 可以用 scheme=“ ” 指定协议类型:
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(result)
# ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html',
# params='user', query='id=5', fragment='comment')

2. urlunparse( ) 方法  拼接url

功能和urlparse的功能相反,它是用于拼接 

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=123', 'commit']
print(urlunparse(data))  # http://www.baidu.com/index.html;user?a=123#commit

6. urlencode( ) 方法 

这个方法可以将字典转换为url参数

对url进行编码,因为urllib这个框架中的url中不能出现汉字,只能出现ascii码字符

from urllib import parse

url = "https://www.baidu.com/s?"
# 把参数写成字典的形式
dic = {"ie": "utf-8", "wd": "奔驰"}
# 用parse的urlencode方法编码
parames = parse.urlencode(dic)
# 将编码以后的参数拼接到url中
url += parames
print(request.urlopen(url=url))

参考:https://www.lagou.com/lgeduarticle/34376.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/mingyuli/article/details/104824709

智能推荐

鸿蒙常用三方库地址一览_鸿蒙三方库地址-程序员宅基地

文章浏览阅读364次。记录下三方库列表,以后需要的时候方便查找:tpc_resource: 三方组件资源汇总_鸿蒙三方库地址

通过gst rtsp server 获取多个camera的视频流并推送多路流-程序员宅基地

文章浏览阅读902次,点赞2次,收藏9次。我写的这个代码实现的功能是基于Ubuntu 22.04设备,获取他的camera 的视屏流并通过GST RTSP SERVER推送。可以使用在同一个局域网下的设备通过VLC等RTSP播放器或者gst命令行工具获取视频流。

检测网速快慢-程序员宅基地

文章浏览阅读109次。【代码】检测网速快慢。

hashMap的实现_散列表满时由链表转为-程序员宅基地

文章浏览阅读170次。hashMap 前几天,看了关于hashmap的实现视频,为此整理一下。视频网站:http://www.56.com/u32/v_MTM5NDE0NjM3.html1. 使用哈希表实现,键不能重复,如果重复就会覆盖原来的对象2. 哈希表为数组加链表,数组的每一个元素为一个链表3. HashMap的键值的范式设为引用数据类型例:Map&lt;Integer,String..._散列表满时由链表转为

做磁盘阵列 两个硬盘 组建RAID 0磁盘阵列详细过程 用两块硬盘做磁盘阵列的教程Raid 1_实用两块50g大小的磁盘,创建磁盘阵列raid0(条带)-程序员宅基地

文章浏览阅读5.3k次。如何用两块硬盘做磁盘阵列的教程Raid 1_百度经验组建RAID 0磁盘阵列详细过程_百度经验--工具/原料阵列卡双通道硬盘加速卡一块(也可以买组装好的阵列盒,就不需要下面两个工具了)相同型号相同容量硬盘两块SATA数据线三根--方法/步骤1备份数据,组建阵列以后两块磁盘中的数据都会清空,所以必须先把重要数据备份到其它存储设备上。2准备所需工具两块硬盘,三个sata数据线,硬盘阵列卡。硬盘阵列卡,..._实用两块50g大小的磁盘,创建磁盘阵列raid0(条带)

javaKMP算法(含KMP算法代码)_kmp算法 java-程序员宅基地

该文章介绍了java中的KMP算法,包括暴力匹配算法和KMP算法的介绍,以及KMP算法在字符串匹配问题中的应用。文章还展示了KMP算法的代码。

随便推点

jsp+servlet+jdbc增删改查功能实现(一)_jdbc+servlet+jsp+mysql 增删改查实现登陆功能查-程序员宅基地

文章浏览阅读3.9w次,点赞43次,收藏265次。环境:Eclipse Neon.3 Release (4.6.3),Tomcat 8.5Jdk1.8数据库:MySQL一、创建数据库create table student( id INT NOT NULL AUTO_INCREMENT, name VARCHAR(50) NOT NULL, age INT(40) NOT NULL, subm_jdbc+servlet+jsp+mysql 增删改查实现登陆功能查

element-ui的navMenu使用v-for循环渲染不同子标签(el-menu-item和el-submenu)_el-menu-item v-for-程序员宅基地

文章浏览阅读1.6w次,点赞16次,收藏35次。简单记录1.简介2.上代码功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1.简介作为一个合格的全栈开发者,前端的常..._el-menu-item v-for

WIN10下Visual Studio 2012的安装_win10 vs2012-程序员宅基地

文章浏览阅读3.8k次。最近学网络编程需要用到VS,于是就从网上下载,过程那真是费劲。于是就整理下小编遇到的问题和最便捷的步骤分享给大家。注:首先保证PC没有安装过VS,因为VS的各个版本不能同时存在,如果有比较老的版本可以进行升级,不可能有两个版本的存在。一、浏览器搜索VS 2012因为直接进官网的最上面上是19的最新版,下载以前的版本在官网的下面,我们点进入该网页点击2012,这些以前的版本都..._win10 vs2012

解决Idea使用git时commit特别慢的问题_idea git commit慢-程序员宅基地

文章浏览阅读2.2w次,点赞18次,收藏14次。使用idea提交代码到本地git仓库时,可能会出现提交速度特别慢的情况,因为是本地提交,所以可以排除网络原因,那就有可能是电脑性能问题,一般生产力工具也不是说换就换的,主要是各种配置和环境需要重新搭建,所以换电脑对程序员来说成本还是很高的。话不多说,先看一下最常见的情况:出现Performing Code Analysis…字样,说明idea在进行提交代码前的分析,这个过程对于性能较差的电脑来说,一般是非常耗时的,那么我们可以在提交页面,通过简单的设置来进行解决:如图,只要将上面两个选项前面的勾勾取消_idea git commit慢

web应用F12查看报错(前后端bug判断、2XX/3XX/4XX/5XX常见状态码解析)_浏览器f12查看报错-程序员宅基地

文章浏览阅读1.4w次,点赞14次,收藏129次。chrom浏览器为例(1)打开开发者工具,在浏览器菜单栏选择工具-开发者工具,快捷键是F12(2)打开之后切换到Network页签,操作就可以看到请求响应(3)再选择响应的链接,切换到Preview页签,可以看到响应的结果数据;切换到Headers页签可以看到请求的地址,请求的方式,结果等信息(4)Response结果中可以看到返回的数据字段、值可以根据响应的值判断一些bug所在(1)响应中没有数据,则是后端数据没有返回,前端展示为空,则为后端问题。  (2)响应中有数据,但是前端显示错误了,_浏览器f12查看报错

【一道面试题】short s1 = 1; s1 = s1 + 1;有什么错? short s1 = 1; s1 += 1;有什么错?-程序员宅基地

文章浏览阅读3.9k次,点赞2次,收藏8次。初看这道题感觉没什么 但其实考察了很多细小的,有关数据类型转换的点,我们下面来详细剖析下! 首先我们来看 short s1 = 1; s1 = s1 + 1;有什么错? 当我们把代码敲出来 short s1 =1; s1 = s1+1;会出现如下情景 无法将int类型转换为short类型 我们知道 short 与int 类型 所占的空间不同,int类型所占的..._short s1 = 1; s1 = s1 + 1;有什么错? short s1 = 1; s1 += 1;有什么错?