博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫之图片
阅读量:4286 次
发布时间:2019-05-27

本文共 913 字,大约阅读时间需要 3 分钟。

# -*- coding: utf-8 -*-# feimengjuan# # re模块主要包含了正则表达式import re#urllib.request模块提供了读取Web页面数据的接口import urllib.request#抓取网页图片#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码def getHtml(url):    page = urllib.request.urlopen(url) # urllib.request.urlopen()方法用于打开了一个URL地址    html = page.read().decode() # read().decode() 用于读取URL上的数据并解码    return htmldef getImg(html):    #利用正则表达式把源代码中的图片地址过滤出来    reg = r'src="(.+?\.jpg)" pic_ext'   # pic_ext=jpeg 用于正则匹配图片格式    imgre = re.compile(reg) # re.compile() 可以把正则表达式编译成正则表达式对象,可以重复使用    imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址,放在imglist中    x = 0    for imgurl in imglist:    	    	# urllib.request.urlretrieve()方法,直接将远程数据下载到本地,图片通过x一次递增命名        urllib.request.urlretrieve(imgurl,'E:\haha\%s.jpg' %x) #打开imglist中保存的图片网址,并下载图片保存在本地        x = x + 1        print(imgurl)html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码getImg(html)#从网页源代码中分析并下载保存图片

转载地址:http://ejsgi.baihongyu.com/

你可能感兴趣的文章
数据库中字段类型对应的C#中的数据类型
查看>>
微信网页授权操作逻辑封装-C#实例
查看>>
微信6.0之后,分享接口使用
查看>>
微信js-sdk,分享接口常用逻辑分装
查看>>
SingalR自托管(self-host)实例
查看>>
SingalR自托管(self-host)实例2-实现Wpf客户端和Web客户端矩形同步
查看>>
微信js-sdk 预览图片接口&从拍照或手机相册中选图接口
查看>>
微信js-sdk 上传图片、下载图片接口
查看>>
微信js-sdk 地理位置接口实例
查看>>
微信 js-sdk 界面操作接口使用
查看>>
C# HTML解析工具HtmlAgilityPack使用简介
查看>>
C# HTML解析工具HtmlAgilityPack使用实例(一)
查看>>
C# HTML解析工具HtmlAgilityPack使用实例(二)--Web页面
查看>>
C# HTML解析工具HtmlAgilityPack XPath 模糊查询not()函数和contains()函数
查看>>
C# Windows-API-Code-Pack for .Net
查看>>
C# Windows-API-Code-Pack文件选择对话框实例
查看>>
Vlc.DotNet C#音视频播放器使用说明及简单实例
查看>>
百度音乐Api简单简单实用实例及封装
查看>>
LitJSON .Net开源JSON库、轻量级
查看>>
validateform.js表单验证工具
查看>>