IT俱乐部 Python Python使用BeautifulSoup解析并获取图片的实战分享

Python使用BeautifulSoup解析并获取图片的实战分享

一、前言

在本文我们将以下面的例子带着大家去看看在实战中是如何运用的。

目标url:https://www.58pic.com/tupian/1272.html

二、数据分析

根据下图所示,图片被保存至img标签下,并且class值为lazy。当然这个网站除了lazy的img标签还有其他的(比如:class="lazy-bg-img"),这个可以自己想办法处理一下,如何去获取所有跟图片有关的img标签。

三、数据获取及展示

数据获取

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
'''
爬虫:
任务需求:1、抓取第一页前36张图片   2、使用bs4解析
'''
import time
import requests
from bs4 import BeautifulSoup
class Image(object):
    def __init__(self):
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.62'
        }
    def parse_url(self,url):
        print('开始分析')
        resp = requests.get(url,headers=self.headers)
        #print(resp.text)
        if resp.status_code == 200:
            soup = BeautifulSoup(resp.text,'lxml')
            image_list = soup.find_all('img',class_='lazy-bg-img',limit=36)
            #print(image_list)
            for data in image_list:
                title = data.get('alt')
                # print(title)
                print(f"开始下载 {title}")
                img_url = 'https:'+data.get('data-original')
                self.image_save(title,img_url)
        else:
            return None
    def image_save(self,title,url):
        resp = requests.get(url,headers=self.headers)
        content = resp.content
        with open('./img/'+title+'.jpg',mode='wb')as f:
            f.write(content)
if __name__ == '__main__':
    t = time.time()
    image = Image()
    image.parse_url(url)
    print("总共耗时:",time.time()-t)

最终效果展示

四、结语

根据示例,我们会发现通过bs4解析可以很快速的根据标签的特殊性得到我们想要的数据。但要注意,有时候我们得到的响应内容会与F12打开看到的不同,所有在发现没有拿到数据的时候,请考虑我们得到的相应内容里面究竟是什么样子的。

到此这篇关于Python使用BeautifulSoup解析并获取图片的实战分享的文章就介绍到这了,更多相关Python BeautifulSoup获取图片内容请搜索IT俱乐部以前的文章或继续浏览下面的相关文章希望大家以后多多支持IT俱乐部!

本文收集自网络,不代表IT俱乐部立场,转载请注明出处。https://www.2it.club/code/python/11805.html
上一篇
下一篇
联系我们

联系我们

在线咨询: QQ交谈

邮箱: 1120393934@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部