Scrapy(https://scrapy.org/):一个流行的Python爬虫框架,可通过WEB界面进行配置。
PySpider(http://docs.pyspider.org/en/latest/Quickstart/):另一个可通过WEB界面进行配置的Python爬虫框架。
Portia(https://github.com/scrapinghub/portia):一个基于Scrapy的GUI工具,它允许您在浏览器中可视化设计和配置爬虫。
BeautifulSoup(https://www.crummy.com/software/BeautifulSoup/bs4/doc/):一个用于解析HTML和XML文件的Python库,也可以与其他HTTP库一起使用来构建自己的爬虫框架。
这只是众多可用的Python爬虫框架之一,您可以根据自己的需求选择适合自己的。
以下是一个简单的Python代码示例,用于使用requests和BeautifulSoup库从网页上获取图片链接并下载图片。
import requests
from bs4 import BeautifulSoup
# 网页URL
url = “https://www.example.com”
# 发送请求
response = requests.get(url)
# 解析HTML内容
soup = BeautifulSoup(response.content, ‘html.parser’)
# 获取所有图片标签
img_tags = soup.find_all(‘img’)
# 循环遍历每个图片标签,并下载图片
for img in img_tags:
img_url = img[‘src’]
img_response = requests.get(img_url)
with open(img_url.split(‘/’)[-1], ‘wb’) as f: # 以二进制写入方式打开文件
f.write(img_response.content)
发表回复