Python基础：一篇文章掌握Python爬虫的80%

爬虫，也称为网络蜘蛛或网络机器人，是一种自动化脚本或程序，用于浏览和提取网站上的数据。爬虫会从一个初始网页开始，根据网页上的链接不断访问更多的网页，并将网页内容存储下来供后续分析。确定目标：首先，我们需要明确要抓取哪个网站的数据，以及需要抓取哪些数据。发送请求：爬虫通过HTTP请求向目标网站发送请求，获取网页的HTML内容。解析网页：使用解析库（如BeautifulSoup、lxml等）解析HTM

小尤笔记

1662人浏览 · 2024-10-19 16:41:27

小尤笔记 · 2024-10-19 16:41:27 发布

Python 爬虫技术在数据采集和信息获取中有着广泛的应用。本文将带你掌握Python爬虫的核心知识，帮助你迅速成为一名爬虫高手。以下内容将涵盖爬虫的基本概念、常用库、核心技术和实战案例。

1. 什么是爬虫？

爬虫，也称为网络蜘蛛或网络机器人，是一种自动化脚本或程序，用于浏览和提取网站上的数据。爬虫会从一个初始网页开始，根据网页上的链接不断访问更多的网页，并将网页内容存储下来供后续分析。

2. 爬虫的工作流程

一般来说，一个爬虫的工作流程包括以下几个步骤：

发送请求：使用HTTP库发送请求，获取网页内容。
解析网页：使用解析库解析网页，提取所需数据。
存储数据：将提取的数据存储到数据库或文件中。
处理反爬机制：应对网站的反爬虫技术，如验证码、IP封禁等。

二、常用的Python爬虫库

1. Requests

Requests是一个简单易用的HTTP请求库，用于发送网络请求，获取网页内容。其主要特点是API简洁明了，支持各种HTTP请求方式。

import requests

response = requests.get('https://example.com')
print(response.text)

2. BeautifulSoup

BeautifulSoup是一个用于解析HTML和XML的库，提供简便的API来搜索、导航和修改解析树。

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.string)

3. Scrapy

Scrapy是一个功能强大的爬虫框架，适用于构建和维护大型爬虫项目。它提供了丰富的功能，如自动处理请求、解析、存储数据等。

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        yield {'title': title}

4. Selenium

Selenium是一个自动化测试工具，也常用于爬取动态网页。它可以模拟浏览器行为，如点击、输入、滚动等。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://example.com')
print(driver.title)
driver.quit()

三、核心技术

1. 处理反爬机制

反爬机制是网站为了防止数据被大量抓取而采取的措施。常见的反爬机制包括：

• User-Agent 伪装：模拟真实浏览器的请求头。
• IP 代理：使用代理服务器绕过IP封禁。
• 验证码：利用打码平台或人工识别。
• 动态内容：使用Selenium等工具处理JavaScript渲染的内容。

2. 数据解析

数据解析是将HTML内容转化为结构化数据的过程。除了BeautifulSoup，lxml和XPath也是常用的解析工具。

3. 数据存储

数据存储是将提取到的数据保存到本地或数据库中。常用的存储方式包括：

• 文件存储：如CSV、JSON、Excel文件。
• 数据库存储：如SQLite、MySQL、MongoDB。

四、实战案例

案例1：爬取网易新闻标题

下面是一个爬取网易新闻网站标题的简单示例：

import requests  
from bs4 import BeautifulSoup  
  
# 目标URL（这里以网易新闻的一个板块为例）  
url = 'https://news.163.com/special/00011K6L/2023_weiqing.html'  # 请注意，这个URL可能会变化  
  
# 发送HTTP请求  
response = requests.get(url)  
response.encoding = 'utf-8'  # 设置正确的编码  
  
# 解析HTML内容  
soup = BeautifulSoup(response.text, 'html.parser')  
  
# 查找新闻标题（这里需要根据网易新闻网站的实际结构来定位标题）  
# 假设新闻标题被包含在<h2>标签内，并且有一个特定的class属性  
# 注意：这个选择器是基于假设的，实际使用时需要查看网页源代码来确定正确的选择器  
titles = soup.select('h2.c-title a')  
  
# 打印新闻标题  
for title in titles:  
    print(title.get_text(strip=True))

案例2：使用Scrapy构建电商爬虫

Scrapy 可以用来构建复杂的电商网站爬虫，以下是一个简单的商品信息爬虫示例：

import scrapy  
  
class AmazonSpider(scrapy.Spider):  
    name = 'amazon'  
    allowed_domains = ['amazon.com']  
    start_urls = ['https://www.amazon.com/']  # 起始URL，通常是搜索页面或某个分类页面  
  
    def parse(self, response):  
        # 这里假设商品列表页面有一个包含商品链接的CSS选择器，例如 '.s-main-slot .s-result-item a'  
        product_links = response.css('.s-main-slot .s-result-item a::attr(href)').getall()  
          
        for link in product_links:  
            # 构建完整的商品页面URL  
            product_url = response.urljoin(link)  
            yield scrapy.Request(product_url, callback=self.parse_product)  
  
    def parse_product(self, response):  
        # 解析商品页面  
        title = response.css('h1.a-size-large.a-spacing-none span::text').get()  
        price = response.css('span.p13n-sc-truncate span.a-price-whole::text').get()  
        product_url = response.url  
  
        # 创建一个字典来存储商品信息  
        product_info = {  
            'title': title,  
            'price': price,  
            'url': product_url,  
        }  
  
        # 将商品信息输出为JSON（或其他格式）  
        yield product_info  
  
        # 如果你想继续抓取相关商品或分页，可以在这里添加更多的请求  
        # 例如：yield scrapy.Request(next_page_url, callback=self.parse)  
  
# 注意：  
# 1. 这个示例中的CSS选择器是基于假设的，实际使用时需要根据目标网站的结构进行调整。  
# 2. Amazon等电商网站通常有复杂的反爬虫机制，包括验证码、IP封锁、JavaScript渲染等，这可能需要使用更高级的技术（如Selenium、Splash、代理IP等）来绕过。  
# 3. 请遵守网站的robots.txt协议和使用条款，不要进行恶意抓取。

五、深入解析爬虫原理

深入解析爬虫原理并附上代码示例，可以帮助我们更好地理解爬虫是如何工作的。以下是一个简单的Python爬虫示例，以及对其工作原理的详细解释。

爬虫原理概述

确定目标：首先，我们需要明确要抓取哪个网站的数据，以及需要抓取哪些数据。
发送请求：爬虫通过HTTP请求向目标网站发送请求，获取网页的HTML内容。
解析网页：使用解析库（如BeautifulSoup、lxml等）解析HTML内容，提取所需的数据。
存储数据：将提取的数据存储到本地文件、数据库或其他存储系统中。
处理反爬虫机制：一些网站会采取反爬虫措施，如验证码、IP封锁等。爬虫需要绕过这些机制。
循环抓取：根据网页中的链接，循环抓取其他相关页面的数据。

Python爬虫示例代码

以下是一个简单的Python爬虫示例，用于抓取某个网页上的所有链接。

import requests  
from bs4 import BeautifulSoup  
  
# 目标URL  
url = 'https://example.com'  # 请替换为实际要抓取的URL  
  
# 发送HTTP请求  
try:  
    response = requests.get(url)  
    response.raise_for_status()  # 如果请求出错，抛出HTTPError异常  
except requests.RequestException as e:  
    print(f"请求出错: {e}")  
    exit()  
  
# 解析HTML内容  
soup = BeautifulSoup(response.text, 'html.parser')  
  
# 提取所有链接  
links = []  
for link in soup.find_all('a', href=True):  
    href = link['href']  
    # 处理相对URL  
    if not href.startswith(('http://', 'https://')):  
        href = requests.compat.urljoin(url, href)  
    links.append(href)  
  
# 打印提取的链接  
for link in links:  
    print(link)  
  
# 注意：此示例仅提取了链接，并未进行进一步的数据处理或存储。

代码解析

导入库：首先，我们导入了requests库用于发送HTTP请求，以及BeautifulSoup库用于解析HTML内容。
发送请求：使用requests.get(url)发送HTTP GET请求到目标URL。如果请求成功，response.raise_for_status()将不会抛出异常；如果请求失败（如404错误），则抛出HTTPError异常。
解析HTML：使用BeautifulSoup(response.text, 'html.parser')解析HTML内容。response.text包含了网页的HTML源代码。
提取链接：遍历所有<a>标签，并提取其href属性。如果href是相对URL（不以http://或https://开头），则使用requests.compat.urljoin(url, href)将其转换为绝对URL。
打印链接：最后，打印提取的所有链接。

注意事项

遵守robots.txt：在实际使用中，应遵守目标网站的robots.txt文件，以避免违反网站的使用规定。
处理反爬虫机制：一些网站会采取反爬虫措施，如验证码、IP封锁等。在这种情况下，可能需要使用代理IP、增加请求间隔、模拟用户行为等策略来绕过这些机制。
合法性和道德性：在抓取数据时，应确保自己的行为合法且符合道德规范。避免抓取敏感数据或侵犯他人隐私。

这个示例代码只是一个简单的入门示例，实际的爬虫项目可能会更加复杂，需要处理更多的细节和异常情况。

结语

掌握Python爬虫的核心技术和工具，可以大大提升数据采集的效率和质量。通过本文的介绍，希望你能对Python爬虫有一个全面的了解，并在实践中不断提高自己的爬虫技能。

最后这里免费分享给大家[学习资料，包含视频、源码]。书籍，希望能帮到那些不满现状，想提升自己却又没有方向的朋友，也可以加我一起学习交流。

① Python所有方向的学习路线图，清楚各个方向要学什么东西

② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析

③ 100多个Python实战案例，学习不再是只会理论

④ 华为出品独家Python漫画教程，手机也能学习

⑤ 历年互联网企业Python面试真题,复习时非常方便

完整安装、学习资料
扫下方二维码免费领取源码还有案例↓ ↓ ↓

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

『低代码开发的终极形态：AI 驱动的可视化编程』

CSDN-OPC开发者社区

上下文工程完全指南：打造高确定性AI Agent的四大支柱（建议收藏）

CSDN-OPC开发者社区

Python内存管理终极指南：优化大型数据集处理性能的5个技巧

Python内存管理在处理大型数据集时常常成为性能瓶颈，掌握有效的内存优化技巧能让你的程序运行速度提升数倍。在python-mastery课程中，我们深入探讨了如何通过不同的数据结构选择来显著降低内存使用。## 🚀 为什么Python内存管理如此重要？当处理像芝加哥公交系统数据（包含577,000多行记录）这样的大型数据集时，内存使用可能从12MB激增到50MB以上！这不仅仅是数字问题，