Python爬取微博热搜
Python是一种跨平台的计算机程序设计语言。其是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。很多人学习python,不知道从何学起。很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。很多已经做案例的人,却不知道如何去学习更加高深的知识。那么针对
-
Python是一种跨平台的计算机程序设计语言。其是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
-
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771 -
Time是python标准库,无需额外下载,主要用于处理时间问题。
-
Requests是一个很实用的Python HTTP客户端库。
-
Pandas是一个Python软件包,提供快速,灵活和可表达的数据结构,旨在使结构化(表格,多维,潜在异构)和时间序列数据的处理既简单又直观。
-
Lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取。其主要优点是易于使用,在解析大型文档时速度非常快,归档的也非常好,并且提供了简单的转换方法来将数据转换为Python数据类型,从而使文件操作更容易。
-
实验目标:Python爬取微博热搜
-
实验页面图片:

No.2
实验环境
-
Python 3.x (面向对象的高级语言)
-
Time (python标准库)
-
Requests 2.14.2(python第三方库)
-
Pandas 1.1.0(python第三方库)
-
Lxml(python第三方库)
No.3
环境下载
-
Python下载
-
https://www.python.org/downloads/
-
-
Requests下载
-
pip3 install requests
-
-
Pandas 下载
-
pip3 install pandas
-
-
Lxml下载
-
pip3 install lxml
-
-
验证第三方库是否下载成功:
-
import time
-
import requests
-
import pandas
-
import lxml
-
-
以上代码没有报错则下载成功
No.4
实验思路
-
导入所需的库
-
设置网址和请求头
-
用request.get()发送请求
-
用lxml.etree方法进行数据解析
-
用xpath方法获取目标元素
-
最后用pandas保存为csv文件
No.5
完整代码

No.6
实验结果


更多推荐



所有评论(0)