假期必看全网最全Ph爬虫库

最全Python爬虫库

Python爬虫库推荐

通用:

1.urllib-网络库(stdlib) 。

2.requests-网络库。

3.grab-网络库(基于py curl) 。

4.py curl-网络库(绑定libcurl) 。

5.urllib 3-Python HTTP库, 安全连接池、支持文件post

、可用性高。

6.-云端执行R, Python和matlab代码

网页内容提取

提取网页内容的库。

·HTML页面的文本和元数据

·newspaper-用Python进行新闻提取、文章提取和内容策

展。

·html2 text-将HTML转为Markdown格式文本。

·python-goose-HTML内容/文章提取器。

·lassie-人性化的网页内容检索工具

Web Socket

用于Web Socket的库。

·Crossbar-开源的应用消息传递路由器(Python实现的用

于Autobahn的Web Socket和WAMP) 。

·Autobahn Python-提供了Web Socket协议和WAMP

协议的Python实现并且开源。

·Web Socket-for-Python-Python 2和3以及PyPy的

Web Socket客户端和服务器库。