假期必看全网最全Ph爬虫库
最全Python爬虫库
Python爬虫库推荐
通用:
1.urllib-网络库(stdlib) 。
2.requests-网络库。
3.grab-网络库(基于py curl) 。
4.py curl-网络库(绑定libcurl) 。
5.urllib 3-Python HTTP库, 安全连接池、支持文件post
、可用性高。
6.-云端执行R, Python和matlab代码
网页内容提取
提取网页内容的库。
·HTML页面的文本和元数据
·newspaper-用Python进行新闻提取、文章提取和内容策
展。
·html2 text-将HTML转为Markdown格式文本。
·python-goose-HTML内容/文章提取器。
·lassie-人性化的网页内容检索工具
Web Socket
用于Web Socket的库。
·Crossbar-开源的应用消息传递路由器(Python实现的用
于Autobahn的Web Socket和WAMP) 。
·Autobahn Python-提供了Web Socket协议和WAMP
协议的Python实现并且开源。
·Web Socket-for-Python-Python 2和3以及PyPy的
Web Socket客户端和服务器库。