不止于python

xpath-不止于python

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。W3School官方文档开发工具开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用) Chrome插件 XPath Helper Fi......

2018-07-19

阅读全文

python爬虫

Scrapy框架——CrawlSpider类爬虫案例-不止于python

Scrapy–CrawlSpiderScrapy框架中分两类爬虫，Spider类和CrawlSpider类。此案例采用的是CrawlSpider类实现爬虫。它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(r......

2018-07-19

阅读全文

python爬虫

Selenium+PhantomJS-不止于python

SeleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据......

2018-07-19

阅读全文

python爬虫

Scrapy-Redis分布式策略-不止于python

Scrapy-Redis分布式策略原理图：假设有四台电脑：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一台电脑都可以作为 Master端或 Slaver端，比如： Master端(核心服务器) ：使用 Windows 10，搭建一个Redi......

2018-07-19

阅读全文

Cnblogs

python-bs4的使用-不止于python

BeautifulSoup4官方文档　　是一个Python库，用于从HTML和XML文件中提取数据。它与您最喜欢的解析器一起使用，提供导航，搜索和修改解析树的惯用方法。它通常可以节省程序员数小时或数天的工作量。 1.安装BeautifulSoup41pip install bs4 2.详细......

2018-07-19

阅读全文

Cnblogs

python爬虫 urllib库基本使用-不止于python

以下内容均为python3.6.*代码学习爬虫，首先有学会使用urllib库，这个库可以方便的使我们解析网页的内容，本篇讲一下它的基本用法解析网页12345678910111213#导入urllibfrom urllib import request # 明确urlbase_url = &#......

2018-07-17

阅读全文

Cnblogs

Python-多线程之消费者模式和GIL全局锁-不止于python

一.生产者和消费者模式什么是生产者消费者模式生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就......

2018-07-17

阅读全文

Cnblogs

Python-协程-不止于python

协程　　又称微线程，纤程。　　它是比线程更小的执行单元，因为它自带CPU上下文。这样只要在合适的时机，我们可以把一个协程切换到另一个协程当中。　　只要这个过程保存或恢复CPU上下文，那么程序就可以运行。　　通俗的理解：在一个线程中的某个函数，可以在任何地方保存当前函数的一些临时变量等信息，然后......

2018-07-17

阅读全文

Cnblogs