一般在写一个项目的时候, 为了将项目模块化, 更加的清晰明了, 会将不同功能的模块放入不同的文件夹
项目如下:
12345├── spider│ └── spider.py # 爬虫文件└── utils ├── __init__.py └── downloads.py # ......
Python的前辈们封装了非常多的特别简单又高效的方法
只不过不常用, 也不知道而已
今天就介绍下itertools的product函数
123list_a = [1, 2, 3]list_b = [",", ".", "?"]li......
反爬战斗系列从今天就会不断更新内容了, 还有每日一技系列
不能在堕落下去了
加油
在爬虫中, 最基础的反爬就是 User-Agent 请求头,但是也不能手动写出那么多真实的请求头呀, 这时候就要用上神奇的fake_useragent模块了
那么接下来就简单讲讲这个fake_useragent模......
一. 安装Mongo文档: https://docs.mongodb.com/v3.6/administration/install-enterprise-linux/
Linux mongo的配置文件一般在: /etc/mongod.conf
1sudo apt-get ......
作者:sparkdev
出处:http://www.cnblogs.com/sparkdev/
在容器的使用过程中,如果能及时的掌握容器使用的系统资源,无论对开发还是运维工作都是非常有益的。幸运的是 docker 自己就提供了这样的命令:docker stats。
默认输出docker sta......
这篇主要写一下比较少见的, 却很高效的mongo操作
一. mongo 数据的操作1. 查看最新插入的一条数据(按照文档在磁盘上的存储顺序进行排序)1db.test.find().sort({$natural:-1})
2. 查询数据显示指定列(只显示_id字段)1db.......
一.写入写入csv和json, 可以使用csv这个包写, 我这里没有使用, 并且把写csv和json的写到一起了
具体的代码就不解释了
1234567891011121314151617181920212223242526272829303132333435363738394041424344......
使用python下载超大文件, 直接全部下载, 文件过大, 可能会造成内存不足, 这时候要使用requests 的 stream模式,
主要代码如下
iter_content:一块一块的遍历要下载的内容iter_lines:一行一行的遍历要下载的内容
123456789101112131415......
1. 查看limits.conf文件1cat /etc/security/limits.conf
2. 打开编辑limits.conf文件1sudo vim /etc/security/limits.conf
3. 插入以下内容123456* hard nofile 999999* sof......
😂其实最根本的解决办法就是
想办法把所有的随机请求头保存到本地, 再本地运行随机获取, 最多就会导入路径报错
这里我已经整理好几份不同的随机请求头格式文件, 代码已上传到git
点击这里查看
如有错误 欢迎交流
...