RENOVATION
目标
https://match.yuanrenxue.com/match/4
任务4:采集这5页的全部数字,计算加和并提交结果
RENOVATION
分析过程
打开浏览器, 看一下页面

会发现这个数字, 是由一个个图片组成的, 因为这道题不能使用ocr,所以只能用其它方法解决, 我们来看一下图片, 对应的数字

可以看到的是, 相同图片的img数据的base64是相同的, 这样就可以把0-9的数字和对应的base64数据来做一个映射
1 2 3 4 5 6 7 8 9 10 11 12
| images = { '...AASUVORK5CYII=': 9, '...AAAElFTkSuQmCC': 8, '...BJRU5ErkJggg==': 4, '...AAAElFTkSuQmCC': 3, '...AASUVORK5CYII=': 5, '...AAAElFTkSuQmCC': 0, '...AASUVORK5CYII=': 2, '...AASUVORK5CYII=': 6, '...AAAElFTkSuQmCC': 1, '...AAAElFTkSuQmCC': 7 }
|
还有一个问题, 就是img的顺序和页面上的不太一样, 看一下是因为设置了一个偏移量,

以3105举例, 这个偏移量的意思是:
第一个元素是1, 以自身为原点向右偏移一位, 就是第2位,
第二个元素是5, 向右偏移2位就是第4位,
第三个元素是3, 向左偏移2位, 就是第1位,
第四个元素是0, 向左偏移1位就是第3位,
这样数字就是3105
接下来看一下翻页数据

只是page参数变了, 没有其它加密, 返回的数据跟以前有点不一样, 这次返回的是html, 就是对应的table数据, 格式化一下看看

返回的html和页面上元素的class好像不太一样, 看一下请求堆栈


可以看到这里是用请求返回的数据中的key+data, base64编码然后md5了一下, 然后将符合这个类名的元素添加了一个display none的属性, 也就是不显示的属性, 这样就导致了元素和页面上的数字位数不一致
到这里, 所有的反爬都捋明白了, 剩下的就是写爬虫代码了
RENOVATION
源码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
| # -*- coding: utf-8 -*- import re import hashlib import base64 import requests
images = { '': 9, '': 8, '': 4, '': 3, '': 5, '': 0, '': 2, '': 6, '': 1, '': 7 }
def get_md5(data): encoded = base64.b64encode((data["key"] + data["value"]).encode()).decode("utf-8").replace("=", "") md5val = hashlib.md5(encoded.encode()).hexdigest() print(md5val) return md5val
def get_page_sum(data): md5val = get_md5(data) tds = re.findall(r"<td>.+?</td>", data["info"]) page_total = 0 for td in tds: display_img = [] imgs = re.findall(r"<img.+?>", td) for img in imgs: if md5val in img: continue display_img.append(img) move_num = { 11.5: 1, 23: 2, 34.5: 3 } total = 0 for index, img in enumerate(display_img): left = float(re.findall(r"left:.*?([-\d\.]+)", img)[0]) src = re.findall(r"src=\"(.+?)\"", img)[0] lindex = len(display_img) - display_img.index(img, index) if left > 0: lindex -= move_num[left] elif left < 0: lindex += move_num[abs(left)]
total += images[src] * int("1%s" % ("0"*(lindex-1))) page_total += total return page_total
def main(): total = 0 for page in range(1, 6): params = ( ('page', page), ) headers = {'User-Agent': 'yuanrenxue.project'} response = requests.get('https://match.yuanrenxue.com/api/match/4', headers=headers, params=params) data = response.json() page_total = get_page_sum(data) total += page_total return total
print(main())
|
