博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python实战之原生爬虫(爬取熊猫主播排行榜)
阅读量:5923 次
发布时间:2019-06-19

本文共 1723 字,大约阅读时间需要 5 分钟。

""" this is a module,多行注释"""import refrom urllib import request# BeautifulSoup:解析数据结构 推荐库 Scrapy:爬虫框架#爬虫,反爬虫,反反爬虫#ip 封#代理ip库class Spider():    url='https://www.panda.tv/cate/lol'    root_pattern='
([\s\S]*?)
' name_pattern='([\s\S]*?)' number_pattern='([\s\S]*?)' def __fetch_content(self): r=request.urlopen(Spider.url) htmls=r.read() htmls=str(htmls,encoding='utf-8') return htmls a=1 def __analysis(self,htmls): root_html=re.findall(Spider.root_pattern,htmls) anchors=[] for html in root_html: name=re.findall(Spider.name_pattern,html) number=re.findall(Spider.number_pattern,html) anchor={'name':name,'number':number} anchors.append(anchor) return anchors def __refine(self,achors): l=lambda anchor:{'name':anchor['name'][0].strip(),'number':anchor['number'][0]} return map(l,achors) def __sort(self,anchors): anchors=sorted(anchors,key=self.__sord_seed,reverse=True) return anchors def __show(self,anchors): for rank in range(0,len(anchors)): print('rank '+str(rank+1)+':'+anchors[rank]['name'] +' '+anchors[rank]['number'] ) def __sord_seed(self,anchor): r=re.findall('\d*',anchor['number']) number= float(r[0]) if '万' in anchor['number']: number*=10000 return number def go(self): htmls=self.__fetch_content() anchors=self.__analysis(htmls) anchors=list(self.__refine(anchors)) anchors=self.__sort(anchors) self.__show(anchors)splider=Spider()splider.go()

1347866-20180808224307716-921212105.png

转载于:https://www.cnblogs.com/raind/p/9446201.html

你可能感兴趣的文章
Java 使用 Redis
查看>>
关于java的wait、notify、notifyAll方法
查看>>
大型网站技术架构(一)大型网站架构演化
查看>>
执行server-start时emacs报错说"The directory `~/.emacs.d/server' is unsafe"
查看>>
Babel下的ES6兼容性与规范
查看>>
swift --字符串常用方法总结
查看>>
Redis应用学习(六)——主从复制
查看>>
Redis应用学习——Redis Cluster运维常见问题
查看>>
Linux命令------磁盘管理
查看>>
社区征稿 | 价值3200RMB的DTCC门票免费送!
查看>>
安装Hypver-v对处理架构的改变
查看>>
openssl passwd计算密码Hash
查看>>
软件RAID的创建
查看>>
Android 使用 adb 连接WIFI来调试app
查看>>
Echoin -- 能源公链生态正式路演 - 北京,上海...
查看>>
81.拒绝死机十四招
查看>>
【云快讯】之四十四《IBM Watson在能源行业的新应用》
查看>>
Telnet、SSH(SSH1和SSH2)之间的区别
查看>>
我的友情链接
查看>>
管道符和作业控制 shell变量
查看>>