展开
豆瓣租房小组爬虫是一款能够帮助中介或者找房源的用户快速找到适合自己的房源的软件,很多在豆瓣租房小组找房的用户面对琳琅满目的房子不知该如何甄别,利用软件能够快速筛选出适合自己价位的房源,有需要的小伙伴欢迎来体验。
1.首先对网页F12进行节点分析
2.分析得到id为group-new-topic-bar下的tbody下的tr就是我们要的每一行租房信息
3.遍历每一个tr节点,得到详细信息的url,进入到该url里获取到帖子的详细信息
4.防止爬取过于频繁,可以在每次爬取详情信息时sleep一会
版权声明:本文为CSDN博主「好记古啊古」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
一、下载打开软件,首先设置要找的房源的地址。
二、接下来设置理想价位和排除关键词。
三、点击爬取即可获取房源信息,等待软件获取相关关键词房源。
四、利用typora软件打开爬取下来的MD文件即可看到房源信息。
此爬虫用python开发,基于gevent、pymongo、requests、lxml、Flask。
流程也相对较简单:
配置需要爬取的URL;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置监控周期、最大页数、并发数等;
运行爬虫,等待抓取,会自动根据配置定时爬取;
启动web服务,在前台搜索、排序等;
如何设置豆瓣群组链接?
首先搜索某个地区租房,例如:北京租房
点进去要爬取的某个小组,例如第一个:北京租房
将页面拉到最下面有个> 更多小组讨论超链接,点进去
复制地址栏中地址(从/group开始复制到结尾),粘贴到软件设置豆瓣群组链接
有时候粘贴进软件会崩溃,不知道什么原因,建议把软件中原来的链接删除再粘贴进去。
将start=后边的数字50改成%d
如何设置排除关键字?
排除关键字是标题和内容只要出现关键字就会排除掉该条租房信息。
例如默认是限女这个关键字,只要租房信息中包含限女生入住,只限女生等出现限女关键字的一律不爬。
多个关键字用|分隔,注意是英文的。
例如:限女|短租|整租,这三个关键字设置后,只要标题和内容出现这三个关键字软件就不会爬取。
关于识别标题中的价格
使用正则\b\d{4}\b识别标题中的价格信息,无法爬取少于1000元的信息。
关于爬取结果排序
先根据价格从小到大排序,价格相同根据发帖时间排序。
加载全部内容
点击宝官方版9M50998人在玩简单而又实用的一款SEO优化软件,点击宝...
下载奥维互动地图2018完美版14M18908人在玩奥维互动地图2018完美版全新的版本,最...
下载谷歌访问助手特别版500K7492人在玩身为一名合格的网虫,没有谷歌访问助手特别...
下载视界通浏览器免费版54M7418人在玩现在浏览器很多恶意的插件和广告等。视界通...
下载国内风景区摄像头监控直播源1K5524人在玩没有时间出门旅游,还想看遍全球风景,那我...
下载2018第二课堂禁毒教育平台登录入口2K5416人在玩如果想今后彻底让毒品危害远离,孩子才是关...
下载油猴京东预约抢购助手1K4988人在玩你你有没有在京东预约东西的时候总是抢不到...
下载油猴Firefox浏览器插件236K4344人在玩tampermonkey其实是一个浏览器...
下载Magnety磁力搜索神器949K3890人在玩很多的小伙伴们都是喜欢在网上看些好看的片...
下载Video Downloader GetThemAll免费版1M3702人在玩你是在使用谷歌浏览器吗?那么小编推荐的V...
下载