• 基于python+scrapy的租房信息数据展示系统


    目 录
    摘 要 I
    ABSTRACT II
    1 绪论 1
    1.1 研究背景及需求分析 1
    1.2 国内外研究现状 2
    1.2.1 爬虫技术概述 2
    1.2.2 爬虫设计者面临的问题与反爬虫技术现状 4
    1.3 研究目标及研究内容 6
    1.4 论文的整体结构 7
    1.5 本章小结 7
    2 相关理论及技术 8
    2.1 robot协议对本设计的影响 8
    2.2 爬虫 8
    2.2.1 工作原理 8
    2.2.2 工作流程 8
    2.2.3 抓取策略 9
    2.3 python发展现状 9
    2.5 scrapy架构 10
    2.5.1 scrapy:开源爬虫架构 10
    2.6 MongoDB数据库 13
    2.6.1 NoSQL数据库介绍 13
    2.6.2 MongoDB数据库介绍 13
    2.7 python web框架Django 14
    2.7.1 Django框架介绍 14
    2.7.2 MTV模式 14
    2.7.3 ORM模式 14
    2.7.4 template模板语言 14
    2.7.5 Django工作机制 15
    2.8 semantic UI开发框架 15
    2.8.1 semantic介绍 15
    2.8.2 semantic开发 16
    2.9 高德地图API 16
    2.10 本章小结 16
    3 系统分析与设计 17
    3.1 系统分析 17
    3.1.1 系统功能 17
    3.1.2 爬取对象分析 17
    3.1.3 模块设计 18
    3.2 数据流 19
    3.3 系统总体逻辑层次 20
    3.4 本章小结 21
    4 爬虫与数据存储、展示的具体实现 22
    4.1 爬虫模块 22
    4.1.1 环境搭建与前期分析 22
    4.1.2 爬虫规则预处理模块 23
    4.1.3 数据抓取模块 24
    4.1.4 数据存储模块 29
    4.1.5 反反爬虫模块 30
    4.2 数据库设计 34
    4.2.1 数据库环境搭建 34
    4.2.2 数据库表设计 35
    4.3 数据展示模块 35
    4.3.1 django环境搭建 35
    4.3.2 前端UI模块 37
    4.3.3 网页架构搭建模块 39
    4.3.4 前端与数据库连接模块 41
    4.3.5 地图展示模块 42
    4.4 开启Django服务器 43
    4.5 成果展示 43
    4.6 本章小结 45
    5 系统测试 46
    5.1 测试环境及工具 46
    5.2 系统功能性测试 46
    5.2.1 数据爬取功能测试 46
    5.2.2 数据展示测试 49
    5.3 系统非功能性测试 49
    5.4 本章小结 49
    6 总结与展望 50
    参考文献 51
    致谢 52
    附录一 外文文献(原文) 53
    附录二 外文文献(译文) 59
    1.3 研究目标及研究内容
    本系统的研究目标为:
    1.对国内外网络爬虫技术与反爬虫技术研究现状、网络协议及协议运行相关技术等背景知识进行了解,对国内网租房市场进行调查了解;
    2.研究学习scrapy爬虫架构及非结构化数据库相关技术;
    3.分析目标用户人群对房屋租赁信息的业务需求,结合市面上房屋租赁信息平台的特点,设计整个系统的数据流动方式、设计多个框架之间相互协作的业务流程;
    4.针对部分网页的反爬取策略,采用反反爬虫技术,完成对房屋租赁网站信息的获取;
    5.结合房屋租赁信息的数据特点,对爬取到的房屋租赁数据进行合理的处理,并且利用非关系数据库MongoDB设计实现数据存储,为数据展示提供必要的数据支持;
    6.研究学习web框架Django,完成网站搭建,学习semantic UI编写网页界面,使用列表形式或地图形式完成数据展示;
    6.对该系统进行功能性与非功能性测试,验证系统的可用性;
    7.总结所做的工作,对进一步的研究工作作出展望。
    本系统实现了一个房屋租赁信息爬取与数据展示系统。首先通过python开源爬虫框架scrapy对目标房屋租赁信息网站进行爬取,包括58同城、安居客、107间房、我爱我家网、房天下、列表网、58同城移动端等,依据不同网页的不同特性选择不同的爬取策略,编写爬虫代码,过滤并抽取所需出租房源信息,建立以城市为区分的房源信息数据库。数据库部分采用非结构化数据库MongoDB,避免网上信息的非结构性对数据存储的影响。然后采用python开源网站搭建框架Django完成对爬取到的租房信息的web端展示。除此之外,本系统采用高德地图API提供的“坐标拾取器”功能完成位置信息与经纬度之间的转换,并将爬取到的数据可视化展示在地图上,一并展示于前端页面。在爬虫部分,除了对房屋租赁信息的爬取外,还实现了对网上免费代理的爬取、存储、有效性验证与维护。本系统还涉及到的技术有:MongoDB与scrapy框架的集成,MongoDB与Django框架的集成,semantic UI快速html5界面开发等。

    1.4 论文的整体结构
    本论文共由六章组成,各章节安排如下:
    第一章绪论,说明了该系统开发的可行性与现实应用意义,介绍了爬虫技术及反爬虫技术的发展现状,介绍了开发该系统所预期达到的目标及所需做的工作。
    第二章对系统中涉及到的相关技术进行了介绍,并说明了相关技术在本系统中的作用。如Robot协议等,其中着重对爬虫架构scrapy、非结构化数据库MongoDB、开源网站框架Django进行了介绍。
    第三章为系统分析与设计,本章对所要完成的系统进行了整体分析设计。分析了系统所要实现的功能,设计出总体架构,对其进行细分,分成各个模块,然后对各个模块进行了介绍。
    第四章为系统设计实现与成果展示,本章编写代码实现了爬虫,对数据库进行了设计,并完成了数据展示模块。本文转载自http://www.biyezuopin.vip/onews.asp?id=11779最后对本系统的运行成果进行了展示。
    第五章系统测试。本章对整个系统进行测试,包括对测试环境的描述,对系统的功能性测试和非功能性测试。
    第六章总结与展望,本章对系统进行总结,并总结了开发过程中的一些所思所想。然后对本系统的进一步研究方向进行了展望。

    {% load static %}
    <html>
    <head>
        <meta charset="UTF-8">
        <title>欢迎来到我的数据展示系统</title>
        <link href="{% static 'css/semantic.css' %}" rel="stylesheet">
        <script src="{% static 'js/jquery.min.js' %}"></script>
        <script src="{% static 'js/semantic.js' %}"></script>
    </head>
    <body>
        <div class="ui inverted vertical masthead center aligned segment header" style="width: 100%;height: 15%" >
           <div class="ui container">
              <div class="ui large secondary inverted pointing menu">
                <i class="toc item"><i class="sidebar icon"></i></i><a href="http://127.0.0.1:8000/index" class="active item">Home</a>
                <div class="right item">
                    <button class="ui inverted button"><a href="http://127.0.0.1:8000/indexen">English</a></button>
                    <button class="ui inverted button"><a href="http://127.0.0.1:8000/indexch">中文</a></button>
                </div>
              </div>
            </div>
        </div>
           {% block index_header %}
           {% endblock %}
    
         {% block content %}
         {% endblock %}
        <div class="ui black inverted vertical footer segment">
            <div class="ui center aligned container">
            <div class="ui stackable inverted grid">
              <div class="three wide column">
                <h4 class="ui inverted header">友情链接</h4>
                <div class="ui inverted link list">
                  <a class="item" href="http://ty.58.com/" target="_blank">58同城</a>
                  <a class="item" href="https://ty.5i5j.com/" target="_blank">我爱我家</a>
                  <a class="item" href="http://www.107room.com/" target="_blank">107房间</a>
                  <a class="item" href="https://ty.anjuke.com/" target="_blank">安居客</a>
                  <a class="item" href="http://taiyuan.fang.com/?s=BDPZ-BL" target="_blank">房天下</a>
                  <a class="item" href="http://taiyuan.liebiao.com/" target="_blank">列表网</a>
                </div>
              </div>
              <div class="five wide column"></div>
              <div class="three wide column">
                <h4 class="ui inverted header">联系我</h4>
                <div class="ui inverted link list">
                    <img src="{% static 'images/wechat.jpg' %}" style="height: 130px;width: 130px">
                </div>
              </div>
            </div>
            <div class="ui inverted section divider"></div>
            <div class="ui horizontal inverted small divided link list">
              @2018-from-hongyi mail hongyi_2015@hotmail.com
            </div>
          </div>
        </div>
    </body>
    </html>
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    Web 3 中的零知识技术:现在和未来
    一、vmware和centos7.6安装
    弱监督学习
    windows redis 自启动 Redis服务无法启动报错1067问题
    如何在Net6.0里配置多版本支持并支持注释说明的Swagger
    remote app tool实现远程连接应用程序
    MYSQL之DDL(数据库定义语言)
    SSM+教育培训管理系统 毕业设计-附源码141053
    leetcode-每日一题-自定义字符串排序-791(中等,字符串应用)
    数学基础之概率论1
  • 原文地址:https://blog.csdn.net/newlw/article/details/127663263