基于python的网络爬虫搜索引擎的设计

项目介绍

随着互联网的飞速发展，web已经成为人们主要的检索，和发布的主要平台，在海量的数据中如何快速，准确的找到用户所需要的信息成为人们当前所需求的，而网络爬虫就是为了满足这一需要而产生的研究领域。在现实中我们的资源是有限的，如何在有限的资源中区分我们每个人不同的需求，有的想听歌，有的想看电影，而有的是工作需要的机密文件，不想让别人看，只能自己看等等一系列这样的问题，他能保护每个人的隐私以及满足不同人的需求，因此，分不同用户区分爬取内容还是有研究必要的。

在检索信息和搜集信息中实现web信息展示，核心在于设计网络爬虫模块，主要是全文搜索引擎模块。本文主要设计了全文搜索并实现页面搜集器的详细介绍，该工作流程影响到核心算法和数据的存储，克服了该技术难点，实现良好的实际运行和良好的效果，进一步改进引擎效果。
本网站基于B/S模式对该爬虫网站进行设计，并要求爬取的操作简单，多用户数据鲜明，开发一个爬虫网站实现对多用户管理，数据分层管理，并且把数据存储到指定的数据库中。区分出重复的网页，解决去重问题；加上主题的相关性;更快速的抓取数据;存储数据;实现数据可视化。
关键词：搜索引擎; 网络爬虫; 信息检索; 页面索引

使用python提供的开放源代码django应用框架，Django 更关注的是模型（Model）、模板(Template)和视图（Views），也就是MTV模式。

想要打开登录界面，可以使用操作如下：
(1) 安装python3.6 版本
(2) 安装 Django库 1.11.4版本 pip install Django==1.11.14
(3) 安装 selenium库 3.141.0 pip install selenium
(4) 安装 jieba库 0.39版本 pip install jieba
(5) 在命令行下进入 xxx\Web_Spider_Demo\mysite_login\的目录下，运行manage.py(运行方法：python manage.py runserver),成功运行后，打开浏览器（google），输入网页主页：127.0.0.1:8000/index。
(6) 在登录时，使用注册时候的账号密码就可以登录自己的界面，获取填写的数据是否和注册时候的信息进行对比，如果相同，就可以登录进入，使用该网站的功能。

爬虫搜索
设计从网页中选择其中一部分的url，将url放入url队列中，对这些url中的链接进行解析，将内容下载下来，将其存储在固定的页面库中，建立对应的索引，从中抽取出所包含的所有链接信息如果分析中该url没有在缓存中出现过，则这个url调度下的队列就会被重新抓取一遍，直到抓取到对应的网页为止。完成一个完整的抓取过程，出现的爬虫有很多种类：
(1)批量型爬虫（Batch Crawler）：分批次对数据进行抓取想要得到的目标和范围，当爬虫达到这个设定的目标后，即停止抓取过程。至于具体目标可能各异，也许是设定抓取一定数量的网页即可，也许是设定抓取消耗的时间等。
(2)增量型爬虫（Incremental Crawler）：在抓取的过程中如果出现新增的网页，机制就会更新网页，可以实现通用的搜索引擎来实现增量的处理。
(3)垂直型爬虫(Focused Crawter）：针对不同的特定主题内容，不同的特定行业的网页，就可以从互联网页而里找到与健康相关的页面内容即可，其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是：如何识别网页内容是否属于指定行业或者主题。

效果图

请添加图片描述

目录
1 引言 3
1.1 发展背景 4
1.2 研究现状 4
2 页面设计 6
2.1 基本工作原理 6
2.2 网页设计 6
2.2.1 注册 7
2.2.2 登录 8
2.2.3 爬虫搜索 8
3 功能实现 10
3.1 基本工作原理 10
3.2 jieba库 10
4 数据库设计 10
5 测试 11
5.1　设计问题 11
5.2　问题层次 12
5.3　测试评定 12
5.4 测试的设计 12
6 结语 13
参考文献 13
致谢 16

相关阅读:
深度学习卷积神经网络YOLOv5详解
华为机试 - 金字塔
nvm安装Nodejs安装
第二十二章： Docker 部署 MySQL8
单片机C语言实例：3、数码管累加与累减动态显示
最新科目一攻略（新规）
骨传导耳机和气传导区别有哪些？骨传导和气传导耳机科普
JVM_沙箱安全机制与Java安全模型
用两个栈实现一个队列
Hadoop3教程（四）：HDFS的读写流程及节点距离计算

原文地址：https://blog.csdn.net/QQ2083558048/article/details/133351883