• 基于机器学习的搜索推荐系统


    目录
    一. 引言 1
    二. 准备 2
    一. 软件工程语言选择 2
    二. 服务器的选取 2
    三. 搜索服务 5
    一. 搜索服务软件目录结构 5
    二. 搜索服务功能 6
    三. SPARQL语句分析 7
    四. 经验与收获 8
    五. 不足 8
    六. 所需配置的环境与包 8
    四.推荐功能服务 9
    一.功能介绍 9
    二. 推荐服务的目录结构 11
    三. 推荐服务的逻辑流程 11
    四. SPARQL分析 12
    五. 经验与收获 13
    六. 不足 14
    七. 环境组件 14
    五.基于机器学习的推荐算法分析 15
    一. 基于机器学习的推荐算法分析 15
    二. User-based算法与Iter-based算法对比 15
    三. Item-based算法详细过程 16
    四. Surprise库的介绍 17
    二. 准备
    一.软件工程语言选择
    世界上有非常多的软件编译语言,主流的有C,C++,JAVA,PYTHON,C#等等。每一种编译语言都有他们自己的特点,每一种编译语言都有他们自己的库和相关的编译工具。用什么样的语言来实现我们搜索和推荐服务是首先要考虑的。
    搜索和推荐服务是一个对互联网信息资源进行搜索整理、分类,并储存在网络数据库中供用户查询的系统,包括信息收集,信息分类,和目标查询三个部分组成。
    从使用者的角度看,搜索和推荐服务提供一个包含搜索输入框的页面,在搜索框中输入词汇,通过浏览器提交给搜索后台服务引擎后,搜索后台服务引擎就会返回跟用户输入的内容相关的信息列表。其实这样的搜索后台服务引擎涉及到很多领域的理论和技术:数字图书馆,数据库,信息检索,信息提取,人工智能,机器学习,自然语言处理,计算机语言学,统计数据分析,数据挖掘,计算机网络,分布式处理等等,具有综合性和挑战性。
    在世界范围内,百度,GOOGLE,搜狗就是非常好的搜索引擎。通过学习这些搜索服务,我们发现他们都是通过Web来进行搜索服务的。
    因此我们确定我们的搜索和推荐服务也应当是通过TCP方式,HTTP协议,以Web的方式进行搜索和推荐服务,通过Web来实现搜索和推荐的交互功能。
    在实现Web这样的B/S架构时,我们发现两种语言适用于开发这样的服务程序。一个是Java语言,一个是Python语言。
    在Java语言中有Tomcat服务来实现网页与后台的相互传参,运算;在Python语言中有Callimachus和Django来实现网页与后台逻辑的通讯。
    通过对比Java和Python开发我们发现:
    ·Java开发所需要的JDK版本一旦安装完成,在同一台PC机上是需要通过卸载重新安装来实现;在Python中对于Python2.7和Python3,我们通过virtualenv和anaconda等虚拟容易来盛放不同的python版本只需要通过cmd(windows下)命令就可以实现。
    ·Java中的库主要都是对于类型转换,和网页servlet方式的库;在python中不仅包含于网页的相关库,他更强大的是有很多算法库,由于python属于脚本语言,所有他所支持和库所涉及的功能范围比java库要更加多。
    ·在Java中进行相关的SPARQL查询,需要安装jena,并将安装好的jena文件进行相应的环境变量配置;但是在python中对于sparqlwrapper,只需要通过cmd命令(pip install xxx)就可以静待电脑自动安装相应文件,而不需要配置相应的环境变量。
    因此基于以上分析,我们最终选用python来作为我们的软件开发语言。
    二.服务器的选取
    一个好的关联数据开发平台有助于提高开发效率。Callimachus和Django都是这样的一种平台。
    2.1 Callimachus
    尽管Callimachus的开发者们将其定义为关联数据管理系统,但是将其视为关联数据的应用服务器更加合适。Callichus主要具备以下特征:
    ·模板系统能自动为OWL类(OWL class)的所有成员生成网页。严格来说,OWL类与RDF schema类本身或其子类并无二致(取决于所用的OWL配置文件)。简单起见,我们认为OWL类与RDF Schema类是等价的。
    ·在运行时检索数据,并将其转换为RDF格式。
    ·将SPARQL查询与URL关联起来,对查询进行参数化,并使用带有图标库(charting library)的查询结果。
    ·PURL(持久化URL)实现
    ·基于DocBook的结构化书写系统(structured writing system)包括可视化编辑环境。
    简而言之,Callimachus支持使用关联数据进行导航,可视化,构建应用程序等操作。数据既可以保存在本地,也可以从万维网上采集,甚至可以在载入Callimachus时被转换为RDF。
    2.2 Django
    而Django是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,即模型M,模板T和视图V。
    Django 项目是一个Python定制框架,它源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。Django 框架的核心优势有:
    ·用于创建模型的对象关系映射
    ·为最终用户设计的完美管理界面
    ·一流的 URL 设计
    ·设计者友好的模板语言
    ·缓存系统。
    Django是一个基于MVC构造的框架。但是在Django中,控制器接受用户输入的部分由框架自行处理,所以 Django 里更关注的是模型(Model)、模板(Template)和视图(Views),称为 MTV模式。它们各自的职责如下:
    模型(Model),即数据存取层:
    处理与数据相关的所有事务:如何存取、如何验证有效性、包含哪些行为以及数据之间的关系等。
    模板(Template),即业务逻辑层:
    处理与表现相关的决定: 如何在页面或其他类型文档中进行显示。一般将网页html和js文件存放在此层中。
    视图(View),即表现层
    存取模型及调取恰当模板的相关逻辑。模型与模板的桥梁。在view里面进行python后台处理,他将网页的响应数据拿到,同时也为网页发送请求。
    从以上表述可以看出Django 视图不处理用户输入,而仅仅决定要展现哪些数据给用户,而Django 模板 仅仅决定如何展现Django视图指定的数据。或者说, Django将MVC中的视图进一步分解为 Django视图 和 Django模板两个部分,分别决定 “展现哪些数据” 和 “如何展现”,使得Django的模板可以根据需要随时替换,而不仅仅限制于内置的模板。
    2.3 对比
    通过使用Callimachus和Django两种服务器我们发现:
    1.Django在后台可以植入各种py文件来作为算法和逻辑基础;在Callimachus所有的sparql操作统一下xhtml上div块中进行书写,也就是Callimachus将业务逻辑基本集成在网页上面编写。
    2.系统稳定性:Django早在2005年的时候就已经开始使用,网上对于Djano开发时所遇到的问题都有全面的回答,维护起来非常方便;Callimachus是在近几年才推出来的关联数据管理器,他虽然针对关联数据有很好的执行能力,但是在网上不止是关于他运行时的一些解决问题,就连关于他的介绍都微乎其微,在Callimachus运行的时候所遇到的维护问题只能靠自己解决,稳定性不确定,属于试验阶段。
    3.开发周期:Django因为有越来越多的人在使用,而且出来较早,对于Django的查询和学习资料较为广泛,开发时间短;Callimachus因为网上资料确实太少,仅有的介绍只是Callimachus的官网说明,本文转载自http://www.biyezuopin.vip/onews.asp?id=14698因此开发难度较大,学习周期长。
    基于以上分析,我们最终选用Django服务器来实现我们的搜索和推荐服务。

    
    
    
    
    文章检索
    
    
    
    
    
    
    
    {%csrf_token%}
    请填写搜索的相关信息
    • 北京
    • Maine
    • Prince_Edward_Island
    • Brooklyn
    • Thomas Leo Clancy

    性别

    就这样去:

    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    CDH 09Cloudera Manager Kerberos安装配置(markdown新版二)
    14、Linux的权限管理
    AVR单片机在心电检测中的应用研究
    Part 10:iOS的数据持久化(1),文件,归档
    SpringBoot项目中后来添加的.gitignore文件使其生效,删除远端原有的target等目录
    BOA服务器和CGI程序移植中遇到的问题及解决方案
    基于SpringBoot、Vue的电影院管理系统
    记Windows的一个存在了十多年的bug
    cmake工程出现“CMAKE_CUDA_ARCHITECTURES must be non-empty if set.“的解决方法
    mysql迁移以及迁移后配置文件的编写
  • 原文地址:https://blog.csdn.net/sheziqiong/article/details/127133024