码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 互联网数据管理平台


    互联网数据管理平台

    1. 平台综述
    2. 数据采集
    3. 数据存储
    4. 数据特征化
    5. 数据展示

    文章目录

    • 互联网数据管理平台
    • 前言
    • 一、综述
    • 二、四大模块
      • 1、数据采集
      • 2、数据存储
      • 3、数据特征化
      • 4、数据展示
    • 总结


    前言

    该平台主要用于数据采集,保存,并便于搜索,展示的数据平台。


    一、综述

    整个平台使用k8s部署,scrapy做数据采集,mysql做存储,es做搜索,apscheduler做调度,grafana做监控。文章以平台构建流程为主线,依次记录各部分的实现过程。

    二、四大模块

    1、数据采集

    数据采用的爬虫的形式爬取互联网的数据或者链接
    爬虫主要使用scrapy使用,为了提高爬取效率,适当构建IP资源池,开启多并发来爬取目标网站。
    爬取的内容以图片和文字为主,涉及的主题包含美食,旅游,技术文档,多为文章,评论等内容。
    文本需要根据主题归类,并提取摘要。
    图片需要根据主题归类,并去除水印。

    2、数据存储

    数据存储使用mysql和elasticsearch。
    根据数据来源不同进行分表处理,对于数据量较大的渠道进行必要的数据清洗。

    3、数据特征化

    对数据进行情感分类,文本摘要,关键字提取,观点识别等标签化处理。

    4、数据展示

    对最终爬取到的结构的标签进行适当的展示,区分实时与定时报表,形式为top排行榜。


    总结

    路漫漫其修远兮,吾将上下而求索。

  • 相关阅读:
    Windows Server安全配置
    设备接入服务组件->微服务and容器化改造说明文档
    初级算法之数组
    记一次 .NET 差旅管理后台 CPU 爆高分析
    K8S原来如此简单(三)Pod+Deployment
    mysql联合索引的使用
    lv7 嵌入式开发-网络编程开发 08 TCP并发功能
    【Linux学习笔记】基础命令3
    OpenGL编程(一):三角形大作
    样式处理+element-UI
  • 原文地址:https://blog.csdn.net/wx740851326/article/details/127097123
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号