• 三峡大学复杂数据预处理day01-day03


    1.实习计划

    1.1 引入

    Python海量数据的生成与处理
    海量数据处理-Python

    2.前3天内容安排

    2.1 安排计划

    时间 具体内容

    第1天 上午 1、实习计划安排说明+2、爬虫基础知识介绍
    第1天 下午 1、数据采集
    第2天 上午 1、基于selenium实现浏览器自动化采集数据
    第2天 下午 1、Python实现疫情数据爬取
    第3天 上午 1、Pandas实现疫情数据探索性分析
    第3天 下午 1、Python实现疫情数据可视化分析

    2.2 具体内容

    2.2.1 day01

    计划安排见:【腾讯文档】三峡大学文档资源
    主要内容:WEB端三剑客HTML+CSS+JavaScript
    实验网址:Java爬虫框架WebMagic

    1.HTML基础
    DOCTYPE html>:声明此页面为html5,简称h5,h5是html的第5个版本
    <html>html>:包裹着整个页面的所有标签,标志着这是一个html页面
    <head>head>:头部,包含标题和页面元信息
    <body>body>:身体部分,显示页面内容的标签
    
    • 1
    • 2
    • 3
    • 4
    《一》常用标签:
        <h1> - <h6>:定义html标题,由h1~h6组成,<h1> 定义最大的标题。<h6> 定义最小的标题。
        <p>p>:定义段落。
        <a href=' ' target=' '>a>:定义html超链接,在href属性中指定链接的地址,超链接可以是一个字,一个词,也可以是一幅图像,可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。 当把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手;使用 Target 属性,可以定义被链接的文档在何处显示。
          
        <img src=' ' alt=' '/>定义html页面中的图像,src(source) 指存储图像的位置,alt 属性用来为图像定义一串预备的可替换的文本。
        <br /> 表示换行。
         可以将注释插入 HTML 代码中,这样可以提高其可读性。
        <hr /> 标签在 HTML 页面中创建水平线,hr 元素可用于分隔内容。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    《二》列表:
    HTML 支持有序、无序和自定义列表:
        无序列表是一个项目的列表,列表项目使用粗体圆点(典型的小黑圆圈)进行标记,无序列表使用 <ul> 标签,列表中的内容由<li>标签进行标记 。
        有序列表也是一列项目,列表项目使用数字进行标记,有序列表始于 <ol> 标签,每个列表项始于 <li> 标签。
        自定义列表不仅仅是一列项目,而是项目及其注释的组合。 自定义列表以 <dl> 标签开始,每个自定义列表项以 <dt> 开始,每个自定义列表项的内容定义以 <dd> 开始。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    《三》表格:
    表格由 <table> 标签来定义,每个表格均有若干行,由标签<tr>tr>定义,每行被分割为若干单元格,由<td>td>定义。常见的表格属性有:
        border表示表格的边框
        colspan="2"表格跨两列
        rowspan="2"表格跨两行
        cellpadding="10"设置单元格边距
        cellspacing="0"设置单元格间距
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    《四》表单:
    
    表单是一个包含表单元素的区域。 表单元素是允许用户在表单中输入内容,
    比如:文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等等。 
    
    • 1
    • 2
    • 3
    • 4

    案例:

    DOCTYPE html>  
    <html lang="en">  
    <head>  
    <meta charset="UTF-8">  
    <title>Titletitle>  
    head>  
    <body>  
    <fieldset style="width: 400px">  
    <legend>个人注册legend>  
    <p><label>手机号码:label><input type="text"value="使用手机号码登录微博" />p>  
    <p><label>设置密码:label><input type="text"/>p>  
    <p><label>昵称:label><input type="text"/>p>  
    <p><label>姓名:label><input type="text"/>p>  
    <p><label>身份证:label><input type="text"/>p>  
    <p><label>性别:label>  
    <input type="radio"value="man"  name="sex"/><input type="radio"value="women" name="sex" />p>  
    <p><label>爱好:label>  
    <input type="checkbox"name="hobby"/>篮球  
    <input type="checkbox"name="hobby" />乒乓球  
    <input type="checkbox"name="hobby" />足球  
    p>  
    <p><label>激活码:label><input type="button"value="免费获取短信激活码" />  
    <input type="text"/>  
    p>  
    <p><input type="button"value="立即注册" />p>  
    <p><a href="#"><input type="checkbox"name="checkbox" id="checkbox" />微博服务使用协议a>p>  
    fieldset>  
    body>  
    html> 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    2.CSS选择器

    概念:CSS 指层叠样式表 (Cascading Style Sheets),是一种用来表现HTML的计算机语言,样式定义如何显示 HTML 元素, CSS可以将样式定义在HTML元素的style属性中,也可以将其定义在HTML文档header部分, 也可以将样式声明在一个专门的CSS文件中,以供HTML页面引用。通常存储在外部样式表中,即CSS 文件中 ,外部样式表可以极大提高工作效率。

    选择器通常是您需要改变样式的 HTML 元素, 每条声明由一个属性和一个值组成, 属性是希望设置的样式,每个属性有一个值,属性和值用冒号分开。常用的选择器如下:

    简单选择器(根据名称、id、类来选取元素)
    组合器选择器(根据它们之间的特定关系来选取元素)
    伪类选择器(根据特定状态选取元素)
    伪元素选择器(选取元素的一部分并设置其样式)
    属性选择器(根据属性或属性值来选取元素)

    更多细节可参考w3c连接

    插入样式表:将样式表插入html页面中有以下几种方式:

     外部样式表(External style sheet) :每个页面使用 <link> 标签链接到样式表。 <link> 标签在(文档的)头部:
     <link rel="stylesheet" type="text/css" href="mystyle.css">
     
     内部样式表(Internal style sheet) :可以使用 <style> 标签在文档头部定义内部样式表