Python海量数据的生成与处理
海量数据处理-Python
时间 具体内容
第1天 上午 1、实习计划安排说明+2、爬虫基础知识介绍
第1天 下午 1、数据采集
第2天 上午 1、基于selenium实现浏览器自动化采集数据
第2天 下午 1、Python实现疫情数据爬取
第3天 上午 1、Pandas实现疫情数据探索性分析
第3天 下午 1、Python实现疫情数据可视化分析
计划安排见:【腾讯文档】三峡大学文档资源
主要内容:WEB端三剑客HTML+CSS+JavaScript
实验网址:Java爬虫框架WebMagic
DOCTYPE html>:声明此页面为html5,简称h5,h5是html的第5个版本
<html>html>:包裹着整个页面的所有标签,标志着这是一个html页面
<head>head>:头部,包含标题和页面元信息
<body>body>:身体部分,显示页面内容的标签
《一》常用标签:
<h1> - <h6>:定义html标题,由h1~h6组成,<h1> 定义最大的标题。<h6> 定义最小的标题。
<p>p>:定义段落。
<a href=' ' target=' '>a>:定义html超链接,在href属性中指定链接的地址,超链接可以是一个字,一个词,也可以是一幅图像,可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。 当把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手;使用 Target 属性,可以定义被链接的文档在何处显示。
<img src=' ' alt=' '/>定义html页面中的图像,src(source) 指存储图像的位置,alt 属性用来为图像定义一串预备的可替换的文本。
<br /> 表示换行。
可以将注释插入 HTML 代码中,这样可以提高其可读性。
<hr /> 标签在 HTML 页面中创建水平线,hr 元素可用于分隔内容。
《二》列表:
HTML 支持有序、无序和自定义列表:
无序列表是一个项目的列表,列表项目使用粗体圆点(典型的小黑圆圈)进行标记,无序列表使用 <ul> 标签,列表中的内容由<li>标签进行标记 。
有序列表也是一列项目,列表项目使用数字进行标记,有序列表始于 <ol> 标签,每个列表项始于 <li> 标签。
自定义列表不仅仅是一列项目,而是项目及其注释的组合。 自定义列表以 <dl> 标签开始,每个自定义列表项以 <dt> 开始,每个自定义列表项的内容定义以 <dd> 开始。
《三》表格:
表格由 <table> 标签来定义,每个表格均有若干行,由标签<tr>tr>定义,每行被分割为若干单元格,由<td>td>定义。常见的表格属性有:
border表示表格的边框
colspan="2"表格跨两列
rowspan="2"表格跨两行
cellpadding="10"设置单元格边距
cellspacing="0"设置单元格间距
《四》表单:
表单是一个包含表单元素的区域。 表单元素是允许用户在表单中输入内容,
比如:文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等等。
案例:
DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Titletitle>
head>
<body>
<fieldset style="width: 400px">
<legend>个人注册legend>
<p><label>手机号码:label><input type="text"value="使用手机号码登录微博" />p>
<p><label>设置密码:label><input type="text"/>p>
<p><label>昵称:label><input type="text"/>p>
<p><label>姓名:label><input type="text"/>p>
<p><label>身份证:label><input type="text"/>p>
<p><label>性别:label>
<input type="radio"value="man" name="sex"/>男
<input type="radio"value="women" name="sex" />女
p>
<p><label>爱好:label>
<input type="checkbox"name="hobby"/>篮球
<input type="checkbox"name="hobby" />乒乓球
<input type="checkbox"name="hobby" />足球
p>
<p><label>激活码:label><input type="button"value="免费获取短信激活码" />
<input type="text"/>
p>
<p><input type="button"value="立即注册" />p>
<p><a href="#"><input type="checkbox"name="checkbox" id="checkbox" />微博服务使用协议a>p>
fieldset>
body>
html>
概念:CSS 指层叠样式表 (Cascading Style Sheets),是一种用来表现HTML的计算机语言,样式定义如何显示 HTML 元素, CSS可以将样式定义在HTML元素的style属性中,也可以将其定义在HTML文档header部分, 也可以将样式声明在一个专门的CSS文件中,以供HTML页面引用。通常存储在外部样式表中,即CSS 文件中 ,外部样式表可以极大提高工作效率。
选择器通常是您需要改变样式的 HTML 元素, 每条声明由一个属性和一个值组成, 属性是希望设置的样式,每个属性有一个值,属性和值用冒号分开。常用的选择器如下:
简单选择器(根据名称、id、类来选取元素)
组合器选择器(根据它们之间的特定关系来选取元素)
伪类选择器(根据特定状态选取元素)
伪元素选择器(选取元素的一部分并设置其样式)
属性选择器(根据属性或属性值来选取元素)
更多细节可参考w3c连接
插入样式表:将样式表插入html页面中有以下几种方式:
外部样式表(External style sheet) :每个页面使用 <link> 标签链接到样式表。 <link> 标签在(文档的)头部:
<link rel="stylesheet" type="text/css" href="mystyle.css">
内部样式表(Internal style sheet) :可以使用 <style> 标签在文档头部定义内部样式表