HPC()
HPC是高性能计算(High Performance Computing)机群的简称。指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿,非百万)次以上。“超级计算”(supercomputing)这名词第一次出现,是在1929年《纽约世界报》关于IBM为哥伦比亚大学建造大型报表机(tabulator)的报道。
HDFS
MPFS
OLAP
OLTP
spark streaming
structure streaming
简化代码(逆向索引)正逆向思维结合
REVERSE
[::-1]
f string
python 3.4 3.5
简洁
IDLE Shell 3.8.8
%在Hadoop中运用较多
用顺序表示
用占位符名称标识表示
{ip}:{port}
不是变量,ip和port都是占位符
后面的IP和port才是变量
语法报错:Python版本低
email()
字符串.find
find返回-1
index抛出异常
try except
java try catch
startswith
endswith
.csv (数据文件)
excel文件在苹果下会出错
,分割
常见
上一行代码以:结束,下一行需要缩进。两条规则都要遵守
多分支:上可包含下,下不可包含上
分支嵌套:注意缩进的问题
range是一个对象,占用资源少
而list会占用内存,
所以用range函数即可
f-string 格式化字符串 不能少打f
python中的输出函数是print
else 当条件不成立,退出循环
同 break 退出循环
else字句是正常退出循环的奖励
非正常退出break 不执行else语句
没有break语句,一定会执行else语句,删除else:程序不受任何影响
#直接在len函数中引入字符串内容获得其长度,然后打印出来
print(len('This is a circle!'))
source_string.replace(old_string, new_string)
print(source_string.replace('day','time'))
Ctrl+Alt+Delete
序列类型 str tuple list
集合类型 set
映射类型 dict
互异+确定+无序
列表修改后地址不变,用实例来理解
len 类似于SQL中count功能:计数
append追加
insert插入
pop指定删除
remove删除首元素
reverse反转
sort元素必须是同一类型&&可比较大小
max min sort不具备可比较性 抛出异常
results.sort(key=lambda x:x[1],reverse=True)
print(sorted(results,lambda x:x[1],reverse=True))
字典的元素也是独一无二的
键值对
后键值对覆盖前键值对
修改字体大小
Options->Configure IDLE
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
0.42.1
豆瓣是http,需要配置参数
有清华、中科大、豆瓣、阿里等镜像
cut
lcut 内存开销小
IteratorList=iter(List)
num=next(IteratorList)
按规则
IterList=iter(List)
num=next(IterList)
Python是动态语言,不需要声明函数的类型,参数的类型
Python无多态
元组和列表有顺序,集合无顺序
return语法结束判断
def avg(*values):
counts=0
sum=0.0
for c in values:
try:
sum+=float(c)
counts+=1
except ValueError:
pass
return sum/counts
def avg(*values):
counts=0
sum=0.0
for c in values:
try:
sum+=float(c)
counts+=1
except ValueError:
continue//这条语句不执行,下条语句还要继续执行。
return sum/counts
avg.py
def avg(*values):
counts=0
sum=0.0
for c in values:
try:
sum+=float(c)
counts+=1
except ValueError:
continue//跳过此次循环
return sum/counts
b=avg(12,56,1,"12.9","AS",6)
print(f"{b:.3f}")
continue表示跳过此次循环,pass表示当前这条语句不执行,下条语句还要继续执行。
一般见到的函数基本上是参数名,很少有一起的
for item in c.items():
d.append(item)
d
可以看到有数字1855参与排序,在a开头的字母前
lambda x:x[1]中x[1]意味着value,即以词频作为排序对象,reverse设置为降序
d
以词频排序
如果函数在Python自带函数库中(关键词),则可以使用其缩写形式
如国前文中已经自定义函数,在后面调用该函数时也可以使用其缩写形式
a.sort(key=lambda x:str(x))
a.sort(key=str)
其在数据库编程中很常见
def fibonacci(position):
if position<2:
return 1
previous_but_one=1
previous=1
result=2
for n in range(2,position):
previous_but_one=previous
previous=result
result=previous+previous_but_one
return result
数据类型多样
公有云 私有云 混合云
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
“东数西算”工程的实施,一是有利于提升国家整体算力水平,通过全国一体化的数据中心布局建设,扩大算力设施规模,提高算力使用效率,实现全国算力规模化集约化发展。二是有利于促进绿色发展,加大数据中心在西部布局,将大幅提升绿色能源使用比例,就近消纳西部绿色能源,同时通过技术创新、以大换小、低碳发展等措施,持续优化数据中心能源使用效率。三是有利于扩大有效投资,数据中心产业链条长、投资规模大、带动效应强。通过算力枢纽和数据中心集群建设,将有力带动产业上下游投资。四是有利于推动区域协调发展,通过算力设施由东向西布局,将带动相关产业有效转移,促进东西部数据流通、价值传递,延展东部发展空间,推进西部大开发形成新格局。
一台主机序列化为几台虚拟机
多台服务器序列化为虚拟资源池(按需分配)