附件文件data.txt是教育部爱课程网中国大学 MOOC 平台的某个 HTML 页面源文件,里面包含了我国参与 MOOC 建设的一批大学或机构列表。
问题1:请编写程序,从 data.txt 中提取大学或机构名称列表,将结果写入文件univ.txt,每行一个大学或机构名称,按照大学或机构 在data.txt 出现的先后顺序输出,样例如下:
- ...
- 南京理工大学
- ...
- 南京师范大学
- ...
提示:所有大学名称在 data.txt 文件中以 alt="南京理工大学"
形式存在。
问题2:请编写程序,从 univ.txt 文件中提取大学名称,大学名称以出现“大学”或“学院”字样为参考,但不包括“大学生”等字样,将所有大学名称在屏幕上输出,大学各行之间没有空行,最后给出名称中包含“大学”和“学院”的名称数量,同时包含“大学”和“学院”的名称以结尾的词作为其类型。样例如下(样例中数量不是真实结果,北京工商大学嘉华学院算作学院):
- ...
- 南京理工大学
- ...
- 长沙师范学院
- ...
- 包含大学的名称数量是10
- 包含学院的名称数量是12
通过split的方法,先根据【alt=】来分割字符,再用引号来分割,前者切片取最后一个元素【-1】,后者取第二个元素【1】,即引号后面的内容,所以官方给出的代码如下所示。
- fi = open("data.txt","r")
- f = open("univ.txt","w")
- for line in fi:
- if "alt" in line:
- dx = line.split("alt=")[-1].split('"')[1]
- f.write("{}\n".format(dx))
- f.close()
- fi.close()
题目中没有要求,可以用用正则表达式来提取,这就要用到re.findall()来提取。这种好处是不用遍历每一行,直接读取内容提取即可,省时高效。
- import re
- f = open("univ.txt", "w")
- with open("data.txt","r",encoding="utf-8") as fi:
- line = fi.read()
- line = re.findall('alt="(.*大学)"',line)
- for i in line:
- f.write(i+"\n")
- f.close()
官方解法中规中矩,用上了for循环,if判断,文本打开关闭,以及列表切换等等。
- n = 0
- m = 0
- f = open("univ.txt", "r")
- lines = f.readlines()
- f.close()
- for line in lines:
- line = line.replace("\n","")
- if '大学生' in line:
- continue
- elif '学院' in line and '大学' in line:
- if line[-2:] == '学院':
- m += 1
- elif line[-2:] == '大学':
- n += 1
- print('{}'.format(line))
- elif '学院' in line:
- print('{}'.format(line))
- m += 1
- elif '大学' in line:
- print('{}'.format(line))
- n += 1
- print("包含大学的名称数量是{}".format(n)) #输出大学计数
- print("包含学院的名称数量是{}".format(m)) #输出学院计数
考虑了排除了大学生这个关键词,然后用列表切片的方法来判断文本的结尾用的是学院还是大学。
个人解法中,尽量用正则表达式来简化程序,用【$】限制以大学和学院结尾。用【re.findall()】来判断是否包含某个关键词。
- import re
- m = 0
- n = 0
- fi = open("univ.txt", "r",encoding='utf-8')
- for line in fi:
- line = line.strip()
- daxue = re.findall("大学$",line)
- if len(daxue)!=0:
- m+=1
- print(line)
- xueyuan = re.findall("学院$",line)
- if xueyuan:
- print(line)
- n+= 1
- print("包含大学的数量是{}".format(m))
- print("包含学院的数量是{}".format(n))
- fi.close()