根据TeachersInfoDownload.py文件,周日(9月27日)晚上之前写出四个函数:
-
第一个函数获取id和学院名称,根据37-49行
-
第二个函数获取每个学院老师的网址(地址)得到学院+老师姓名+网址,可以以一个老师(蔡必卿)为例,获取他的9列信息,根据代码147-202行(姓名、个人主页、入职年份、职称、毕业院校、性别、学科、科研项目信息、论文发表信息)根据代码147-202行
-
第三个函数获取学院所有老师的人数,包含学院名称、学院ID、学院人数,根据代码95-119行
-
第四个函数获取学院每个老师的网址,根据代码121-145行
上面的每个函数都要能够输出excel表格
- 第一个函数:把第三四个函数合并,目标是得到所有老师六个变量的dataframe,姓名、 网址、性别、职称、硕导、博导
- 第二个函数:根据得到的每个老师的网址,用url做参数,目标是得到首页下的姓 名、所在单位、学历、学位、学科、入职年份六个变量,以及科学研究下的科研项 目信息、论文发表信息两个变量
- 网络知识
- 网页知识(html, css, javascript)
- 正则表达式
- 实现:Python 包
- urllib
- Requests
- BeautifulSoup4
- lxml
- Selenium
- pyspyder
- Scrapy