Skip to content

Jin-Stat-and-Data-Science-Group/Web_Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 

Repository files navigation

任务

2020年9月25日

根据TeachersInfoDownload.py文件,周日(9月27日)晚上之前写出四个函数:

  1. 第一个函数获取id和学院名称,根据37-49行

  2. 第二个函数获取每个学院老师的网址(地址)得到学院+老师姓名+网址,可以以一个老师(蔡必卿)为例,获取他的9列信息,根据代码147-202行(姓名、个人主页、入职年份、职称、毕业院校、性别、学科、科研项目信息、论文发表信息)根据代码147-202行

  3. 第三个函数获取学院所有老师的人数,包含学院名称、学院ID、学院人数,根据代码95-119行

  4. 第四个函数获取学院每个老师的网址,根据代码121-145行

上面的每个函数都要能够输出excel表格

项目目标

2020年9月28日

  1. 第一个函数:把第三四个函数合并,目标是得到所有老师六个变量的dataframe,姓名、 网址、性别、职称、硕导、博导
  2. 第二个函数:根据得到的每个老师的网址,用url做参数,目标是得到首页下的姓 名、所在单位、学历、学位、学科、入职年份六个变量,以及科学研究下的科研项 目信息、论文发表信息两个变量

爬虫基础

  1. 网络知识
  2. 网页知识(html, css, javascript)
  3. 正则表达式
  4. 实现:Python 包
    • urllib
    • Requests
    • BeautifulSoup4
    • lxml
    • Selenium
    • pyspyder
    • Scrapy

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 7