網(wǎng)站seo優(yōu)化爬取詳細信息
日期 : 2020-09-30 15:40:02
爬取詳細信息。
首先,現(xiàn)在Element找到每部分內(nèi)容所在的標簽,標簽相同的,通過get_attribute查找屬性確定位置。
其次,與json方法一樣,將每個小標簽賦予空值,防止找不到該小標簽影響整個頁面的爬取。
接著,通過find_elements_by_css_selector用法,將定位好的內(nèi)容爬取下來,并賦值給對應的變量。
最后,將所有變量整合,放進列表ulist1中,方便后續(xù)寫入Excel。為方便后續(xù)數(shù)據(jù)的處理、分析和研究,將爬取下來的內(nèi)容保存到Excel中,對于爬取數(shù)據(jù)量大的,亦可以保存到MongoDB中。
首先,現(xiàn)在Element找到每部分內(nèi)容所在的標簽,標簽相同的,通過get_attribute查找屬性確定位置。
其次,與json方法一樣,將每個小標簽賦予空值,防止找不到該小標簽影響整個頁面的爬取。
接著,通過find_elements_by_css_selector用法,將定位好的內(nèi)容爬取下來,并賦值給對應的變量。
最后,將所有變量整合,放進列表ulist1中,方便后續(xù)寫入Excel。為方便后續(xù)數(shù)據(jù)的處理、分析和研究,將爬取下來的內(nèi)容保存到Excel中,對于爬取數(shù)據(jù)量大的,亦可以保存到MongoDB中。