四川省教育考試院官網(wǎng)最新動(dòng)態(tài)獲取工具,由論壇大佬原創(chuàng)制作的一個(gè)能及時(shí)獲取四川省教育考試院官網(wǎng)最新動(dòng)態(tài)信息的獲取程序,由Python語(yǔ)言編寫(xiě)。對(duì)于需要不斷刷新想要第一時(shí)間獲取最新信息的朋友們考生們可以下載這款EXE程序,一旦有更新就會(huì)立即通知,無(wú)需苦苦等待刷新。
四川省教育考試院官網(wǎng)最新動(dòng)態(tài)獲取工具使用
首先.訪問(wèn)官網(wǎng)www.sceea.cn
1.右擊左邊的列表,選擇‘檢查’
2.右擊A標(biāo)簽
3.選擇復(fù)制(copy)
4.復(fù)制Xpath路徑,然后得到不同的屬性值
四川省教育考試院官網(wǎng)最新動(dòng)態(tài)獲取工具代碼
import requests
import time
from lxml import etree
import webbrowser
headers = {
'User-Agent': 'Mozilla/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}
eduurl ='http://www.sceea.cn' # 四川教育考試院官網(wǎng)
alll = [] # 定義一個(gè)空列表,存放已訪問(wèn)過(guò)的標(biāo)題
while True: # 死循環(huán)
HTMl = requests.get(eduurl, headers=headers).text
HTMl = etree.HTML(HTMl)
title = HTMl.xpath('//*[@id="news-left"]/li/a/@title') # 用Xpath獲取文章標(biāo)題
titletime = HTMl.xpath('//*[@id="news-left"]/li/span/span[2]/text()') # 用Xpath獲取發(fā)布時(shí)間
urls = HTMl.xpath('//*[@id="news-left"]/li/a/@href') # 用Xpath獲取文章連接
keyword = ['?', '對(duì)口招生', '旅游', '高職'] # 建立一個(gè)關(guān)鍵字列表
for tit in title: # 在所有得到的標(biāo)題里面遍歷
for key in keyword: # 在所有關(guān)鍵字里面遍歷
if key in tit: # 判斷關(guān)鍵字出現(xiàn)在標(biāo)題中
if tit in alll: # 判斷標(biāo)題在已訪問(wèn)過(guò)的標(biāo)題列表里面
pass # 在里面就不作為
else: #
local = title.index(tit) # 獲取標(biāo)題在標(biāo)題列表中的位置,用于得到發(fā)布時(shí)間
print(titletime[local] + ' ' + title[local] + '\n') # 打印出發(fā)布時(shí)間和文章標(biāo)題
url = 'http://www.sceea.cn' + urls[local] # URL的拼接
webbrowser.open(url) # 打開(kāi)瀏覽器,訪問(wèn)文章
alll.append(tit) # 將已訪問(wèn)的標(biāo)題添加到列表中,防止重復(fù)訪問(wèn)
time.sleep(600) # 設(shè)置延遲10分鐘,相當(dāng)于10分鐘刷新一次吧
相關(guān)說(shuō)明
爬蟲(chóng)程序大部分功能通用,如果將代碼中的官網(wǎng)以及相關(guān)設(shè)置進(jìn)行替換,則可以獲取其它教育網(wǎng)站的查詢程序,源代碼也在安裝包內(nèi),可以下載學(xué)習(xí)