FictionDown是一款網(wǎng)絡(luò)小說爬取工具,支持自動(dòng)校對(duì)、多格式轉(zhuǎn)換,小說爬取類的網(wǎng)上較多,基本上每個(gè)看小說的程序員應(yīng)該都寫過類似的東西,這個(gè)解決的是章節(jié)缺失和章節(jié)順序錯(cuò)亂的問題,還內(nèi)置了簡(jiǎn)單的廣告過濾,實(shí)際上大部分需要手動(dòng)刪除。
軟件特性
以起點(diǎn)為樣本,多站點(diǎn)多線程爬取校對(duì)
支持導(dǎo)出txt,以兼容大多數(shù)閱讀器
支持導(dǎo)出markdown,可以用pandoc轉(zhuǎn)換成epub,保留書本信息、卷結(jié)構(gòu)、作者信息
內(nèi)置簡(jiǎn)單的廣告過濾(現(xiàn)在還不完善)
用Golang編寫,安裝部署方便,外部依賴只有PhantomJS
使用流程
輸入起點(diǎn)鏈接
獲取到書本信息,開始爬取每章內(nèi)容,遇到vip章節(jié)放入Example中作為校對(duì)樣本
手動(dòng)設(shè)置筆趣閣等盜版小說的對(duì)應(yīng)鏈接,tamp字段
再次啟動(dòng),開始爬取,只爬取VIP部分,并跟Example進(jìn)行校對(duì)
手動(dòng)編輯對(duì)應(yīng)的緩存文件,手動(dòng)刪除廣告和某些隨機(jī)字符(有部分是關(guān)鍵字,可能會(huì)導(dǎo)致pandoc內(nèi)存溢出或者樣式錯(cuò)誤)
d -f md生成markwown
用pandoc轉(zhuǎn)換成epub,pandoc -o xxxx.epub xxxx.md