FictionDown是一款網(wǎng)絡(luò)小說爬取工具,支持自動校對、多格式轉(zhuǎn)換,小說爬取類的網(wǎng)上較多,基本上每個看小說的程序員應(yīng)該都寫過類似的東西,這個解決的是章節(jié)缺失和章節(jié)順序錯亂的問題,還內(nèi)置了簡單的廣告過濾,實際上大部分需要手動刪除。
軟件特性
以起點為樣本,多站點多線程爬取校對
支持導(dǎo)出txt,以兼容大多數(shù)閱讀器
支持導(dǎo)出markdown,可以用pandoc轉(zhuǎn)換成epub,保留書本信息、卷結(jié)構(gòu)、作者信息
內(nèi)置簡單的廣告過濾(現(xiàn)在還不完善)
用Golang編寫,安裝部署方便,外部依賴只有PhantomJS
使用流程
輸入起點鏈接
獲取到書本信息,開始爬取每章內(nèi)容,遇到vip章節(jié)放入Example中作為校對樣本
手動設(shè)置筆趣閣等盜版小說的對應(yīng)鏈接,tamp字段
再次啟動,開始爬取,只爬取VIP部分,并跟Example進行校對
手動編輯對應(yīng)的緩存文件,手動刪除廣告和某些隨機字符(有部分是關(guān)鍵字,可能會導(dǎo)致pandoc內(nèi)存溢出或者樣式錯誤)
d -f md生成markwown
用pandoc轉(zhuǎn)換成epub,pandoc -o xxxx.epub xxxx.md