[學無止境][Python]爬蟲實作成品 & 修改內容
直接上 Github頁面
更新內容(2018.05.07)
1. 改為互動式介面
具體包括 關鍵字、爬行頁數、爬行網站、是否在執行同時輸出、匯出格式(txt或csv)。
考慮新增 在執行時印出標題或完整資料
2. 改用Dictionary儲存資料
2-1 合併相同資料
2-2 將爬行到的資料依照標題作排序
3. 自動為檔案命名
在檔案名稱內加入 搜尋網站、頁數(若輸入終止頁大於執行頁數,則判定為全部搜尋,不會顯示頁數)
4. 搜尋不到結果時,提示關鍵字錯誤
在P網站若搜尋不到結果會有Search Not Found 的頁面,但在M網站則同樣是404 Not Found,因此做不同處理
5. 重新整理終止規則
終止條件有三:1.當前頁數 = 終止頁數;2.找不到當前頁數(404 Not Found)且非第一頁;3.關鍵字錯誤,在第一頁就找不到頁面或Search Not Found
未來更新方向 (2018.05.07)
1. 下載空間過濾 (未完成)
因為AllDebrid跟Real-Debrid似乎都不支援UploadGiG,所以當下載網址是UG時將其忽略
2. cfscrape失效時,重新執行 (未完成)
實際測試後發現cfscrape偶爾會不能繞過CDN,需重新執行整個程式,因此在內部加入重新執行的代碼,但目前仍無法在重新執行後繞過。→推測可能是導入套件時就出問題
3. 檢查雲端上的目錄,確認是否已經存在雲端
目標是只檢查番號(空格前面通常是番號)
2 thoughts on “[學無止境][Python]爬蟲實作成品 & 修改內容”
請問這支爬蟲會出執行檔嗎?
Github上已經有.py的檔案,有一定基礎的話已經足夠使用了
封裝成EXE後也會不利修改,所以沒打算封裝成EXE