機房裡相當冷清,看不到一個人。

畢竟這會兒在放暑假,考研大軍們一般也用不上電腦。

走過去開啟空調,陸舟隨便找了臺機子坐下,輸入自己的學號和密碼,熟練地登入電腦。

之所以選擇學校的機房,主要是因為python語言編寫的程式主要都是在Linux系統下執行,直接在Linux環境下學習python語言可以說是一舉兩得。

而陸舟自己的二手筆記本實在太垃圾了,論文轉個pdf格式都得假死一會兒,玩個擼啊擼別人都開始對線了他才站上泉水,裝雙系統或者虛擬機器這些騷操作是不用想的。

“雖然書上都講得很清楚了,沒想到這玩意兒用起來這麼麻煩……果然紙上的東西和實際操作起來完全是兩回事,想學到東西還是得靠實踐啊。”

第一次使用Linux系統的陸舟只感覺兩眼抓瞎,照著從圖書館借來的說明教程看了好一會兒,才算是摸清楚了門道。

不得不說,別人windows系統佔據這麼大的市場份額還是有道理的,全圖型的作業系統即便是完全沒碰過電腦的小白,也能很輕鬆的上手。

然而Linux系統卻不一樣,基本上是命令列操作模式,透過鍵盤就能完成一切操作。也幸虧學校裝的是帶有桌面環境的發行版,要不陸舟還真不知道滑鼠這玩意兒有啥用。

當然了,Linux的優點也很明顯,超強的可定製性和安全性使得它比windows系統更適合伺服器等領域。而且一旦熟悉了命令列操作,效率將比windows系統高個數倍不止。所以很多企業在招聘伺服器前後端程式設計師的時候都會問一句,會不會用Linux系統。

熟悉了Linux系統的基本操作,陸舟開啟了python軟體,翻開了書本,坐在電腦面前發呆。

“說到python的運用之一就是編寫網路爬蟲,想要檢驗學習成果的話,從這個開始是最好的……可是做個什麼爬蟲呢?”

陸舟不禁陷入了沉思。

爬圍脖上的博文?

爬貼吧的帖子?

好像挺無聊的。

關鍵是爬下來的資料拿在手上沒用,多了連放的地方都沒有。

忽然,他心中一動,不知怎麼的就回憶起了每次回家痛苦的搶票經歷。倒不是因為他電腦卡,而是因為鐵道部官網的ui設計實在是太反人類了。

“用爬蟲技術爬取12306網站的各車站、車次、餘票資料資訊……這個好像可以搞啊。”

一想到這裡,陸舟也不再磨蹭了,立刻開始幹活。

畢竟作為python語言的一種典型運用範例,爬蟲程式的模板在書中都是有提到的,而且針對不同種情況,書中還針對演算法進行了不同程度的改良。

當然了,12306畢竟不是一般BBS論壇,把這個作為初學者的練習目標,還是有不小難度的。

不過也僅僅是不小而已,對於已經吃透了整本書的陸學霸來說,問題卻是不大。爬蟲本身並沒有太高的技術難度,不到30行程式碼就搞定了整個程式,完美執行無bug。

然後緊接著就是抓取了。

將網站的url複製在程式碼後面,陸舟選擇執行,並且將資料生成表格,匯入到預先建好的資料夾中。

緊接著機箱的風扇開始嗡嗡作響,電腦變的卡頓起來,一行行編碼從黑色的對話方塊中閃過,被迅速整理進表格中。

看著不斷被填充的資料夾,靠在椅子上的陸舟心中感慨。

“python語言真尼瑪方便,難怪那麼多大牛推薦這玩意兒。”

看著一行行資料閃過的資訊,陸舟還真有種過把駭客癮的錯覺。

不過當然了,也僅僅是錯覺而已,連感覺都談不上,畢竟這玩意兒和駭客技術完全八竿子打不著邊。從伺服器上爬取公開資訊是不犯法的,頂多有擠佔別人伺服器資源的嫌疑,會被各大站長痛恨不已。

所以很多“小氣”的網站會設定有反爬蟲程式,技術高點的要麼讓你什麼東西都爬不到,要麼爬下來的都是亂碼,技術含量低的也可以透過訪問次數監控,直接鎖了你的ip。