昨天成功爬取了51job的列表頁,下面的工作就是爬取列表頁中點進崗位的詳情頁。
這里可以用字典(鍵值對)的方式來保存數(shù)據(jù)。
數(shù)據(jù)有時候其實跟人一樣,只有成雙成對,才會快樂。
先設(shè)定兩個全局變量Data和List,Data用于保存每個崗位的全部信息,List用于保存所有崗位信息。
List中的每一個元素,就是Data這個字典。
這里還有個需要注意的問題就是,不要沒完沒了的爬,作為測試階段,先爬取一個網(wǎng)頁就好了,比如先隨便找個崗位,把它詳情頁的網(wǎng)址復(fù)制下來。
然后下面就是爬取詳情頁的一個難點。
爬取出的有些數(shù)據(jù)是一串的,如何進行文字解析呢?
這個貌似之前在黑馬的課程中有講到。
主要包括字符串截取、分隔、去除特殊符號、去除前后空格等功能。
比如對上面的例子來說,使用 split 和 sprip 結(jié)合就可以輕松實現(xiàn)了。
參考之前解析豆瓣的辦法,寫出getData 函數(shù)。
最關(guān)鍵的就是將 jname 內(nèi)容放到字典中去,而job在 jobList 中,其實是作為一行記錄。
這個爬取 51job 的代碼,老師講到這里就結(jié)束了。
嗯,是的,你沒看錯,下面沒有了。
因為此項目是這個課程老師留給學(xué)生們的作業(yè),所以他只是在一些關(guān)鍵點上進行了一番提點,并沒有把所有答案都直接“喂”給孩子們。
從教學(xué)方法上來說是沒錯吧,不過對于我等跟著課程學(xué)的,就稍微有點不太友好了。
尤其今天和昨天的課程,很多地方聽的我都有點糊涂,直接導(dǎo)致我獨立完成這個項目,有點信心不足了。
我現(xiàn)在對自己的評價很客觀:比小白強一點,但絕對還是個妥妥的 Python 初學(xué)者。
很多朋友都知道,我的終極目標(biāo)是爬房產(chǎn)中介網(wǎng)站,通過掌握更全面的信息,買到合適的學(xué)區(qū)房。
巧的是,前幾天偶然得到黑馬就業(yè)班的視頻,我發(fā)現(xiàn)里面就有講這個內(nèi)容。
所以,下一步我會繼續(xù)轉(zhuǎn)戰(zhàn)黑馬,
但是,學(xué)習(xí)心得這塊我應(yīng)該就不會繼續(xù)更新了。
因為我發(fā)現(xiàn),前面學(xué)習(xí) Python 基礎(chǔ)知識的時候,寫心得還是輕松加愉快的事情。
但是到后面做項目、編代碼時候,很多時候都是直接敲代碼,心得這東東真的沒法寫。
當(dāng)然,有重大突破到時候,我還是會跟大家分享的。
有些人問我這50多天是怎么堅持下來的,明天,我就跟大家一起聊聊這段時間的一些感想吧。
大爺們,明天記得來玩喲~
作者簡介:馮十一,多平臺簽約作者,每周閱讀一本書。40歲堅持學(xué)習(xí)的中年男人,篇篇都是有趣又輕松的干貨,專注個人成長、思維方式。歡迎關(guān)注@天津馮十一