視頻教程:
圖文教程:
其實采集可以這么理解,定義頭和尾,除了在截取鏈接不需要檢測,在其它地方你定義的頭和尾,在同/個html表里不能有相同的,為什么不能有相同的呢?是因為采集的每一步(除了截取鏈接外)都是根據你所定義的頭和尾來截取頁面內容的。所以你在定義頭和尾不僅不能有相同的,還要盡可能地把不需要的內容排除開。如果你理解了這個定義頭和尾,基本上對于簡單的頁面是能采集的。/面我以一個實例來說明一下:
一、設置采集模塊
在后臺點擊【采集管理】,出現的是【新增采集模塊】的內容,主要設置下載的大小和超時時間,以及給采集項目分類,便于查詢,目前作用不是很大。
二、設置采集規則
1、點擊【新增采集項目】,進入采集項目的第一步,我們以采集SOHU的國內IT信息為例,如圖設置:
1)項目名稱:給采集項目命名
2)所屬模塊:采集數據入庫后,放入哪個欄目
3)目標頁面編碼:國內的網站選擇GB2312,國外網站選擇UTF-8,臺灣的繁體字網站選擇BIG5;
4)采集網址URL:就是要采集的列表頁面,這一步很關鍵,這一步關系到你能否采集完所有內容。一般你進入采集頁面先判斷一下是不是有多頁,如果有多頁你進入第二頁和第一頁是不是有規律變化,比如是:xxxx_1.htm,xxx_2.htm,特別注意數字,如果第一頁開始就有_id的規律,那就把第一頁作為列表網址,如果第一頁與第二頁沒相關規律,而是從第二頁開始才能這樣的規律,那將第二頁作為列表網址,第一頁放到一邊,等所有數據采集完了,再來采集單獨頁面,反正以后也只采集第一頁,為啥?因為一般更新的都在第一頁。
5)分頁/多頁采集設置:若只采集一個頁面,選擇“不作設置”,采集多頁面,可選擇其他3項;
6)采集屬性:“立即入庫”指一采集就在前臺顯示,建議此項不要選擇,沒選擇此項,采集結果將進入【采集結果】頁面, 后再入庫;“保存遠程圖片”指把圖片保存到本地;“倒序采集”指采集結果的排序順序,打勾它,采集記錄順序和采集列表頁一致。
7)狀態:指入庫后文章的狀態,即文章在前臺是顯示,還是隱藏;
8)其它設置項 是按字面的意思,一般默認設置就行,就不詳細說了
2、列表鏈接設置
1)打開采集頁面,如http://it.sohu.com/itguonei.shtml,
鼠標右擊頁面,彈出窗口,選擇【查看源代碼(V)】,在源代碼中找到所要采集的列表,如下圖,
找出“列表開始代碼”、“列表結束代碼”、“鏈接開始代碼”、“鏈接結束代碼”,最后兩項一般默認就行,然后點擊“下一步”。
3、正文內容設置
打開列表頁中的一個內容頁,如http://it.sohu.com/20101104/n277154569.shtml,鼠標右擊頁面,彈出窗口,選擇【查看源代碼(V)】,在源代碼中找到所要采集的“標題開始代碼”、“標題結束代碼”、“正文開始代碼”、“正文結束代碼”,其他幾個設置項視需要而定,可默認,然后點擊“下一步”。
4、正文內容采集效果
點擊“點擊查看正文內容采集效果”,出現如下頁面,那采集結果正常。
點擊“完成”后,會跳轉到【采集項目管理】頁面
注:若采集結果有問題,修改“列表鏈接設置”、“正文內容設置”中的起始、終止代碼,多試幾次,就可得出所要的內容了,有的頁面可能無法采集,不同所有的頁面都可以采集的。
三、采集項目管理
現在就可以開始采集了,點擊右邊的采集按鈕,進行單個采集,或者勾選幾個要采集的項目,點擊“批量采集”按鈕。建議上面設置項中不要勾選“立即入庫”,擔心采集有異常,這樣采集結束后,采集內容將在【采集結果】頁面中顯示,檢查沒問題后,再點擊入庫,最后到前臺檢查下數據,這樣整個采集過程就完成了。