洞悉互聯網前沿資訊,探尋網站營銷規律
作者:狐靈科技 | 2019-08-26 23:12 |點擊:
深維全能信息采集軟件官網:www.sumwill.com
今天寫一篇深維全能信息采集軟件的教程
采集的方法其實很簡單 和火車頭類似 織夢的采集俠也是這樣的
今天我拿順企網為例
首先打開深維全能信息采集軟件
新建一個采集任務 如下圖
任務名稱可以隨意填寫 網站首頁一般是采集網站域名即可 備注隨意
例如我的
任務名稱:重慶順企網制造業
網站首頁:www.11467.com
備注說明:順企網制造業
這里的網頁編碼 一般都是默認的 如果發現采集是亂碼 那么自己更改一下編碼
然后就是起始地址
因為我采集的是順企網的重慶制造業 他的地址是
https://www.11467.com/chongqing/dir/c.htm
然后我們多看看下一頁 看網址會發生什么變化 如果是頁面變化是數字 并且是規則的那么就可以采集
第二頁是:https://www.11467.com/chongqing/dir/c-p2.htm
第三頁是:https://www.11467.com/chongqing/dir/c-p3.htm
第四頁是:https://www.11467.com/chongqing/dir/c-p4.htm
可以發現是規則的 我們輸入p1也就是第一頁
那么起始地址就是https://www.11467.com/chongqing/dir/c-p1.htm
要把其中的p1當中的1改成可以變動的 我們也要看下最后又多少頁
這個最后就20頁 因此 頁碼范圍就是從1--20
再把p改成插入變量 會變成{page}符號 在點擊添加
不懂得可以看我得配置圖
然后就是導骯頁面 這個也要一定要配置好 不然會出很大得問題
最主要得就是頁面名稱 (頁面標識是進入文章頁面必須有得鏈接標識)
這里說明一下:如果你的列表頁 點進去后可以直接 看到你想要采集得內容 那頁面名稱 就選擇列表頁 頁面類型選擇最終頁面
然后在添加一個 頁面名稱 文章頁面 頁面類型選擇最終頁面
如圖所示
如果你采集得頁面 點進去后 還要再次點擊一個頁面才能采集到內容 那頁面名稱 就選擇列表頁 頁面類型選擇 導航頁
最后就是采集數據了 把我們想要采集得內容填寫上即可
比如我要采集公司名稱 打開得內容頁是:https://www.11467.com/chongqing/co/300685.htm
在最下面我們可以看到公司名稱 聯系人電話 地址 QQ 工商信息
記住 我們要找唯一 查看網頁源代碼很多公司名字 我們必須找到唯一識別得
這里面他的法人這個字段是唯一得 所以我們可以用這個
記得把html去除即可 如果你有其他用途 不去除也可以 根據需求來
以上就是深維全能信息采集軟件使用教程