當前位置:電腦軟件 > 網(wǎng)絡軟件 > 網(wǎng)站優(yōu)化 > 火車采集器免費版V9.10

火車采集器免費版V9.10

大?。?3.4MB語言:簡體中文類別:網(wǎng)站優(yōu)化

類型:國產(chǎn)軟件授權:免費軟件時間:2019/10/23

官網(wǎng):

環(huán)境:Windows10,Windows8,Windows7,WinVista,WinXP

安全檢測:無插件360通過騰訊通過金山通過瑞星通過

本地下載

火車采集器英文名LocoySpider,它是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析、挖掘軟件,它擁有網(wǎng)址采集、內(nèi)容采集、數(shù)據(jù)處理、數(shù)據(jù)發(fā)布、日志管理等等功能,且支持多數(shù)據(jù)庫,能夠無限級多頁采集、全自動運行、分布式高速采集、多識別系統(tǒng)、采集監(jiān)控系統(tǒng),可以非常好的幫助網(wǎng)站管理優(yōu)化人員對網(wǎng)站進行分析優(yōu)化?,F(xiàn)在已經(jīng)被電商運營人員、企業(yè)人員、 網(wǎng)站站長等各行業(yè)的人使用。有需要的用戶快來下載火車采集器免費版吧,小編在下文還為大家附上了簡單的使用教程!
火車采集器免費版

采集器教程

1、新建分組--新建任務

2、添加網(wǎng)址+ 編輯獲取網(wǎng)址的規(guī)則

選擇范圍在 ul 里面的 li 里面的鏈接,注意排除重復地址,可以點擊下面測試網(wǎng)址采集獲取。

可以看到有采集到的文章鏈接了。

3、采集內(nèi)容規(guī)則
我這邊需要采集下面圖上展示數(shù)據(jù)(catid是欄目id,可以將采集到的數(shù)據(jù)放入對應欄目,設置固定值就好)

著重說下內(nèi)容和圖片的采集,標題和描述同理內(nèi)容采集

內(nèi)容采集:
打開一個采集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網(wǎng)址前面加上 view-source: 一樣可以查看):選中文章開頭一個位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下圖1處,結(jié)尾同開頭一樣。我截取內(nèi)容不想里面還帶有鏈接圖片可以數(shù)據(jù)處理,添加--html標簽排除--選好確定--確定

還有需要下載頁面圖片,勾選和填寫下面選項

圖片采集:
(1)選中范圍和內(nèi)容一樣(文章內(nèi)圖片)
(2)數(shù)據(jù)處理選 提取第一張圖片,內(nèi)容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾,獲取內(nèi)容:aa.jpg
(4)數(shù)據(jù)庫存儲有前綴,添加上, upload/xxxxx/

找一個頁面測試一下,可以看到對應項目都獲取到了。

4、發(fā)布內(nèi)容設置,這里以方式三發(fā)布到數(shù)據(jù)庫為例子,編輯后回到這邊勾選剛定義的模塊就好:


5、我需要保存圖片到本地,要設置下保存文件的路徑(ftp后續(xù)會試著使用)。

6、保存,查看剛新建的任務,右鍵 開始任務運行,這邊就可以看到文字和圖片都下載下來了,數(shù)據(jù)庫里面也可以看到了。

功能介紹

一、網(wǎng)址采集
1、可以通過網(wǎng)址采集規(guī)則的設定,快速采集到所需的網(wǎng)址信息??墒謩虞斎搿⑴刻砑踊蛑苯訌奈谋緦刖W(wǎng)址,并能自動篩選去除重復的網(wǎng)址信息。
2、支持多級頁面網(wǎng)址的采集,多級網(wǎng)址采集可以使用頁面分析自動得到地址、手動填寫規(guī)則兩種方式。應對多級分頁中內(nèi)容不同,但地址相同的頁面網(wǎng)址采集,軟件設置了 GET,POST 和 ASPXPOST 三種 HTTP 請求方式。
3、支持網(wǎng)址采集測試,可以驗證操作的正確性,避免操作有誤導致采集結(jié)果不準確。
二、內(nèi)容采集
1、可以通過分析網(wǎng)頁源代碼,設定內(nèi)容采集規(guī)則,精準采集到網(wǎng)頁中散亂分布的內(nèi)容數(shù)據(jù),并支持多級多頁等復雜頁面中的內(nèi)容采集。
2、通過定義標簽,能夠?qū)?shù)據(jù)進行分類采集,比如將文章內(nèi)容的標題與正文分開采集。軟件配置了三種內(nèi)容提取的方式:前后截取、正則提取、正文提取。可選性強,用戶可以按照使用需求進行選擇。
3、內(nèi)容采集同樣支持測試功能,可選用一個典型頁面來測試內(nèi)容采集的正確性,以便及時更正和進行下一步數(shù)據(jù)處理。
三、數(shù)據(jù)處理
對于采集到的信息數(shù)據(jù),軟件可以對其進行一系列的智能處理,使采集到的數(shù)據(jù)更加符合我們的使用標準。主要包括 1)標簽過濾:過濾掉內(nèi)容中不需要的空格,鏈接等標簽;2)替換:支持近義、同義詞替換;3)數(shù)據(jù)轉(zhuǎn)換:支持漢譯英、簡轉(zhuǎn)繁、轉(zhuǎn)換為拼音等;4)自動摘要、自動分詞:支持自動生成摘要和自動分詞功能;5)下載選項:支持任意格式的文件探測下載,并能夠?qū)⑾鄬Φ刂分悄苎a全為絕對地址。
四、數(shù)據(jù)發(fā)布
1、將數(shù)據(jù)采集下來后默認將數(shù)據(jù)保存在本地數(shù)據(jù)庫(sqlite 、MySQL、sqlserver),用戶可以根據(jù)自己的需求選擇對數(shù)據(jù)的后續(xù)操作以完成數(shù)據(jù)發(fā)布,支持直接查看數(shù)據(jù)、在線發(fā)布數(shù)據(jù)和入數(shù)據(jù)庫,并支持用戶進行發(fā)布接口的使用和開發(fā)。
2、根據(jù)數(shù)據(jù)庫類型用相關軟件打開可以直接查看數(shù)據(jù),配置一個發(fā)布模塊即可將數(shù)據(jù)在線發(fā)布到網(wǎng)站,可以設置自動登陸網(wǎng)站,獲取欄目列表等;如果入到用戶自己的數(shù)據(jù)庫中,用戶只需寫幾個 SQL 語句,程序就會按照用戶的 SQL 語句導入數(shù)據(jù);保存為本地文件時支持本地 SQL 或文本文件(word、excel、html,txt)格式。
五、多任務多線程運行
可以選擇同時運行多個任務,支持不同網(wǎng)站或同一站點下不同欄目的內(nèi)容同時采集,能夠有計劃的調(diào)度任務。單個任務在采集內(nèi)容和發(fā)布內(nèi)容時均可以使用多線程運行,提升運行效率。
六、HTTP 二級代理服務器
可以通過二級代理服務器的功能實現(xiàn) IP 的更換,避免因 IP 被限制訪問而導致的采集無法運行,用戶需先獲取一些代理 IP,然后將代理 IP 導入采集器中完成設置即可。
七、計劃任務管理器
支持計劃任務管理,能夠定時自動地進行采集發(fā)布,實現(xiàn)自動更新的功能,可對加入計劃任務內(nèi)的任務設置其執(zhí)行的頻率和開始運行的時間,執(zhí)行頻率可以選擇每周、每天、每間隔,或根據(jù)用戶需求自定義 corn 表達式執(zhí)行。
八、任務運行日志管理
配置了采集監(jiān)控系統(tǒng),任務運行管理器將采集監(jiān)控模塊生成的記錄信息組裝成日志條目,如果啟用了自動運行功能或需要對程序運行狀況進行監(jiān)控,可以查看任務運行日志中某個日期時間段內(nèi)的運行情況,來做具體的分析。可以具體了解到任務的成功數(shù)量、失敗數(shù)量,重復數(shù)量和用時等數(shù)據(jù)。
九、插件擴展
1、支持 PHP 和 C#插件擴展,可以幫助用戶對采集的數(shù)據(jù)進行修改處理,完成用戶的更多需求,極大的擴展了采集器的功能。用戶可以按照插件開發(fā)手冊自行開發(fā)所需插件,也可以使用火車采集器官方開發(fā)的一些插件資源。
2、中配置了插件管理器,可對插件列表進行管理和選擇插件方法,支持插件測試。

軟件特色

一、全網(wǎng)通用
1、基于 web 結(jié)構(gòu)的采集
火車采集器的采集原理是基于 web 結(jié)構(gòu)的源代碼提取,幾乎適用于所有的網(wǎng)頁,以及網(wǎng)頁中能夠看到的所有內(nèi)容;
2、擴展性強
支持接口和插件多種擴展延伸,打破操作局限,滿足更加多樣化的使用需求,使這款軟件真正做到全網(wǎng)通用。
二、功能全面
1、集采集發(fā)布于一體
在每個功能上都做了優(yōu)化設置,除了最基礎的數(shù)據(jù)采集,更是融入了強大的數(shù)據(jù)處理和數(shù)據(jù)發(fā)布功能,全面完善了對于數(shù)據(jù)利用的整個流程。
2、多元化的功能配置
在許多細節(jié)操作中配置多項可選方式。
1)多種提取方式:網(wǎng)址和內(nèi)容的提取均設置了多種方式,網(wǎng)址采集包含手動填寫采集規(guī)則、頁面自動分析,內(nèi)容提取包含前后截取、正則提取、正文提取,標簽組合,用戶可根據(jù)自己的需要選擇不同方式;
2)多識別系統(tǒng):正文識別、任意編碼識別等多種智能識別系統(tǒng);
3)圖片、壓縮文件、視頻等任意格式的文件都能輕松下載;
4)支持Access/MySQL/MsSQL/Sqlite/Oracle 五種類型的數(shù)據(jù)庫發(fā)布;5)可選擇使用加密狗,隨時移動更安全。
三、高效穩(wěn)定
1、分布式高速采集系統(tǒng)
采用分布式高速采集系統(tǒng),將任務分配至多個服務端同時運行采集,多任務多線程式的運行模式,能夠最大化提升運行效率。
2、占用資源少
任務量得以分解,服務端所占用資源減少,使得這款軟件的性能更加穩(wěn)定。
四、數(shù)據(jù)精準
1、采集監(jiān)控系統(tǒng)
實時地監(jiān)控采集,任務運行日志報錯統(tǒng)計,及時修復,確保數(shù)據(jù)不被遺漏。
2、數(shù)據(jù)處理準確
多種精細化的數(shù)據(jù)處理方式,結(jié)合測試功能讓火車采集器做到數(shù)據(jù)采集無誤,精準可用。

使用人群

1、企業(yè)人員
收集潛在的客戶信息,快速挖掘新客戶;通過分析客戶行為開展業(yè)務,降低風險和預算,洞察競爭對手的業(yè)務數(shù)據(jù),助力商業(yè)決策。
2、電商運營
按照用戶需求定向采集商品信息、商家信息、產(chǎn)品評價,挖掘相關數(shù)據(jù)背后的潛在價值,進行精準的營銷優(yōu)化,提升運行效率。
3、政府機關
實時匯集國內(nèi)外信息數(shù)據(jù),掌握所關注的動態(tài)信息,進行輿情監(jiān)控,及時對不利或危情信息進行預警,并通過分析數(shù)據(jù)指導社會與經(jīng)濟的發(fā)展。
4、網(wǎng)站站長
實現(xiàn)定時采集數(shù)據(jù)和自動發(fā)布數(shù)據(jù),采集優(yōu)質(zhì)內(nèi)容加工處理后填充發(fā)布到網(wǎng)站,讓網(wǎng)站快速擁有強大的內(nèi)容支撐,輕松提升流量與人氣。
5、個人需求者
批量下載大量的文件,圖片等內(nèi)容,解決個人在學術研究或生活,工作等方面的數(shù)據(jù)需求,取代手動復制粘貼,提高效率,節(jié)省下更多時間。

更新日志

火車采集器免費版V9.10(2019-10-23)
1、修復分頁采集請求出錯的問題
2、批量網(wǎng)址處理中,時間格式增加轉(zhuǎn)換為“時間戳”的功能。
3、修復“智能提取電話”功能意外變?yōu)椤爸悄芴崛∴]箱”的bug。
4、無限極列表頁采集,是否由于重復數(shù)據(jù)而停止修改為可配置(原為自動停止采集)。
5、修復老板鍵設置為空之后,會默認變成 CtrL+Alt的bug。
6、修復由于沒有水印配置,導致的程序批量復制出錯的問題。
7、修復由于多頁未能獲取到,導致由多頁獲取數(shù)據(jù)的標簽丟失的bug。
8、發(fā)布模塊,數(shù)據(jù)庫的編碼增加utf8mb4格式支持。
9、修復分頁循環(huán)匹配時,組合標簽僅獲取第一頁的bug
10、優(yōu)化批量網(wǎng)址處理中,由于數(shù)據(jù)量太多而導致程序卡頓的問題。
11、修復使用PHP插件,無法獲取請求cookie的問題。
軟件標簽:火車頭采集器
下載地址

有問題?點擊報錯+投訴+提問

網(wǎng)友評論

0條評論

評分:
captcha 評論需審核后才能顯示

實時熱詞