產品介紹 Product introduction
網絡資源采集與歸檔系統軟件是一款針對互聯網數據進行采集與挖掘的專業工具。它可將瀏覽器瀏覽到的任何數據進行采集獲取,并可按照用戶的需求將數據進行加工、保存,還可根據用戶的需求對采集到的數據進行發布管理。
系統支持多機并行爬取、分布式存儲、爬蟲控制、全文檢索、站點原版原貌展現、自動查重去重等功能。數據采集系統能夠為數字圖書館的建設提供更新和增加圖書、期刊數據庫信息,對廠商提供的數據進行采集分析提取有用信息入庫或全文檢索。
產品功能 Product function
主要包括:采集管理、存儲管理、發布管理以及系統平臺管理等。
操作界面由菜單、工具欄、樹形菜單、系統信息、分類顯示數據頁簽、監控雷達、狀態欄等幾部分構成。
產品特點 Product feature
系統支持使用正則表示式去匹配需采集的數據
支持對學術站點的周期性保存,并以原版進行展現
系統支持信息采集、存儲、展現,可伸縮式三層架構
信息采集層支持熱插拔
針對不同站點,存儲層支持異構數據庫進行存儲
異構數據庫存儲使資源能夠進行主題應用的同時保持互聯網資源原貌展現