? 數據倉庫是數據庫概念的升級。從邏輯上理解,數據庫和數據倉庫沒有區別,都是通過數據庫軟件實現存放數據的地方,只不過從數據量來說,數據倉庫要比數據庫更龐大得多。
? 數據庫通常由很多表組成,表是二維的,一張表里面有很多字段。字段一字排開,對數據就一行一行的寫入表中。
? 數據庫的表在于能夠用二維表現多維的關系。
?
? 數據倉庫的數據量要比數據庫大得多。
? 數據庫主要用于事務處理。
? 數據倉庫主要用于數據分析,輔助做決策。
數據庫的特點是相對復雜的表格結構,存儲結構相對緊致,少冗余數據。讀和寫都有優化。相對簡單的read/write query,單次作用于相對的少量數據。一般只是讀優化。相對復雜的read query,單次作用于相對大量的數據(歷史數據)。
? 數據倉庫的特點在于深度優先在很多情況下會導致爬蟲的陷入問題,目前常見的是廣度優先和最佳優先方法。該算法的設計和實現相對簡單。在日前為覆蓋盡可能多的網頁,般使用廣度優先搜索方法。也有很多研究將廣度優先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始 URL 在一定鏈接距離內的網貞具有主題相關性的概率 很大。