一般而言,描述性分析是在某種意義上或為數據集添加某些結構的過程,有時這可能非常大。因此,大多數在業務中提及“分析”的討論實際上都是在談論描述性分析(Bertolucci,2013)。最明顯的例子是當我們在研究開始時進行描述性統計,并查看諸如范圍,均值,中位數,四分位數,偏斜和峰度之類的數據時。我們正在了解數據如何分解。在某些情況下,這實際上可能是我們要尋找的全部內容,但是在大多數情況下,我們將希望進一步深入了解數據。例如,當我們運行諸如k-means之類的聚類算法時,它使我們能夠將數據組織成看起來似乎彼此相同的組。
另一方面,預測分析還可以查看數據的形狀,但是它也使我們能夠識別趨勢并對未來事件進行數學預測。簡而言之,您正在分析過去(也許是最近的過去,如“實時”數據中的,但仍然是過去),以預測未來。理解這一點的最簡單方法可能是考慮回歸技術,即在數據中確定趨勢線時,它的基本數學公式使您可以預測在類似條件下將來會發生什么。掌握代數的任何人都可以理解其原理-一旦確定了模型的公式及其系數,您只需插入因變量,并獲得結果的預測值。
當我們將“推論”引入組合時,這會讓人感到困惑,這是由Merriam-Webster定義的,涉及“ 通常以計算出的確定性程度將統計樣本數據傳遞給一般化(根據總體參數的值)” 。換句話說,我們正在根據我們在數據中看到的信息,對未來可能發生的情況進行有根據的猜測。這種推論廣泛應用于可 預測的數據分析以及 描述性數據分析。。例如,如果Netflix根據共同的喜好使用某種形式的聚類來將用戶分組(例如喜歡外國電影的人),那么他們非常會使用該描述性數據來告知電影他們“推薦”給您的電影。實際上,他們是根據描述性數據進行預測。它可能沒有附加數學方程式(或者也許有,因為他們可能有更高級的技巧),但這只是一個預測。另一方面,如果Netflix使用回歸模型,則它可能會發現一組變量與另一組變量之間的相關性,并對某事進行量化預測。
總而言之,描述性和預測性技術之間似乎有些重疊,但是其定義可能類似于有監督和無監督的學習,其中一種涉及基于過去的場景進行預測,在這種情況下我們可以確定已知的結果,而另一種則基于涉及經歷并規劃過去發生的事情。