我們處於大數據時代,需要面對很多五花八門的資料,像是傳統報表檔案(例如:excel檔)、非結構的文件內容(例如:TXT檔、CSV檔及JASON檔等)以及茫茫大海裡的網路訊息,我們只需要靈活運用Power Query,將資料進行匯入、整理、拆分、合併、附加、轉換、過濾及篩選,才能整理出符合自己需要的報表。換句話說,自己的資料自己抓,自己的報表自己救。
接著簡單介紹一下,如何使用Power Query快速處理:
- 匯入多個檔案/同個檔案有多個工作表,並整併為一個檔案
- 不影響原始資料檔。
- 後續如果有增減資料檔案,可自動將資料合併進去,無須再重新匯入整理。
- 資料拆分為多個欄位,依據資料內容去做拆分
- 可依「符號(半形全形皆可)」、「字元數」、「位置」、「從小寫到大寫」、「從大寫到小寫」、「從數字到非數字」以及「從非數字到數字」來進行資料拆分。
- 除了上述分割方式,還能再額外選擇是需要只拆分一次,或者想從右邊開始拆分,還是想從左邊開始拆分。
- 篩選與過濾不必要的資訊
- 「篩選」:將不必要的資料取消勾選,與Excel篩選方式相同。
- 「取代」:將該欄的不必要的資料取代掉。
- 「選擇資料行」:可勾選要保留的資料欄位,未勾選的欄位資料還是會保留,若之後還需要該欄位,還是可以回去勾選回來。
- 修剪:可一鍵將該欄位內的資料前後空白的部分清除,這樣才能維持資料的整齊一致性。
- 新增首碼、新增尾碼:可一鍵將該欄位內的資料,新增文字。
- 進行樞紐分析,不須先產生表格,再從表格產出樞紐分析
上述雖非是全部功能,但是,可以減少很多不必要的人工處理時間,只要20秒內或者一鍵就能完成資料的整理,也能將整個欄位整理的非常整齊,以利後續作分析使用。
由於,過往我們使用Excel來做分析資料時,會先將原始資料複製到另一個Excel表做樞紐分析,或者於原始資料直接做樞紐分析,但是,往往常遇到3個問題:
- 如果原始資料筆數越多,檔案大小就越大,後續將分析後的資料提供給其他人員參考使用時,無法以附件方式提供,只能放在雲端上。
- 資料筆數越多,然後再做資料分析,雖然這樣會讓Excel的檔案大小變很大,但是,這不是最麻煩的問題,最麻煩的是占用電腦的記憶體空間,以致當打開或儲存檔案時,需要花很久的時間,甚至電腦可能會當機。
- Excel本身就有欄位上限1048576,過多筆數資料非常不建議直接放在Excel上。
不過,我們能透過Power Pivot,而什麼是Power Pivot呢?
Power Pivot是屬於Excel的增益集,於1986年是由堪稱樞紐分析表之父的Pito Salas發明的,並於1989年出現在Lotus Improv。由於Lotus Software後續並無維護與發展,但其觀念引發了試算表市場上的追隨,於1994年初Microsoft於Excel 5加入新功能「Pivot Table」,改良了Improv的使用方式迄今。
當我們要做資料分析時,不再先複製與貼上原始資料,而是先開啟空白的Excel檔,將原始資料檔案匯入至Power Query來整理與整併資料,再將整理與整併後的資料匯入至資料模型(Data Model),而Excel檔內實際上是看不到原始資料,但是,資料卻已放進Excel。
其實,上述方式是將原始資料備份一份副本到Pivot Crash裡,且與原始資料有聯結,因此,如果原始資料有異動,Pivot Crash裡的資料也會同步異動,不用再手動新增、刪除資料。而且,每個資料模型的Data Table可無限制存取資料筆數,以致不受限於Excel自身的資料筆數限制。
不過,資料模型還是有一個小缺點,就是單一檔案受限於4GB的大小,但是,這對於Excel自身來說,反而又是另一個優點。