それ、根拠あるの? と言わせない データ.統計分析ができる本
作者 | 柏木吉基 |
---|---|
出版社 | 出色文化事業出版社 |
商品描述 | 沒有大數據分析力, AI就不存在! 如何用一張Excel找出數據價值, 做出更精準的商業決策?:「最強AI」ChatGPT問世背後仰賴的正是龐大的數據資料庫資料與資料間的關聯性如何化 |
作者 | 柏木吉基 |
---|---|
出版社 | 出色文化事業出版社 |
商品描述 | 沒有大數據分析力, AI就不存在! 如何用一張Excel找出數據價值, 做出更精準的商業決策?:「最強AI」ChatGPT問世背後仰賴的正是龐大的數據資料庫資料與資料間的關聯性如何化 |
內容簡介 追趕AI前先培養大數據分析力!人工智慧說白了就是統計學,會分析就會活用。做企劃、提預算、估風險、分析市場……,一張Excel教你搞定所有工作實務。STEP 1:目的→假設→方法,順序不能顛倒大數據時代,所有資料都能被分析,但得到的「結果」是否符合最初「目的」?不想到頭來白忙一場,本書教你: 提案前這樣思考最終目的,後續才能產生連結。 成立假設4重點,避免一步錯步步錯。 網羅資料4方法,讓訊息「可視化」才易於比較。STEP 2:沒學過統計也沒關係!這樣做讓數字發揮真正價值數字資料不是拿來就用,「分解」、「比較」都有訣竅,實務應用時才有意義: 單位、屬性、時間等基軸的交叉組合,會得到各式的觀點。 比較資料時務必確定「基準點」,否則將有天差地別的解讀(例如,A點到B點呈上升型態;B點到C點呈下降型態,那麼到底是市場擴大了,還是業績停滯了呢?) 無法取得資料時,也可以「創造」?讓作者教你該怎麼做。STEP 3:定位市場 + 管理風險,懂這些數據就夠當一項商品要投入市場前,得先推敲規模(例如,買氣如何、價格怎麼訂、多久才能回本、營運風險有多大等等),才能擬定策略: 平均數:將平均數乘以其他變數,就能大致掌握市場規模,倒過來計算,也能知道多少銷量才能達到收益目標。 中位數:有時特定區域會拉大平均數,讓人誤判現實,所以最好搭配中位數來檢視。 標準差:光靠平均數還不夠,透過「偏差值」更能檢視營運狀況。利用「直方圖」將離散程度視覺化,推估風險衝擊程度,就能做出合理假設,並模擬最壞狀況。STEP 4:善用相關係數,讓錢花在刀口上輸入資訊,0.5秒就跑出圖表,這是該加碼或該收手的訊息?怎樣才能花最少錢創造最大效益?廣告vs折價券,哪一個能讓營業額提升?算出相關係數,確認資料之間的強弱關係,就能找出利潤最大化的策略。特別注意: 相關程度無關數值大小,只是顯示強弱程度。 就算不具相關性的資料,也能算出相關係數,7技巧教你避開陷阱。 愈是重要的資料,愈要製作成分布圖,以便觀察整體狀況。STEP 5:提出假設,邊思考邊修正目標計畫用國中生都學過y=ax+b(單一迴歸分析)公式,就能看出資料間的關聯性。如何從斜率值看出成本效益?怎樣計算KPI目標值?答案就藏在一張EXCEL裡。STEP 6:轉換思考模式,簡報才不會功虧一簣辛苦分析了半天,當然希望提案能被認同,切記,分析和傳達本來就是兩件事,別只是丟出一堆圖表和訊息而已,你應該: 要以分析結果當作結論的依據。 將資料圖表化,並以簡潔文字歸納出重點。 註記資料來源,更能提高可信度。——本書特色—— 不諳統計分析的初學者也能輕鬆上手。 情境式模擬實務狀況,解決你的職場痛點。 不必死背硬記,什麼狀況下該套用什麼函數不藏私大公開。——專文推薦——張維元│「資料科學家的工作日常」版主鄭宗記│政治大學商學院專任教授 賴彥甫│創創集團執行長/共同創辦人 (依姓氏筆畫排列)——專業推薦——蘇書平│先行智庫執行長 *本書為《會分析是基本功,看懂結果才最強》的全新增訂版
作者介紹 作者/柏木吉基1972年出生,日本神奈川縣人。慶應義塾大學理工學部畢業後,進入日立製作所工作。取得美國Goizueta Business School的MBA學位。2004年進入日產汽車工作。任職於海外行銷&銷售部門後,成為組織開發部企業改革小組經理。在董事的領導下,參與「新公司、新組織的成立方案」、「全球業務流程分析、評價、改善」、「人才養成計畫」、「人、物等的全球資源最適化」等的經營課題解決企畫案。平日就在推廣思考決策論(Decision Science)。走遍全世界120個國家,舊東海道五百公里。專業審定/胡智超經歷:1. 台南大學教育系測驗組。2. 台南大學測驗統計研究所碩士班。3. 台灣南部地區資優學生甄選(含縮修)題庫資源之擴充與管理:96 03 01~98 06 30負責自然科(可google「資優 GISA」, 7 1到隔年2月在國小實習和考教師檢定)。4. 99-101年度攜手計畫課後扶助方案學生評量計畫:99 03 01~99 07 31負責英文科(3月回研究所完成論文時加入此計畫。於8月初去當兵,離開計畫)。5. 國家華語能力測驗電腦適性化題庫研發計畫(華測會):100 09 07~101 08 14(退伍後隔天便進入華測會擔任測驗統計分析師)。6. 國立彰化特殊教育學校:101 08 22~迄今,擔任國小部導師。
產品目錄 專文推薦1(張維元│「資料科學家的工作日常」版主)專文推薦2(鄭宗記│政治大學商學院專任教授)專文推薦3(賴彥甫│創創集團執行長/共同創辦人)前言 一張EXCEL,輕鬆看懂分析結果第1章 培養數字力,就等於養成企劃力第1幕 /先有目的,才開始蒐集資料你的數據資料,是否具說服力?成立假設,分析就不會偏離目的 組合多項假設,引導出最有力論述 4個重點,成立有效的假設 利用「金字塔結構圖」,讓邏輯更順暢專欄1 / 廣泛網羅資料,找出關聯性第2章 蒐集資料4重點,讓數據發揮價值第2幕 / 資料不是蒐集到就好,重點在於如何使用弄清楚真正需要什麼,就不會受到思考限制資料蒐集重點① 連假設範圍周邊的資料也蒐集資料蒐集重點② 鎖定不同「主軸」,會帶出不同觀點資料蒐集重點③ 界定不同時間範圍,多方分析比較資料蒐集重點④ 出現「離群值」,不代表結果錯誤為資料加工,讓分析角度變寬廣專欄2 /比較資料時,「基準點」很重要第3章 創造收益前,先判斷市場規模第3幕 / 擬定策略前,先掌握市場大方向市場規模有多大?該怎麼算?平均數不一定是中位數,可別搞混了中位數是什麼?2個特徵告訴你先決定好目的,才能讓平均數發揮最大功效專欄3/使用公開資料時,須留意可信度 第4章 數據可視化,才能有效管理風險 第4幕 /數據必須可視化,才易發現潛在風險評估風險不能憑感覺,不妨利用「標準差」利用Excel算出標準差標準差在實務上的意義是……風險如何推估?答案就在離散程度中善用直方圖,將離散程度具體化2步驟製作直方圖,數據意義一看就懂以向上(下)擺動值,預估風險範圍考量2因素,更準確掌控風險6個好處,說明為何要採用標準差專欄4 /2個公式,簡單分析母體資料第 5 章 善用相關分析,讓錢花在刀口上第5幕 / 思考策略時,要多方比較、分析相關資料如何花最少錢,創造最大效益?無關數值大小,相關係數是用來檢視關聯性套用函數,0.5秒就跑出有用資訊怎樣的相關係數,才叫有相關性?這樣分析相關係數,才能擬定最適合的策略避免分析做白工,你得注意……電視廣告V.S.折扣券,哪個最能增加營業額?專欄5 /這樣做,一次能分析多種組合第 6 章 達成目標,需要投入多少預算? 第6幕 / 提出假設,邊思考邊修正目標計畫單一迴歸分析,導出X、Y的關係迴歸分析如何解讀?又有什麼意義?簡報時,直線分析圖最容易被理解相關係數和斜率有什麼關係? 迴歸分析法應用① 從斜率值看出成本效益迴歸分析法應用② 模擬分析收支關係 迴歸分析法應用③ 分解資料後再進行分析迴歸分析法應用④ 當作計算KPI的工具專欄6 / 單一迴歸分析與多元迴歸分析,哪個較好用? 第 7 章 為什麼簡報要這樣做、那樣表達?第7幕 簡報怎麼show,才能創造最大價值?分析和傳達,本來就是兩件事3種傳達方式,最易讓聽者理解 在圖表中加入訊息,聚焦重點比較相同的軸別,更能凸顯彼此差異邊執行邊確認,才不會偏離主軸目的專欄7 /先鎖定範圍,再進行分析 結論 拿出數據,一擊就中前言 /一張EXCEL,輕鬆看懂分析結果 「我想成為數字解讀能力很強的商務人士。」 這句話背後涵蓋了許多事。要將腦海裡知曉的事物,與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧? 數字只要再加點東西,就能獲得看不到的情報,這種「數字加工法」就叫做「統計」或「資料分析」。 不管你手邊有無資料,如果不懂這個加工方法,在許多情況下,其實你已經錯過了寶貴資訊。 那麼,如果有訣竅和技巧能降低整理數字的難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎? 可是應該有不少人,就算閱讀過坊間多本傳授統計和分析方法的書籍,卻還是無法加以活用吧? 統計或資料分析只是一個名詞稱號,其實個中方法所涵蓋的範圍很廣,沒有真正的極限標準。 不過,除了部分專門行業,還是要學會,商務人士在一般商業現場會用到的基本知識。 首先將焦點鎖定於方便使用的方法,學會有效的應用訣竅及思考模式後,慢慢地,你會覺得學會這些方法是「值得」且「聰明」的。 基於這樣的考量,本書傳授的方法從「平均分析法」到「單一迴歸分析法」都網羅在內。只要透過一張Excel,就能輕鬆活用每個方法,並可以立刻得知分析結果。 本書重點如下: (1)看到眼前的資料,如何跨出第一步並加以利用。 (2)有效利用「分析出來的結果」。 (3)透過分析,創造具說服力的故事情節。 整體而言,本書以「製作事業計畫書」為例,介紹資料的實務使用方法。不過,本書並不是事業計畫書製作方法的教學指南,請各位諒解。 如果本書能成為,讓你變成「擁有優異數字解讀能力之商務人士」的入門書,深感榮幸。2013年4月柏木吉基
書名 / | 沒有大數據分析力, AI就不存在! 如何用一張Excel找出數據價值, 做出更精準的商業決策? |
---|---|
作者 / | 柏木吉基 |
簡介 / | 沒有大數據分析力, AI就不存在! 如何用一張Excel找出數據價值, 做出更精準的商業決策?:「最強AI」ChatGPT問世背後仰賴的正是龐大的數據資料庫資料與資料間的關聯性如何化 |
出版社 / | 出色文化事業出版社 |
ISBN13 / | 9786267216521 |
ISBN10 / | |
EAN / | 9786267216521 |
誠品26碼 / | 2682429703007 |
頁數 / | 256 |
裝訂 / | P:平裝 |
語言 / | 1:中文 繁體 |
尺寸 / | 23X17X1.6 |
級別 / | N:無 |
自序 : 前言 /一張EXCEL,輕鬆看懂分析結果
「我想成為數字解讀能力很強的商務人士。」
這句話背後涵蓋了許多事。要將腦海裡知曉的事物,與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧?
數字只要再加點東西,就能獲得看不到的情報,這種「數字加工法」就叫做「統計」或「資料分析」。
不管你手邊有無資料,如果不懂這個加工方法,在許多情況下,其實你已經錯過了寶貴資訊。
那麼,如果有訣竅和技巧能降低整理數字的難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎?
可是應該有不少人,就算閱讀過坊間多本傳授統計和分析方法的書籍,卻還是無法加以活用吧?
統計或資料分析只是一個名詞稱號,其實個中方法所涵蓋的範圍很廣,沒有真正的極限標準。
不過,除了部分專門行業,還是要學會,商務人士在一般商業現場會用到的基本知識。
首先將焦點鎖定於方便使用的方法,學會有效的應用訣竅及思考模式後,慢慢地,你會覺得學會這些方法是「值得」且「聰明」的。
基於這樣的考量,本書傳授的方法從「平均分析法」到「單一迴歸分析法」都網羅在內。只要透過一張Excel,就能輕鬆活用每個方法,並可以立刻得知分析結果。
本書重點如下:
(1)看到眼前的資料,如何跨出第一步並加以利用。
(2)有效利用「分析出來的結果」。
(3)透過分析,創造具說服力的故事情節。
整體而言,本書以「製作事業計畫書」為例,介紹資料的實務使用方法。不過,本書並不是事業計畫書製作方法的教學指南,請各位諒解。
如果本書能成為,讓你變成「擁有優異數字解讀能力之商務人士」的入門書,深感榮幸。
2013年4月
柏木吉基
內文 : 成立假設,分析就不會偏離目的
本章節將介紹各種課題皆適用的成立「假設模式」。
在分析資料時,「假設」是非常有效的方法。透過成立假設,可以連結實現目的與分析資料的方法。只要學會步驟訣竅,就可以自由搭配各種資料或分析方法,實際操作遇到問題時,也不會再手足無措。
此外,假設也可以視為解決一般課題的步驟程序。它是分析必要資料的最適當方法,也是讓分析內容不會偏離目的的強力武器。
遇到問題,先思考「為什麼」
假設一直接到客訴:「送貨時間延遲」,這時候最先想到的問題應該是:「為什麼會延遲呢?」那麼,你會採取以下哪個行動?
● 詢問送貨負責人
● 確認過去的配送紀錄
● 調查送貨司機有無問題
● 調查是否是特定顧客(承辦人)來客訴
你心中是不是已經有好幾個選項了?
請先暫停,試著想想為什麼你會出現這些選項呢?應該是基於過去的經驗、感覺、常識,認為「問題可能出在這裡」,才有這些選項吧。
這種想法就稱為假設。如果換個說法,說是為了達成目的的關鍵或重點,是不是更容易理解了?
假設,就是進行分析的首要步驟
假設帶有「未加思索」的涵義,因此必須確認(驗證)其正當性。假設說法中有著不確定的因素,在這個案例中,就是指「商品寄送延遲」或「配送延宕」,如果能確認原因為何,這個假設理論就能成立。
如果想確認原因,必須使用數字(資料)進行分析。譬如,當你認為原因可能出在商品寄送承辦人身上,就會比較多位寄送承辦人的處理件數;如果認為是現在的體制有問題,就會比較過去的配送紀錄,找出問題。
也就是說,你會配合自己的假設採取行動,證明是否正確。透過分析,就可以客觀判斷是否合理,或者需要再進一步調查,讓你的判斷更具「說服力」。
為了確定分析標的,首先要「予以假設」,這是分析時的第一個重要步驟。如果確定因為「我想做XXX/想知道XXX」的目的而設立了假設,為了確認該假設是否正確,而實施的方法或使用的情報,都會變成具體的資料。
所謂的分析,就是假設方法中的確認流程,也就是「驗證假設」的作業。萬一在第一個分析階段就一直沒有結果,你必須再一次冷靜地確認,是否你的內心真是這麼想:「我想做XXX/想知道XXX」,如果只是大概想想,或一直改變心意,也可能是導致分析作業不順利的原因。
目的→假設→方法,順序很重要
再舉個例子具體說明。假設上個月的營業額是3,000件,如果沒有任何目的或假設,計算這個平均營業額將是毫無意義的事。
如果要算出平均數,為了知道上個月銷售成績佳的原因,通常會先設定「想大致瞭解上個月降價活動狀況」的目的。
為了達到目的,提出「比較去年度或前兩個月的營業額,發現是因為降價促銷的關係,讓營業額提高了」的假設。然後很自然地就會想到,「大致比較營業額,算出過去與本月平均數」的分析方法。於是,目的與方法就能合理產生連結了。
如果將「目的」→「假設」→「方法」的流程牢記在腦海,就不會不知道該選擇哪個方法,也不會在中途出現問題,還可以避免在作業過程中迷失目標。
資料蒐集重點④ 出現「離群值」,不代表結果錯誤
所有數據當中,如果有一個擁有異常數值,所在區域明顯與其他數據不同,就稱為「離群值」(outlier)(如圖2-9)。一個離群值也可能會對分析結果造成巨大影響,所以不能輕忽它的影響力。
譬如,現在要算出在某日某個時段,藥妝店來客數五十人的平均營業額,算出的結果是2,640日圓。假設在同一時段,只有一人的消費額是20,000日圓,結果因此讓平均營業額變成3,040日圓。比較兩者,一人平均消費額有了400日圓的差距。
這純粹是一名特定顧客造成的影響,如果拿這個結果去捕捉其他顧客的消費行為特徵,一定會得到錯誤訊息。
牢記這一點:「出現離群值,不見得就是錯誤的結果。」
分析作業時最重要的,就是知道「離群值是存在的」這件事,如果沒有任何正當理由,但卻出現離群值,在分析資料前,就必須把出現離群值的資料移除。
將資料圖表化,就不易錯過離群值
如果只是瀏覽原始資料,有時候會錯過離群值的存在。最好將資料製成分布圖之類的曲線圖,才能有效率地找出來。至於不自然的偏離部分,要確認之所以存在的理由。
舉之前的藥妝店為例,將資料圖表化後可注意到突出點。假設將焦點鎖定在消費20,000日圓的購買者,調查此人的購買物品。假設其購買的是好幾年才賣出一個,售價20,000日圓的健康器材,但我們的目的是「推算一般的平均購買額度」,便無從判斷這樣的資料是否妥當。
當重複分析好幾次,仍然得不到想要的結果時,就代表有被遺漏的離群值在擾亂結果,我們通常在這時候才會察覺到離群值的存在。不過只要有這層意識,就很容易找到離群值。
此外,關於離群值還有一件事務必要提高警覺:絕對不能為了得到「更完美」的分析結果,無條件地或有意圖地將離群值排外(實際上這樣的誘惑比想像中大)。
評估風險不能憑感覺,不妨利用「標準差」
不是只有商業界會發生計畫行不通的事,在世上難免會遇到不順利的時候。在擬定事業計畫時,事先設想計畫行不通時的因應對策,乃是相當重要的環節。因為就算是經過精密計算所擬定的事業計畫,實際執行時也不見得會照當初所預想的情況發展。
剛才所舉的例子中,A先生覺得算出平均數就萬無一失,上司卻對他的這個想法提出警告,之所以這麼做也是理所當然的。
第三章所舉的,使用平均法來推估大概市場規模的例子,著眼點不在於每份資料,而是如何有效率地使用歸納整理後所得的「平均數」。
不過,將大小範圍不一的數據歸納出一個平均數,雖然方便以此為依據概略掌握整體狀況,但是在歸納平均之前,每個數據所散布的範圍都不一樣。
這些大小範圍不一的數據是如何形成(分布)的,要透過「零散無序」的資料才能知道。請看圖3-5 ∼圖3-7,假設平均數都一樣,透過原始數據零散分布的情況,可以催生出各種不同的想法或觀點。
A先生在擬定事業計畫時並沒有考量到,將可能會以比當初設想平均售價還低的價格販售,最後讓這份事業計畫變成「背負著看不見風險的『畫大餅』計畫」。
為了回應上司所提出的質疑:「真的能如計畫所想進行嗎?」必須點出這個風險是潛藏在計畫的哪個部分(譬如營業額),還要清楚表明會是什麼樣的狀況,以及對於結果會造成什麼樣的影響。
因此,一定要讓數據零散程度可視化,才能表達出來。
偏差值要以平方計算,才能避免誤差
如果有好幾個數據,標準差是可表示各數據零散分布狀況的統計方法之一。
「數據零散範圍大」是指從小數值到大數值之間,各數據的間隔範圍大的意思。將之視覺化就如圖4-1所呈現。
從這個圖表可知,各數據與平均數的差距頗大。各數據與平均數的差值就稱為「偏差值」,寫成公式就是偏差值=各數據-平均數。
接下來介紹分散量數,這是表示所有數據零散分布狀況的指標之一。各數據偏差值的平方總合除以數據個數,得出的結果就是分散量數。
為何會提到平方?這是計算上的問題。有比平均數小的數據,也有比平均數大的數據,如果只是單純加上偏差值,再除以數據個數的話,可能會出現誤差,因為偏差值是合計每一個數與平均數的距離,所以有正數也有負數,因此要用平方來計算,而不是將其與平均數的差值加總計算。
譬如,如果平均數是4,6 與2 的偏差值總和就會變成0 ﹝=(6-4)+(2-4)﹞,這就是誤差了。
如果是平方的話,使用起來不是很順手,因此,可以將分散量數開根號(方均根/root),就能排除± 的影響,順利算出平均數的差值總和,也能清楚標示出「該份資料的整體分散程度」。以下是整理出來的公式。
偏差值=各個數據-平均數
分散量數=(偏差值)² 的總和/數據個數
標準差=√
左右對稱的常態分布就代表……
請看圖4-1和圖4-2,接近平均數的資料數量多、與平均數差值愈大的位置,資料數目呈遞減,這樣的資料分散情況就稱為常態分布(或也稱為常態分配,常用來說明標準差)。這樣的圖形幾乎左右對稱,呈現美麗的吊鐘形,乃是理想的資料分布圖,最適合用來計算標準差。
當資料分布狀況接近常態分布時,全部資料中約有三分之二,分布於平均數往左右一個標準差的範圍裡。換言之,如果標準差是15,全部資料的三分之二集中於從平均數開始算起,正負15 的範圍裡。
「分散間距小」是指多數資料集中於某個數值周邊的意思,就像圖4-2。相較於圖4-1,大約三分之二的資料集中範圍比較狹窄。也就是說,可以假設標準差是比圖4-1的分布範圍更小的數值。
舉個具體的例子。
某家小型商店準備使用監視器追蹤每日來客數,這項作業的執行期為三十天。計算從監視器追蹤的資料後得知,該月份的每日平均來客數是34.5人,標準差是14.6人(圖4-3)。
如前所述,如果這份資料的分布狀況是常態分布的話,所有資料約有三分之二集中於平均數左右±14.6人之間。換言之,可以直接使用標準差的值差,調查「容納大約三分之二資料的範圍」,也就是19.9(=34.5-14.6)至49.1(=34.5+ 14.6)之間,聚集了大約三分之二的資料。
這個狀況就說明了,在以常態分布為前提的條件下,三十天中約有二十天,來客人數的範圍介在19.9人至49.1人之間。
標準差比平均數更能檢視營運狀況
在實務上,標準差什麼時候能發揮功用?
標準差的最大特色在於,讓你可以概略掌握,平均數所無法顯示的資料分布狀況。
譬如,透過標準差可以幫助你做出如下的判斷:「這份資料的分布範圍極大,如果只仰賴平均數,將會非常危險。」或「這間店的營業額,在平均額方面並沒有太大變化,不過與去年相比,每週的分布範圍遞減,顯示銷售狀況趨於穩定。」(圖4-4)
再舉個例子,假設有間每月平均營業額為500萬日圓的店。只聽到平均營業額為500萬日圓,會覺得這是一間營運穩定的店。可是如果這間店的標準差是350萬日圓,會是什麼情況?標準差350萬日圓,表示多數資料集中在500萬日圓正負350萬日圓的範圍裡。
如果是我(對500萬日圓而言,350萬日圓的偏差範圍很大),會認為這間店的營運狀況存在極大的風險,甚至會想「這間店的營業額,真的能以500萬日圓作為基準計算嗎?」
相反地,如果標準差是30萬日圓,是不是就會覺得這間店的營業額為500萬日圓沒有什麼問題呢?而且相較於標準差350萬日圓的店,這間店的營運狀況顯然穩定多了(因為無法針對350萬或30萬進行縝密評價,只能憑感覺來評論)。
最佳賣點 : 「最強AI」ChatGPT問世
背後仰賴的正是龐大的數據資料庫
資料與資料間的關聯性如何化為商業價值?
本書帶你探討背後的核心基礎
追趕AI前先培養大數據分析力!
人工智慧說白了就是統計學,會分析就會活用。
做企劃、提預算、估風險、分析市場……,一張Excel教你搞定所有工作實務。