Forensic Audit · First Law · Second Law · Z-Test
📊
No data loaded
Paste numbers or upload a CSV in the sidebar, then click RUN ANALYSIS.

初次使用?先點上方 Learn 了解班佛定律的原理與應用。
01 / 什麼是班佛定律?
Benford's Law — First Digit Distribution

在真實世界的數據中,首位數字並非均等分佈。 數字 1 出現的機率高達 30.1%,而 9 只有 4.6%。 這個反直覺的規律稱為班佛定律(Benford's Law), 由通用電氣工程師 Frank Benford 在 1938 年正式發表。 他翻閱對數表時發現,書中前面幾頁(對應小首位數)磨損得特別嚴重——這讓他開始思考數字分布的問題。

首位數字 1–9 灰線 = 均等分佈 11.1%
首位 1 的機率
30.1%
是均等分佈的 2.7 倍
首位 5 的機率
7.9%
接近均等分佈
首位 9 的機率
4.6%
遠低於均等分佈
為什麼會這樣? 想像數字從 1 成長到 200,它必須先經過所有 1xx 的數字,才能抵達 2xx。 在指數成長的數據中(如人口、GDP、股價), 數字在「低數量級」停留的時間天然就更長,因此小首位數出現頻率更高。 任何跨越多個數量級的自然數據都符合這個規律。
02 / 數學公式
P(d) = log₁₀(1 + 1/d) — 點選任一數字查看計算過程
P(d) = log₁₀(1 + 1/d) 其中 d = 首位數字 1–9,b = 進位制(十進位 b=10)
首位數字公式計算值比較
03 / 互動模擬:不同數據集的符合度
切換數據類型,觀察 MAD 值與班佛曲線的吻合程度
500
MAD Index
04 / 適用條件與限制
哪些數據適合用班佛定律分析?
✓ 適用(自然數據)
城市人口 / 國家面積跨越 3+ 個數量級,自然生成,不受人為截斷
企業財務數字收入、支出、交易金額——有機成長且跨越多個數量級
股價 / 成交量市場價格受指數成長動態影響,是班佛定律的經典場景
選舉各區得票數城鄉選區規模差異懸殊,票數跨越多個數量級
物理常數 / 科學數據自然界的數字天然符合對數分布
✗ 不適用(人為限制)
身分證 / 電話號碼人為編碼,有固定格式與起始規則
年齡 / 身高 / 體重範圍明確受限(如年齡 0–120),無法跨越足夠數量級
擲骰子 / 樂透號碼真正均勻隨機,班佛定律不描述均勻分佈
郵遞區號 / 門牌號碼分配規則人為制定,非自然生成
數據量不足(<100 筆)樣本太少時統計誤差大,建議至少 1,000 筆以上
05 / 第二位數定律 與 Z 統計量
Second Digit Benford's Law — 偵測人為捏造的更精細工具

第二位數(0–9)也有預期分布,0 的機率最高(12.0%),9 最低(8.5%)。 與第一位數定律相比,第二位數定律能偵測更細微的人為痕跡, 特別是捏造者「刻意調整」數字大小時留下的特徵。

第二位數 0–9 的預期分布(班佛第二定律)
Z 統計量:  Z = (p_observed − p_expected) / √[ p_expected × (1 − p_expected) / n ]
|Z| > 1.96 → 顯著異常(p < 0.05)  |  |Z| > 2.576 → 高度顯著(p < 0.01)
Digit 0 偏多
Z > +1.96
數字被刻意墊高。例如把 1,900 改成 2,000,第二位由 9 變成 0,導致 0 異常偏多。
Digit 9 偏多
Z > +1.96
數字被刻意壓低。例如把 2,100 改成 1,900,第二位由 1 變成 9,導致 9 異常偏多。
Digit 5 偏多
Z > +1.96
數據可能經過大量四捨五入,如 1,500、2,500 等整數特別多。
0↓ 且 9↑ 同時出現
雙重異常
典型的系統性壓低模式,是財務造假最常見的第二位數特徵。
06 / MAD 判斷標準(Nigrini 2012)
Mean Absolute Deviation — 量化數據與班佛定律的偏離程度

MAD(平均絕對偏差)衡量觀察分布與班佛預測值之間的平均差距。 數值越小代表越符合班佛定律。Nigrini(2012)提出以下四段評級:

MAD 範圍評級解讀建議行動
< 0.006 Closely Conforms 高度符合班佛定律,自然規律性強 無需特別行動
0.006 – 0.012 Acceptable 可接受,輕微偏差在正常範圍內 可結合其他指標判斷
0.012 – 0.015 Marginally Acceptable 邊際,需留意數據來源與品質 建議搭配第二位數 Z 檢定
> 0.015 Non-Conformity 顯著偏離,高度懷疑數據被人為操控 建議深入審查原始數據
注意:MAD 偏高不等於一定造假。 數據範圍過窄、四捨五入習慣、或特殊行業定價慣例(如商品標 9.99 元)都可能造成偏差。 班佛定律是初篩工具,結果需結合領域知識與其他鑑識方法共同判斷。
07 / 真實應用案例
財務造假
安隆案(Enron, 2001)
美國史上最大會計醜聞。財務數字首位數嚴重偏離班佛定律,鑑識會計專家以此作為切入點,從七萬多筆交易中快速篩出疑似虛假記帳。
首位數分布顯著異常 · MAD 超標
選舉舞弊
伊朗大選(2009)
《Journal of Applied Statistics》發表研究,分析各投票區得票數。現任總統艾哈邁迪內賈德的票數中,首位數字 7 出現頻率異常偏高(p < 0.15%),同年官方統計顯示 50 個選區投票率超過 100%。
Digit 7 異常偏高 · Z 檢定顯著
財報造假
瑞幸咖啡(LK, 2020)
在 NASDAQ 上市的中概股。財務數據第二位數分布出現明顯異常——數字 5、7 偏高,與同期正常中概股數據形成鮮明對比,後來確認虛增銷售收入約 22 億人民幣。
第二位數 5、7 異常 · 最終下市
選舉監督
台灣 2012 總統大選
泛科學分析各鄉鎮市區得票數,三位候選人(蔡英文、馬英九、宋楚瑜)的票數首位數分布均與班佛定律高度吻合,被視為台灣選舉制度透明度的正面佐證。
三位候選人數據均符合班佛定律
疫情數據
各國 COVID-19 通報(2020)
研究者分析 215 個國家與地區的確診總數,整體分布符合班佛定律。但部分國家(尤其是在疫情初期)數據偏離明顯,引發對數據通報品質的討論。
整體符合,個別國家存在偏差
台灣鐵路
全台 229 車站進站人數
投影片案例。2019/09–2020/02 全台鐵路各站進站人次,數量級跨度從 210 到近 2,000 萬,首位數分布高度符合班佛定律,可作為「正常自然數據」的優質對照組。
首位數高度符合 · Order of Mag = 7
08 / 如何使用本工具
Step-by-step guide
01
準備數據
收集跨多個數量級的自然數據:觀看數、交易金額、人口等。至少 100 筆,建議 1,000 筆以上。
02
上傳 CSV 或貼上
支援 CSV 多欄位(可選欄位)或直接在文字框中每行一個數字。數字可含逗號千分位。
03
解讀第一定律
觀察長條圖是否貼近班佛曲線。MAD < 0.006 表示高度符合;紅色 bar 為異常首位數。
04
解讀 Z 統計量
|Z| > 1.96 時異常。0 偏多=刻意墊高;9 偏多=刻意壓低;5 偏高=四捨五入痕跡。