Benford's Law Analyzer

Dataset A — Experimental

Experimental

Label

Paste numbers (one per line or comma)

Drop CSV · click to upload

Dataset B — Control

Control

Label

Paste numbers

Drop CSV · click to upload

Options

Benford curve overlay

2nd digit Z-test

Flag anomalies in red

AI Analysis

Google AI Studio API Key

✓ Key 已儲存於記憶體

LM Studio Server URL Model（留空自動偵測）

未連線

需先開啟 LM Studio → 載入模型
→ Local Server → Start Server

📊

No data loaded

Paste numbers or upload a CSV in the sidebar, then click RUN ANALYSIS.

初次使用？先點上方 Learn 了解班佛定律的原理與應用。

01 / 什麼是班佛定律？

Benford's Law — First Digit Distribution

在真實世界的數據中，首位數字並非均等分佈。數字 1 出現的機率高達 30.1%，而 9 只有 4.6%。這個反直覺的規律稱為班佛定律（Benford's Law），由通用電氣工程師 Frank Benford 在 1938 年正式發表。他翻閱對數表時發現，書中前面幾頁（對應小首位數）磨損得特別嚴重——這讓他開始思考數字分布的問題。

首位數字 1–9 灰線 = 均等分佈 11.1%

首位 1 的機率

30.1%

是均等分佈的 2.7 倍

首位 5 的機率

7.9%

接近均等分佈

首位 9 的機率

4.6%

遠低於均等分佈

為什麼會這樣？ 想像數字從 1 成長到 200，它必須先經過所有 1xx 的數字，才能抵達 2xx。在指數成長的數據中（如人口、GDP、股價），數字在「低數量級」停留的時間天然就更長，因此小首位數出現頻率更高。任何跨越多個數量級的自然數據都符合這個規律。

02 / 數學公式

P(d) = log₁₀(1 + 1/d) — 點選任一數字查看計算過程

P(d) = log₁₀(1 + 1/d) 其中 d = 首位數字 1–9，b = 進位制（十進位 b=10）

首位數字	公式	計算值	比較

03 / 互動模擬：不同數據集的符合度

切換數據類型，觀察 MAD 值與班佛曲線的吻合程度

數據集筆數 500

MAD Index

04 / 適用條件與限制

哪些數據適合用班佛定律分析？

✓ 適用（自然數據）

城市人口 / 國家面積跨越 3+ 個數量級，自然生成，不受人為截斷

企業財務數字收入、支出、交易金額——有機成長且跨越多個數量級

股價 / 成交量市場價格受指數成長動態影響，是班佛定律的經典場景

選舉各區得票數城鄉選區規模差異懸殊，票數跨越多個數量級

物理常數 / 科學數據自然界的數字天然符合對數分布

✗ 不適用（人為限制）

身分證 / 電話號碼人為編碼，有固定格式與起始規則

年齡 / 身高 / 體重範圍明確受限（如年齡 0–120），無法跨越足夠數量級

擲骰子 / 樂透號碼真正均勻隨機，班佛定律不描述均勻分佈

郵遞區號 / 門牌號碼分配規則人為制定，非自然生成

數據量不足（<100 筆）樣本太少時統計誤差大，建議至少 1,000 筆以上

05 / 第二位數定律與 Z 統計量

Second Digit Benford's Law — 偵測人為捏造的更精細工具

第二位數（0–9）也有預期分布，0 的機率最高（12.0%），9 最低（8.5%）。與第一位數定律相比，第二位數定律能偵測更細微的人為痕跡，特別是捏造者「刻意調整」數字大小時留下的特徵。

第二位數 0–9 的預期分布（班佛第二定律）

Digit 0 偏多

Z > +1.96

數字被刻意墊高。例如把 1,900 改成 2,000，第二位由 9 變成 0，導致 0 異常偏多。

Digit 9 偏多

Z > +1.96

數字被刻意壓低。例如把 2,100 改成 1,900，第二位由 1 變成 9，導致 9 異常偏多。

Digit 5 偏多

Z > +1.96

數據可能經過大量四捨五入，如 1,500、2,500 等整數特別多。

0↓ 且 9↑ 同時出現

雙重異常

典型的系統性壓低模式，是財務造假最常見的第二位數特徵。

06 / MAD 判斷標準（Nigrini 2012）

Mean Absolute Deviation — 量化數據與班佛定律的偏離程度

MAD（平均絕對偏差）衡量觀察分布與班佛預測值之間的平均差距。數值越小代表越符合班佛定律。Nigrini（2012）提出以下四段評級：

MAD 範圍	評級	解讀	建議行動
< 0.006	Closely Conforms	高度符合班佛定律，自然規律性強	無需特別行動
0.006 – 0.012	Acceptable	可接受，輕微偏差在正常範圍內	可結合其他指標判斷
0.012 – 0.015	Marginally Acceptable	邊際，需留意數據來源與品質	建議搭配第二位數 Z 檢定
> 0.015	Non-Conformity	顯著偏離，高度懷疑數據被人為操控	建議深入審查原始數據

注意：MAD 偏高不等於一定造假。數據範圍過窄、四捨五入習慣、或特殊行業定價慣例（如商品標 9.99 元）都可能造成偏差。班佛定律是初篩工具，結果需結合領域知識與其他鑑識方法共同判斷。

07 / 真實應用案例

財務造假

安隆案（Enron, 2001）

美國史上最大會計醜聞。財務數字首位數嚴重偏離班佛定律，鑑識會計專家以此作為切入點，從七萬多筆交易中快速篩出疑似虛假記帳。

首位數分布顯著異常 · MAD 超標

選舉舞弊

伊朗大選（2009）

《Journal of Applied Statistics》發表研究，分析各投票區得票數。現任總統艾哈邁迪內賈德的票數中，首位數字 7 出現頻率異常偏高（p < 0.15%），同年官方統計顯示 50 個選區投票率超過 100%。

Digit 7 異常偏高 · Z 檢定顯著

財報造假

瑞幸咖啡（LK, 2020）

在 NASDAQ 上市的中概股。財務數據第二位數分布出現明顯異常——數字 5、7 偏高，與同期正常中概股數據形成鮮明對比，後來確認虛增銷售收入約 22 億人民幣。

第二位數 5、7 異常 · 最終下市

選舉監督

台灣 2012 總統大選

泛科學分析各鄉鎮市區得票數，三位候選人（蔡英文、馬英九、宋楚瑜）的票數首位數分布均與班佛定律高度吻合，被視為台灣選舉制度透明度的正面佐證。

三位候選人數據均符合班佛定律

疫情數據

各國 COVID-19 通報（2020）

研究者分析 215 個國家與地區的確診總數，整體分布符合班佛定律。但部分國家（尤其是在疫情初期）數據偏離明顯，引發對數據通報品質的討論。

整體符合，個別國家存在偏差

台灣鐵路

全台 229 車站進站人數

投影片案例。2019/09–2020/02 全台鐵路各站進站人次，數量級跨度從 210 到近 2,000 萬，首位數分布高度符合班佛定律，可作為「正常自然數據」的優質對照組。

首位數高度符合 · Order of Mag = 7

08 / 如何使用本工具

Step-by-step guide

準備數據

收集跨多個數量級的自然數據：觀看數、交易金額、人口等。至少 100 筆，建議 1,000 筆以上。

上傳 CSV 或貼上

支援 CSV 多欄位（可選欄位）或直接在文字框中每行一個數字。數字可含逗號千分位。

解讀第一定律

觀察長條圖是否貼近班佛曲線。MAD < 0.006 表示高度符合；紅色 bar 為異常首位數。

解讀 Z 統計量

|Z| > 1.96 時異常。0 偏多＝刻意墊高；9 偏多＝刻意壓低；5 偏高＝四捨五入痕跡。