本当ですか、青野由利さん? ― 2019年02月21日 19:32
以前に書いた「統計でウソをつく法」の話。理系の知人から「自分も同じ感想だった」と言われた。やはりか。あれはブルーバックスの超有名本。どうも論説委員たちはあれを読んでないんじゃないか、という気がする。
さて、科学ジャーナリストの青野由利さんが4週間ほど前に「勤労統計ミステリー」という記事を書いている。<すっきりしないのは「行政手続きのルール違反」と「統計学のルール違反」が混在しているため>というのは全くその通りなのだが。
気になったのは、「統計学の観点から」厚労省のミス(もしくはウソ)を論じる件(くだり)で、<それ以上に驚くのは抽出データから全体を知るのに不可欠な母集団への「復元」処理を、厚労省が怠っていたことだ>と書いていること。都だけ3分の1を抽出したのに、他道府県の全数調査と足す時に3倍しなかったことを指しているのだが。
この記事だと、3分の1に3をかけるこの操作が統計学の観点から正しいと読めるが、少なくとも私が今まで教わってきた常識ではこんな事は統計学で認められていない。こんな事というのは、抽出調査のデータを抽出率で割って元の倍率に戻せば、全数調査と抽出調査を足し合わせてもいいという事だ。
1+1は2、1+1/3×3も2。確かに小学校の算数ではそうなるが。それをそのまま統計に当てはめてOK?
例えば、都道府県全部を3分の1の抽出調査にしていた場合。東京以外の道府県はすべて99%以上の回収率なのに、東京だけ80%しか回収できなかったとする。そのまま足すと偏ってしまうので、80%しか回収できなかった東京の分をほかの99%に近づけるために1.24倍してから足す。と、いうのならわかる。
この場合、同じ調査法、同じ抽出法で、回収率に大きな差が出たための調整だ。それでも、あまりに差が大きいと調査の精度がひどく悪くなるので、できる限り回収率を上げる努力をしなければならない。
しかし、厚労省は全数調査と抽出調査という違うやり方を足してしまっている。しかも、3倍というのは差が大き過ぎる。
40年近くにわたって科学報道一筋の青野さんが書く事だから、まあ、信じたい所ではあるのだが。
今は、法律で決めた事を守らない規則違反が責められている。そりゃあ、不正は不正だが、科学する心からすれば、規則遵守以前に中央官庁の役人たるものが、これほど統計の常識がない事の方が恐ろしい。
正確で価値のある統計データを取るには数学的、科学的に守らなければならないルールがある。
例えば、
(1)全体からサンプルを取る抽出は無作為に。変な偏りが入らないよう注意する。
(2)抽出法など調査の仕方を調査の途中で後から変えてはいけない。
(3)異なる調査で集められたデータを混ぜる時はデータの条件をそろえなければならない。
どれ1つまともにやってない。この無知さが怖い。
さて、科学ジャーナリストの青野由利さんが4週間ほど前に「勤労統計ミステリー」という記事を書いている。<すっきりしないのは「行政手続きのルール違反」と「統計学のルール違反」が混在しているため>というのは全くその通りなのだが。
気になったのは、「統計学の観点から」厚労省のミス(もしくはウソ)を論じる件(くだり)で、<それ以上に驚くのは抽出データから全体を知るのに不可欠な母集団への「復元」処理を、厚労省が怠っていたことだ>と書いていること。都だけ3分の1を抽出したのに、他道府県の全数調査と足す時に3倍しなかったことを指しているのだが。
この記事だと、3分の1に3をかけるこの操作が統計学の観点から正しいと読めるが、少なくとも私が今まで教わってきた常識ではこんな事は統計学で認められていない。こんな事というのは、抽出調査のデータを抽出率で割って元の倍率に戻せば、全数調査と抽出調査を足し合わせてもいいという事だ。
1+1は2、1+1/3×3も2。確かに小学校の算数ではそうなるが。それをそのまま統計に当てはめてOK?
例えば、都道府県全部を3分の1の抽出調査にしていた場合。東京以外の道府県はすべて99%以上の回収率なのに、東京だけ80%しか回収できなかったとする。そのまま足すと偏ってしまうので、80%しか回収できなかった東京の分をほかの99%に近づけるために1.24倍してから足す。と、いうのならわかる。
この場合、同じ調査法、同じ抽出法で、回収率に大きな差が出たための調整だ。それでも、あまりに差が大きいと調査の精度がひどく悪くなるので、できる限り回収率を上げる努力をしなければならない。
しかし、厚労省は全数調査と抽出調査という違うやり方を足してしまっている。しかも、3倍というのは差が大き過ぎる。
40年近くにわたって科学報道一筋の青野さんが書く事だから、まあ、信じたい所ではあるのだが。
今は、法律で決めた事を守らない規則違反が責められている。そりゃあ、不正は不正だが、科学する心からすれば、規則遵守以前に中央官庁の役人たるものが、これほど統計の常識がない事の方が恐ろしい。
正確で価値のある統計データを取るには数学的、科学的に守らなければならないルールがある。
例えば、
(1)全体からサンプルを取る抽出は無作為に。変な偏りが入らないよう注意する。
(2)抽出法など調査の仕方を調査の途中で後から変えてはいけない。
(3)異なる調査で集められたデータを混ぜる時はデータの条件をそろえなければならない。
どれ1つまともにやってない。この無知さが怖い。
コメント
トラックバック
このエントリのトラックバックURL: http://kajiyan.asablo.jp/blog/2019/02/21/9039080/tb
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。