GWに数学を学んで来た。そこで、えげつないデータを分析してみる。

消費税にうるさい税理士 石川です。

10連休となった今年のゴールデンウィーク。
5月中に決算を完了させなければならない法人が多いうえ、老齢の愛犬がいるので、長期的な旅行はできません。
代わりに、知的な遠出をしてきました。

何で数学?

ある飲み会で、「Pythonの研修、参加すれば?」と話を振られました。もちろん、冗談で、です。
急に言われたって、なんじゃそりゃ?です。
「プログラム言語?ですよね?」くらいしか返せず、当然、本当に研修に参加させてもらえるはずもありません。周りも「石川には関係ないじゃん?」と冷やかしモード。

もっとも、元SEとはいえ、いまさらPythonを勉強したところで、何の役にも立てられないでしょう。
が、どんなものかくらいは知りたいではありませんか。

そもそもPythonってなんだ、というところから初歩のセミナーなどいろいろ検索して行きついたのが、数学。
数学なら、役に立てられそうです。

高校までは理系だし。大学も理系なんですが、農学部なので、教養部でしか数学をやっていません。

「統計超入門セミナー」と「プログラムなしで始める機械学習超入門」という二つの超入門セミナーを申し込んでみました。

開催は、”和から株式会社”という会社

「統計超入門セミナー」と「プログラムなしで始める機械学習超入門」は”和から株式会社”という会社が定期的に開催しているものです。
大人に数学を教える、という事業をやっているようです。

「え?大人の数学?誰が受けるの?」と思いますが、教室を、渋谷に2ヶ所、新橋、新宿そして大阪にまで開いているのですから、ニーズはあるのですね。

統計超入門セミナーで習ったこと

どちらのセミナーもとても勉強になりましたが、今日は統計についてご紹介したいと思います。
と言いますのも、実は今、手元に興味深いデータがあるのです。先日、コラムでご紹介した個人事業税に関するものです。

平成30年度、東京都では、15人の保険外交員さんが、個人事業税について行政不服審査を申し立てました。
その申し立てに対する審査の内容がpdfでアップされていますので、1件ずつ開いてみたところ、それぞれ収入と経費の額が書いてありました。
そのデータを集めてみたのです。なかなかえげつないデータですが、公開されているものを分析するのだから、問題ない、はず。

データを分析するということは、

①データの要約
②データ間の関係性
③予測する
④結果の検証

という作業からなっているそうです。今回得られるデータのみでは、②データ間の関係性の分析や④結果の検証はできそうにありませんが、①データの要約と、私なりの③予測をしてみたいと思います。

データの要約

その前に、何を目的として分析するのか?という目的がなければ、見当違いの分析をしてしまいます。
今回は、ごく一部の人のデータという制約はありますが、

  • 個人事業税が課された保険外交員さんはどんな人か?
  • この15件のデータが保険外交員さんの収入を代表するのか?

を考えてみたいと思います。

平均

データは、とりあえず平均から見てみよう。というわけで、データの平均を取りました。7,084万円でした。
ただし、平均というのは、代表している値とは言えません。飛びぬけている値があると、そちらに偏ります。

四分位数

偏りを見るために、四分位数を取ってみます。
四分位数というのは、最小値、25%点、中央値、75%点、最大値の4つを言います。
データを大きい順又は小さい順に並べてちょうど真ん中に来る値が中央値です。データは15あるので、大きい方から並べて8番目、小さい方から並べても8番目が中央値です。

この4つをグラフにし、見える化してみます。このグラフを「箱ひげ図」と言います。

中央値は5,709万円でした。平均7,084万円より小さいですね。
そして、最大値は2億超、最小値は1,688万円です。
大きい数字が平均を引き上げていると推測されます。

ヒストグラム

ヒストグラムを作ると、データの散らばりや偏りを見ることができます。

横軸は収入の範囲、縦軸はその範囲に入る人の数を示しています。

15のデータのうち、2,500万~5,000万円の範囲が一番多く、6件あることがわかります。

予測する

予測1

この15件のデータは、最小値でも1,688万円。一般的な感覚としては、個人の収入としてはかなり高いレベル、と感じられます。

個人事業税は所得に比例して高くなりますから、高収入であれば、個人事業税の額も高額になります。
高収入の人の方がより不服に感じ、行政不服審査に申し立てようと思ったのかもしれません。
逆にそれほどの高収入でない人は個人事業税を甘んじて受け入れている…?

予測2

東京都は、確定申告書の職業欄に「保険外交員」と書いた人すべてに個人事業税を課したのではなく、一定以上の高収入の人を抽出して個人事業税を課したのかもしれません。そのため、不服を申し立てた人の収入が皆高いのかも。

さて、結果の検証をするためにはどうしたら良いでしょう?15件のデータからはわかりません。
実際に個人事業税が課されることになった保険外交員さん全員、さらには個人事業主全体のデータも欲しいですね。

もうじき、個人事業税の納税通知書が届くと思います。今後、行政不服審査の件数がどうなるか?ときどきウォッチして行かないといけませんね。

まとめ

今回の受講は、統計超入門でしたが、実はこれで終わろうとは思っていません。
今年度中にステップアップして、税理士業の新たなサービスを作りたいです。何ができるか考え中。お楽しみに!