データサイエンス 競馬スピード指数の作り方 〜 作成過程を公開(1) 競馬データの分析の目的は、競走馬の能力を適切に把握すること。そのための1つの方法として馬の能力の指数化、いわゆる、スピード指数化というものがあります。スピード指数の計算は距離、馬場等に対して、さまざまな補正がなされています。「さまざまな補正」に自分の考え方を盛り込みたい、という人はどうしても自分で指数を作る必要があります。その指数を作っていく過程をまとめています。 2022.10.18 データサイエンス統計
統計 分母をnで割った分散の計算がイマイチな理由 母集団の分散を推定する場合、大抵の場合、分散の分母をn-1で計算した値(不偏分散)を使います。見方・言い方を変えると、母集団の分散を推定するのに分母をn-1ではなくnで計算するとイマイチなところがあるということです。どういう点がイマイチなのかを整理します。 2022.04.09 統計
R 分散や標準偏差の分母はnかn-1か?シミュレーションを交えて説明 統計学を勉強していくと、テキストによって、標準偏差や分散の分母がnだったり、n-1だったりして混乱しますよね。結論を言うと 目の前にある標本がどの程度ばらついているか表現したい場合はnで割る。標本から母集団の分散を「推定」する場合はn-1で割った方が推定精度が高い。 ということです。このページでは、乱数を発生させて、実験して確認してみます。 2022.03.27 R統計
統計 統計学:偏相関係数って何?式の導出から整理します。 変数xと変数yに因果関係があり、変数xと変数zの間にも因果関係がある場合、yとzは相関を持ちますが、そこにはxの影響も含まれています。偏相関係数はxの影響を除いたyとzの相関といわれますが、教科書でも突然、式だけ出てきたりして…。この式の意味について整理しています。 2021.06.05 統計
統計 統計学:χ2乗分布(カイ2乗分布)の特徴 統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、統計学ではとても重要な分布... 2021.03.29 統計
データサイエンス プログラミング、データサイエンス、統計学の勉強にはiPad プログラミング、データサイエンス、統計学の教科書って分厚いんですよね。なので、持ち歩いて勉強するとか、寝ながら読むとかするとすぐ疲れてしまう。そんなときやっぱりiPadって便利。 2021.03.13 データサイエンス統計
統計 統計学:χ2乗分布(カイ2乗分布)の意味 統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、分散の検定、適合度検定など... 2021.03.12 統計
統計 統計学 : 標準偏差や分散はなぜnで割ったりn-1で割ったりするのか 標準偏差や分散の計算って、nで割ったり、n-1で割ったり、よく分からなかったりしませんか? 結論から言うと、ばらつきの表現と言う意味での分散の定義はデータ数nで割るのが正しいのだけれど、標本から母集団の分散を「推定」する場合はn-1で割った方が妥当だということです。 2021.02.18 統計