データサイエンス

競馬スピード指数の作り方 〜 作成過程を公開(1)

競馬データの分析の目的は、競走馬の能力を適切に把握すること。そのための1つの方法として馬の能力の指数化、いわゆる、スピード指数化というものがあります。スピード指数の計算は距離、馬場等に対して、さまざまな補正がなされています。「さまざまな補正」に自分の考え方を盛り込みたい、という人はどうしても自分で指数を作る必要があります。その指数を作っていく過程をまとめています。
データサイエンス

競馬スピード指数 当たる?当たらない?精度を知ってうまく活用

競馬をやっている人なら一度は「スピード指数」という言葉を聞いたことがありますよね。「当たる」という人もいれば、「当たらない」という人も。おそらく日本でもっとも有名なスピード指数である「西田式スピード指数」について精度、誤差を評価してみました。精度、誤差を知って上手に活用しましょう。
R

競馬 単勝オッズと着順の統計。あなたが選んだ馬は何着になる?

「単勝オッズが〇〇倍だったら、1着になる確率は△△%」「単勝オッズが■■%を超えると1着になる確率よりも2着になる確率の方が高くなる」なんて情報知ってたら、もっと競馬を楽しめるようになるはず。単勝オッズと着順の関係を整理してみました。
R

競馬 今週のメインレース スピード指数で出馬表を可視化

今週のメインレース出走馬の能力を可視化。データを見える化することにより、情報をスッキリ整理。買い目に迷わず、競馬が上手い人にしかわからないこともクッキリ。
R

Rでスクレイピングするならrvest 表もリンクもテキストも

Rでスクレイピングをするならrvestパッケージを使うのがベスト。表データ、リンク先URL、テキストなどのデータを簡単に入手できます。netkeibaのレース結果を題材にrvestパッケージの使い方をまとめています。
R

R:apply関数をdata.frameに使う場合の注意点

data.frameにapply()関数を適用する場合の注意点をまとめています。apply()関数の使い方をネットで調べても、data.frameに対する使用法はたくさん見つかりますが、注意点が全然出てきません。エラーに悩まされたり、間違った計算をしないように、押さえておくべきところをちゃんと押さえておきましょう。
R

スクレイピングに必要な最低限のHTML/CSSの知識

スクレイピングでデータを収集するためには、HTMLで書かれたWebページの文書構造を理解し、どこに目的のデータが記載されているかをコンピュータに教えてやる必要があります。このページではスクレイピングに最低限必要なHTML/CSSの知識をまとめています。
Web/ブログ

WordPressで数式を書くには

技術系の記事を書くならWordPressでも数式を使いたくなりますよね。MathJax-Latexというプラグインを使えばWordPressで数式が使えるようになります。設定方法と数式の書き方をまとめています。
統計

分母をnで割った分散の計算がイマイチな理由

母集団の分散を推定する場合、大抵の場合、分散の分母をn-1で計算した値(不偏分散)を使います。見方・言い方を変えると、母集団の分散を推定するのに分母をn-1ではなくnで計算するとイマイチなところがあるということです。どういう点がイマイチなのかを整理します。
Web/ブログ

アドセンス クリック単価が1円とか0円の原因ってこれじゃない?

世間では、アドセンスのクリック単価の平均は20円〜30円と言われるのに、1クリックで、1円なんてことも…。そしてついに0円…。さすがに0円はおかしいだろうと思い原因を調べました。同じような状況になっている方のモヤモヤもきっとスッキリするはず。