2018年6月

[Python]pandasのデータフレームを標準化(偏差値化)する

pandas上でデータを標準化する方法について書いていきます。最近だと正規化と呼んだりもします。変数も特徴量って呼んだり、そういう呼び方でその人のデータ分析の背景が見えてきたりして興味深いなぁ〜とたまに思ったりします。 先ずは、モジュールの呼び出しとダミーデータを用意します。 ダミーデータの作成¶ In [1]: import pandas as pd import numpy as np df […]

[Python]pandasデータフレームでRedShiftのテーブルを作成

たまにPython経由でAmazon RedShift(RDS)で作業していると、pandasで作ったデータフレームをRDS上にテーブルとして作成したいときがあります。というわけで、今回はpandasで作成したデータフレームをAmazon RedShift上にテーブルとして作成する方法を記事にしてみます。 pandas-redshiftのインストール¶ 本来、pandasのデータフレームをRDS上 […]

[Python]pandasの日付データから年、月、日、曜日への変換方法

pandasに文字型として入力されている日付データから年、月、日や曜日への変換の仕方です。平日と休日では当然購買行動にも変化が表れるので、マーケティング分析ではよくこの処理を行います。 モジュールの読み込みとダミーデータ¶ 日付が入っているdateと数値が入っているscoreのダミーデータを作成します。スコアは特に意味はないです。データフレームの雰囲気のために付けてます。 In [1]: impo […]

[Python]ステップワイズの実行

最近、Pythonのsklearnばかりで作業をしております。その際、たまに発生するのが「あれ?sklearnの回帰分析はP値を出力してくれないの?え?ステップワイズもしてくれないの?Rはしてくれるのに。。。」というもう少し推測統計的観点から結果を考察したい場面。statsmodelsというパッケージもあるらしいのですが、なんだかk使い勝手は悪そう。。。ということで今回は、PythonからRを実行 […]