pandas

[Python] 名称からコード、コードから名称への変換

データ分析の前処理で名称からコードへの変換、またはコードを名称への変換の作業はよくあると思います。今回は、その変換をPythonの辞書(dict)で使って行う方法です。 データ例の用意¶ 実際に行っていくので、変換するデータと変換対応のリストを用意します。 In [1]: import pandas as pd import numpy as np #性別 prefecture_labels = […]

[Python]pandasのデータフレームを標準化(偏差値化)する

pandas上でデータを標準化する方法について書いていきます。最近だと正規化と呼んだりもします。変数も特徴量って呼んだり、そういう呼び方でその人のデータ分析の背景が見えてきたりして興味深いなぁ〜とたまに思ったりします。 先ずは、モジュールの呼び出しとダミーデータを用意します。 ダミーデータの作成¶ In [1]: import pandas as pd import numpy as np df […]

[Python]pandasデータフレームでRedShiftのテーブルを作成

たまにPython経由でAmazon RedShift(RDS)で作業していると、pandasで作ったデータフレームをRDS上にテーブルとして作成したいときがあります。というわけで、今回はpandasで作成したデータフレームをAmazon RedShift上にテーブルとして作成する方法を記事にしてみます。 pandas-redshiftのインストール¶ 本来、pandasのデータフレームをRDS上 […]

[Python]pandasの日付データから年、月、日、曜日への変換方法

pandasに文字型として入力されている日付データから年、月、日や曜日への変換の仕方です。平日と休日では当然購買行動にも変化が表れるので、マーケティング分析ではよくこの処理を行います。 モジュールの読み込みとダミーデータ¶ 日付が入っているdateと数値が入っているscoreのダミーデータを作成します。スコアは特に意味はないです。データフレームの雰囲気のために付けてます。 In [1]: impo […]

Pythonでヒストグラムを描く

こんにちは。マスジュンです。 今回はヒストグラム(度数分布)のプロットをseabornを中心に行っていきます。このプロセスってかなり重要です。たまに、購買回数のデータを全く加工せず、いきなり重回帰分析とか行っている分析とか見かけたりするときは、「え?ちょ、マジ?」って思うこともしばしば。いずれ、その影響に関する記事を書こうとは思いますが、その前に今日はその分布の確認方法であるヒストグラムの作図を行 […]

Pythonでウォレットシェア計算(transform)

こんにちは。マスジュンです。 最近、pandasでtransformという関数を知ったので、ウォレットシェアの計算を例にメモとして残しておきます。ちなみに、ウォレットシェアとは、「その人のお財布のうちに占める割合」を表します。財布に占める割合が高いほど良く、ブランドのポジショニング、ロイヤル顧客の判定など、マーケティングにとっては重要な指標の1つです。 サンプルデータの作成¶ パッケージを呼び出し […]