python

1/2ページ

[Python] 名称からコード、コードから名称への変換

データ分析の前処理で名称からコードへの変換、またはコードを名称への変換の作業はよくあると思います。今回は、その変換をPythonの辞書(dict)で使って行う方法です。 データ例の用意¶ 実際に行っていくので、変換するデータと変換対応のリストを用意します。 In [1]: import pandas as pd import numpy as np #性別 prefecture_labels = […]

[Python]PlotlyをつかってSankey Diagram(サンキーダイアグラム)を描いてみた。

今回はplotlyを使ってSankey Diagram(サンキーダイアグラム)を作成してみます。最初、グラフの名前がわからず調べるのに苦労しました。 疑似データの作成¶ 今回のプロットするための疑似データを作成してみます。データはCRMデータの会員離脱を想定してます。ただ、傾向を付与するものは面倒なので「年代」と「性別」とは独立であるとしてます。すみません。 In [1]: import pand […]

[Python]pandasのデータフレームを標準化(偏差値化)する

pandas上でデータを標準化する方法について書いていきます。最近だと正規化と呼んだりもします。変数も特徴量って呼んだり、そういう呼び方でその人のデータ分析の背景が見えてきたりして興味深いなぁ〜とたまに思ったりします。 先ずは、モジュールの呼び出しとダミーデータを用意します。 ダミーデータの作成¶ In [1]: import pandas as pd import numpy as np df […]

[Python]pandasデータフレームでRedShiftのテーブルを作成

たまにPython経由でAmazon RedShift(RDS)で作業していると、pandasで作ったデータフレームをRDS上にテーブルとして作成したいときがあります。というわけで、今回はpandasで作成したデータフレームをAmazon RedShift上にテーブルとして作成する方法を記事にしてみます。 pandas-redshiftのインストール¶ 本来、pandasのデータフレームをRDS上 […]

[Python]pandasの日付データから年、月、日、曜日への変換方法

pandasに文字型として入力されている日付データから年、月、日や曜日への変換の仕方です。平日と休日では当然購買行動にも変化が表れるので、マーケティング分析ではよくこの処理を行います。 モジュールの読み込みとダミーデータ¶ 日付が入っているdateと数値が入っているscoreのダミーデータを作成します。スコアは特に意味はないです。データフレームの雰囲気のために付けてます。 In [1]: impo […]

[Python]ステップワイズの実行

最近、Pythonのsklearnばかりで作業をしております。その際、たまに発生するのが「あれ?sklearnの回帰分析はP値を出力してくれないの?え?ステップワイズもしてくれないの?Rはしてくれるのに。。。」というもう少し推測統計的観点から結果を考察したい場面。statsmodelsというパッケージもあるらしいのですが、なんだかk使い勝手は悪そう。。。ということで今回は、PythonからRを実行 […]

Pythonでヒストグラムを描く

こんにちは。マスジュンです。 今回はヒストグラム(度数分布)のプロットをseabornを中心に行っていきます。このプロセスってかなり重要です。たまに、購買回数のデータを全く加工せず、いきなり重回帰分析とか行っている分析とか見かけたりするときは、「え?ちょ、マジ?」って思うこともしばしば。いずれ、その影響に関する記事を書こうとは思いますが、その前に今日はその分布の確認方法であるヒストグラムの作図を行 […]

PythonでPlotlyに触れてみようかと

こんにちは。マスジュンです。 pythonのグラフ作成といえばmatplotが有名だと思いますが、最近、まわりでPlotlyを使う人が増えてきました。その人達がいうには、直感的にグラフが作成できるので使いやすいとのこと。というわけで、Plotlyでヒストグラムを作成してみて、使い勝手などを感じてみようと思います。 Plotlyとは Plotlyは、カナダにあるRやPythonなどで利用できる作図ラ […]