Python

1/2ページ

[Python] 名称からコード、コードから名称への変換

データ分析の前処理で名称からコードへの変換、またはコードを名称への変換の作業はよくあると思います。今回は、その変換をPythonの辞書(dict)で使って行う方法です。 データ例の用意¶ 実際に行っていくので、変換するデータと変換対応のリストを用意します。 In [1]: import pandas as pd import numpy as np #性別 prefecture_labels = […]

[Python]PlotlyをつかってSankey Diagram(サンキーダイアグラム)を描いてみた。

今回はplotlyを使ってSankey Diagram(サンキーダイアグラム)を作成してみます。最初、グラフの名前がわからず調べるのに苦労しました。 疑似データの作成¶ 今回のプロットするための疑似データを作成してみます。データはCRMデータの会員離脱を想定してます。ただ、傾向を付与するものは面倒なので「年代」と「性別」とは独立であるとしてます。すみません。 In [1]: import pand […]

MacBook Pro 13インチ(2018)でディープラーニングの下準備(plaidmlのインストール)

先日、Macbook Pro13インチを購入してやっと届きました。スペックも上がったことですし、外付けGPUなども盛り上がりつつあるので、MacでDeep learningができるというPlaidMLを早速入れてみたいと思います。ちなみに、pythonは3.6以上を想定しています。仮想環境のコマンドが若干異なるので。 仮想環境の作成 環境を汚さないように仮想環境を構築します。今回はplaidtes […]

[Python]pandasのデータフレームを標準化(偏差値化)する

pandas上でデータを標準化する方法について書いていきます。最近だと正規化と呼んだりもします。変数も特徴量って呼んだり、そういう呼び方でその人のデータ分析の背景が見えてきたりして興味深いなぁ〜とたまに思ったりします。 先ずは、モジュールの呼び出しとダミーデータを用意します。 ダミーデータの作成¶ In [1]: import pandas as pd import numpy as np df […]

[Python]pandasデータフレームでRedShiftのテーブルを作成

たまにPython経由でAmazon RedShift(RDS)で作業していると、pandasで作ったデータフレームをRDS上にテーブルとして作成したいときがあります。というわけで、今回はpandasで作成したデータフレームをAmazon RedShift上にテーブルとして作成する方法を記事にしてみます。 pandas-redshiftのインストール¶ 本来、pandasのデータフレームをRDS上 […]

[Python]pandasの日付データから年、月、日、曜日への変換方法

pandasに文字型として入力されている日付データから年、月、日や曜日への変換の仕方です。平日と休日では当然購買行動にも変化が表れるので、マーケティング分析ではよくこの処理を行います。 モジュールの読み込みとダミーデータ¶ 日付が入っているdateと数値が入っているscoreのダミーデータを作成します。スコアは特に意味はないです。データフレームの雰囲気のために付けてます。 In [1]: impo […]

[Python]ステップワイズの実行

最近、Pythonのsklearnばかりで作業をしております。その際、たまに発生するのが「あれ?sklearnの回帰分析はP値を出力してくれないの?え?ステップワイズもしてくれないの?Rはしてくれるのに。。。」というもう少し推測統計的観点から結果を考察したい場面。statsmodelsというパッケージもあるらしいのですが、なんだかk使い勝手は悪そう。。。ということで今回は、PythonからRを実行 […]

  • 2018.05.27

[Python]pandasの複数カテゴリーを一括抽出

pandasで特定のカテゴリーに該当するデータを抽出することはよくあります。それが複数条件の場合も少なくありません。今回は、カテゴリーデータを複数条件で抽出する方法になります。 モジュールの読み込みとダミーデータの作成¶ In [1]: import pandas as pd import numpy as np In [2]: df = pd.DataFrame({'ID':[1,2,3,4], […]