BOOK SEARCH
Pythonによるビジネスデータサイエンス 2 データの前処理
羽室 行信(編)
内容紹介
データ分析のための前処理の基礎とビジネス応用の実例を学ぶ。サポートサイトにサンプルコードあり。〔内容〕前処理の意義/データの収集/実践(公的統計,マーケティング,ファイナンス,自然言語処理)/付録:Pythonの基礎/他
編集部から
本書のサンプルプログラムとサンプルデータが下記のサポートサイトよりダウンロードできます。
目次
1. 前処理の意義
1.1 KDDプロセスと前処理の定義
1.2 きれいなデータとは?
1.2.1 行列形式と疎行列形式
1.2.2 ツール妥当性と意味妥当性
1.2.3 その他に考慮すべき点
1.3 前処理タスク
1.3.1 データ収集
1.3.2 データクリーニング
1.3.3 フォーマット変換
1.3.4 特徴量抽出
1.4 チェック! チェック!! チェック!!!
1.4.1 プログラムのチェック
1.4.2 データのチェック
1.4.3 可視化でチェック
1.5 データはなぜきたなくなるのか?
1.5.1 業務の副産物としてのデータ
1.5.2 統合化されていないデータ
1.6 前処理を怠るとどうなるのか?
2. データの収集
2.1 生データの取得と初期加工
2.2 Webデータの初期加工
2.2.1 Webからのファイルダウンロード
2.2.2 zipファイルの解凍
2.2.3 Webページの取得
2.2.4 HTML/XMLファイルからのデータ取得
2.2.5 WebAPIからのデータ取得
2.3 生データの文字コード
2.4 JSONファイルの初期加工
2.5 ファイルパスの取得
2.6 CSV(TSV)ファイルの初期加工
2.6.1 nysol_pythonを利用したCSV(TSV)ファイルの入出力
2.6.2 pandasを利用したCSV(TSV)ファイルの入出力
2.7 Excelファイルの初期加工
2.7.1 Excelの表データを読み込む
2.7.2 Excelの各セルを読み込む
2.8 RDBMSデータの初期加工
3. 表構造データの処理技術
3.1 DataFrame
3.2 カラム操作
3.2.1 必要なカラムの選択
3.2.2 新たなカラムの定義
3.2.3 カラム名のリネーム
3.2.4 カラムの属性確認・変更
3.3 値操作
3.3.1 文字列の切り出し
3.3.2 文字列の結合
3.3.3 文字の置換
3.3.4 四則演算と小数点以下の処理
3.4 レコード操作
3.4.1 前のレコードの情報を保持
3.4.2 レコードの並び替え
3.4.3 レコードの重複削除
3.4.4 行間の演算処理
3.4.5 レコードの選択
3.4.6 レコードの集計
3.4.7 条件による置換
3.4.8 ランキングの付与
3.5 結合処理/集計処理
3.5.1 縦結合
3.5.2 横結合
3.5.3 横構造から縦構造への変換
3.5.4 グループ集計
3.5.5 クロス集計
4. 実践:公的統計
4.1 前処理はデータの理解から始める
4.1.1 統計調査を理解する
4.1.2 仕様の確認不足でハマる罠
4.2 人口に関する公的統計を用いた前処理の設計
4.2.1 統計調査の仕様把握
4.2.2 前処理の全体設計
4.3 データ前処理実践
4.3.1 STEP0 事前準備
4.3.2 STEP1 住民基本台帳による人口の前処理
4.3.3 STEP2 人口動態調査の前処理
4.3.4 STEP3 可視化用ファイルの作成
4.4 データ作成完了後作業
5. 実践:マーケティング
5.1 マーケティング分析のための前処理
5.2 返品処理
5.3 商品名称のクリーニング
5.4 商品名の名寄せ
5.5 各種基礎集計を実施しよう
5.6 顧客別に来店間隔の計算
5.7 売上金額の前月比較
5.8 金額デシルの生成
5.9 来店頻度デシルの生成
5.10 直近来店デシルの生成
5.11 RFM分析
6. 実践:ファイナンス
6.1 収益率と超過収益率
6.1.1 処理の概要
6.1.2 スクリプト
6.2 投資信託の価額調整
6.2.1 処理の概要
6.2.2 スクリプト
6.3 3要因モデル構築用データのクリーニング
6.4 投資信託の評価用データセットの作成
6.4.1 入力データ
6.4.2 出力データ
6.4.3 処理の概要
6.4.4 パス名の一部をデータとして取得
6.4.5 繰り返し処理
6.4.6 モジュール化
7. 実践:自然言語処理
7.1 基本的な技術
7.1.1 表記ゆれの解消
7.1.2 数字の抽象化
7.1.3 URLの抽象化
7.1.4 文書の分割
7.1.5 形態素解析
7.2 ネットニュースの視覚化
7.2.1 ニュースタイトルの形態素解析
7.2.2 ワードクラウドによる視覚化
7.2.3 単語の共起ネットワーク
A. Python基礎
A.1 はじめに
A.2 標準出力
A.3 実行順序
A.4 コメント
A.5 変数・代入
A.6 演算
A.7 ライブラリの読み込み
A.8 変数の種類とデータ構造
A.9 再代入と複合代入演算子
A.10 ブロックと字下げ
A.11 分岐処理
A.12 ループ処理
A.13 分岐処理やループ処理の入れ子構造
A.14 リストの内包表記
A.15 関数
A.16 クラス
A.17 変数・関数・クラスのinportと別名
A.18 ファイル入出力
A.19 正規表現
A.20 デバッグの方法
B. Jupyterを使ったプログラミング環境
B.1 Jupyterとは
B.2 インストールと実行
B.3 画面へのアクセスと画面構成
B.4 notebookの作成
B.5 セルの実行
B.6 カーネルの停止・再起動と変数のスコープ
索引
執筆者紹介
[シリーズ監修者]
加藤直樹(兵庫県立大学情報科学研究科/社会情報科学部教授)
[編集者]
羽室行信(関西学院大学経営戦略研究科)
[執筆者]
大里隆也(帝国データバンク)
菊川康彬(帝国データバンク)
中原孝信(専修大学商学部)
羽室行信(関西学院大学経営戦略研究科)
丸橋弘明(NYSOL)