Pythonによるビジネスデータサイエンス 5 Webデータ分析

笹嶋 宗彦(編)

笹嶋 宗彦(編)

定価 2,860 円(本体 2,600 円+税)

A5判/136ページ
刊行日:2023年09月01日
ISBN:978-4-254-12915-1 C3341

ネット書店で購入する amazon e-hon 紀伊國屋書店 honto Honya Club Rakutenブックス

書店の店頭在庫を確認する 紀伊國屋書店 旭屋倶楽部

内容紹介

Web 上で公開されているデータを分析し,有益な知見を得るための基本技術を解説する。サンプルコードはサポートサイトからダウンロード可能。〔内容〕はじめに/サンプルコードの実行環境/テキスト分析1:テキストのベクトル化/テキスト分析2:ベクトルを用いた分析/ネットワーク分析/評価データ分析/Web からのデータの収集/他

編集部から

目次

1. はじめに
 1.1 分析環境の構築
 1.2 Webデータ分析と問題解決の例
  1.2.1 オープンデータ活用による問題解決
  1.2.2 Webで公開されている文章の分析
  1.2.3 ネットワークとして見たWebの分析
  1.2.4 Webデータの収集方法

2. サンプルコードの実行環境
 2.1 実行方法について
 2.2 ipynb以外のファイルへのアクセスについて

3. テキスト分析1:テキストのベクトル化
 3.1 テキスト分析の目的
 3.2 文書の前処理
  3.2.1 形態素解析による分かち書き
  3.2.2 ワードクラウドによる文書の概要把握
  3.2.3 テキストのクリーニングと品詞によるフィルタリング
  3.2.4 文書集合に対する前処理の実行
 3.3 語の出現頻度を基にしたテキストのベクトル化と類似度計算
  3.3.1 語の出現頻度による特徴ベクトルの作成
  3.3.2 コサイン類似度による類似度計算
  3.3.3 新しい文書のベクトル化と簡易検索システム
  3.3.4 TF-IDF重み付けによる特徴ベクトルの作成

4. テキスト分析2:ベクトルを用いた分析
 4.1 特徴ベクトルの次元圧縮とトピック抽出
  4.1.1 潜在的意味解析による次元圧縮
  4.1.2 潜在的ディリクレ配分法によるトピック抽出
 4.2 文書のクラスタリング
  4.2.1 階層クラスタリングによるクラスタの取得
  4.2.2 クラスタリングの結果の視覚化
  4.2.3 特徴ベクトルの正規化とK-Meansによるクラスタリング

5. ネットワーク分析
 5.1 グラフ理論
  5.1.1 グラフの定義
  5.1.2 次数
  5.1.3 部分グラフと連結成分
  5.1.4 エゴグラフ
 5.2 ノードの分析手法
  5.2.1 中心性
  5.2.2 リンク解析
 5.3 コミュニティ抽出
  5.3.1 連結成分分解を用いたコミュニティ抽出
  5.3.2 グラフクラスタリングによるコミュニティ抽出
 5.4 分析事例:Webサイトの行動履歴
  5.4.1 準備
  5.4.2 ノードの分析
  5.4.3 コミュニティ抽出

6. 評価データ分析
 6.1 推薦システムの目的
 6.2 利用するデータ
 6.3 ユーザベースの協調フィルタリング
 6.4 MovieLensデータセットを用いたユーザベースの協調フィルタリング実践
 6.5 アイテムベースの協調フィルタリング
 6.6 行列分解に基づく協調フィルタリング
 6.7 明示的評価付けと暗黙的評価付け

7. Web からのデータの収集
 7.1 スクレイピング
  7.1.1 HTMLの仕組み
  7.1.2 Beautiful Soupを用いたスクレイピング
  7.1.3 Web上のHTMLファイルの取得・解析
  7.1.4 Webページをスクレイピングする際の注意点
 7.2 Web APIの利用
  7.2.1 JSONの扱い
  7.2.2 Web APIの利用例: Bing Search APIを利用したWebページの収集
 7.3 おわりに

索引

執筆者紹介

関連情報

ジャンル一覧

ジャンル一覧

  • Facebook
  • Twitter
  • 「愛読者の声」 ご投稿はこちら 「愛読者の声」 ご投稿はこちら
  • EBSCO eBooks
  • eBook Library