BOOK SEARCH
ことばのデータサイエンス
小林 雄一郎(著)
内容紹介
コンピュータ・統計学を用いた言語学・文学研究を解説。データ解析事例も多数紹介。〔内容〕ことばのデータを集める/ことばを数える/データの概要を調べる/データを可視化する/データの違いを検証する/データの特徴を抽出する/他
編集部から
●読者を計量的な言語研究へと誘う入門書
●言語学・文学研究のための統計・データ分析を知る「最初の一冊」として
●図とかみ砕いた説明で、計量的な分析の一番最初のイメージをつかむ
〔読者対象〕言語学・文学・教育学などで計量的な研究をしたい人
本書サポートサイトは,「関連情報」を参照してください。
目次
第1章 ことばのデータを集める
1.1 データ設計
データの重要性/データの代表性/データのサンプリング/コーパスの種類/アノテーション
1.2 データ収集
テキストの電子化/電子的なテキストの収集/スクレイピング/データの量と質/著作権
1.3 データ管理
ファイル形式/文字コード/ファイル名とフォルダ構造
1.4 テキスト整形
表記ゆれの修正/正規表現
第2章 ことばを数える
2.1 自然言語処理
形態素解析/構文解析/意味解析/その他の解析
2.2 頻度集計
単語/共起語/n-gram
第3章 データの概要を調べる
3.1 総語数・異語数
3.2 語彙の多様性
3.3 単純頻度・相対頻度
3.4 平均値
3.5 最大値・最小値・範囲
3.6 分散・標準偏差
3.7 中央値
3.8 四分位偏差
第4章 データを可視化する
4.1 ヒストグラム
4.2 箱ひげ図
4.3 折れ線グラフ
4.4 円グラフ・帯グラフ
4.5 モザイクプロット
4.6 散布図
4.7 ワードクラウド・棒グラフ
4.8 共起ネットワーク
第5章 データの違いを検証する
5.1 仮説検定
推測統計学/帰無仮説と対立仮説/χ2検定
5.2 効果量
検定とサンプルサイズ/オッズ比/φ係数/CramérのV
第6章 データの特徴を抽出する
6.1 特徴語抽出
複数のデータにおける単語の頻度比較/差異係数による特徴語抽出/仮説検定による特徴語抽出/効果量による特徴語抽出
6.2 zスコア
6.3 TF-IDF
第7章 データの結びつきの強さを測る
7.1 共起頻度
共起頻度の集計/共起頻度の限界
7.2 共起強度
ダイス係数/相互情報量
7.3 共起有意性
対数尤度比/Tスコア
7.4 共起ネットワーク
第8章 データの変化を見る
8.1 線形単回帰分析
機械学習/線形単回帰分析
8.2 線形重回帰分析
第9章 データを分類する
9.1 線形判別分析
9.2 決定木
9.3 ランダムフォレスト
第10章 データをグループ化する
10.1 クラスター分析
10.2 対応分析
10.3 トピックモデル
おわりに
参考文献
索引
【コラム】
・コーパスの定義
・テキストアーカイブ
・インターネットからのデータ収集
・短単位と長単位
・Zipfの法則
・ベストセラーに共通する要素
・クチコミ分析
・多重比較
・対数
・単語と文法・構文・意味の共起
・相関係数
・リーダビリティ
・犯罪捜査における言語分析
・判定精度の評価指標
・系統樹
・word2vec
執筆者紹介
小林雄一郎(こばやし ゆういちろう)
大阪大学大学院言語文化研究科博士後期課程修了
現在 日本大学生産工学部・助教
博士(言語文化学)