ことばのデータサイエンス

小林雄一郎(著)

写真 : ことばのデータサイエンス

試し読み

> 応用統計

> 日本語学・国語学・言語学

小林雄一郎(著)

定価 2,970 円（本体 2,700 円＋税）

A5判／180ページ
刊行日：2019年09月01日
ISBN：978-4-254-51063-8　C3081

カートに入れる

ネット書店で購入する amazon e-hon 紀伊國屋書店丸善ジュンク堂書店 Honya Club Rakutenブックスくまざわ書店

書店の店頭在庫を確認する紀伊國屋書店

コンテンツダウンロード

『ことばのデータサイエンス』はじめに

内容紹介

コンピュータ・統計学を用いた言語学・文学研究を解説。データ解析事例も多数紹介。〔内容〕ことばのデータを集める／ことばを数える／データの概要を調べる／データを可視化する／データの違いを検証する／データの特徴を抽出する／他

編集部から

●読者を計量的な言語研究へと誘う入門書
●言語学・文学研究のための統計・データ分析を知る「最初の一冊」として
●図とかみ砕いた説明で、計量的な分析の一番最初のイメージをつかむ

〔読者対象〕言語学・文学・教育学などで計量的な研究をしたい人

本書サポートサイトは，「関連情報」を参照してください。

第1章　ことばのデータを集める
　1.1　データ設計
　　データの重要性／データの代表性／データのサンプリング／コーパスの種類／アノテーション
　1.2　データ収集
　　テキストの電子化／電子的なテキストの収集／スクレイピング／データの量と質／著作権
　1.3　データ管理
　　ファイル形式／文字コード／ファイル名とフォルダ構造
　1.4　テキスト整形
　　表記ゆれの修正／正規表現

第2章　ことばを数える
　2.1　自然言語処理
　　形態素解析／構文解析／意味解析／その他の解析
　2.2　頻度集計
　　単語／共起語／n-gram

第3章　データの概要を調べる
　3.1　総語数・異語数
　3.2　語彙の多様性
　3.3　単純頻度・相対頻度
　3.4　平均値
　3.5　最大値・最小値・範囲
　3.6　分散・標準偏差
　3.7　中央値
　3.8　四分位偏差

第4章　データを可視化する
　4.1　ヒストグラム
　4.2　箱ひげ図
　4.3　折れ線グラフ
　4.4　円グラフ・帯グラフ
　4.5　モザイクプロット
　4.6　散布図
　4.7　ワードクラウド・棒グラフ
　4.8　共起ネットワーク

第5章　データの違いを検証する
　5.1　仮説検定
　　推測統計学／帰無仮説と対立仮説／χ2検定　
　5.2　効果量
　　検定とサンプルサイズ／オッズ比／φ係数／CramérのV

第6章　データの特徴を抽出する
　6.1　特徴語抽出
　　複数のデータにおける単語の頻度比較／差異係数による特徴語抽出／仮説検定による特徴語抽出／効果量による特徴語抽出　
　6.2　zスコア
　6.3　TF-IDF

第7章　データの結びつきの強さを測る
　7.1　共起頻度
　　共起頻度の集計／共起頻度の限界
　7.2　共起強度
　　ダイス係数／相互情報量　
　7.3　共起有意性
　　対数尤度比／Tスコア　
　7.4　共起ネットワーク

第8章　データの変化を見る
　8.1　線形単回帰分析
　　機械学習／線形単回帰分析
　8.2　線形重回帰分析　

第9章　データを分類する
　9.1　線形判別分析
　9.2　決定木
　9.3　ランダムフォレスト

第10章　データをグループ化する
　10.1　クラスター分析
　10.2　対応分析
　10.3　トピックモデル

おわりに
参考文献
索引

【コラム】
・コーパスの定義　
・テキストアーカイブ
・インターネットからのデータ収集
・短単位と長単位
・Zipfの法則
・ベストセラーに共通する要素
・クチコミ分析
・多重比較
・対数
・単語と文法・構文・意味の共起
・相関係数
・リーダビリティ
・犯罪捜査における言語分析
・判定精度の評価指標
・系統樹
・word2vec