Juliaデータサイエンス ~Juliaを使って自分でゼロから作るデータサイエンス世界の探索~
978-4-86043-501-1 C3004
¥3,960 (税込)
0ポイント
- 発行所:(株)エヌ・ティー・エス
データサイエンティスト のための Julia入門書! 環境設定から機械学習・深層学習まで ●RとPythonを超え、C++に並ぶ高速な処理能力 ●数値計算、統計モデル、美しいビジュアル化の手法を解説 ●バイアスとバリアンスのトレードオフの問題を徹底的に解説 原書 『Julia for Data Science - Explore the world of data science from scratch with Julia by your side』Packt Publishing(2016) 原書著者 Anshul Joshi 発刊日:2017年10月 頁 数:308頁 造 本:冊子版 B5 発行所:(株)エヌ・ティー・エス ISBN :978-4-86043-501-1 C3004 ■主な目次 第1章 基本原理:Julia の環境 第2章 データマンジング 第3章 データ探索 第4章 推測統計学に深く踏み込む 第5章 ビジュアル化を使用したデータの理解 第6章 教師付き機械学習 第7章 教師なし機械学習 第8章 アンサンブルモデルの作成 第9章 時系列 第10章 協調フィルタリングとレコメンデーションシステム 第11章 深層学習入門 ※ 原書は0.4の時点で書かれているため、コードは動かないものがあります。 対応については「Julia 1.0のリリースに寄せて(PDF)」を参照してください。
詳細目次を表示
第1章 基本原理:Julia の環境 訳:高尾 克也 1.1 Julia は独特である 1.2 環境構築 1.2.1 Julia のインストール(Linux) 1.2.2 Julia のインストール(Mac) 1.2.3 Julia のインストール(Windows) 1.2.4 ソースコードの探索 1.3 REPL の使用 1.4 Jupyter Notebook の使用 1.5 パッケージ管理 1.5.1 Pkg.status() パッケージのステータス 1.5.2 Pkg.add() パッケージの追加 1.5.3 登録されていないパッケージの使用 (1) Pkg.update() パッケージの更新 1.5.4 METADATA リポジトリ 1.5.5 パッケージの開発 1.5.6 新規パッケージの作成 1.6 Julia を用いた並列計算 1.7 Julia の重要な特徴:多重ディスパッチ 1.7.1 多重ディスパッチにおけるメソッド 1.7.2 曖昧さ:メソッド定義 1.8 言語相互運用性の促進 1.8.1 Julia での Python コードの呼び出し 1.9 まとめ References 第2章 データマンジング 訳:中村 和敬 2.1 データマンジングとは何か? 2.1.1 データマンジングのプロセス 2.2 DataFrame とは何か? 2.2.1 NA データ型とその重要性 2.2.2 DataArray:シリーズ様のデータ構造 2.2.3 DataFrame:表形式のテーブルデータ構造 2.2.4 DataFrames.jl のインストールと使用法 (1) データのファイルへの書き込み 2.2.5 DataFrame の操作 (1) DataFrame 結合操作の理解 2.2.6 分割-適用-統合戦略 2.2.7 データの再成形 2.2.8 データ集合のソート 2.2.9 formula:数式のための特別なデータ型 2.2.10 データのプール 2.2.11 Web スクレイピング 2.3 まとめ References 第3章 データ探索 訳:岩中 公紀 3.1 サンプリング 3.1.1 母集団 3.1.2 重みベクトル 3.2 列型の推定 3.3 基本要約統計量 3.3.1 配列または DataFrame の平均値の計算 3.4 スカラー統計量 3.4.1 標準偏差と分散 3.5 変動の計量値 3.5.1 z スコア 3.5.2 エントロピー 3.5.3 四分位数 3.5.4 モード(最頻値) 3.5.5 データ集合の要約 3.6 散乱行列と共分散 3.7 偏差の計算 3.8 ランキング 3.9 計数を行う関数(カウント関数) 3.10 ヒストグラム 3.11 相関分析 3.12 まとめ References 第4章 推測統計学に深く踏み込む 訳:菅野 剛 4.1 インストール 4.2 標本分布の理解 4.3 正規分布の理解 4.3.1 パラメータ推定 4.4 Distributions.jl の型ヒエラルキー 4.4.1 Sampleable の理解 (1) 確率分布の表現 4.5 単変量分布 4.5.1 パラメータの抽出 4.5.2 統計関数 4.5.3 確率の評価 4.5.4 単変量分布での標本抽出 4.5.5 離散型単変量分布とその型の理解 (1) ベルヌーイ分布 (2) 二項分布 4.5.6 連続型分布 (1) コーシー分布 (2) カイ分布 (3) カイ二乗分布 4.6 切断分布 4.6.1 切断正規分布 4.7 多変量分布の理解 4.7.1 多項分布 4.7.2 多変量正規分布 4.7.3 ディリクレ分布 4.8 行列変量分布の理解 4.8.1 ウィッシャート分布 4.8.2 逆ウィッシャート分布 4.9 分布の当てはめ 4.9.1 分布の選択 (1) 対称な分布 (2) 右に歪んだ分布 (3) 左に歪んだ分布 4.9.2 最尤推定 4.9.3 十分統計量 4.9.4 最大事後確率(MAP)推定 4.10 信頼区間 4.10.1 信頼区間の解釈 (1) 使用法 4.11 z スコアの理解 4.11.1 z スコアの解釈 4.12 p 値の有意性の理解 4.12.1 片側検定と両側検定 4.13 まとめ References 第5章 ビジュアル化を使用したデータの理解 訳:太田 博三 5.1 using と importall の違い 5.2 Julia の Pyplot 5.2.1 マルチメディア I/O 5.2.2 インストール 5.2.3 基本的プロット (1) サインとコサインを用いたプロット 5.3 unicode プロット 5.3.1 インストール 5.3.2 例 (1) unicode の散布図の作成 (2) unicode の線プロットの作成 5.4 Vega を用いたビジュアル化 5.4.1 インストール 5.4.2 例 (1) 散布図 5.4.3 Vega のヒートマップ 5.5 Gadfly を用いたデータのビジュアル化 5.5.1 Gadfly のインストール 5.5.2 plot 関数を使用した Gadfly によるインタラクティブな操作 (1) 例 5.5.3 Gadfly を用いた DataFrame のプロット 5.5.4 Gadfly を用いた関数と式のビジュアル化 5.5.5 複数のレイヤを持つ画像の作成 5.5.6 統計量を用いた様々な美的特性を持つプロットの作成 (1) step 関数 (2) Q-Q 関数 (3) Gadfly の ticks 5.5.7 ジオメトリを用いた様々な美的特性を持つプロットの作成 (1) 箱ひげ図 (2) ジオメトリを用いた密度プロットの作成 (3) ジオメトリを用いたヒストグラムの作成 (4) 棒グラフ (5) Histogram2d:二次元ヒストグラム (6) 平滑線プロット (7) サブプロットなグリッド (8) 水平線および垂直線 (9) リボンのプロット (10) バイオリンプロット (11) ビースウォームプロット 5.5.8 要素:スケール (1) x_countinuous および y_continuous (2) x_discrete および y_discrete (3) 連続的カラースケール 5.5.9 要素:ガイド 5.5.10 Gadfly の動作の理解 5.6 まとめ References 第6章 教師付き機械学習 訳:大前 奈月 6.1 機械学習とは何か? 6.1.1 機械学習の使用例 6.1.2 機械学習と倫理 6.2 機械学習:処理工程 6.2.1 様々なタイプの機械学習 6.2.2 バイアス-バリアンスのトレードオフとは何か? 6.2.3 モデルにおける過学習とアンダーフィッティングの影響 6.3 決定木の理解 6.3.1 決定木の構築:分割統治 6.3.2 決定木はどこに用いるべきか? 6.3.3 決定木の長所 6.3.4 決定木の短所 6.3.5 決定木学習のアルゴリズム (1) 決定木アルゴリズムはどのように動作するのか? (2) 純度の理解とノードの純度測定 6.3.6 例 6.4 ナイーブベイズを用いた教師付き学習 6.4.1 ナイーブベイズの長所 6.4.2 ナイーブベイズの短所 6.4.3 ナイーブベイズ分類器の使用例 6.4.4 ベイズ法はどのように動作するのか? (1) 事後確率 (2) クラス条件付き確率 (3) 事前確率 (4) エビデンス 6.4.5 bag-of-words モデル (1) ナイーブベイズのスパムフィルターを用いる利点 (2) ナイーブベイズフィルターの短所 6.4.6 ナイーブベイズの例 6.5 まとめ References 第7章 教師なし機械学習 訳:兼松 正人 7.1 クラスタリングの理解 7.1.1 クラスタ作成法 7.1.2 クラスタリングの種類 (1) 階層的クラスタリング (2) 重複、排他的、ファジィクラスタリング (3) 部分クラスタリングと完全クラスタリングの違い 7.2 k-平均法クラスタリング 7.2.1 k-平均法アルゴリズム (1) k-平均法のアルゴリズム (2) データ点の最近傍重心への関連付け (3) 初期重心の選択法 (4) k-平均法アルゴリズムの時空間的複雑性 7.2.2 k-平均法に関するいくつかの問題点 (1) k-平均法における空クラスタ (2) データ集合の外れ値 7.2.3 様々な種類のクラスタ (1) k-平均法:長所と短所 7.2.4 二分割 k-平均法アルゴリズム 7.2.5 階層的クラスタリングの詳細 7.2.6 凝集型階層的クラスタリング (1) 近接度の計算法 (2) 階層的クラスタリングの長所と短所 7.2.7 DBSCAN テクニックの理解 (1) では、密度とは何か? (2) 中心に基づく密度を用いてデータ点を分類する方法 (3) DBSCAN アルゴリズム (4) DBSCAN アルゴリズムの長所と短所 7.2.8 クラスタの評価 7.2.9 例 7.3 まとめ References 第8章 アンサンブルモデルの作成 訳:石井 一夫 8.1 アンサンブル学習法とは何か? 8.1.1 アンサンブル学習法の理解 8.1.2 アンサンブル学習器の作成法 (1) 組み合わせ法 8.1.3 訓練データ集合の部分抽出法 (1) バギング <バギングの動作時> (2) ブースティング <ブースティング方法> <ブースティングアルゴリズム> (3) AdaBoost:標本抽出によるブースティング <ブースティングの動作内容> <バイアスとバリアンスの分解> 8.1.4 入力特徴量の取り扱い 8.1.5 ランダム性の導入 8.2 ランダムフォレスト 8.2.1 ランダムフォレストの特徴量 8.2.2 ランダムフォレストの動作 8.2.3 out-of-bag(obb)エラーの推定 (1) ジニ重要度 (2) 近接度(proximity) 8.3 Julia での実装 8.3.1 学習と予測 8.4 アンサンブル学習が優れている理由 8.4.1 アンサンブル学習の応用 8.5 まとめ References 第9章 時系列 訳:石井 一夫 9.1 予測とは何か? 9.1.1 意思決定プロセス (1) システムのダイナミクス 9.2 時系列とは何か? 9.2.1 傾向、季節性、周期、残差 (1) 標準線形回帰との違い (2) 分析の基本目的 (3) モデルの種類 (4) 最初に考慮すべき重要な特徴 (5) 系統的パターンとランダムノイズ (6) 時系列パターンの 2 つの一般的側面 9.2.2 傾向分析 (1) 平滑化 (2) 関数の当てはめ 9.2.3 季節性の分析 (1) 自己相関 <コレログラムの試験> (2) 偏自己相関 (3) 連続依存性の除去 9.2.4 ARIMA モデル (1) 共通プロセス (2) ARIMA の方法論 <同定> <推定と予測> < ARIMA モデルの定数> <同定フェーズ > <季節モデル> (3) パラメータ推定 (4) モデルの評価 (5) 中断された時系列 ARIMA 9.2.5 指数平滑法 (1) 単純指数平滑法 (2) 適合欠如(誤差)の指標 9.3 Julia での実装 9.3.1 TimeArray の時系列型 9.3.2 時間制約の使用 (1) when メソッド (2) from メソッド (3) to メソッド (4) findwhen メソッド (5) find メソッド (6) 数学、比較、論理演算子 (7) TimeSeries 型へのメソッド適用 < lag メソッド> < lead メソッド> < percentage メソッド> (8) TimeSeries 型での統合法 < merge メソッド> < collapse メソッド> < map メソッド> 9.4 まとめ References 第10章 協調フィルタリングとレコメンデーションシステム 訳:石井 一夫 10.1 レコメンデーションシステムとは何か? 10.1.1 ユーティリティ行列 10.2 相関ルールマイニング 10.2.1 相関ルールの測定 10.2.2 商品集合の作成法 10.2.3 ルールの作成法 10.3 内容ベースフィルタリング 10.3.1 内容ベースフィルタリングに含まれる手順 10.3.2 内容ベースフィルタリングの長所 10.3.3 内容ベースフィルタリングの短所 10.4 協調フィルタリング 10.4.1 ベースライン予測法 10.4.2 ユーザベース協調フィルタリング 10.4.3 アイテムベース協調フィルタリング (1) アイテムベース協調フィルタリングのアルゴリズム 10.5 映画推薦システムの構築 10.6 まとめ 第11章 深層学習入門 訳:古徳 純一 11.1 線形代数の再考 11.1.1 スカラーの要点 11.1.2 ベクトルの概要 11.1.3 行列の重要性 11.1.4 テンソルとは何か? 11.2 確率論と情報理論 11.2.1 なぜ確率なのか? 11.3 機械学習と深層学習の違い 11.3.1 深層学習とは何か? 11.3.2 ディープフィードフォワードネットワーク (1) ニューラルネットワーク内の隠れ層の理解 (2) ニューラルネットワークの動機付け 11.3.3 正則化の理解 11.3.4 深層学習モデルの最適化 (1) 最適化の例 11.4 Julia での実装 11.4.1 ネットワークアーキテクチャ 11.4.2 層の種類 11.4.3 ニューロン(活性化関数) 11.4.4 人工ニューラルネットワーク用正則化項の理解 11.4.5 ノルム拘束 11.4.6 ディープニューラルネットワークでのソルバーの使用 11.4.7 コーヒーブレイク 11.4.8 訓練済みの Imagenet CNN による画像分類 11.5 まとめ References 索引
執筆者一覧を表示
■訳者 (五十音順) 石井 一夫 久留米大学バイオ統計センター准教授。2015 年度情報処理学会優秀教育賞受賞。博士(医学)。 岩中 公紀 2015 年、名古屋工業大学工学部卒業。2017 年、東京工業大学総合理工学研究科修士課程修了。専門:電気化学・計算材料学。 太田 博三 データサイエンティスト。上智大学大学院地球環境学研究科後期課程単位修得満期退学。専門:自然言語処理(ディープラーニングを用いた文章生成や対話生成など)。 大前 奈月 兼松 正人 1988 年生まれ。徳島県鳴門市出身。2017 年、東京大学大学院工学系研究科博士課程修了(電気系工学専攻)。博士(工学)。 古徳 純一 帝京大学大学院医療技術学研究科教授。2004 年、東京大学大学院理学系研究科物理学専攻博士課程修了、博士(理学)。 菅野 剛 日本大学文理学部社会学科教授。2000 年、大阪大学大学院人間科学研究科博士後期課程単位取得退学。修士(人間科学)。 高尾 克也 1988 年生まれ。アバナード株式会社。京都大学大学院文学研究科(科学哲学・科学史)修士課程修了。 中村 和敬 有限会社ユニバーサル・シェル・プログラミング研究所技術研究員。2012 年、北陸先端科学技術大学院大学情報科学研究科後期博士課程単位取得満期退学。現職ではシェルスクリプトでいろいろ作っている。
カテゴリから本を選ぶ
生物の科学 遺伝
無料試読について
セミナー一覧