第1章 データ科学と深層学習
1.1 はじめに
1.2 データの表現学習
1.3 マルチモーダル情報処理
1.4 本書の構成
第2章 深層学習の基礎
2.1 機械学習
2.2 確率的勾配降下法
2.3 適応的最適化法
2.4 ニューラルネットワークの基礎
2.5 生成モデル
第3章 画像の認識と生成
3.1 ニューラルネットワークと画像認識
3.2 畳み込みニューラルネットワーク(CNN)
3.3 深層CNNの発展
3.4 画像認識特有のヒューリスティクス
3.5 画像のエンコーダ
3.6 画像のデコーダ
3.7 応用技術
第4章 自然言語の認識と生成
4.1 自然言語処理の特徴
4.2 自然言語のエンコーダ
4.3 自然言語のデコーダ
4.4 自然言語処理タスクへの応用
4.5 性能改善のための技術
第5章 音声の認識と生成
5.1 概要
5.2 音声認識
5.3 音声合成
5.4 話者認識
5.5 音響特徴量
第6章 マルチモーダル情報処理
6.1 マルチモーダル情報処理とは
6.2 音と画像
6.3 画像と自然言語
6.4 音と自然言語
6.5 音と画像と自然言語
6.6 マルチモーダル情報処理の難しさ
参考文献
索引
1.1 はじめに
1.2 データの表現学習
1.3 マルチモーダル情報処理
1.4 本書の構成
第2章 深層学習の基礎
2.1 機械学習
2.2 確率的勾配降下法
2.3 適応的最適化法
2.4 ニューラルネットワークの基礎
2.5 生成モデル
第3章 画像の認識と生成
3.1 ニューラルネットワークと画像認識
3.2 畳み込みニューラルネットワーク(CNN)
3.3 深層CNNの発展
3.4 画像認識特有のヒューリスティクス
3.5 画像のエンコーダ
3.6 画像のデコーダ
3.7 応用技術
第4章 自然言語の認識と生成
4.1 自然言語処理の特徴
4.2 自然言語のエンコーダ
4.3 自然言語のデコーダ
4.4 自然言語処理タスクへの応用
4.5 性能改善のための技術
第5章 音声の認識と生成
5.1 概要
5.2 音声認識
5.3 音声合成
5.4 話者認識
5.5 音響特徴量
第6章 マルチモーダル情報処理
6.1 マルチモーダル情報処理とは
6.2 音と画像
6.3 画像と自然言語
6.4 音と自然言語
6.5 音と画像と自然言語
6.6 マルチモーダル情報処理の難しさ
参考文献
索引