書籍
書籍

販売価格

¥
3,520
税込
還元ポイント

販売中

お取り寄せ
発送目安
2日~14日

お取り寄せの商品となります

入荷の見込みがないことが確認された場合や、ご注文後40日前後を経過しても入荷がない場合は、取り寄せ手配を終了し、この商品をキャンセルとさせていただきます。

フォーマット 書籍
発売日 2025年01月08日
国内/輸入 国内
出版社技術評論社
構成数 1
パッケージ仕様 -
SKU 9784297146634
ページ数 272
判型 A5

構成数 : 1枚

まえがき
第1章 Data-centric AIの概要
1.1 Data-centric AIとは
1.1.1 Model-centric AIとData-centric AI
1.1.2 ラベルの一貫性
1.1.3 データセットサイズとデータ品質との関係
1.1.4 MLOpsの役割
1.1.5 ビッグデータからグッドデータへ
1.1.6 まとめ
1.2 データセットのサイズとモデルの性能の関係
1.3 データの品質の重要性
1.3.1 AIシステムにおける品質特性
1.3.2 データの品質が与える影響
1.4 おわりに

第2章 画像データ
2.1 画像認識におけるData-Centric AIとは
2.2 画像認識モデルの基礎知識
2.2.1 代表的な画像認識タスクとデータセット
2.2.2 CNN
2.2.3 ViT
2.2.4 モデルの評価方法
2.2.5 モデルとデータのスケール
2.3 データを拡張、生成する技術
2.3.1 データ拡張とその恩恵
2.3.2 人工的にデータを生成する技術
2.4 不完全なアノテーションからの学習
2.4.1 自己教師学習
2.4.2 半教師付き学習
2.4.3 モデルベースでのアノテーションデータのクリーニング方法
2.5 画像と言語ペアの関係性を学習した基盤モデル
2.5.1 CLIP
2.5.2 BLIP
2.5.3 Data-CentricなVLデータの評価とデータの安全性
2.6 能動学習
2.6.1 予測の不確かさに基づく考え方
2.6.2 多様性に基づく考え方
2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
2.7 おわりに

第3章 テキストデータの収集と構築
3.1 言語モデルの事前学習
3.2 事前学習データの収集
3.2.1 必要な事前学習データの規模
3.2.2 データの収集戦略
3.2.3 HTMLからの本文抽出
3.3 ノイズ除去のためのフィルタリング
3.3.1 なぜフィルタリングが必要か?
3.3.2 ルールに基づくフィルタリング
3.3.3 機械学習を用いたフィルタリング
3.4 データからの重複除去
3.4.1 なぜ重複除去が必要か?
3.4.2 URLを用いた重複排除
3.4.3 MinHash
3.5 テキストデータ収集の限界
3.5.1 複数エポックの利用
3.5.2 データセットの多言語化
3.5.3 品質の高いデータの利用
3.6 おわりに

第4章 大規模言語モデルのファインチューニングデータ
4.1 ファインチューニングとは
4.1.1 ファインチューニングの概要
4.2 Instruction Data
4.2.1 よいInstruction Dataとは?
4.2.2 既存のデータを活用したデータセット作成
4.2.3 人手によるデータセット作成
4.2.4 大規模言語モデルによるデータセット作成
4.3 Preference Data
4.3.1 Preference Dataの作成方法
4.3.2 データセット
4.4 ファインチューニングモデルの評価
4.4.1 評価方法
4.4.2 定量的な指標による評価
4.4.3 人間や大規模言語モデルによる評価
4.4.4 評価時の注意点
4.5 日本語における大規模言語モデルのファインチューニング
4.5.1 日本語ファインチューニングモデルの構築
4.5.2 日本語評価データセット
4.6 おわりに

第5章 ロボットデータ
5.1 はじめに
5.2 RTシリーズの概要
5.2.1 RT-1
5.2.2 RT-2
5.2.3 RT-X
5.2.4 その他
5.3 多様なロボット
5.3.1 単腕ロボット
5.3.2 双腕ロボット
5.3.3 台車型ロボット
5.3.4 脚型ロボット
5.3.5 その他のロボット
5.4 ロボットにおけるデータ収集
5.4.1 ユニラテラルなオンライン遠隔教示
5.4.2 バイラテラルなオンライン遠隔教示
5.4.3 オフライン教示
5.5 データセット
5.5.1 QT-Opt
5.5.2 RoboNet
5.5.3 BridgeData V2
5.5.4 BC-Z
5.5.5 Interactive Language
5.5.6 DROID
5.5.7 その他
5.6 データ拡張
5.6.1 画像データ拡張
5.6.2 言語データ拡張
5.7 おわりに

第6章 Data-centric AIの実践例
6.1 テスラ
6.2 メタ
6.3 チューリング
6.4 LINEヤフー
6.5 GO
6.6 コンペティションとベンチマーク
6.6.1 Data-centric AI Competition
6.6.2 DataComp
6.6.3 DataPerf
6.6.4 Kaggle
6.7 Data-centric AI実践のためのサービス
6.7.1 Snorkel AI
6.7.2 Cleanlab
6.8 おわりに

  1. 1.[書籍]

Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では、Data-centric AIの概要を解説したあとに、画像認識、自然言語処理、ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では、企業における実践的な取り組みを紹介します。

作品の情報

メンバーズレビュー

レビューを書いてみませんか?

読み込み中にエラーが発生しました。

画面をリロードして、再読み込みしてください。