內容簡介
內容簡介 自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。目次1章 TransformerからVision Transformerへの進化2章 Vision Transformerの基礎と実装3章 実験と可視化によるVision Transformerの探求4章 コンピュータビジョンへの応用5章 Vision and Languageへの応用6章 Vision Transformerの派生手法7章 Transformerの謎を読み解く8章 Vision Transformerの謎を読み解く
作者介紹
作者介紹 片岡裕雄片岡裕雄(かたおか ひろかつ)国立研究開発法人産業技術総合研究所人工知能研究センター主任研究員2014年慶應義塾大学大学院理工学研究科後期博士課程修了、博士(工学)。2020年10月より国立研究開発法人産業技術総合研究所主任研究員。画像認識、動画解析、人物行動解析に従事。2011 2020年VIEW小田原賞、2019年度産総研論文賞、ACCV 2020 BEST PAPER HONORABLE MENTION AWARD受賞。山本晋太郎山本晋太郎(やまもと しんたろう)2022年3月に早稲田大学先進理工学研究科物理学及応用物理学専攻にて博士後期課程を修了し、博士(工学)を取得。学生時代は主にコンピュータビジョンと自然言語処理の分野の研究に従事。博士論文のテーマは、効率的な研究コミュニケーションのための科学論文解析。現在は企業の研究開発部門に勤める会社員。本書の第1章の執筆を担当。徳永匡臣徳永 匡臣(とくなが まさおみ)株式会社野村総合研究所AIソリューション推進部AI tech lab.所属2019年3月、東北大学工学部を卒業。2021年3月、東京工業大学大学院情報理工学院情報工学系知能情報コースにて修士課程を修了。現在は、コンピュータビジョンおよび自然言語の業務に従事。趣味として、インターネット上で論文の解説記事を執筆。本書の第2章の執筆を担当。