授業名先端人工知能論(99MD010)授業名(英)
教員名熊澤 努
開講年度学期2025年度 後期
曜日時限月曜6限
開講学科大学院 工学研究科 数理情報科学専攻・機械工学専攻

単位2.0学年修士課程1年
区分専門科目 講義・演習課程選択

概要自動運転代表されるような実用上重要な問題の多くは、不確実性の下での意思決定と考えることができる。本授業では、そのような意思決定アルゴリズムについて学習する。強化学習アルゴリズムを主な題材として扱った以下の教科書から、各回1から2章を選び、輪講形式で授業を行う。

Mykel J. Kochenderfer, Tim A. Wheeler and Kyle H. Wray. “Algorithms for Decision Making”, The MIT Press, 2022.

この授業では教科書で扱われているアルゴリズムを自ら実装し、授業で発表する積極的な参加姿勢が求められる。プログラミング言語はPythonを推奨するが、履修者の実装環境によっては他言語での実装も認めることとする。

-
【実務経験教員による授業】
■本科目の担当教員である熊澤努は,2001年度から2004年度まで、株式会社アドバンテストで産業用機器のソフトウェア開発に携わった。また、2011年度から現在にかけて、株式会社SRAにてソフトウェアシステムの研究並びに開発に従事しており、その業務で養った経験を活かし、意思決定のための問題解決法やアルゴリズムに関する実用上重要な内容を講義する.
達成目標・不確実な状況下での意思決定を行う問題を説明することができる。 
・代表的な強化学習アルゴリズムを説明することができる。 
・意思決定問題を解くためのプログラムを自身の手で実装することができる。 
学習教育目標
成績評価方法レポート:100%(授業での発表、プログラム実装を含む)

達成目標事項についての演習・小問・レポート課題を行い、その成績の合計に応じて以下のように評価を与える。

S:90~100点、A:80~89点、B:70~79点、C:60~69点、D:59点以下 不合格

再試験:無
教科書資料を配布する.輪講を行う教科書については教員の指示に従うこと. 
参考書授業中に適宜紹介する. 
履修上の注意

授業計画授業計画

第1回:授業ガイダンス、輪講の進め方の説明を行う。

第2回:Part I PROBALISTIC REASONING 2章から6章の中から1~2章選択して輪講を行う。
  主に確率の復習、ベイズ統計における推定を学習する。

第3回:Part I PROBALISTIC REASONING 2章から6章の中から1~2章選択して輪講を行う。
最尤推定法などのパラメータの学習、グラフなどの構造の学習を主に学ぶ。

第4回:Part I PROBALISTIC REASONING 2章から6章の中から1~2章選択して輪講を行う。
意思決定理論の基礎を学習する。

第5回:Part II SEQUENTIAL PROBLEMS 7章から14章の中から1~2章選択して輪講を行う。
マルコフ決定過程に基づく学習技法を主に学ぶ。

第6回:Part II SEQUENTIAL PROBLEMS 7章から14章の中から1~2章選択して輪講を行う。
方策の探索として、遺伝的アルゴリズムなどの各種探索技法を用いる方法を学ぶ。

第7回:Part II SEQUENTIAL PROBLEMS 7章から14章の中から1~2章選択して輪講を行う。
方策勾配法を中心に学び、勾配降下法を利用した最適方策探索を身につける。

第8回:Part II SEQUENTIAL PROBLEMS 7章から14章の中から1~2章選択して輪講を行う。
Actor-Critic法を深く学び、代表的な強化学習技術を身につける。

第9回:Part III MODEL UNCERTAINTY 15章から18章の中から1~2章選択して輪講を行う。
探索とその結果を活用する戦略について主に学ぶ。

第10回:Part III MODEL UNCERTAINTY 15章から18章の中から1~2章選択して輪講を行う。
モデルを使った強化学習とモデルを使わない強化学習について、代表的な技法を学ぶ。

第11回:PART IV STATE UNCERTAINTY 19章から23章の中から1~2章選択して輪講を行う。
カルマンフィルタや粒子フィルタに代表される状態推定モデルを学ぶ。

第12回:PART IV STATE UNCERTAINTY 19章から23章の中から1~2章選択して輪講を行う。
不確実な状態下でのオフライン学習について主に学ぶ。

第13回:PART IV STATE UNCERTAINTY 19章から23章の中から1~2章選択して輪講を行う。
不確実な状況下でのオンライン学習について、モンテカルロ木探索法などを取り上げ
て学習する。

第14回:PART V MULTIAGENT SYSTEMS 24章から27章の中から1~2章選択して輪講を行う。
学習エージェントが複数存在する場合の推論と意思決定について、基本事項を学ぶ。

第15回:PART V MULTIAGENT SYSTEMS 24章から27章の中から1~2章選択して輪講を行う。
引き続き学習エージェントが複数存在する場合について、意思決定のためのアルゴリ
ズムを学ぶ。

定期試験は実施しない

-
授業外学習

授業は輪講形式で行う.教科書の担当個所について,授業前に概要を調査した資料を作成しておくこと.また,各回の授業後には教科書を読んで演習問題を解くなど,復習を行うこと.
予習と復習には90分程度かけることが期待される. 

注意