教育分野でも進むAI活用

米国では理系学科の手書き回答のテストでAIを用いた自動採点システムの普及が進んでいる。今後、Googleがエッセイなど記述問題のためにAI自動採点システムを提供することが期待される。

シェアする

漢字を用いない欧米などでは手書き認識の困難は漢字国よりかなり低い。基本的に英数字を認識できればよいからだ。しかし、理系学科などでは記号を用いた回答も多い。また、米国ではエッセイの採点が教師にとって大きな負担になっている。特にこうした問題に重点を置いて海外教育分野でのAI活用事例、今回は自動採点について紹介する。

回答をカテゴライズして採点するGradescope

Gradescopeは、カリフォルニア大学バークレー校ピーター・アビール(Pieter Abbeel)准教授(開発当事)や大学院生らの起こした企業で開発された自動採点システムだ。同大学内の理系学科や現時点で500以上の学校で使用されているという。

Gradescopeの自動採点システムは、オンラインでの利用が可能で、ペーパーテストにも対応している。ペーパーテストは受験者が紙と鉛筆でテストに回答するものだが、その場合、答案をスキャンして読み込み(例えば、宿題の場合は学生にスマホで写真を撮らせてもよい)、文字認識した上で回答をカテゴライズする。

Gradescopeは、学生の答える誤答にはいくつかパターンがあるという考えが基本になっているようだ。

例えば、Gradescopeのホームページで紹介されている例は、xの不定積分の解を問う問題になっている。正解が

(1/2) x2 + C

になる問題だ。ここでCは定数。

これに対する学生の回答パターンはいろいろあり、

(1/2) x2

だけのもの(つまり、定数Cが抜けている)や

x2

だけのもの(つまり、係数1/2が抜けている)等がある。

Gradescopeでは、カテゴライズされた回答が教師に示される。つまり、あるグループは

(1/2) x2 + C

と回答し、別のグループは

(1/2) x2

で、さらに別のグループは

x2

と答えていることが示される。

単純に正解・不正解にするのであれば話は簡単だが、教師としては不正解でも (1/2) x2には部分点をやりたいだろう。同じ不正解でも、x2よりも(1/2) x2の方が積分の理解度が高いからだ。

また、(1/2) x2の回答には「定数Cが抜けているよ」というコメントを、x2には「定数Cが抜けているよ」に加え「係数1/2が抜けているよ」というコメントも付け加えたい。

Gradescopeでは同じ回答カテゴリーの回答には一律で同じ採点とコメントができるので何十枚もの採点を数枚分の労力で済ませることができる。それだけでなく、部分点の付与とコメント付けを統一的に行うことができる。これによって、ある生徒には部分点1点を与えたのに同じ回答の他の生徒では部分点0.5点を与えるというような不公平も防げるし、生徒としても自分の間違ったポイントがどこになるのか明確にわかるというわけだ。

採点結果はグラフで示されるので、得点分布が極端に偏った結果になった場合などでは部分点の付け方を変えることで結果の調整を取ることも可能だ。

もちろん、Gradescopeのメリットは、回答が少数の誤答にカテゴライズできる場合に生きるわけで、全員が全くバラバラの回答をする場合には難しい。もっとも、現実には理系科目では珍回答は稀で、似たような誤答がまとまって出てくるのは統計的に認められるはずだ。

上記の例にあるように、Gradescopeは完全に自動採点するシステムではなく、教師が典型的な回答について採点すれば、それが同じカテゴリーの回答にも採点が反映される採点効率化システムだ。もっとも、小テストや宿題の問題等は繰り返し同じ問題が出されるから、実質的にほぼ完全な自動採点システムになり得る。

Gradescope の例はnvidia のブログでGPU駆動のAIアプローチの一例として紹介されている。そして、数式だけでなく、化学や工学の分野での複雑な記号・図形の採点にも、手書き認識のアプローチを応用するという。このブログは2016年9月のものなので、現状では、文字認識機能の向上とともに、AIの深層学習を回答群のカテゴライズに適用するというアプローチも進んでいるであろう。

TOEICの元締めETSが取り組むエッセイの自動採点

米国における学校教育の特徴としてエッセイが重視されており、これは小学校以降の教育に一貫したものである。エッセイは日本では「随筆」なので、筆のおもむくまま自由に書く文章のように受け取られがちだが、米国のエッセイの目的はpersuasiveな、つまり他人に対して説得力のある文章を書くことである。

エッセイは小学校の3~4年生くらいから本格的に教えられる。もちろん、単語力や文法の正確さも問題にはなるが、漫然と書かされる日本の「作文」とは異なり、パラグラフ・ライティングが基本になっている。

典型的なものがFive-Paragraph Essayで、導入、3つのボディ・パラグラフ、結論の5つのパラグラフで構成するやり方である。

米国の学校では上述のエッセイの採点が教師にとって大きな負担になっている。そこで、ETSではe-raterという自動採点エンジンを開発し、これを応用したサービスを提供している。

なお、ETS (Educational Testing Service) は日本でもTOEICやTOEFLの実施などで馴染みのある世界的な組織だが、ETS が実施している試験にはTOEIC、TOEFLの他に、米国内で行われる様々なアチーブメントテスト等があり、ETSにとってテスト、特にエッセイにおける自動採点は非常に重要な課題だと言える。

e-raterは、Criterion Online Writing Evaluation ServiceというETSのサービスで提供されるもので、生徒のライティング力の向上や、教師のエッセイの採点を支援するものである。

具体的には文法や用法、構成などを採点するが、このサービスは20年以上にわたる自然言語処理の分野で開発されたもので、

・人間の専門家が採点したときの結果と矛盾しない

・自動採点の仕組みが理解可能で実質的に意味のあるものである

・自動採点は公平なものである

などが重要なポイントとされている。

遂にGoogleが自動採点に乗り出す

2016年以降、Google Formで自動採点が可能になったことは教育界でも大きな話題である。現実にはGoogle Formを実際の自動採点で使うためには、生徒や学生がGoogle Formに書き込む必要があり、ペーパーテストに直接利用できるものではない。

しかし、択一的な回答や文字を一文字ずつ回答させるような問題形式にして、生徒や学生にペーパーテストを施し、これをスキャンや写真で読み込んでGoogle Formに落とし込むアプリ等もある。

Google Formの自動採点は現時点ではAI的なものではない。しかし、Googleの場合、事例1で挙げたようなAIによる手書き認識には既に取り組んでいるし、事例2で挙げたようなAIによる文章の意味解釈はGoogle翻訳など現に使用されている。

従来、教育分野で問題だったエッセイなどの自動採点にGoogleが乗り出すのは時間の問題であり、特にエッセイではパラグラフ間の論理的関係が重要なので、AIによる深層学習による自動採点は大きな力を発揮することになるだろう。

まとめ

採点作業は海外の教師にとっても大きな負担である。米国では特にエッセイの採点が教師にとって大きな負担になっている。しかし、GPU駆動のAIアプローチやGoogleの自動採点への参入によって、今後、海外の学校教育でAIによる自動採点が大幅に導入されるのは間違いないであろう。


<参考>

  1. Gradescope
    https://www.gradescope.com/
  2. 全世界の教授が歓喜:Gradescopeが答案採点に人工知能を採用
    https://blogs.nvidia.co.jp/2016/09/12/gradescope-brings-ai-to-grading/
  3. 5段落エッセイ(Five Paragraph Essay)とは何ですか?(LightHouseロサンゼルス)
    http://www.us-lighthouse.com/study/education-in-america/five-paragraph-essay.html
  4. Automated Scoring and Natural Language Processing(ETS)
    https://www.ets.org/research/topics/as_nlp