学問・大学選び支援サイト

第88回情報処理学会全国大会 第8回中高生情報学研究コンテスト

コスパ重視のAI育成は失敗のもと?大規模言語モデルの意外な弱点を発見

高槻高等学校(大阪府)

チーム名:情報3班

メンバー名:松本和真さん、山下櫂璃さん(2年生)

(2026年3月取材)

Patch-Level Training for Continual Pre-Training

AIの学習コストを抑える新手法「PLT」を、日本語と英語が混ざった追加学習(継続事前学習)で検証してみました。PLTはデータをまとめて予測し、効率化を図る手法ですが、結果は性能向上にはつながらず、日本語を学習できないだけでなく、英語の能力や読解力も低下するという残念なものになりました。その原因として、パッチ学習という通常とは異なる追加学習によってLLMの重みが破壊されてしまった可能性があり、特にLM Headへの影響が大きかったのではないかと考えています。今回の条件下では、この手法はおすすめできないという結論に至りました。

 


※クリックすると拡大します

 

◆今回発表した研究を始めた理由や経緯を教えてください。

 

近年LLMでは、性能向上のためにスケーリング則に則ってモデルサイズや学習データ量が増大しています。そのため、小規模な研究室や会社でLLMを学習することが、計算コストの面で困難になっています。私たちは、この問題を軽減するために、性能を維持したまま、計算コストを下げる方法を見つけようとこの研究をはじめました。

 

実は、論文「Patch-Level Training for Large Language Models」を知り合いの方が書いた解説と実践記事を読んで、この応用ができないかな?と思ったのがきっかけです。

 

 

◆今回の研究にかかった時間はどのくらいですか。

 

前述の記事を読んで、応用してみようと思ったのが2024年12月で、それから7月のNL研での発表まで1回目の研究をしていました。一度別の研究に移りましたが、10月に見返してみると、まだまだ研究の余地があると思い、また戻ってきました。そして、2月の校内発表まで研究していました。

2週間、毎日取り組んでいた時もありました。

 

実際、LLMの学習を行っていた時間は長いものだと5日間、その規模の実験を合計9回繰り返しました。

 

 

◆今回の研究ではどんなことに苦労しましたか。

 

実験構想の段階ではあまり悩まなかったです(本当はもっと先行研究探しで悩むべき)。実験中は、計算用GPUを無駄にしないように、異常終了していないかどうかを定期的に確認して、問題があったら修正する必要があり、別のことができなくて大変でした。

 

一番苦労したのは、結果をまとめることです。今回、LLMのベンチマークを取るだけではなく、LLM内部の重み行列の分析に取り組んだのですが、何をしているのか十分に理解しきれず、結果的にはそこまで分析することができませんでした。もっと数学・線形代数や機械学習を学んで理解したくなりました。

 

 

◆「ココは工夫した!」「ココを見てほしい」という点を教えてください。

 

初めの実験では、論文付属のコードに使われていた、HF Transformersの実装で学習をしていましたが、学習を効率化するために、より複雑なmegatron-swiftというフレームワークを改造してPatch-Level Trainingができるようにしました。

 

加えて、できるだけLLMの学習の記録を残そうと、wandbというライブラリで記録していました。しかし、それでも実験設定などを一部残すことができませんでした。

 

 

◆今後「こんなものを作ってみたい!」「こんな研究をしてみたい」と思うことがあれば教えてください。

 

残念ながらPatch-Level Trainingを使って継続事前学習することはできませんが、自作のモデルを事前学習させて、数年前のLLMモデルの性能に追いついてみたいと思っています。

 

また、今後の目標ですが、まるで生物みたいなAIの「しくみ」をもっと明らかにしていきたいです!!

 

 

※情報3班の研究は、優秀賞を受賞しました

 

 

Copyrights © Kawaijuku Educational Institution All Rights Reserved.