第88回情報処理学会全国大会 第8回中高生情報学研究コンテスト
コスパ重視のAI育成は失敗のもと?大規模言語モデルの意外な弱点を発見
高槻高等学校(大阪府)
チーム名:情報3班
メンバー名:松本和真さん、山下櫂璃さん(2年生)
(2026年3月取材)
Patch-Level Training for Continual Pre-Training
AIの学習コストを抑える新手法「PLT」を、日本語と英語が混ざった追加学習(継続事前学習)で検証してみました。PLTはデータをまとめて予測し、効率化を図る手法ですが、結果は性能向上にはつながらず、日本語を学習できないだけでなく、英語の能力や読解力も低下するという残念なものになりました。その原因として、パッチ学習という通常とは異なる追加学習によってLLMの重みが破壊されてしまった可能性があり、特にLM Headへの影響が大きかったのではないかと考えています。今回の条件下では、この手法はおすすめできないという結論に至りました。
※クリックすると拡大します
◆今回発表した研究を始めた理由や経緯を教えてください。
近年LLMでは、性能向上のためにスケーリング則に則ってモデルサイズや学習データ量が増大しています。そのため、小規模な研究室や会社でLLMを学習することが、計算コストの面で困難になっています。私たちは、この問題を軽減するために、性能を維持したまま、計算コストを下げる方法を見つけようとこの研究をはじめました。
実は、論文「Patch-Level Training for Large Language Models」を知り合いの方が書いた解説と実践記事を読んで、この応用ができないかな?と思ったのがきっかけです。
◆今回の研究にかかった時間はどのくらいですか。
前述の記事を読んで、応用してみようと思ったのが2024年12月で、それから7月のNL研での発表まで1回目の研究をしていました。一度別の研究に移りましたが、10月に見返してみると、まだまだ研究の余地があると思い、また戻ってきました。そして、2月の校内発表まで研究していました。
2週間、毎日取り組んでいた時もありました。
実際、LLMの学習を行っていた時間は長いものだと5日間、その規模の実験を合計9回繰り返しました。
◆今回の研究ではどんなことに苦労しましたか。
実験構想の段階ではあまり悩まなかったです(本当はもっと先行研究探しで悩むべき)。実験中は、計算用GPUを無駄にしないように、異常終了していないかどうかを定期的に確認して、問題があったら修正する必要があり、別のことができなくて大変でした。
一番苦労したのは、結果をまとめることです。今回、LLMのベンチマークを取るだけではなく、LLM内部の重み行列の分析に取り組んだのですが、何をしているのか十分に理解しきれず、結果的にはそこまで分析することができませんでした。もっと数学・線形代数や機械学習を学んで理解したくなりました。
◆「ココは工夫した!」「ココを見てほしい」という点を教えてください。
初めの実験では、論文付属のコードに使われていた、HF Transformersの実装で学習をしていましたが、学習を効率化するために、より複雑なmegatron-swiftというフレームワークを改造してPatch-Level Trainingができるようにしました。
加えて、できるだけLLMの学習の記録を残そうと、wandbというライブラリで記録していました。しかし、それでも実験設定などを一部残すことができませんでした。
◆今後「こんなものを作ってみたい!」「こんな研究をしてみたい」と思うことがあれば教えてください。
残念ながらPatch-Level Trainingを使って継続事前学習することはできませんが、自作のモデルを事前学習させて、数年前のLLMモデルの性能に追いついてみたいと思っています。
また、今後の目標ですが、まるで生物みたいなAIの「しくみ」をもっと明らかにしていきたいです!!
※情報3班の研究は、優秀賞を受賞しました
→他の記事も読もう





