学問・大学選び支援サイト

第87回情報処理学会全国大会 第7回中高生情報学研究コンテスト

Wikipediaはどのくらい信用できる? 最新バージョンの履歴から信憑性を表示するシステムを作る

東京学芸大学附属国際中等教育学校       

チーム名:木下・岩﨑                                                                         

メンバー:木下修一くん、岩﨑拓斗くん(2年生)

(2025年3月取材)

Wikipedia記事における内容の信憑性を数値化するツールの作成:最適化された高速なオンラインアルゴリズムに向けて

Wikipediaは、その知名度と規模に反して、誤情報の存在などを理由に、公の場では情報源として活用されることが少ない。信憑性を細分化して評価する先行研究も存在するが、膨大なデータを事前に処理することを求めるオフラインアルゴリズムで構築されている。そのため本研究では、これをデータを事前に取得する必要のないオンラインアルゴリズムで置換することを目標とする。

 

先行研究のオフラインアルゴリズムでは、Wikipedia(英語版)において記事を単語レベルに細分化し、編集履歴から単語ごとの情報の信憑性を評価している。Wikipediaではより新しいバージョンから履歴を取得できるため、本研究のオンラインアルゴリズムでは、各履歴においての評価を最新のバージョンに反映させる手法を採用し、ある程度正確な信憑性の情報をすぐに表示させることができるようにする。

 

※クリックすると拡大します

 

◆今回発表した研究を始めた理由や経緯を教えてください。

 

私たちは当初から、情報系に関連した何かの研究を共同で行おうと話し合っていました。その中で、いくつかの候補が挙がりました。例えば、音楽の検索に関するテーマが候補に上がりました。また最近の動向を踏まえてAI関連の研究も興味深いのではないかという意見もありました。

 

さらに、私個人の趣味としてWikipediaに強い関心があり、その研究を進めることも可能であると考えました。Wikipediaには、月刊で発行される広報誌があり、そこにはWikipediaに関連した研究が掲載されます。それらを眺めていると、研究テーマとして魅力的な可能性があると感じました。

 

具体的に研究を進めるために先行研究を調査したところ、Adler(2008)の論文に出会いました。この研究は、Wikipedia記事の履歴を単語単位で分析し、信憑性を評価するという内容で、非常に分かりやすく感覚的にも理解しやすいものでした。論文中にはさらに発展可能な示唆が多くあり、しかも実際にはまだ誰も取り組んでいない領域だったため、このテーマを深掘りすることに決めました。

 

また学校の研究活動として取り組む以上、1年程度で一定の成果を出す必要性がありました。そのため、時間や設備の制約を考慮し、現実的に取り組める範囲として、このWikipedia研究に絞ることとなりました。

 

テーマ選びの段階では興味やアイデアが数多く出ますが、最終的には現実的な実現可能性や効率性を重視し、研究可能な範囲で絞り込む必要がありました。実現可能性と興味をうまく両立させたテーマ選択が研究成果に大きく影響すると考え、今回のテーマも慎重に選んだ結果、継続的に研究できる内容になったと思っています。

 

 

◆今回の研究にかかった時間はどのくらいですか。

 

今回の研究は、学校での課題研究として約1年の期間をかけて行いましたが、実際に学会に出すまでの期間は約半年ほどでした。実質的な作業時間としては正確には分かりませんが、およそ60時間程度であったと考えています。

 

具体的には、コードの実装自体にはそれほど時間がかかりませんでしたが、論文やポスターを作成する段階で特に多くの時間を費やしました。また、Adler氏の先行研究に含まれている差分解析を行う複雑なコードを理解し、自分の研究に適用するための実装にかなりの時間を要しました。さらに、実験を行う際や、アルゴリズム部分とインタフェース部分を統合する際にも若干の時間がかかりました。

 

一方で、研究の構想段階であるアルゴリズムの流れを考える作業については、当初からある程度明確なイメージを持って進めていたため、それほど時間はかかりませんでした。ただし、その構想を具体的な形に書き起こしていくプロセスには、やはり相応の時間が必要でした。

 

 

◆今回の研究ではどんなことに苦労しましたか。

 

研究において最も苦労したのはテーマ選びの段階でした。テーマが具体的に決まるまでは、非常に多くの労力を費やしました。一方で、一度テーマが決定すれば、その後のプロセスは比較的明確であり、順調に進みました。

 

テーマ設定にあたり、単なる曖昧なアイデアではなく、非常に具体的で明確な計画を最初から立てていました。例えば、「この論文のこの部分を、このようなアルゴリズムで実現したい」といった具体的な目標があったため、その後の研究において精神的な負担や行き詰まりを感じることはほとんどありませんでした。

 

情報系の研究では、アルゴリズムを設計し、それを正確にプログラムとして表現すれば、意図した通りに動作します。プログラムに誤りがあればエラーとして明確に示されますし、アルゴリズム自体に問題があれば結果が明らかに異なるため、間違いを把握しやすく、最終的に確実性を持って研究を進めることができました。

 

 

◆「ココは工夫した!」「ココを見てほしい」という点を教えてください。

 

今回の研究で特に工夫した点は、アルゴリズムの「オンライン化」による新規性です。先行研究との差別化を図るため、オンラインでリアルタイムに処理可能なアルゴリズムを考案した部分が最も注目してほしいところです。

 

研究発表の際には、先行研究の説明に多くの時間を割く必要がありました。そのため、新規性のポイントが伝わりにくくならないよう、常に工夫して説明しました。その結果、聞き手からはある程度理解してもらえましたが、自分自身では伝わりきっていない可能性への不安もありました。

 

 

◆今後「こんなものを作ってみたい!」「こんな研究をしてみたい」と思うことがあれば教えてください。

 

今後取り組みたい研究としては、今回の課題である「多言語対応」を挙げています。特に日本語への対応を考えており、日本語の文章を適切に分割するアルゴリズムを組み込むことで実現可能だと考えています。

 

さらに、個人的には将来的に深層学習に本格的に取り組んでみたいという希望もあります。ただ、深層学習を研究として進めるには、膨大な基礎知識の習得や設備面でのコストが必要になるため、現状では難しいと判断しました。小規模なニューラルネットワークの研究であれば現実的ですが、それでも十分な基礎知識がないままでは研究が進まないため、今回はテーマから外したという経緯があります。

 

今回の研究からは離れますが、最初のテーマの候補にあった音楽と情報の融合的なテーマはいつかやってみたいと思っています。やはり機械学習についての知識が不可欠なため、これから大学に行って勉強するのが楽しみです。

 

※木下・岩﨑チームの発表は、中高生研究賞奨励賞・情報処理教育委員会 委員長賞を受賞しました。

 

Copyrights © Kawaijuku Educational Institution All Rights Reserved.