アノテーションとは


AI開発における作業工程の中で膨大な時間と労力を必要としているアノテーション作業

アノテーションとは


AI開発におけるアノテーション作業の意味を分かりやすく解説します

アノテーションとは

アノテーションとは
アノテーション (annotation) とは、「注釈」や「注解」という意味を示す英単語です。ITの分野では、テキストや音声、画像、動画などあらゆる形態のデータの1つ1つに、タグやメタデータと呼ばれる情報を付けていく工程のことをアノテーションと呼んでいます。
またプログラミング言語の1つであるJavaにおいては、プログラム中に記載する注釈をアノテーションと呼びます。
そしてWebサイトを制作するときにもアノテーションという言葉を使います。スマートフォンやPCなどのデバイスごとに別のURLを持ったサイトや多言語サイトなどで、URLの異なる同一ページの存在を検索エンジンに知らせるための設定のことを指します。
昔は大手動画配信サイトのYouTubeでも、動画上に表示させるクリック可能なテキストやエリアのことをアノテーションと呼んでいました。しかしながら2017年にその編集機能、2019年には表示機能も廃止されたため、現在は利用できなくなったため、現在ではアノテーションという言葉を使っていませんが。
このように、アノテーションという言葉はでさまざまな使われ方をされていますが、「データを追加して使いやすくする」という面では、いずれも「注釈」という意味に則って用いられているといえるでしょう。それでは以下にAI開発におけるアノテーションの意味を解説させていただきます。

AI開発におけるアノテーションの位置づけ

AI開発のプロセスにおいては、データに情報を付加するプロセスのことをアノテーションと呼んでいます。アノテーションされたデータは教師データと呼ばれ、AIの機械学習に利用されます。AI開発におけるアノテーションとは教師データを作る作業のことを指します。アノテーションは、基本的には教師データを作成した分だけAIモデルの精度を高めてくれます。自動運転など高精度が求められている場合は、大量のドライブレコーダーの動画や、画像から人や周りの他の自動車など障害物をたくさん学習させなければなりません。アノテーションをしっかり行ったAIは高品質で、決められた仕事であれば人間よりも早く仕事を終わらせることが可能です。そのため、業務効率化や人件費などのコスト削減が実現可能になってきます。
また、これまで手動でやっていたことが自動化によって人的ミスも少なくすることもできるようになります。例えば、工場の生産ラインで製品の不良品検出も画像認識で行うことができ、AIに良品と不良品の画像データを学習させれば、人よりも精度の高い検品をしてくれます。
アノテーションの位置づけを図で示すとこのようになります。

アノテーションとは

教師データを使った機械学習の仕組み

  • 例えば、AIに「犬」の写真を見せて「これは何?」という質問と、「これは犬(いぬ)です」という答えの両方を人間が教えます。同じような写真を大量に何度も見せます。するとAIがどんどん「犬」を覚えていくので、写真を見せて「これは何?」と聞いたときの「これは犬です」「これは犬ではありません」という答えの正解率が上がっていきます。


  • アノテーションとは

  • この例では「これは何?」という問題と「これは犬です」という解答の情報を画像データにひとつひとつ付加していく作業がアノテーション作業です。この作業は残念ながら手作業で行われます。情報の付加が済んだら、そのデータは機械学習に利用される教師データになります。人間と同じでAIも学習すればするほど正解率は上がります。AIの精度をより高めるには、このような作業を繰り返して大量の教師データが必要になります。


機械学習とディープラーニングの違い

  • AIの機械学習には「教師あり学習」「教師なし学習」という2つの学習方法が存在します。教師あり学習は、データの分類を行ったりデータをもとに予測したりする場合に用いる方法です。一方の教師なし学習は、類似しているもの同士でグループ分けを行う場合に用いる方法です。
    こういった目的に沿うルールをAIに学習させるには、正確に学習させるための大量のデータが必要になります。その「正確な学習」を行うためには、ただ大量のデータを用意すれば良いというわけではありません。AIの開発においては、正確なタグ付けが行われたデータを大量に用意する必要があります。
    この「さまざまな形態のデータにタグ付けを行うプロセス」のことを「アノテーション」と呼び、タグ付けされたデータのことを教師データといいます。アノテーションは機械学習において極めて重要な「前処理」であり、その前処理によって初めて有効な教師データが作られるということです。


  • 機械学習

    近年はビジネスや組織の成長に役立つ重要なデータ群「ビッグデータ」の認知度が高まり、多くの企業で重要視され始めています。しかし、ビッグデータは情報量が膨大であるため、個々のデータをタグ付けし、必要な時に利用できるようにしっかりと管理しなければなりません。そこで必要となるのがアノテーションであり、アノテーションによってデータを分類したりパターン化したりすることで、ビッグデータの管理を効率的に行えるようになるのです。
    このような点からも、アノテーションはAI開発やビッグデータ管理に欠かせない作業であることがお分かりいただけるでしょう。ちなみに最近では、アノテーション作業の代行サービスを提供する企業も多くなってきています。
    教師データを自力で集めることができるのであれば特に問題ありませんが、必ずしもデータ収集する技術力を持ち合わせているとは限りません。そのため、研究機関などで公開されているデータセットを利用したり、学習済みデータを提供している企業のサービスを利用したりすることで、より効率的にAI導入を進めていくことが可能です。
    アノテーションは、企業の活動において重要な存在となっている「ビッグデータ」の管理に不可欠だと言えます。膨大な量のビッグデータの中から必要なときに必要なものを利用するには、個々のデータをタグ付けし効率的に管理することが求められるためです。
    そして近年になってビッグデータ関連のサービスの需要が高まりAI市場が活発化するにつれて、アノテーションの必要性も高まっています。AIの機械学習においては、学習させるための「教師データ」が欠かせません。AIに正しく学習させ、判断・予測の精度を高めるには、個々のデータを分類し、パターンごとにしっかりと整理することが求められます。このように、企業のビッグデータ管理やAI開発において、アノテーションは重要な存在になっているといえるでしょう。

    AI開発の作業に必要なアノテーションの種類

    • アノテーションは、さまざまな形態のAI開発において必要不可欠な作業です。そのため、アノテーションにもいくつかの種類が存在します。具体的には、以下のような種類のアノテーションが挙げられるでしょう。


    • アノテーションとは

    • 画像・映像データのアノテーション


    • 画像(映像)アノテーションは、電子商取引における商品リスト分類などに活用されているものです。画像・映像のアノテーションは主に以下の5つの種類に分類することができます。

      アノテーションとは

    • 物体検出(バウンディングボックス)


    • 物体検出は、画像・動画の中に映っているものを検出し、言葉に意味を付けていくという手法です。アノテーションツールを用いて画像・映像内にある物体を一つずつ四角で囲み、その物体が何かをタグ付けしていきます。自動車の自動運転技術において欠かせない手法の一つです。

    • 領域抽出(セグメンテーション)


    • 領域抽出は、特定の領域を選択して、タグ付けを行っていく作業のことです。四角いバウンディングボックスで囲んでいく物体検出とは異なり、特定の物体だけを抽出していきます。

    • 多角形での領域指定(ポリゴンセグメンテーション)


    • 多角形での領域指定とは、画像・映像に映った物体の領域を多角形で囲っていくアノテーション手法のことです。多角形で領域を指定していくことにより、正確に領域をアノテーションできます。

    • 目印の検出(ランドマークアノテーション)


    • 目標の検出とは、顔認識において多く利用されるアノテーション手法です。顔の表情から感情を読み取るAIなどで多く用いられます。目、眉、鼻、口、輪郭など、より細かくアノテーションを行うことで、些細な表情の変化も検出することが可能になります。

    • 画像分類


    • 画像分類は、1枚の画像にタグ付けを行っていくシンプルな手法です。猫の写真に対して、「写っているのは猫かどうか」などのタグ付けを行っていきます。

    テキストデータのアノテーション

  • テキストデータのアノテーション


  • テキストやコンテンツの分類作業も「アノテーション」の一部といえるでしょう。あらかじめ定義付けされたカテゴリを、フリーテキストで書かれた文書に割り当てていくというものです。これにより、文章をトピックごとにタグ付けしていくことができるようになります。代表例としては、ニュースサイトなどにおいて「国内」「スポーツ」「エンタメ」「経済」といったように、カテゴリごとにニュースを分類することなどが挙げられるでしょう。また、多くの人に利用されているSNSにおいても、最近ではアノテーションが活用されています。特定のワードを抽出して話題ごとに投稿を表示させることができるのは、アノテーションによって実現されているものなのです。
    テキストのアノテーションが用いられている例としてチャットボットがあります。チャットボットはテキストの意図を理解して自動応答する機能があります。例えば、顧客がホテルをキャンセルしたいときのお問い合わせパターン。

    • ホテルの予約をキャンセルしたいけど、どうしたらいい?
    • ホテルの予約をキャンセルしたいけど、料金はいくら?
    • ホテルの予約をキャンセルしたら、料金はかかるの?
    とそれぞれ「ホテル キャンセル」のワードがありますが、返すべき答えは違います。
    このような場合でもチャットボットは意図を理解して回答することが可能です。意図抽出をAIができるようにするためには、複数の文章に対してのアノテーション作業などが必要となってきます。


      音声のアノテーション

    • 音声のアノテーション


    • 音声のアノテーションは、「音量や音の種類」にタグ付けを行う作業と、「音声の意味」にタグ付けを行う作業の2種類が存在します。具体的な作業方法は、音声を文字に起こしてから単語一つひとつに意味をタグ付けしていくというものです。主に、音声認識の分野で活用されることが多いアノテーションであり、コールセンターやスマートスピーカーなどで高い精度を実現するために欠かせない作業といえます。
      たとえば、コールセンターの場合、「イヤホン」「メーカー」といった名詞だけでなく、「あの」「えー」「うーん」といった感動詞も会話に用いられるため、それらを正しく理解しなければなりません。そのために必要となるのが、一つひとつの単語の意味をタグ付けしていくアノテーションなのです。
      ちなみに音声アノテーションは、自然言語解析とも密接な関係にあります。そのため、書き起こした文章を活用してテキストデータのアノテーションを行うケースも少なくありません。

        アノテーションの作業方法

        AIに学習させたい画像や音声データにテキストを入力したり、ツールを使って画像にある特定の対象物を選択したりするだけでアノテーションの作業は完了します。そのアノテーションを実施する方法は、主に以下3つです。ただし、アノテーションする対象の数や品質、また医療画像のアノテーションなど専門性の必要性なども鑑みて、方法を選択すると良いでしょう。

        • 自社でアノテーションツール(内製)を使用


        • VOTTなど、無料で提供されているアノテーションツールを利用して自社でアノテーションを行う方法。自社にアノテーションを行うためのリソースがある企業向き。注意点として、無料のアノテーションツールは、一人で作業するように設計されていることが多く、品質管理が行いにくい。

        • アノテーションを代行会社へ外注


        • 自社でアノテーション行わずに、アノテーションを代行してくれる企業に依頼する方法。大量のアノテーション対象データがあったり、自社にリソースがない企業向き。

        • データ収集のみ外注


        • 自社・他社のアノテーション実施有無を問わず、アノテーション対象となるデータの収集のみを依頼する方法。

        近年、無料で使用できるアノテーションツールも非常に多く出ています。無料ツールとアノテーションサービスを有効活用し開発を進めていくのもよいでしょう。自社の開発環境や体制を考慮しながら、適した実施方法を選択ください。

          アノテーションに必要なデータとは?

          構築したいAI(人工知能)モデルによって、必要となるデータの種類が変わります。

          • 画像認識モデルを構築するのであれば、識別対象となる画像


          • 自然言語解析モデルを構築したいのであれば、その対象となる文章


          • 音声認識モデルを構築するのなら、その対象となる音声データ


          • 予測モデルを構築するのであれば、関連する数値データ


          • 自動運転(画像認識)のモデルであれば、車から撮影した映像ファイル


          • 顔認識のモデルであれば、顔写真の入った画像ファイル


          • 建造物の劣化具合を識別するモデルであれば、サビや傷の入った建造物の画像ファイル


          • チャットボット用の言語認識モデルであれば、チャットコミュニケーションで発生する口語文章


          このように、構築したいモデルに合わせてインプット対象となる元データを集めていきます。

            AI開発でのアノテーション作業の課題

            アノテーションはAI開発において非常に重要な役割を持っていますが、アノテーションを行う上では、以下のようなポイントがあります。

            • 人的リソースの確保


            • 作業時間の確保


            • 収集するデータの種類


            • データセットの量


            • 明確なアノテーション要件


            特に人材・リソース不足は大変な課題です。AI開発の知見を持つ人材はどの業界においても重宝されますが、最適な人材が少ないのが課題です。日々蓄積され、多種多様に変化していくビックデータを適切に取捨選択し活用していくのは安易なことではありません。アノテーション専属の社員を育成するにも時間と労力がかかります。膨大なコストが発生するのも否めません。このような時には是非当社中国事業所をご検討ください。

              アノテーションのまとめ

              今回のコラムはいかがでしたでしょうか?AI技術の開発には欠かせないアノテーションについて少しでも勉強になりましたでしょうか?AIに知的な作業を行わせるには、アノテーションされたデータを使ってAIを教育することが必要です。AIにできることが増えていく背景には、アノテーションのプロセスが必ず存在します。
              ビッグデータを利用すればよいという考えもありますが、ビックデータとはさまざまな形状や種類、性質を持った巨大なデータ群のことです。取得した膨大なデータを分析してビジネスに活用するためには、データの整理が必要になります。誤ったデータが登録されていることや、データの分類が難しい状態などが想定されるためです。アノテーションを行うことにより、個々のデータが「何のデータなのか」をタグ付けすることで、データを効率的に整理できます。
              またWebサイトにおいても、アノテーションと呼ばれるタグの設定が必要になることがあります。PCサイトとスマートフォンサイトに分かれている場合や、多言語サイトなど、同一ページが複数のURLを持っている場合がこれに該当します。そのままではGoogleなどの検索エンジンから重複ページやコピーコンテンツと見なされてしまい、SEOの評価が上がらない恐れがあるためです。そのようなページにはアノテーションを設定し、URLの異なる同じページが複数あることを記述することで、検索エンジンの評価を改善させることが可能です。
              最近はアノテーション作業を代行してくれるサービスもたくさんあります。またアノテーションを正確にするためのツールも販売されています。このようなサービスを利用することによってスピード感をもってAI開発が一歩前進できるわけですが、一つ言えることは時間をかけて膨大な量を学習させればさせるほど精度が高くなります。もちろん精度がそれほど要求されないような分野もあるかとおもいますが、どこにでもあるようなアノテーション作業で得た学習データは、無料で横展開される時代がくることを希望します。例えば農業分野であれば、野菜や果物の生育アノテーションデータなどは、特殊な品種を除けば誰でも無料で利用できるようになれば、AI開発にスピード感が生まれます。労働力不足を補い、生産性を向上するのであれば、このような取り組みは国主導で一括で成果をあげることに期待したいですね。


              ご相談はパソコンからのお申込みください。 お申込み

              IT人材不足とは