ACROFAN

Google AIフォーラム第1講:AI概要&インサイドGoogle翻訳技術

記事公開日時 : February 9, 2017, 4:57 pm
ACROFAN=金 炯根 | hyungkeun.kim@acrofan.com | SNS
Googleは9日午前、ソウル市江南区に位置するGoogle Campus Seoulで「Google AI フォーラム第1講:AI概要&インサイドGoogle翻訳技術」の行事を開催した。

「Google AIフォーラム」は最近到来しているAI-First時代を迎え、人工知能やマシンラーニングと関連してより分かりやすい説明や事例とともにさらに深く勉強することができる機会を提供するためGoogleが準備した行事で、毎月行われる予定だ。

 
▲Google AIフォーラムの第1講の行事が開催された。

 
▲パク・ヨンチャンリーダーがAIとマシンラーニング等の概要について紹介した。

 
▲マイク・シュスターリサーチサイエンティストが「Google神経網機械翻訳」技術について紹介した。

講演行事の最初の手順ではパク・ヨンチャンGoogleテックリーダー兼ソフトウェアエンジニアがAIとマシンラーニング等の概要について紹介する時間を持った。

まず人工知能(Artificial Intelligence、AI)はさまざまなコンピューター科学技術の組合を通じて事物をさらに賢くする科学技術を示す。普通は人の代わりに面倒なことをすべて解決してくれることについて話しているが、パク・ヨンチャンリーダーはそれは今後数百年はかかる未来の夢と同じだと話した。またその下位概念であるマシン・インテリジェンス(Machine Intelligence)は特別なテーマに問題を解決するのに機械が手伝う技術で、「アルファーゴ」が囲碁に対してのみ作用をするように少数のテーマに特化されている点が特徴だ。

マシンラーニング(Machine Learning)は一つのプログラムに一つ一つ作動法を入力する代わり、例示を通じて機械自らトレーニングできるようにする技術である。マシンラーニングは3~40年前からいろんな方法が開発されてきたが、実際の脳神経を模倣した神経網(Neural Network)を通じて数百万または数十億個のニューロンがそれぞれ入力した情報を他のニューロンに伝えて知識を拡張させる。この過程でニューロンがいくつかの層を成し、各階で伝達する情報を学習することをディープランニング(Deep Learning)と呼び、この過程を通じて各層が入力するパターンを継続に習得して最も高い層のニューロンネットワークは非常に抽象的なパターンを学習することになる。

一方、マシンラーニングには現在大きく三つの方法が使用されている。

まず指導学習(Supervised Learning)は、特定状況についた資料を集めて入れたら何度も答えをまともに合わせるまで学習を繰り返す方式で現在最も多く使用される方式である。この方式は正確度も高い方であり学習させるにも良い方法だが、データがたくさん必要なため特定の状況に対するデータが多いほど良い結果を得ることができる。

次に自主学習(Unsupervised Learning)は、資料やサンプルがなく全てのデータを引き続き確認しながら同じようなことを連結する方式で答えを得る方式だ。この学習法は人間もまだ理解できない実験的な部分やサンプルを得難い領域で主に使用される。

最後に強化学習(Reinforcement Learning)は、上の二つの学習法とは少し違う方式で特定の情報を与えず無条件に行為を反復することによる結果値だけを提供して自ら身につけるようにする方式である。この方式は一番難しい方式で実際の使用が少ないが研究が最も多く行われている。

パク・ヨンチャンリーダーはGoogleが現在ジーメールスパム検索、音声認識、写真検索、イメージ認識及び自動翻訳などにマシンラーニングを使用していると紹介し、人工知能の研究が開始されて数十年が過ぎたが最近人々から多くの関心を受けている理由について「急速に発展するコンピューティングインフラ、安くなった保存空間、新しいディープランニングモデルの登場を通じて研究が速いスピードで進展を見せながらマシンラーニングを通じて行われた研究の結果物が登場したため」だと述べた。また同じ研究をしてもデータが多かったり研究モデルが良い方向、またはコンピューステーションパワーが高い方が優勢であるほどAI技術は今の発展速度なら遠くない未来に今まで発展してきたもの以上に急速なスピードで発展して結果を一つずつ見せてくれるだろうと展望した。

 
▲マシン・インテリジェンスとマシンラーニングは人工知能の下位概念だ。

 
▲ディープランニングはニューロンがいくつかの層を成して各階で伝達する情報を学習するようにする。

 
▲マシンラーニングには現在大きく三つの方法が使用されている。

 
▲Googleは様々なサービスにマシンラーニングを適用している。

続いて二番目の手順ではマイクシュスターGoogleリサーチサイエンティストが画像講演を通じてAI技術が適用された「Google神経網機械翻訳」技術について紹介した。

Googleがこれまで翻訳関連サービスに力量を集中してきたことについてシュスターリサーチサイエンティストはインターネットのコンテンツのうち50%ぐらいが英語になっているが、世界人口のうち20%だけが英語を使用できるためだとその理由を明らかにした。つまり情報をより楽に接することができるようにして国家間のコミュニケーションを解決するためには翻訳が改善されなければならないため、Google はこれを向けて翻訳関連サービスに気を使っていると話した。

現在Google翻訳には1日1,400億個以上の単語が入力されており、10億個以上の文章がサービスを通じて翻訳されている。月別にGoogle翻訳サービスを活発に使用する人は5億人に上り、103個の言語を支援するようになって全体オンライン使用人員の99%をカバーしている。

特に2016年9月に公開されて11月に8個の言語組合に適用された「Google神経網機械翻訳」は既存の構文基盤の機械翻訳が文章を単語と区単位に分けて一つ一つ個別的に翻訳したものとは違って全体の文章を一つの翻訳単位と見なした後、一度に翻訳し文脈によって最も適合した翻訳を把握して配置換え、文法規則によって自然な文章に近い翻訳を提供しようとしている。

ここには数百万個の事例を通じて学習して翻訳品質を一層向上させるエンド・トゥ・エンド(end-to-end)学習システムが適用されており、「Google神経網機械翻訳」の導入を通じてテスト適用した一部の言語組合の翻訳品質が向上したことを確認することができた。英語の文章を韓国語で翻訳した後、再びこれを英語に翻訳した際、既存の構文基盤機械翻訳では正確度が高くないが、「Google神経網機械翻訳」を利用した後はある程度高い正確度の翻訳結果を得られたという。

実際に翻訳品質の向上数値を比較した時、韓国語やトルコ語、中国語などの英文翻訳において高い正確度の向上を見せており、これに対する影響で最近2ヵ月間のアンドロイド環境での英語-韓国語翻訳のトラフィックは50%まで上昇したりもした。

これと共に「Google神経網機械翻訳」は単一システムで多くの言語間の翻訳ができるようにした「ゼロショット翻訳」システムを適用することにより、翻訳品質の向上とともに多重言語トレーニングを通じて実際にテストしていないさまざまな言語組合の翻訳も可能にさせる機能を実現した。例えば、英語と韓国語、英語と日本語間の翻訳知識を通じてトレーニングが行われなかった韓国語と日本語組合の翻訳を可能にしたそうだ。

また、同じ意味の文章を言語に関係なく似た方法で表示する共通言語について調べてみた結果、クラスター単位で似たような意味の文章データが集まることも確認することができたそうだ。

このような学習の結果、文章当たり平均10秒程度所要された翻訳速度は約2ヵ月ぶりに平均0.2秒まで減ったことを確認することができたと、シュスターリサーチサイエンティストは紹介した。

一方、今後の発展方向についてシュスターリサーチサイエンティストは「Google神経網機械翻訳」に今後とも改善の余地がたくさんあると明らかにした。彼は「数字や日付が正確に翻訳されない状況をはじめ、人間なら簡単に翻訳できるが機械翻訳を通じては間違って翻訳される短くて使用頻度が少ない文章、そして名前やブランド名と同じ固有名詞が代表的な事例であり、専門家で構成された研究グループがこれを解決するため昼夜努力中ので、引き続き発展する『Google神経網機械翻訳』に会うことができる」と述べた。

 
▲Googleの翻訳を通じて1日10億個以上の文章が翻訳されている。

 
▲「Google神経網機械翻訳」は従来の翻訳より比較的自然な翻訳結果を見せてくれる。

 
▲「ゼロショット翻訳」はテストしていないさまざまな言語組合の翻訳も可能にした。

 
▲これからも不足した部分はあり、たゆまず改善作業が行われる予定だ。


Copyright ⓒ Acrofan All Right Reserved
 

Acrofan     |     Contact Us : guide@acrofan.com     |     Contents API : RSS

Copyright © Acrofan All Right Reserved