現地の価値観を反映したアラビア語の大規模言語モデル (LLM) を緊急に整備する必要性
現地の価値観を反映したアラビア語の大規模言語モデル (LLM) の育成
Training an Arabic LLM that reflects local values
Kai-Fu Lee 李開復
コンピューター サイエンティスト、01.AI の CEO、Sinovation Ventures の会長、Google China の元社長、「AI 2041」および「AI Superpowers」の著者
2024年7月25日 22:11
https://www.arabnews.com/node/2556646
生成型AIを支える大規模言語モデル(LLM)の進歩は、医療や教育からエンターテインメントまで、あらゆるものを変えています。
機械が受動的なツールから、人間の本来の能力を増幅する能動的なアシスタントへと変化するにつれ、私たちとテクノロジーの関係はより親密になっています。
この新しい時代は、中東にとって課題とチャンスの両方をもたらします。
課題は、OpenAIのChatGPTやGoogleのGeminiなど、この新しい分野のリーダーがシリコンバレーや中国から来ていることです。私の01.AIチームは、米国に匹敵するモデルを構築しました。ヨーロッパでも、フランスのMistralなどの新興企業が競争に参入しています。
中東がこのリーグに参加し、自分たちの声が確実に届くようにするチャンスです。
最近リヤドに行ったときにインスピレーションを得て、私は現在の AI モデルが簡単なリクエストをどのように処理するかをテストすることにしました。ディナー パーティーを主催する準備をしている若いサウジアラビア人を想像し、ChatGPT にメニューを用意するように依頼しました。
ChatGPT が勧めてくれた食べ物はおいしそうでした。詰め物のブドウの葉、タブーレ サラダ、マンディ、詰め物のデーツです。しかし、飲み物が問題でした。
ミント・レモネードやjallab ジャッラーブ (デーツ、ブドウ糖蜜、ローズ・ウォーターを混ぜた飲み物) などの飲み物のほかに、ChatGPT は次のような提案もしました。「アルコール飲料については、世界各国のワイン、ビール、またはノンアルコール モクテルのセレクションを提供できます。」
名誉のために言っておくと、私が同じ質問を繰り返すと、ノンアルコール飲料しか提案されませんでした。
モデルが法律と文化的規範の両方を破ることを推奨する場合、政治や宗教に関するより繊細な質問にどう答えるか想像してみてください。実際、研究者は一部のモデルが反イスラム教の偏見を示していることさえ示しています。
私のささやかなテストは、現地の価値観を反映するアラビア語の大規模言語モデルを開発することが緊急に必要であることを強調しています。
これを構築するための最初のステップは、新しい世代のモデルを適切にトレーニングするのに十分な高品質のアラビア語のデジタル化データを作成することです。
アラビア語を話す人は4億人いますが、オンラインコンテンツのわずか2%がアラビア語であると推定されています。MetaのオープンソースLLMモデルLlamaは、圧倒的に英語データでトレーニングされており、アラビア語はデータの0.1%未満を占めています。
データが不足しているため、当然、結果が歪んでいます。このデータ不足を修正するには、先見の明のある起業家または政府支援組織が、多くのアラビア語の本を収集、デジタル化し、アラビア語モデルのトレーニングデータに変換する必要があります。
データが収集されると、画期的な事前トレーニング プロセスに取り込むことができます。このプロセスでは、何兆もの単語を読み取り、独自の仮想概念空間または世界のモデルを作成します。この概念空間は、主に英語と中国語であることがわかっています。
膨大な文化的成果と重要性を持つアラビア語のテキストを相当数追加することで、概念空間はアラビア語についてより知識が深まり、概念と見解のバランスが取れたものになります。
このような事前トレーニングの後、モデルは、アラブ世界のデータとラベルによって微調整される必要があります。これは、地域の価値観に一致するものです。これらは、米国の価値観に一致するアメリカのモデルや、中国の価値観を反映する中国のモデルとは異なります。
調整データの収集、人間によるラベル付けの調整、調整プロセスは、地域内で AI の専門家によって行う必要があります。
最後に、法令遵守を確保し、危害を回避するために、安全モジュールを追加する必要があります。これらも、現地で開発する必要があります。
上記の手順により、中東の伝統を反映したローカライズされた主権モデルが作成されます。民間開発または政府支援により、アラビア語 AI イノベーションの新たな波の基盤となる可能性があります。
アラビア語を強化した新しい大規模言語モデルは、起業家や開発者が自国のニーズに合わせた新しいアプリケーションを構築することを奨励する可能性があります。
洞察力のあるコンテンツを検索、要約、整理、作成できる AI ツール、学習を楽しくカスタマイズできる AI 教師、人間よりも知識が豊富な AI ドクター、ソフトウェアやアプリケーションを作成できる AI エンジニア、所有者自身よりも所有者のことをよく知っている AI アシスタントを想像してみてください。
アラブ世界は、PC、インターネット、モバイルの時代に主導的な役割を果たしていませんでした。AI の時代では状況が変わります。
この変革は決して簡単なことではありません。これまでにない資金、エネルギー、人的資本の投資が必要になります。
サウジアラビアのムハンマド ビン サルマン皇太子などの中東の指導者は、自国を未来に導くビジョン、決意、リソースを持っていることを示しています。
最近、ジェッダのホテルのバルコニーに立って、キング・アブドラ科学技術大学を見下ろしながら、そのビジョンの一部が実現しつつあるのを目にしました。
KAUSTやUAEのムハンマド・ビン・ザーイド人工知能大学などの大学は、この変革にすでに投入されているリソースの顕著な例です。
これらの世界クラスの学術機関は、世界トップクラスの優秀な人材を引きつけ、維持することができます。未来のAIのビジョンを実現するには、世界最高のコンピューターエンジニアを招き入れることが特に重要です。
01.AIの私たちのチームは、才能と意欲にあふれたコンピューター科学者のグループがわずか1年で何を達成できるかを示しました。適切なリソースを投入し、最高の人材を活用すれば、サウジアラビアのような国は世界の同業他社に簡単に追いつくことができます。
中東は、再生可能エネルギーを使用して電力を大量に消費する生成AIモデルを実行することでも世界をリードすることができます。
サウジアラビアは経済の多様化を目指しており、太陽光などの代替エネルギー源の利用を積極的に推進している。太陽光はサーバーファームに電力を供給し、二酸化炭素排出量を削減できる可能性がある。これはAIが普及するにつれて懸念が高まっている。
各国が独自の AI を構築するための戦略を練るには時間がかかるかもしれない。しかし、アラブ世界にとって、文化的に適切な LLM の創出を迅速に促進し、AI を活用したアラビア語アプリが開花できるように豊かなエコシステムを構築することは極めて重要である。
最近、リヤドのコンピューター・ストアで女性販売員と出会ったが、これは危機に瀕している状況を思い出させる出来事だった。ジーンズをはき、タトゥーを入れた彼女は、国が経験している変革を思い起こさせる存在だった。
「どこから来たの?」と尋ねると、彼女は「私はサウジアラビア人です」と答えた。「いつかサウジアラビアのイーロン マスクになりたいです」。次に訪問したときには、彼女が自国製の AI アプリを売り込んでくれることを期待している。
Training an Arabic LLM that reflects local values
Kai-Fu Lee 李開復
コンピューター サイエンティスト、01.AI の CEO、Sinovation Ventures の会長、Google China の元社長、「AI 2041」および「AI Superpowers」の著者
2024年7月25日 22:11
https://www.arabnews.com/node/2556646
生成型AIを支える大規模言語モデル(LLM)の進歩は、医療や教育からエンターテインメントまで、あらゆるものを変えています。
機械が受動的なツールから、人間の本来の能力を増幅する能動的なアシスタントへと変化するにつれ、私たちとテクノロジーの関係はより親密になっています。
この新しい時代は、中東にとって課題とチャンスの両方をもたらします。
課題は、OpenAIのChatGPTやGoogleのGeminiなど、この新しい分野のリーダーがシリコンバレーや中国から来ていることです。私の01.AIチームは、米国に匹敵するモデルを構築しました。ヨーロッパでも、フランスのMistralなどの新興企業が競争に参入しています。
中東がこのリーグに参加し、自分たちの声が確実に届くようにするチャンスです。
最近リヤドに行ったときにインスピレーションを得て、私は現在の AI モデルが簡単なリクエストをどのように処理するかをテストすることにしました。ディナー パーティーを主催する準備をしている若いサウジアラビア人を想像し、ChatGPT にメニューを用意するように依頼しました。
ChatGPT が勧めてくれた食べ物はおいしそうでした。詰め物のブドウの葉、タブーレ サラダ、マンディ、詰め物のデーツです。しかし、飲み物が問題でした。
ミント・レモネードやjallab ジャッラーブ (デーツ、ブドウ糖蜜、ローズ・ウォーターを混ぜた飲み物) などの飲み物のほかに、ChatGPT は次のような提案もしました。「アルコール飲料については、世界各国のワイン、ビール、またはノンアルコール モクテルのセレクションを提供できます。」
名誉のために言っておくと、私が同じ質問を繰り返すと、ノンアルコール飲料しか提案されませんでした。
モデルが法律と文化的規範の両方を破ることを推奨する場合、政治や宗教に関するより繊細な質問にどう答えるか想像してみてください。実際、研究者は一部のモデルが反イスラム教の偏見を示していることさえ示しています。
私のささやかなテストは、現地の価値観を反映するアラビア語の大規模言語モデルを開発することが緊急に必要であることを強調しています。
これを構築するための最初のステップは、新しい世代のモデルを適切にトレーニングするのに十分な高品質のアラビア語のデジタル化データを作成することです。
アラビア語を話す人は4億人いますが、オンラインコンテンツのわずか2%がアラビア語であると推定されています。MetaのオープンソースLLMモデルLlamaは、圧倒的に英語データでトレーニングされており、アラビア語はデータの0.1%未満を占めています。
データが不足しているため、当然、結果が歪んでいます。このデータ不足を修正するには、先見の明のある起業家または政府支援組織が、多くのアラビア語の本を収集、デジタル化し、アラビア語モデルのトレーニングデータに変換する必要があります。
データが収集されると、画期的な事前トレーニング プロセスに取り込むことができます。このプロセスでは、何兆もの単語を読み取り、独自の仮想概念空間または世界のモデルを作成します。この概念空間は、主に英語と中国語であることがわかっています。
膨大な文化的成果と重要性を持つアラビア語のテキストを相当数追加することで、概念空間はアラビア語についてより知識が深まり、概念と見解のバランスが取れたものになります。
このような事前トレーニングの後、モデルは、アラブ世界のデータとラベルによって微調整される必要があります。これは、地域の価値観に一致するものです。これらは、米国の価値観に一致するアメリカのモデルや、中国の価値観を反映する中国のモデルとは異なります。
調整データの収集、人間によるラベル付けの調整、調整プロセスは、地域内で AI の専門家によって行う必要があります。
最後に、法令遵守を確保し、危害を回避するために、安全モジュールを追加する必要があります。これらも、現地で開発する必要があります。
上記の手順により、中東の伝統を反映したローカライズされた主権モデルが作成されます。民間開発または政府支援により、アラビア語 AI イノベーションの新たな波の基盤となる可能性があります。
アラビア語を強化した新しい大規模言語モデルは、起業家や開発者が自国のニーズに合わせた新しいアプリケーションを構築することを奨励する可能性があります。
洞察力のあるコンテンツを検索、要約、整理、作成できる AI ツール、学習を楽しくカスタマイズできる AI 教師、人間よりも知識が豊富な AI ドクター、ソフトウェアやアプリケーションを作成できる AI エンジニア、所有者自身よりも所有者のことをよく知っている AI アシスタントを想像してみてください。
アラブ世界は、PC、インターネット、モバイルの時代に主導的な役割を果たしていませんでした。AI の時代では状況が変わります。
この変革は決して簡単なことではありません。これまでにない資金、エネルギー、人的資本の投資が必要になります。
サウジアラビアのムハンマド ビン サルマン皇太子などの中東の指導者は、自国を未来に導くビジョン、決意、リソースを持っていることを示しています。
最近、ジェッダのホテルのバルコニーに立って、キング・アブドラ科学技術大学を見下ろしながら、そのビジョンの一部が実現しつつあるのを目にしました。
KAUSTやUAEのムハンマド・ビン・ザーイド人工知能大学などの大学は、この変革にすでに投入されているリソースの顕著な例です。
これらの世界クラスの学術機関は、世界トップクラスの優秀な人材を引きつけ、維持することができます。未来のAIのビジョンを実現するには、世界最高のコンピューターエンジニアを招き入れることが特に重要です。
01.AIの私たちのチームは、才能と意欲にあふれたコンピューター科学者のグループがわずか1年で何を達成できるかを示しました。適切なリソースを投入し、最高の人材を活用すれば、サウジアラビアのような国は世界の同業他社に簡単に追いつくことができます。
中東は、再生可能エネルギーを使用して電力を大量に消費する生成AIモデルを実行することでも世界をリードすることができます。
サウジアラビアは経済の多様化を目指しており、太陽光などの代替エネルギー源の利用を積極的に推進している。太陽光はサーバーファームに電力を供給し、二酸化炭素排出量を削減できる可能性がある。これはAIが普及するにつれて懸念が高まっている。
各国が独自の AI を構築するための戦略を練るには時間がかかるかもしれない。しかし、アラブ世界にとって、文化的に適切な LLM の創出を迅速に促進し、AI を活用したアラビア語アプリが開花できるように豊かなエコシステムを構築することは極めて重要である。
最近、リヤドのコンピューター・ストアで女性販売員と出会ったが、これは危機に瀕している状況を思い出させる出来事だった。ジーンズをはき、タトゥーを入れた彼女は、国が経験している変革を思い起こさせる存在だった。
「どこから来たの?」と尋ねると、彼女は「私はサウジアラビア人です」と答えた。「いつかサウジアラビアのイーロン マスクになりたいです」。次に訪問したときには、彼女が自国製の AI アプリを売り込んでくれることを期待している。
この記事へのコメント