LLM、生成 AI が MLOps プラクティスに大きな影響を与える

記事・分析

人工知能 (AI) 開発に対する独特のニーズにより、機械学習モデルの構築と展開に合わせた MLOps プラクティスが生まれました。生成 AI とラージ言語モデル (LLM) が新しいアプリケーションを強化するため、これらの実践は常に流動的ですが、さらに大きな変革を迎える可能性があります。

過去に機械学習 (ML) モデルで画期的な進歩があったとき、そのニュースは AI 専門家の小さなコミュニティに限定されていました。 2012 年の Image Net オブジェクト認識データベースと、2017 年に Google によって説明された Transformer ニューラルアーキテクチャは、テクノロジー意識に小さな波紋をもたらしました。

ChatGPT ではそうではありません。これが Bing と Edge ブラウザーに追加されたとき、世界中で話題になりました。生成 AI、LLM、基盤モデルが重要なイノベーションを示しているように見えるため、経営幹部は注意を払う必要がありました。生成 AI は、新しい形式のチャットボットインタラクション、コンテンツの要約と生成、ソフトウェアコードの生成などを実現します。

コンサルタント会社デロイトは、生成 AI が破壊の波を引き起こしていると述べています。 2023 年にデロイトとフォーブスが 143 人の CEO を対象に実施した調査では、回答者のうち 55% が生成 AI を評価または実験しています。

一方、79% が生成 AI によって効率が向上することに同意し、調査対象者の 52% が成長機会が増加すると考えています。 Deloitte は、回答者の 37% がすでに生成 AI をある程度導入していると述べました。

LLM へのニーズと一流の ML 開発ツールの必要性により、ML Ops 分野での買収が加速しています。一部の視聴者は「LLM Ops スペース」も区別し始めています。

多くの人は、この種の買収を人材獲得の一環として見ており、生成型 AI の見通しに影を落とすスキルの問題を浮き彫りにしています。

チームは現在、トレーニングモードと推論モードの両方で新しいテクノロジーを使いこなすことに取り組んでいます。生成 AI のイノベーションの中心となる LLM には、分散コンピューティングをサポートする大規模なハードウェアおよびソフトウェアアーキテクチャが必要です。人間とマシンの対話における待ち時間を短縮するには、メモリとコンピューティングリソースを調整する必要があります。これらすべてはすぐにコストに変わり、いくつかの有望なプロジェクトを妨げます。

さらに、LLM は膨大なトレーニングデータをフィードしており、そのデータは厳選され、管理されなければなりません。 LLM 出力は不安定になる可能性があります。場合によっては、開発者は反復的なプロンプトエンジニアリングに依存し、モデルに対して繰り返しクエリを実行し、応答が到着するたびに応答のランダムな性質について熟考します。それでも、あらゆる規模の独立系開発者やベンダーが問題解決への道を見出しています。

最近の Databricks Data and AI Summit 2023 で講演した Shreya Rajpal 氏は、「大規模言語モデルは汎用推論においては優れていますが、非常に脆弱です。大規模言語モデルから正しい出力を得るのは困難です。」と述べました。

「スケールアウトしても、期待どおりに機能するという保証はありません」と彼女はデータと AI サミットの参加者に語った。

Rajpal は、元 Apple ML シニアエンジニアであり、現在は LLM 出力の品質をより確実に保証するソフトウェアを開発するスタートアップ Guardrails AI の創設者です。

Rajpal 氏によると、LLM は正確性が重要な企業用途に適用されるため、入力を検証することが急務となっています。検証は言語の構造と種類、冒涜的な表現や応答の長さのチェックなどを中心に行われます。 Guardrails AI では、Rajpal は LLM 出力の品質をより確実に保証するために検証ツールを追求しています。

コンテナテクノロジーは、自動化された ML 開発を推進し続けています。データサイエンティストと運用の間の重要なコラボレーションを促進します。 Domino Data Lab のチーフフィールドデータサイエンティストである Josh Poduska 氏によると、LLM 特有の課題には、コンテナ管理の改善が必要です。Domino Data Lab は、2013 年の設立以来、さまざまなフォーチュン 100 企業の分析スキルを磨いています。

「今日のデータサイエンスはコンテナに大きく基づいています。エンタープライズレベルでは、データサイエンスプラットフォームの基盤を構築する上で大きな役割を果たします。 LLM は従来の機械学習とは異なる種類のコンテナを必要とするため、再現性を高めるために、より優れたコラボレーションをサポートするコンテナ管理フレームワークに新しい要件が課せられます。」