Aracılığıyla paylaş


Azure'da yapay zeka iş yükleri için veri platformu

Veri platformu, kaynak verileri alarak ve sonra bunları filtreleyerek, toplayarak ve tüketime hazırlayarak iş yükü gereksinimlerini yönetmek için tasarlanmış tümleşik bir teknoloji kümesidir.

Veriler, hedeflenen kullanımı temel alan farklı özelliklere sahiptir. Bu makalede açıklanan teknolojik özellikleri keşfetmeden önce iyi veri işlem hattı tasarımının ilkelerini anlamanız kesinlikle önerilir. Daha fazla bilgi için bkz . Eğitim veri tasarımı ve Temel veri tasarımı.

Platform, veriler işlem hattının belirli noktalarında bekletildiğinde depolama gereksinimlerini de karşılar. İş yükü karmaşıksa ve büyük ölçekli verileri işlerse işlem hattı görevlerini çeşitli bileşenler arasında dağıtabilirsiniz. Daha basit kullanım örnekleri için, kaynak verileri bu birleşik özellikleri sunan bir depoda kullanıp kullanamayacağınızı değerlendirin.

Veri platformunuz için aşırı karmaşık bir mimari tasarlamaktan kaçınmak için kendinize aşağıdaki soruları sorun. Her zaman en iyisi, her şeyi basit tutmaktır.

  • Uygulamanız tek bir kaynaktan veri alarak beklenen tahmine dayalı güce sahip olabilir mi?
  • İlk veri deposu seçiminiz veri ambarı özelliklerini destekliyor mu?
  • Kaynak veriler yapay zeka aramaları için zaten iyileştirilmiş mi?

Bu sorulara evet yanıtı verirseniz, uygulamanın veri kaynağına doğrudan erişmesine izin vererek mimarinizi basitleştirebilirsiniz. Bu yaklaşım veri alımı, analiz deposu tümleştirmesi ve dış veri işleme gibi büyük veri mimarisi bileşenlerine olan ihtiyacı ortadan kaldırır. Kaynak veritabanı gerekli aramaları işleyebilirse, arama dizini özelliğini doğrudan kaynak veritabanıyla tümleştirmek pratik bir yaklaşım olabilir. Kaynağın yeni talepleri karşılayacak şekilde uygun maliyetli bir şekilde ölçeklendireediğinden emin olun.

Örneğin, Azure Cosmos DB vektör aramasını desteklediğinden başka bir dizine ihtiyacınız olmayabilir. Başka bir kullanım örneği, okuma amaçlı çoğaltmaları arama işlemleri için uç nokta olarak kullanmaktır. Okuma amaçlı çoğaltmaları olan SQL veritabanları için bu çoğaltmalara doğrudan yapılan aramalar performansı iyileştirebilir. Mimariyi olabildiğince basitleştirmek için veritabanının yerleşik özelliklerinden yararlanın.

Büyük ölçekli iş yükleri için veri platformu mimarisi daha karmaşıktır.

Birden çok veri kaynağından veri alma ve çeşitli platformlarda aramaları düzenleme karmaşık ve verimsiz hale gelebilir. Ayrıca, yine de bazı ayıklama, dönüştürme ve yükleme (ETL) gerekir; ayıklama, yükleme ve dönüştürme (ELT); veya veri deposundaki verileri yeniden şekillendirmek için (EL) işlemlerini ayıklayın ve yükleyin. Veriler daha fazla işleme gerektirdiğinden senaryo daha karmaşık hale gelir. Alımdan sorguların sunulmasına kadar uçtan uca işlem hattını işlemek için mimariye birçok bileşen eklemeniz gerekir. Birçok büyük veri teknolojisi, bu işleme görevlerini etkili bir şekilde yerine getirmek için son derece özelleştirilmiştir ve derlenmiştir.

Bu teknolojilerden biri arama dizinidir. Ayrı bir dizin eklemenin birincil avantajı, sorguları verimli bir şekilde yönetebilme ve yüksek aktarım hızına sahip büyük hacimli verileri işleyebilmesidir. Bu işlev, dizinin sorgular sunan ana işlevine odaklanması için yapay zeka özelliklerini özgün veri kaynağından boşaltıyor.

Belirli işlevlerine ve amacına göre bir platform seçin ve işlevsel ve teknik gereksinimlerinizi göz önünde bulundurun. Mimariniz karmaşık kullanım örneklerini işleyecek şekilde gelişiyorsa, toplanan veri depoları, işlem hatlarını işleme ve arama dizinleri hakkında aşağıdaki bölümlere odaklanın.

Öneriler

Bu makalede sağlanan önerilerin özeti aşağıda verilmiştir.

Öneri Açıklama
Güvenli, performanslı ve uygun maliyetli veri depoları oluşturun. Veri platformunuzun önemli bir parçası, birden çok kaynaktan veri toplayan ve çeşitli tümleştirme görevleriyle tümleştirmeye olanak tanıyan bir veri deposudur. Bu, iş yükünüzün büyük ölçekte performans göstermesini sağlar. Uygun maliyetli bir dağıtım sağlamak için veri deponuzun çeşitli işlevsel ve işlevsel olmayan gereksinimlerini gözden geçirmeyi unutmayın.

Toplanan verileri depolama konusunda dikkat edilmesi gerekenler
Veri alımı ve işlenmesi için en iyi yöntemleri izleyin. Yüksek kaliteli veriler, iş yükünüzün güvenilirliğini ve son kullanıcı deneyimini geliştirmeye yardımcı olur. Yüksek kaliteli bir çıtanın korunmasına yardımcı olan verimli alım ve veri geçişi süreçleri oluşturmak için iş yükünüzün gereksinimlerini ve en iyi yöntemleri göz önünde bulundurun.

Verileri işlemeyle ilgili dikkat edilmesi gerekenler
Güvenilir ve ilgili arama dizinleri tasarlar. Sorgular kesin olmasa bile kullanıcı tabanınıza uygun sonuçlar sunarak, ani ve benzer sorguları verimli bir şekilde işleyen yüksek performanslı, bir kez yazma, çok okumalı bir veri deposu hedefleyin.

Arama diziniyle ilgili dikkat edilmesi gerekenler
İşlevsel veri depolarının büyük ölçekte çalıştığından emin olun. İş yükünüzün işlevsel gereksinimlerine bağlı olarak, çevrimdışı çıkarım gibi işlevsel veri depoları oluşturmanız gerekebilir. Veri depolarını, belirlenen işlevleri göz önünde bulundurarak oluşturmanız ve işlev için en iyi yöntemleri uygulamanız önemlidir.

Özellik deposuyla ilgili dikkat edilmesi gerekenler
Çevrimdışı çıkarım veri deposu için dikkat edilmesi gerekenler

Toplanan verileri depolama konusunda dikkat edilmesi gerekenler

Yapay zeka iş yüklerinde veriler, bu aşamalar arasında iş akışını düzenleyen işlem hatlarının yardımıyla depolama ve işlemenin çeşitli aşamalarında hareket eder. Önemli aşamalardan biri, birden çok kaynaktan alınan ve toplanan verileri içeren bir veri deposudur. Veriler eğitim veya dizin oluşturma için uygun bir duruma ulaşana kadar bu deponun işleme gerçekleştirmesi gerekir. Birincil odak, verilerin kaynağını doğru bir şekilde yansıtmasını sağlamaktır.

Not

Alternatif bir yaklaşım, veri kaynaklarına doğrudan erişmektir. Ancak bu yaklaşım, yapay zeka özelliklerine sahip kaynak sistemleri aşırı yükleyebileceğinden performans sorunlarına yol açabilir. Veri erişimi sorunları da olabilir. Bu sorunları önlemek için verileri bu depoya kopyalamanızı öneririz.

Bu deponun veri platformu veri kaynaklarında uygulanan güvenlik standartlarını karşılamalı, uygun maliyetli olmalı ve ETL, ELT ve EL işleme görevleriyle tümleştirmeyi desteklemelidir. Seçenekler, veri hacmine göre temel depolamadan büyük veri teknolojilerine kadar değişiklik gösterir. Yeterli güvenilirlik ve performans elde etmek için ekonomik depolama alanı seçin.

Aşağıdaki bölümde, bir veri deposu teknolojisini seçtiğinizde dikkate almanız gereken özellikler hakkında rehberlik sağlanmaktadır. Daha fazla bilgi için bkz . Veri işleme işlem hatları.

İşlev gereksinimleri

  • Platform çeşitli veri biçimlerini işleyebilir mi?

    Veri deposu çeşitli veri biçimlerini depolayabilmeli ve gerekirse bunları başka biçimlere dönüştürebilmelidir.

    Alım işlem hattınızın ilişkisel bir veritabanından ve Parquet dosyasından veri kaynağı oluşturduğunu ve böylece hem yapılandırılmış hem de yarı yapılandırılmış verileri desteklediğini varsayalım. İlişkisel verileri şema tanımlarına uygun olarak Parquet biçimine dönüştürmek istiyorsunuz. Veri platformu, siz özel kod yazmadan bu dönüşümü gerçekleştirmek için yerleşik özelliklere sahip olmalıdır.

  • Verilerin birden çok sürümünü depolamayı bekliyor musunuz?

    Veri değerleri ve şemalar zaman içinde değişebilir ve verilerin birden çok sürümünü yönetmek önemli hale gelir.

    Kaynak sistemler genellikle geçmiş verileri değil yalnızca geçerli verileri depolar. Geçmiş verileri saklamak önemliyse, kaynak sistemlerden büyük veri kümelerini yinelemeniz gerekebilir. Bu durumda, sürüm oluşturma geçerli verileri geçmiş verilerden ayırabilir.

    Bazı durumlarda, farklı kullanım örnekleri için verilerin kopyalarını tutmanız gerekebilir. Bu senaryoya destek olmak için verileri çatallamalısınız. Her çatal, kalitesini ve kullanılabilirliğini artırmak için bağımsız olarak sessize alabilir. Veri platformunuzun bu çatalların düzgün sürümünü koruyabilmesi gerekir.

    Geçmiş bağlam sağlamak için veri platformunuzun zaman içinde veri sürümlerini depolayabilmesi gerekir. Bu contetxt, yapay zeka modellerini işlemek ve eğitmak için yararlıdır çünkü zaman içinde tek bir nokta yerine birden çok gözlem sunar.

  • Platform yerleşik veri yaşam döngüsü yönetimi özelliklerine sahip mi?

    Veri yaşam döngüsü yönetimi (DLM), veri toplama, depolama, kullanım, arşivleme ve elden çıkarma gibi aşamalarla verileri oluşturma aşamasından silinmesine kadar yönetmeye yönelik bir süreçtir.

    DLM olmadan, veriler kontrolsüz bir şekilde büyüyebilir ve genellikle kalite katmanlarında ilerledikçe birden çok kopya elde edilebilir. Veri platformunun, ilişkisiz veri büyümesini önlemek için DLM özelliklerine sahip olması gerekir.

    Bu senaryoya göz önünde bulundurun. Verileri eğitim amacıyla kabul edilebilir bir kaliteye ulaşana kadar daraltmak için ön işleme adımının yinelenmesi gerekir. Veri platformunuzun verilerin ara kopyalarını silebilmesi gerekir.

    Bazı durumlarda, mevzuat denetimleri için verileri saklamanız gerekebilir. Daha düşük maliyetle arşivlenebilmeniz için veri platformunun seyrek erişilen veriler için soğuk depolama özelliklerine sahip olması gerekir.

  • Platform veri idaresi özelliklerini destekliyor mu?

    Denetlenebilirlik, yapay zeka iş yükleri için önemli bir unsurdur. Veri deposu, veri erişimini izleyebilen, gizliliği sağlayabilecek ve veri çıkışlarını anlayabilecek denetim izlerini tutmalıdır.

    Meta verileri, veri türlerini, amaçları ve kökenleri yönetmek için veri sözlüğü özelliğini kullanın. Bu özellik özellikle birden çok kaynaktan veri alınıyorsa önemlidir.

  • Üretim verileriyle eğitim yapmayı planlıyor musunuz?

    Dağıtımlar için model dağıtımı ve kod dağıtımı olmak üzere iki yaklaşım vardır. Model dağıtımında, üretim verileri geliştirme aşamasında kullanılır ve bu da sıkı güvenlik önlemleri gerektirir. Kod dağıtımında model, üretime gelene kadar üretim verilerini görmez. Kod dağıtımı geliştirme ortamındaki güvenlik sorunlarını basitleştirse de işlem maliyetlerini artırabilir. Hangi yaklaşımı seçerseniz seçin, veri platformunuz geliştirme ve üretim için ayrı ortamları desteklemelidir.

  • Temel işlevsel özelliklere göre kolaylık özelliklerine öncelik mi sağlıyorsunuz?

    Yapay zeka veya makine öğrenmesi için bir veri platformu seçtiğinizde yalnızca not defteri özelliklerine güvenmeyin. Not defterleri keşif veri analizi için yararlı olsa da, bunlar belirleyici faktör olmamalıdır. Not defterleri için işlem kaynakları genellikle toplama veri deposunun kapsamı dışındadır. Bunlar genellikle Azure Machine Learning gibi diğer kaynaklarla tümleştirilir.

İşlevsel olmayan gereksinimler

  • Ne kadar veri depolamayı bekliyorsunuz?

    Yapay zeka iş yükleri çok fazla veri oluşturur. Birden çok sürüm ve ek meta veriler nedeniyle birim önemli ölçüde artabilir.

    Depolama ve aktarım hızı için ölçeklenebilirlik önemlidir. Veri platformu veri hacmini işlerken, eşzamanlı yazma işlemlerini yönetirken ve ayrı ayrı yazma performansını bozulmadan sağlarken veri alma işlem hattındaki verileri verimli bir şekilde kullanmalıdır. Bu ölçütler, depoyu okuyan, işleyen ve hatta depoya geri yazan işlem hattı için de geçerlidir.

    Bir karar alırken, alma ve işleme genellikle aynı anda gerçekleştiğinden sürecin tamamını göz önünde bulundurun. Tasarımın sık veri taşıma ve işlemeyi yönetebilmesi gerekir. Veri platformu, verileri etkili bir şekilde işlemek için yüksek düzeyde paralellik sunmalıdır.

    Platform teknolojisi, okuma ve yazma işlemlerinin aktarım hızı ve performansı hakkında anlamlı içgörüler sağlayan telemetri verileri yaymalıdır.

  • Bu veri deposu, iş yükünün güvenilirlik hedefine katkıda bulunan kritik bir bileşen mi?

    Birden çok örnek kullanarak hem güvenilirliği hem de ölçeklenebilirliği geliştiren bir veri deposu seçin. Büyük veri depolarında genellikle örnekler arasında veri işlemeyi düzenleyen yerleşik bir denetleyici bulunur. Bir kopya başarısız olursa, başka bir kopya kullanılabilir.

    Verilerin doğru veya erişilebilir olmaması durumunda amacına uygun olmadığını unutmayın. Veri platformu dayanıklılığı garanti etmeli ve verilerin bozulmadığından emin olmalıdır. Verileri sorgulayan API'lerin erişilebilir olduğundan emin olun. Ayrıca, yedekleme özelliklerine sahip veri depolarını da göz önünde bulundurun.

    Genel olarak, bu verileri yedeklemeniz gerekmez. Ancak, verileri her seferinde sıfırdan toplamanın maliyeti önemli ölçüde yüksekse, verileri yedekten yeniden doldurmayı düşünebilirsiniz.

  • Maliyet kısıtlamalarınız var mı?

    Veri güvenilirliği ve performansı yeterliyse maliyet etkisini göz önünde bulundurun.

    Sistem bir kez yazma için iyileştirilmeli, veri depolamada fazla harcama yapmaktan kaçınmak için birçoğunu okumalısınız. Eğitim veya topraklama verileri önemlidir, ancak anlık yanıt süresi gerektiren bir üretim veritabanı gibi kritik değildir. Odak, yatırımın getirisini en üst düzeye çıkarmak için yeterli verimlilikle maliyeti dengelemeye odaklanmaktadır.

Yukarıdaki gereksinimler doğal olarak DLM, kalite katmanları, gözlemlenebilirlik ve çeşitli dosya biçimleri için destek sunduğundan veri gölü kullanmayı düşünmenize neden olabilir. İş yükünüz zaten bir veri gölü kullanıyorsa yapay zeka gereksinimlerinizi karşılamak için bu kaynaklardan yararlanın. Alternatif olarak, bazı DLM düzeyi, izleme özellikleri ve yüksek işlem oranları sağlayan Azure Blob Depolama gibi diğer depolama seçeneklerini de seçebilirsiniz.

Verileri işlemeyle ilgili dikkat edilmesi gerekenler

Yardımcı programının aşağı akışını artırmak için toplama veri deposundaki verileri işlemeniz gerekir. ETL işlem hatları, aşağıdaki noktalarda en önemli olan bu görevi gerçekleştirir:

  • Alım katmanı

    İşlem hattı, çeşitli kaynaklardan veri toplamak ve bunları toplama veri deposuna taşımaktan sorumludur. Bu işlem sırasında işlem hattı genellikle temel ön işleme gerçekleştirir ve hatta verileri sorgulanabilir bir biçimde yapılandırabilir.

    Özel kod gereksinimini en aza indirmek için bu sorumluluğun büyük bir kısmını bir veri platformuna boşaltmanızı öneririz. Bir teknoloji seçtiğinizde model eğitme ve artırmayı desteklemek için gereken ETL özelliklerini göz önünde bulundurun.

  • İşleme katmanı

    Toplama veri deposundaki veriler, dizin oluşturma veya model eğitimi kullanım örnekleri için kullanılmadan önce kapsamlı bir işlemeden geçer. İşlem hattı, alım işlem hattına benzer güvenilirlik ve ölçeklendirme düzeyleri gerektirir. Temel fark, veriler üzerinde yapılan işleme türüdür.

    Bu işlem, verilerin önemli ölçüde yeniden kapsamını belirlemeyi ve yeniden yapılandırmayı içerir. Bu işlem varlık tanıma, ek verileri veri kümesiyle tümleştirme ve arama gerçekleştirme gibi görevleri içerir. Bu işlem, gereksiz verileri silmeyi ve veri düzenleme platformu aracılığıyla veri mantığı uygulamayı da içerebilir.

Veri işleme aşaması, farklı amaçlar için farklı hedeflere inen çeşitli çıkışlar üretebilir. Ana hedefi, toplanan veri deposundaki verileri son hedefe göre tüketim için hazırlamak ve aktarmaktır. Tüketici gerektiğinde verileri çekebilir veya işleme katmanı hazır olduğunda verileri gönderebilir.

Not

Makine öğrenmesi ve üretken yapay zeka bağlamında ETL, ELT ve EL süreçleri arasında ayrım yapmak önemlidir. Geleneksel ETL, veri ambarı ve nesne ilişkisel eşlemeler için çok önemlidir; burada şema kısıtlamaları nedeniyle verilerin hedef sisteme yüklenmeden önce dönüştürülmesi gerekir. ELT, verileri ayıklamayı, bir veri gölüne yüklemeyi ve ardından Python veya PySpark gibi araçları kullanarak dönüştürmeyi içerir. Özellikle alma artırılmış üretim (RAG) için üretken yapay zekada bu işlem genellikle önce belgeleri ayıklamayı ve depolamaya yüklemeyi, ardından öbekleme veya görüntü ayıklama gibi dönüştürmeleri içerir.

Aşağıdaki bölümde, ETL özelliklerine sahip bir veri işleme teknolojisi seçtiğinizde göz önünde bulundurmanız gereken yönergeler sağlanmaktadır.

İşlev gereksinimleri

  • Veri kaynaklarına bağlanma desteği nedir?

    İşlenmesi gereken veriler ilişkisel veritabanlarında, büyük veri kaynaklarında veya çeşitli depolama çözümlerinde depolanabilir.

    Veri işleme teknolojilerinin çoğu, kod yazmadan çeşitli veri kaynaklarına bağlanmanızı sağlayan önceden oluşturulmuş tümleştirmeleri destekler. Bağlayıcılar kaynaktan havuza veri kopyalama, arama yapma ve veri idaresi gibi özelliklere sahiptir. Gereksiz kodlamayı önlemek için sürükle ve bırak özellikleri sunan araçlar vardır.

    Beklenen veri kaynaklarıyla tümleştirmeyi kolaylaştıran bir veri platformu seçin.

  • Platform çeşitli veri biçimlerini işleyebilir mi?

    Veriler veritabanları ve JSON gibi yapılandırılmış veriler, görüntüler ve belgeler gibi yapılandırılmamış veriler veya Nesnelerin İnterneti cihazlarından alınan veriler gibi akış verileri gibi çeşitli biçimlerde gelebilir. İşlem hatları beklenen dosya türlerini işleyebilmelidir.

  • Platform, veri hazırlama ve kapsam belirleme özellikleri sunuyor mu?

    Eğitim, ince ayar veya dizin oluşturma için uygun olana kadar eğitim veya geliştirme için kullanmayı planladığınız verileri işlemeniz gerekir. Veri tasarım stratejilerinizin gereksinimleri açıkça özetlemesi gerekir.

    Aşağıdaki makalelerde dikkat edilmesi gereken belirli noktalar açıklanmaktadır:

    Temel temizlemenin bir parçası olarak platform yinelenenleri kaldırır, eksik değerleri doldurur ve alım sırasında gereksiz gürültüyü ortadan kaldırır. RAG deseni uygulama gibi belirli kullanım örnekleri için öbekleri küçük harfe ayırmanızı öneririz.

    Bu ön işleme adımları gerekli olsa da, platformun gereksinimlerinize özel zengin veri işlemeyi de desteklemesi gerekir. Bu işlem verileri yüklemeyi, yeniden kapsam belirlemeyi ve dönüştürmeyi içerir. Belirli modeller için platformun belge analizi için belge zekası veya diğer yapay zeka araçları gibi dış kaynakları sorgulayabilmesi gerekir. Bu çalışma, verileri hazırlamak ve veri zenginleştirmek için gereklidir.

    Veri deponuz bu işlem düzeyini destekliyorsa, bu aşamayı başka bir yere taşımadan depoda yerelleştirebilirsiniz. Aksi takdirde, Azure Databricks veya Azure Data Factory gibi bir dış teknolojiye ihtiyacınız vardır. Bu teknolojiler verileri taşımak ve filtreleme, eksik değerleri doldurma ve dize büyük/küçük harflerini standartlaştırma gibi işlemeler gerçekleştirmek için uygundur. Daha karmaşık görevler için genellikle bir iş barındırma platformu gerekir. Büyük veri düzenlemesi için Spark havuzlarını kullanabilirsiniz.

    Bazı kullanım örneklerinde, bu sorumluluğu verilerin tüketicisine dışlamak isteyebilirsiniz. Örneğin makine öğrenmesi kullanan yapay zeka modelleri, özel Python kodu kullanarak verileri okumak, işlemek ve yazmak için iş işleme özellikleri sunar.

    Bir diğer örnek de RAG uygulamasıdır. Yaygın bir işleme adımı, bir belgenin birden çok öbeke bölündüğü ve her öbeğin dizinde bir satıra dönüştüğü öbeklemedir. Ayrıca, bir OpenAI hizmetinin genellikle oluşturduğu eklemeleri bu öbekler için depolar. Yapay zeka aramalarında bu işlem, OpenAI veya Azure AI Search kullanılarak dizin oluşturma iş akışı içinde düzenlenir.

  • İş akışlarını yönetmek için yerleşik bir düzenleyici var mı?

    İşleme görevleri modülerdir ve iş olarak çalıştırılır. Platform, iş akışını adımlara veya işlere bölen düzenleme özelliklerine sahip olmalıdır. Her iş bağımsız olarak tanımlanmalı, çalıştırılmalı ve izlenmelidir.

    Karmaşık iş akışlarında, bazı adımlar öncekilerin başarıyla tamamlanmasına bağlıdır. Düzenleyicinin iş bağımlılıklarını işlemesi ve görevlerin doğru sırada tamamlandığından emin olması gerekir.

    Veri tasarımı yinelemeli bir süreç olduğundan düzenleyici aracı iş akışlarını kolayca değiştirebilecek kadar esnek olmalıdır. Kodun büyük bölümlerini yeniden yazmadan yeni adımlar ekleyebilecek veya mevcut adımları ayarlayabilmelisiniz.

    Data Factory, veri iş akışlarını yönetmek için zengin bir özellik kümesi sağladığından popüler bir seçimdir. Azure Databricks ayrıca karmaşık iş akışlarını yönetebilir, işleri zamanlayabilir ve izleyebilir. Maliyet etkilerini de dikkate almanız gerekir. Örneğin, Azure Databricks özellikleri kapsamlı olabilir, ancak aynı zamanda maliyetlidir. Apache NiFi gibi bir açık kaynak alternatif seçeneği daha uygun maliyetli olabilir.

    Sonuç olarak, seçtiğiniz araç kuruluşunuzun nelere izin verdiğine ve iş yükü ekibinin rahat ettiği becerilere bağlıdır.

İşlevsel olmayan gereksinimler

bir işlem hattı seçtiğinizde aktarım hızı ve gözlemlenebilirlik arasında denge oluşturmak çok önemlidir. İşlem hattı, modeller veya dizinler için gerekli verileri yeterli bir zaman çerçevesi içinde güvenilir bir şekilde işlemeli ve indirmelidir. Mevcut ihtiyaçlarınızı destekleyecek kadar hafif olmalı ve gelecekteki büyüme için ölçeklenebilir olmalıdır. Ekipler, daha sonra teknik borçtan kaçınmak için platformun gelecekte ne kadar kanıta ihtiyacı olduğuna karar vermelidir. Önemli noktalar arasında veri alımı sıklığı ve hacmi, işlemin güvenilirliği ve sorunları hemen izlemek ve çözmek için gözlemlenebilirlik ihtiyacı yer alır.

  • Ne kadar veri almayı bekliyorsunuz?

    Alma ve işleme aşamaları için platformun görevleri işlemeye yönelik ölçeklenebilirliğini ve hızını göz önünde bulundurun. Örneğin, bir dizine veya model eğitimi için günde 10 terabayt veri yüklemeyi bekliyorsunuz. Veri alımı platformunuzun bu kadar hacmi ve beklenen aktarım hızını işleyebilmesi gerekir. Bu durumda, Azure Logic Apps'i kullanmak uygun olmayabilir çünkü bu tür bir yük altında başarısız olabilir. Bunun yerine Data Factory, bu veri işleme ölçeği için daha uygundur.

    Yüksek hacimli işlemenin bir yolu, daha verimli veri işleme ve işleme olanağı sağladığından paralellikten geçer. Azure Databricks gibi platformlar, aynı iş için birden çok örnek oluşturup yükü verimli bir şekilde dağıtarak görevleri düzenleyebilir.

    Ayrıca, dayanıklı gecikme süresini ve işlerin karmaşıklığını göz önünde bulundurun. Örneğin veri temizleme, geçersiz alanların doğrulanması ve değiştirilmesi veya hassas bilgilerin maskelenmesi gibi işlemleri kapsar. Bu görevler temel olsa da önemli kaynaklar gerektirir çünkü her satır tek tek işlenir ve bu da genel süreye eklenir.

  • Hangi izleme özelliklerine ihtiyacınız var?

    Veri işleme işlem hatları izleme özelliklerine sahip olmalı ve işlem hattının performansı ve işlerin durumu hakkında içgörüler sağlamalıdır.

    İşlerin ilerleme durumunu izleyebilmelisiniz. İşlem hattının tamamlanmayan veya kısmen tamamlayan bir veri temizleme işi çalıştırdığını varsayalım. Modelin eğitildiği verilerin kalitesi üzerinde aşağı akış etkisi olabilir ve bu da tahmin gücünü etkileyebilir.

    İş yükündeki diğer bileşenlere benzer şekilde, davranışını anlamak için veri işlem hattında günlükleri, ölçümleri ve uyarıları etkinleştirmeniz gerekir. Verimlilik ve güvenilirlik yönlerini anlamak için performans ölçümlerini toplayın ve analiz edin.

    Yerleşik telemetrideki boşlukları belirleyin ve hangi ek izlemeyi uygulamanız gerektiğini belirleyin. Bu izleme, iş adımlarıyla ilgili belirli ayrıntıları yakalamak için özel günlük veya ölçümler eklemeyi içerebilir.

  • Veri işleme platformundan ne kadar güvenilirlik bekliyorsunuz?

    Veri işleme işlem hattının güvenilirliği, platform seçimine göre değişir. Logic Apps düzenleme özelliklerine sahip olsa da Data Factory kadar güvenilir olmayabilir. Azure Kubernetes Service (AKS) kümesinde barındırılan Data Factory'nin farklı güvenilirlik özellikleri olabilir.

    Tek örnekli kurulumlar hata noktaları olarak kabul edilir. Gereksinimlerinizi karşılamak için birden çok örnek gibi güvenilirlik özelliklerini destekleyen bir platform seçin.

    Platform dayanıklılık özelliklerini de desteklemelidir. Örneğin, düzenleyicinin başarısız bir görevi otomatik olarak yeniden denemesi gerekir ve bu da el ile yeniden başlatma gereksinimini azaltır.

    Toplu işleme, veri güncelliği ve gecikme süresi gereksinimlerine bağlı olarak çıkarımdan daha az güvenilir olabilir. Eğitim haftalık olarak gerçekleşirse ve işleme bir gün sürerse, yeniden denemek için yeterli zaman olduğundan zaman zaman hatalar kabul edilebilir.

  • Herhangi bir maliyet kısıtlaması var mı?

    Bir veri işleme işlem hattının maliyet verimliliğini göz önünde bulundurursanız, gereksiz masraflar olmadan gereksinimlerinizi karşılayan bir çözüm seçmeniz önemlidir. Gereksinimleriniz Azure Databricks'in gelişmiş özelliklerini haklı çıkarmazsa Data Factory gibi daha ekonomik bir seçenek yeterli olabilir. Ayrıca Apache Airflow veya Apache NiFi gibi açık kaynak araçlar daha düşük maliyetle güçlü özellikler sağlayabilir. Önemli olan, ihtiyacınız olmayan özelliklerde aşırı harcama yapmaktan kaçınmak ve işlevsellik ile maliyet verimliliğini dengeleyen bir platform seçmektir.

  • İş akışlarında ve işlediğiniz verilerde güvenlik gereksinimleri nelerdir?

    Güvenlik, gizlilik ve veri yerleşimi gereksinimleri hakkında net olun. Örneğin, coğrafi mevzuat gereksinimlerini göz önünde bulundurun. Verilerin belirli bölgelerde depolandığından ve işlendiğinden emin olarak veri yerleşimi gereksinimlerine uyun. Yerel uyumluluk düzenlemelerini karşılamak için biri Avrupa, diğeri Amerika için olmak üzere farklı bölgeler için ayrı işlem hatları çalıştırmanız gerekebilir.

    Veri işlem hattı platformu, yalnızca yetkili kimliklerin iş akışları içindeki belirli işlere veya adımlara erişimi olduğundan emin olmak için kimlik ve erişim yönetimini desteklemelidir. Örneğin, ETL işleminiz birkaç iş akışından oluşuyorsa ve bunlardan biri çok gizli verileri işiyorsa, platform bu iş akışına erişimi kısıtlamanıza ve diğerlerini erişilebilir tutmanıza izin vermelidir. Bu özellik, farklı veri duyarlılığı düzeyleri için ayrı platformlara gerek kalmadan güvenlik gereksinimlerini karşılamanıza yardımcı olur. İdeal olarak platform, verimli ve güvenli veri yönetimi sağlayan bu tür yalıtımlar için yerleşik destek sağlamalıdır.

Veri işleme işlem hatları, verilerin çıkışını bir arama dizinine veya model eğitim işlem hattına verebilir. Kullanım örneğine bağlı olarak, arama dizinleri veya özellik depoları bölümlerine bakın.

Arama diziniyle ilgili dikkat edilmesi gerekenler

Arama dizini, istemle birlikte model çıkarım uç noktasına gönderilecek bağlamsal veya topraklama verilerini depolamak için tasarlanmıştır. Her iki çağrı, dizin sorgusu ve çıkarım uç noktası çağrısı, aynı istemci HTTP isteklerine hizmet verme bağlamında gerçekleşir. Çevrimdışı ve toplu işleri işleyen ETL işlemlerinden farklı olarak, bu dizin yüksek performans ve güvenilirlik gerektiren gerçek zamanlı çıkarımları destekler. Yapay zeka sorguları için özelleştirilmiştir ve büyük veri depolarında tipik olmayan anahtar sözcük dizin oluşturma ve filtreleme gibi özellikler sunar. Amaç, hazırlıksız ve benzer sorguları destekleyen yüksek performanslı, bir kez yazılan, çok okumalı bir veri deposuna sahip olmaktır. Bu veri deposu, hassas sorgular olmadan ilgili sonuçlar sağlayabilir.

İşlev gereksinimleri

  • Arama dizini hangi arama türlerini destekler?

    Sistemin aldığı sorgular temelde aramalardır ve dizinin zengin arama özelliklerini desteklemesi gerekir. RAG için, veriler arama için kullanılan hesaplanan vektörler veya eklemeler olarak depolandığından vektör araması tartışılamaz.

    Vektör araması güçlüdür ve bunu filtreleme ve tam metin araması ile birleştirmek arama dizininin verimliliğini artırır. Veri tasarımınız vektör, tam metin araması, filtreleme ve coğrafi konum gibi özel veri türleri gibi bu tür aramaları birleştirmeyi hesaba katmalıdır.

    Veri tasarımınız bu gereksinimleri açıkça belirtmelidir. Daha fazla bilgi için bkz . Veri tasarımında verimli sorgulama.

  • Dizin çok modüllü verileri destekliyor mu?

    Çok modüllü verileri destekleyen dizin teknolojilerini seçin. Örneğin yapay zeka aramaları bir e-postayı analiz edebilir, içindeki bir görüntüyü vektörlere dönüştürebilir ve açıklamayı dizinde depolayabilir. Resimler, videolar ve ses dosyaları gibi çeşitli içerik yöntemlerinde arama yapmak için bu işlevi kullanın.

  • Dizin, veri kaynaklarındaki veriler değiştiğinde otomatik güncelleştirme özelliklerini destekliyor mu?

    Otomatik güncelleştirme özelliklerine sahip bir dizin seçin. Yoksa değişiklikleri el ile algılamanız ve dizine göndermeniz gerekir. Bu özelliklerle, dizin oluşturucu veri kaynaklarındaki değişiklikleri algılayabilir ve güncelleştirmeleri otomatik olarak çekebilir. Bu sorumluluğu platforma devrederek operasyonel yükü azaltabilir ve bakım sürecini basitleştirebilirsiniz.

İşlevsel olmayan gereksinimler

  • Dizin büyük hacimli verilerle performans sergileyebilir mi?

    Dizin büyük miktarda veriyi işleyebilmelidir, ölçeklenebilir olmalı ve yoğun arama iş yükleri için iyi performans gösterebilmelidir. Dizin ham verileri ve onunla ilişkili tüm meta verileri, zenginleştirmeleri ve varlıkları depolar. RAG düzeni bağlamında, birden çok öbeke bölünmüş tek bir belge, veri hacminde önemli bir artışa neden olabilir.

  • Dizin yerleşik güvenilirlik özelliklerine sahip mi?

    Çıkarım uç noktasının güvenilirliği veya model ile veri deposu arasındaki hizalamayı göz önünde bulundurun çünkü bunlar birbirine bağımlıdır.

    Arama işlemi iki adımdan oluşur: veri deposunu sorgulama ve ardından çıkarım uç noktasını sorgulama. Her iki adımın da benzer güvenilirlik özelliklerine sahip olması gerekir. Arama verimliliğini sağlamak için her iki bileşen arasında güvenilirlik hedeflerinizi dengeleyin.

    Dayanıklılığı sağlamak için iş yükü beklenen sayıda eşzamanlı kullanıcıyı desteklemeli ve trafik artışlarını işlemek için yeterli bant genişliğine sahip olmalıdır. İdeal olarak, platform bölgesel kesintilerden kurtulmalıdır.

    Veri platformu, çıkarım için bozuk dizin kullanımını önleyecek şekilde tasarlanmalıdır. Böyle durumlarda, dizini kolayca yeniden oluşturabilmeniz gerekir. Dizin, dizin değiştirme işlemleri sırasında kapalı kalma süresini en aza indirmek için diğer ad kullanma gibi özellikleri kullanarak dizinler arasında güvenilir bir şekilde değiştirme işlemini de desteklemelidir. Bu işlevsellik olmadan, dizinin bir yedeğine güvenmeniz gerekebilir. Yedeklemeyi yönetmek daha karmaşık bir hale gelir.

    İş yükü açısından bakıldığında, azaltma gibi olası hata modlarını veya stres göstergelerini anlayın. Örneğin, sistem normalde 50 eşzamanlı kullanıcıyı desteklese de, arka plan işi olarak çalışan bir yeniden dizin oluşturma işlemi sırasında yalnızca 30 kullanıcıyı destekleyebilmiştir. Bu durumda arka plan işinin zamanlaması önemli hale gelir. Bir dizinin aktarım hızını değerlendirirken hem ön uç sorgularını hem de arka uç işlerini ekleyin.

  • Bu teknolojinin başlıca maliyet etmenleri nelerdir?

    Maliyetleri modellerken, veri hacmi, sorgu sayısı ve dizinin beklenen aktarım hızıyla ilişkili giderleri tahmin edin. Dizinlerin çoğunlukla fiyatlandırmanın soyutlandığı bir hizmet olarak platform (PaaS) olduğunu unutmayın. Kullanılmayan kapasite veya özellikler için fazla ödeme yapmaktan kaçınmak için katmanları ve bunların özelliklerini araştırın.

    Örneğin AI Search, kapasite, aktarım hızı ve depolama içerebilen birim olarak faturalanır. Ek özellikler daha fazla ücrete yol açabilir. Örneğin, görüntü ayıklama özelliklerinin kapsamlı kullanımı yüksek faturaya neden olabilir. Beceri kümesi özelliği gibi, dizinin kapsamı dışında olan ancak veri işlemenin bir parçası olan bağımlılıklar ek maliyetler doğurabilir.

    Tam kapasiteyi kullanmadan bir katman için ödeme yapmak fazla ödemeye neden olabilir. Benzer şekilde, dizininizdeki tablo sayısı ve eşzamanlı trafiği işleme özelliği maliyetleri etkiler.

    AI Search ile ilişkili maliyetleri anlamak için bkz. Yapay zeka Arama hizmeti maliyetlerini planlama ve yönetme.

  • Dizinin güvenlik özellikleri güvenlik verileri tasarımınızı karşılar mı?

    Veri tasarımınız güvenlik ve gizlilik gereksinimlerini açıkça belirtmelidir. Gerçek üretim verilerinin kullanıldığı geliştirme ve test ortamlarında dizin, tüm erişim denetimleri ve izlenebilirlik önlemleriyle uyumlu özellikleri desteklemelidir. Veri maskeleme ve dizindeki kişisel bilgilerin kaldırılması gibi güvenlik özelliklerini gözden geçirin.

    Microsoft Entra Id aracılığıyla istemcileri benzersiz olarak tanımlama özelliğine sahip bir dizin seçin. Arama dizini, kimliklere göre sorgu ilgisine izin vermek için belge düzeyinde erişim denetimlerini de desteklemelidir. Dizin bu özellikleri sunmuyorsa, sorgu filtreleri ile benzer özellikler elde etmek için tasarımınızı ayarlayın. Daha fazla bilgi için bkz . AI Search'te sonuçları kırpmak için güvenlik filtreleri.

    İdeal olan, arama dizininin ağ güvenlik gereksinimleriyle uyumlu olmasıdır. Örneğin, Microsoft dışı sitelere yönelik çıkış trafiğini filtrelemeniz ve gözlemlenebilirliği korumanız gerekiyorsa dizin çıkış denetimleri sunmalıdır. Ayrıca ağ segmentasyonu da desteklenmelidir. Arka uç işlemi bir sanal ağdaysa, genel İnternet'e maruz kalmamak için dizin de dahil olmak üzere önemli bileşenler için özel bağlantı temel öneme sahiptir. Dizin, özel ağlarla kolayca tümleştirilmeli ve Microsoft Entra Id aracılığıyla kimlik doğrulaması için yönetilen kimlikleri desteklemelidir.

Özellik deposuyla ilgili dikkat edilmesi gerekenler

Ayrımcı modeller için, veri tasarımınız ek iyileştirme için verileri önbelleğe alacak bir ara veri deposu içerebilir. Özellik deposu olarak bilinen bu depo, veri bilim adamlarının toplanan veri deposunun dışında son adım olarak özellikleri depolamasına olanak tanır.

Özellik deposu, oluşturma süresi ve kaynak gibi meta veriler ekleyerek birden çok kullanım için katalog verilerinin oluşturulmasına yardımcı olur. Bu ara giriş noktası altın eğitim verileri için idealdir.

Machine Learning'deki Yönetilen Feature Store, MLflow ve diğer araçlarla tümleşen bir veri depolama seçeneğidir. Machine Learning'de daha iyi veri kökeni ve resmi tanımlama için yeniden kullanılabilir bir katman ekleyerek toplama veri deposundan veri getirir ve eğitir.

Özellik deposu kullandığınızda, güvenlik ve erişim konusunda dikkat edilmesi gerekenler ile bunu bir veri deposu gibi değerlendirin.

Çevrimdışı çıkarım veri deposu için dikkat edilmesi gerekenler

Bazı senaryolarda, önceden toplanan ve önceden hesaplanmış verilerde çıkarım yapıldığından, daha hızlı aramalar için ayrı bir depo kullanılması uygundur. Bu süreçte kullanıcı isteği hiçbir zaman yapay zeka modeline ulaşmaz. Bunun çeşitli avantajları vardır:

  • Gecikme süresini azaltarak verimlilik ve kullanıcı deneyimi geliştirildi. Sonuçlar, sonuç olarak SSS oluşturma gibi sık kullanılan sorgular için daha hızlı sunulur.
  • Çıkarım çağrıları, gerçek zamanlı işleme kısıtlamaları olmadan toplu işlem olarak daha kolay ölçeklendirilebilir.
  • Üretimden önce doğruluğu sağlamak için prevalidasyona izin verir.
  • İstek girişim uç noktasına yönlendirilmemiş olduğundan yükü azaltarak iş yükünün güvenilirliğine katkıda bulunur.
  • Gerçek zamanlı işleme için gereken yüksek performanslı donanım gereksinimini azalttığı için daha uygun maliyetli olabilir.

Ancak, bu yaklaşım yalnızca olası istekleri tahmin edebilirseniz ve tahminlerin önemli bir kısmının kullanıcılar tarafından isteneceği tahmin edilirse geçerlidir. Daha az yinelenen isteğin olduğu senaryolarda çevrimdışı çıkarım deposu daha az etkili olabilir.

Bu senaryo için veri deposu okuma işlemleri için iyileştirilmelidir, büyük hacimli verileri işleyebilmeli ve verimli alma sağlayabilmelidir. Ayrıca toplanan veri deposuyla tümleştirilebilmeli. Azure Cosmos DB ve hatta tablo depolama alanı gibi bu özelliklere sahip tüm depolar göz önünde bulundurulabilir.

Kaynaklar

Bu makalelerde, bu makalede ele alınan noktalar için teknoloji seçenekleri olarak önerdiğimiz Azure ürünleri hakkında daha fazla ayrıntı sağlanır.

Sonraki adımlar