Azure HDInsight nedir?
Azure HDInsight bulutta sağlanan, kuruluşlara yönelik, yönetilen, tam spektrumlu ve açık kaynaklı bir analiz hizmetidir. HDInsight ile Azure ortamınızda Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop ve daha fazlası gibi açık kaynak çerçeveleri kullanabilirsiniz.
HDInsight ve Hadoop teknoloji yığını nedir?
Azure HDInsight, Azure ortamınızda Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop ve diğerleri gibi büyük veri çerçevelerini çalıştırmayı kolaylaştıran yönetilen bir küme platformudur. Yüksek hız ve verimlilikle büyük hacimli verileri işlemek için tasarlanmıştır.
Azure HDInsight'ı neden kullanmalıyım?
Yetenek | Açıklama |
---|---|
Yerel bulut | Azure HDInsight, Azure'da Spark, Etkileşimli sorgu (LLAP), Kafka, HBase ve Hadoop için iyileştirilmiş kümeler oluşturmanıza olanak tanır. HDInsight ayrıca tüm üretim iş yüklerinizde uçtan uca SLA sağlar. |
Düşük maliyetli ve ölçeklendirilebilir | HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetleri düşürebilirsiniz. İşlerinizi kullanıma hazır hale getirmek için veri işlem hatları da oluşturabilirsiniz. Ayrılmış hesaplama ve depolama, daha iyi performans ve esneklik sağlar. |
Güvenli ve uyumlu | HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra Id ile tümleştirme ile kurumsal veri varlıklarınızı korumanızı sağlar. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar. |
İzleme | Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir. |
Genel kullanılabilirlik | HDInsight, diğer büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir. |
Üretkenlik | Azure HDInsight, tercih ettiğiniz geliştirme ortamlarıyla Hadoop ve Spark için zengin üretkenlik araçları kullanmanıza imkan tanır. Bu geliştirme ortamları; Scala, Python, Java ve .NET desteği için Visual Studio, VS Code, Eclipse ve IntelliJ'yi içerir. |
Genişletilebilirlik | Betik eylemlerini kullanarak, kenar düğümleri ekleyerek veya diğer büyük veri sertifikalı uygulamalarla tümleştirerek HDInsight kümelerini yüklü bileşenlerle (Hue, Presto vb.) genişletebilirsiniz. HDInsight tek tıklamayla dağıtım ile en popüler büyük veri çözümleriyle sorunsuz tümleştirme sağlar. |
What is big data? (Büyük veri nedir?)
Hacmi gittikçe artan büyük veriler hiç olmadığı kadar yüksek hızlarda ve yüksek çeşitlilikteki biçimlerde toplanmaktadır. Bu veriler geçmiş (depolanmış) veya gerçek zamanlı (kaynaktan aktarılan) olabilir. Büyük veriler için en yaygın kullanım örnekleri hakkında bilgi edinmek için bkz. HDInsight kullanma senaryoları.
HDInsight’taki küme türleri
HDInsight belirli küme türlerinin yanı sıra bileşen, yardımcı program ve dil ekleme olanağı gibi küme özelleştirme özelliklerini de içerir. HDInsight şu küme türlerini sunar:
Küme Türü | Açıklama | Başlayın |
---|---|---|
Apache Hadoop | Toplu verileri paralel olarak işlemek ve analiz etmek için HDFS, YARN kaynak yönetimi ve basit bir MapReduce programlama modeli kullanan bir çerçeve. | Apache Hadoop kümesi oluşturma |
Apache Spark | Büyük veri analizi uygulamalarının performansını artırmak için bellek içi işlemeyi destekleyen açık kaynaklı, paralel işleme çerçevesi. Bkz. HDInsight’ta Apache Spark nedir? | Apache Spark kümesi oluşturma |
Apache HBase | Büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlayan Hadoop üzerinde oluşturulmuş bir NoSQL veritabanı( potansiyel olarak milyarlarca satır milyonlarca sütun. Bkz. HDInsight'ta HBase nedir? | Apache HBase kümesi oluşturma |
Apache Etkileşimli Sorgu | Etkileşimli ve daha hızlı Hive sorguları için bellek içi önbelleğe alma. Bkz. HDInsight'ta Interactive Query kullanımı. | Etkileşimli Sorgu kümesi oluşturma |
Apache Kafka | Akış veri işlem hatları ve uygulamaları oluşturmak için açık kaynak platform kullanılır. Kafka ayrıca veri akışları yayımlamanızı ve abone olmanızı sağlayan ileti-kuyruk işlevi de sunar. Bkz. HDInsight'ta Apache Kafka'ya giriş. | Apache Kafka kümesi oluşturma |
HDInsight kullanma senaryoları
Azure HDInsight, büyük veri işlemedeki çeşitli senaryolar için kullanılabilir. Geçmiş veriler (zaten toplanmış ve depolanmış veriler) veya gerçek zamanlı veriler (doğrudan kaynaktan akışı yapılan veriler) olabilir. Bu tür verileri işlemeye yönelik senaryolar aşağıdaki kategorilerde özetlenebilir:
Toplu işleme (ETL)
Ayıklama, dönüştürme ve yükleme (ETL), heterojen veri kaynaklarından yapılandırılmış veya yapılandırılmamış verilerin ayıklandığı bir süreçtir. Bunlar daha sonra yapılandırılmış bir biçime dönüştürülür ve bir veri deposuna yüklenir. Dönüştürülen verileri veri bilimi veya veri ambarlama için kullanabilirsiniz.
Veri depolama
Herhangi bir biçimdeki yapılandırılmış veya yapılandırılmamış veriler üzerinde petabayt ölçeğinde etkileşimli sorgular gerçekleştirmek için HDInsight kullanabilirsiniz. Ayrıca bunları BI araçlarına bağlayan modeller de oluşturabilirsiniz.
Nesnelerin İnterneti (IoT)
HDInsight'ı kullanarak farklı cihaz türlerinden gerçek zamanlı olarak alınan akış verilerini işleyebilirsiniz. Daha fazla bilgi edinmek için Azure tarafından hazırlanan ve Azure Yönetilen disklerle HDInsight’ta Apache Kafka önizlemesinin genel önizlemeye sunulduğunu duyuran bu blog gönderisini okuyun.
Hibrit
HdInsight'ı kullanarak mevcut şirket içi büyük veri altyapınızı Azure'a genişleterek bulutun gelişmiş analiz özelliklerini uygulayabilirsiniz.
HDInsight’ta açık kaynak bileşenler
Azure HDInsight, Spark, Hive, LLAP, Kafka, Hadoop ve HBase gibi açık kaynak çerçevelerle kümeler oluşturmanıza olanak tanır. Varsayılan olarak, bu kümeler Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie ve Apache ZooKeeper gibi çeşitli açık kaynak bileşenleri içerir.
HDInsight’taki programlama dilleri
Spark, HBase, Kafka ve Hadoop gibi HDInsight kümeleri birçok programlama dilini destekler. Bazı programlama dilleri varsayılan olarak yüklü değildir. Varsayılan olarak yüklenmemiş kitaplıklar, modüller veya paketler için, bileşeni yüklemek için bir betik eylemi kullanın.
Programlama dili | Bilgiler |
---|---|
Varsayılan programlama dili desteği | Varsayılan olarak, HDInsight kümeleri aşağıdakileri destekler:
|
Java sanal makine (JVM) dilleri | Java sanal makinelerinde (JVM) Java dışındaki birçok dil çalışabilir. Ancak, bu dillerden bazılarını çalıştırırsanız kümeye daha fazla bileşen yüklemeniz gerekebilir. HDInsight kümelerinde aşağıdaki JVM tabanlı diller desteklenir:
|
Hadoop’a özgü diller | HDInsight kümeleri, Hadoop teknoloji yığınına özgü aşağıdaki dilleri destekler:
|
HDInsight için geliştirme araçları
Azure sayesinde sorunsuz tümleştirmeyle HDInsight veri sorgusu ve işi yazıp göndermek için IntelliJ, Eclipse, Visual Studio Code ve Visual Studio gibi HDInsight geliştirme araçlarını kullanabilirsiniz.
- IntelliJ 10 için Azure araç seti
- Eclipse 6 için Azure araç seti
- VS Code 13 için Azure HDInsight araçları
- Visual Studio 9 için Azure Data Lake araçları
HDInsight’ta İş Zekası
Bilinen iş zekası (BI) araçları, Power Query eklentisini veya Microsoft Hive ODBC sürücüsünü kullanarak HDInsight ile tümleştirilmiş verileri alır, çözümler ve raporlar:
Azure HDInsight ile veri görselleştirme araçları kullanarak Apache Spark BI
Azure HDInsight'ta Microsoft Power BI ile Apache Hive verilerini görselleştirme
Azure HDInsight'ta Power BI ile Etkileşimli Sorgu Hive verilerini görselleştirme
Power Query ile Excel'i Apache Hadoop'a bağlama (Windows gerektirir)
Microsoft Hive ODBC Sürücüsü ile Excel'i Apache Hadoop'a bağlama (Windows gerektirir)
Bölge içi veri yerleşimi
Spark, Hadoop ve LLAP müşteri verilerini depolamaz, bu nedenle bu hizmetler Azure genel altyapı sitesinde belirtilen bölge içi veri yerleşimi gereksinimlerini otomatik olarak karşılar.
Kafka ve HBase müşteri verilerini depolar. Bu veriler Kafka ve HBase tarafından otomatik olarak tek bir bölgede depolandığından, bu hizmet Azure genel altyapı sitesinde belirtilen bölge içi veri yerleşimi gereksinimlerini karşılar.
Tanıdık iş zekası (BI) araçları, Power Query eklentisini veya Microsoft Hive ODBC Sürücüsü kullanarak HDInsight ile tümleştirilmiş verileri alır, analiz eder ve raporlar.