Posts

What is Apache Hive? With Big SQL [EN-FR-SP-IT-TH]

avatar of @sumotori
25
@sumotori
·
0 views
·
8 min read

What is Apache Hive? With Big SQL [EN-FR-SP-IT-TH] Source: IBM

About: opensource is decentralized by the people from the people for the people.

Apache Hive is an open source data warehouse software for reading, writing and managing large data set files that are stored directly in either the Apache Hadoop Distributed File System (HDFS) or other data storage systems such as Apache HBase. Hive enables SQL developers to write Hive Query Language (HQL) statements that are similar to standard SQL statements for data query and analysis. It is designed to make MapReduce programming easier because you don’t have to know and write lengthy Java code. Instead, you can write queries more simply in HQL, and Hive can then create the map and reduce the functions.

Included with the installation of Hive is the Hive metastore, which enables you to apply a table structure onto large amounts of unstructured data. Once you create a Hive table, defining the columns, rows, data types, etc., all of this information is stored in the metastore and becomes part of the Hive architecture. Other tools such as Apache Spark and Apache Pig can then access the data in the metastore.

As with any database management system (DBMS), you can run your Hive queries from a command-line interface (known as the Hive shell), from a Java™ Database Connectivity (JDBC) or from an Open Database Connectivity (ODBC) application, using the Hive JDBC/ODBC drivers. You can run a Hive Thrift Client within applications written in C++, Java, PHP, Python or Ruby, similar to using these client-side languages with embedded SQL to access a database such as IBM Db2® or IBM Informix®.

Hive looks like traditional database code with SQL access. However, Hive is based on Apache Hadoop and Hive operations, resulting in key differences. First, Hadoop is intended for long sequential scans and, because Hive is based on Hadoop, queries have a very high latency (many minutes). This means Hive is less appropriate for applications that need very fast response times. Second, Hive is read-based and therefore not appropriate for transaction processing that typically involves a high percentage of write operations. It is better suited for data warehousing tasks such as extract/transform/load (ETL), reporting and data analysis and includes tools that enable easy access to data via SQL.

If you're interested in SQL on Hadoop, in addition to Hive, IBM offers IBM Db2 Big SQL, which makes accessing Hive data sets faster and more secure. Check out the video below for a quick overview of Hive and Db2 Big SQL.

@sumotori

Click & Earn on the Hive @hive:

With Ecency: https://ecency.com/signup?referral=sumotori

With Peakd: https://peakd.com/register?ref=sumotori

French

Qu'est-ce qu'Apache Hive ? Avec Big SQL Apache Hive est un logiciel d'entrepôt de données open source pour la lecture, l'écriture et la gestion de fichiers d'ensembles de données volumineux stockés directement dans le système de fichiers distribué Apache Hadoop (HDFS) ou dans d'autres systèmes de stockage de données tels qu'Apache HBase. Hive permet aux développeurs SQL d'écrire des instructions Hive Query Language (HQL) similaires aux instructions SQL standard pour l'interrogation et l'analyse des données. Il est conçu pour faciliter la programmation MapReduce car vous n'avez pas besoin de connaître et d'écrire de longs codes Java. Au lieu de cela, vous pouvez écrire des requêtes plus simplement en HQL, et Hive peut alors créer la carte et réduire les fonctions.

L'installation de Hive comprend le metastore Hive, qui vous permet d'appliquer une structure de table sur de grandes quantités de données non structurées. Une fois que vous avez créé une table Hive, défini les colonnes, les lignes, les types de données, etc., toutes ces informations sont stockées dans le metastore et font partie de l'architecture Hive. D'autres outils tels qu'Apache Spark et Apache Pig peuvent ensuite accéder aux données du metastore.

comme avec tout système de gestion de base de données (SGBD), vous pouvez exécuter vos requêtes Hive à partir d'une interface de ligne de commande (appelée shell Hive), d'une connectivité de base de données Java™ (JDBC) ou d'une application Open Database Connectivity (ODBC), à l'aide des pilotes Hive JDBC/ODBC. Vous pouvez exécuter un client Hive Thrift dans des applications écrites en C++, Java, PHP, Python ou Ruby, comme si vous utilisiez ces langages côté client avec SQL intégré pour accéder à une base de données telle qu'IBM Db2® ou IBM Informix®.

e ressemble à un code de base de données traditionnel avec accès SQL. Cependant, Hive est basé sur les opérations Apache Hadoop et Hive, ce qui entraîne des différences essentielles. Tout d'abord, Hadoop est destiné aux longues analyses séquentielles et, comme Hive est basé sur Hadoop, les requêtes ont une latence très élevée (plusieurs minutes). Cela signifie que Hive est moins approprié pour les applications qui nécessitent des temps de réponse très rapides. Deuxièmement, Hive est basé sur la lecture et n'est donc pas approprié pour le traitement des transactions qui implique généralement un pourcentage élevé d'opérations d'écriture. Il est mieux adapté aux tâches d'entreposage de données telles que l'extraction/la transformation/le chargement (ETL), le reporting et l'analyse des données et comprend des outils qui permettent un accès facile aux données via SQL.

Si vous êtes intéressé par SQL sur Hadoop, en plus de Hive, IBM propose IBM Db2 Big SQL, qui rend l'accès aux ensembles de données Hive plus rapide et plus sécurisé. Regardez la vidéo ci-dessous pour un aperçu rapide de Hive et Db2 Big SQL.

@sumotori

Click & Earn on the Hive @hive:

With Ecency: https://ecency.com/signup?referral=sumotori

With Peakd: https://peakd.com/register?ref=sumotori

Spanish

¿Qué es Apache Hive? con gran SQL Apache Hive es un software de almacenamiento de datos de código abierto para leer, escribir y administrar archivos de conjuntos de datos de gran tamaño que se almacenan directamente en el sistema de archivos distribuido Apache Hadoop (HDFS) u otros sistemas de almacenamiento de datos como Apache HBase. Hive permite a los desarrolladores de SQL escribir declaraciones Hive Query Language (HQL) que son similares a las declaraciones SQL estándar para la consulta y el análisis de datos. Está diseñado para facilitar la programación de MapReduce porque no tiene que saber ni escribir código Java extenso. En su lugar, puede escribir consultas de forma más sencilla en HQL y Hive puede crear el mapa y reducir las funciones.

Con la instalación de Hive se incluye el metastore de Hive, que le permite aplicar una estructura de tabla a grandes cantidades de datos no estructurados. Una vez que crea una tabla de Hive, definiendo las columnas, filas, tipos de datos, etc., toda esta información se almacena en el metastore y se convierte en parte de la arquitectura de Hive. Otras herramientas, como Apache Spark y Apache Pig, pueden acceder a los datos en el metastore.

Al igual que con cualquier sistema de administración de bases de datos (DBMS), puede ejecutar sus consultas de Hive desde una interfaz de línea de comandos (conocida como shell de Hive), desde una aplicación de conectividad de base de datos Java™ (JDBC) o desde una aplicación de conectividad abierta de base de datos (ODBC), utilizando los controladores Hive JDBC/ODBC. Puede ejecutar un Hive Thrift Client dentro de aplicaciones escritas en C++, Java, PHP, Python o Ruby, similar al uso de estos lenguajes del lado del cliente con SQL incorporado para acceder a una base de datos como IBM Db2® o IBM Informix®.

Hive parece un código de base de datos tradicional con acceso SQL. Sin embargo, Hive se basa en las operaciones de Apache Hadoop y Hive, lo que genera diferencias clave. En primer lugar, Hadoop está diseñado para análisis secuenciales largos y, dado que Hive se basa en Hadoop, las consultas tienen una latencia muy alta (muchos minutos). Esto significa que Hive es menos apropiado para aplicaciones que necesitan tiempos de respuesta muy rápidos. En segundo lugar, Hive está basado en lectura y, por lo tanto, no es apropiado para el procesamiento de transacciones que normalmente involucra un alto porcentaje de operaciones de escritura. Es más adecuado para tareas de almacenamiento de datos, como extracción/transformación/carga (ETL), generación de informes y análisis de datos, e incluye herramientas que permiten acceder fácilmente a los datos a través de SQL.

Si está interesado en SQL en Hadoop, además de Hive, IBM ofrece IBM Db2 Big SQL, que hace que el acceso a los conjuntos de datos de Hive sea más rápido y seguro. Mire el video a continuación para obtener una descripción general rápida de Hive y Db2 Big SQL.

@sumotori

Click & Earn on the Hive @hive:

With Ecency: https://ecency.com/signup?referral=sumotori

With Peakd: https://peakd.com/register?ref=sumotori

Italian

Cos'è Apache Hive? Con grande SQL Apache Hive è un software di data warehouse open source per la lettura, la scrittura e la gestione di file di set di dati di grandi dimensioni archiviati direttamente nell'Apache Hadoop Distributed File System (HDFS) o in altri sistemi di archiviazione dati come Apache HBase. Hive consente agli sviluppatori SQL di scrivere istruzioni Hive Query Language (HQL) simili alle istruzioni SQL standard per query e analisi dei dati. È progettato per semplificare la programmazione di MapReduce perché non è necessario conoscere e scrivere un lungo codice Java. Invece, puoi scrivere query più semplicemente in HQL e Hive può quindi creare la mappa e ridurre le funzioni.

Incluso con l'installazione di Hive è il metastore di Hive, che consente di applicare una struttura di tabella a grandi quantità di dati non strutturati. Una volta creata una tabella Hive, definendo colonne, righe, tipi di dati, ecc., tutte queste informazioni vengono archiviate nel metastore e diventano parte dell'architettura Hive. Altri strumenti come Apache Spark e Apache Pig possono quindi accedere ai dati nel metastore.

Come con qualsiasi sistema di gestione dei database (DBMS), è possibile eseguire le query Hive da un'interfaccia della riga di comando (nota come shell Hive), da un'applicazione JDBC (Java™ Database Connectivity) o da un'applicazione ODBC (Open Database Connectivity), utilizzando i driver Hive JDBC/ODBC. Puoi eseguire un Hive Thrift Client all'interno di applicazioni scritte in C++, Java, PHP, Python o Ruby, in modo simile all'utilizzo di questi linguaggi lato client con SQL integrato per accedere a un database come IBM Db2® o IBM Informix®.

Hive sembra un codice di database tradizionale con accesso SQL. Tuttavia, Hive si basa sulle operazioni Apache Hadoop e Hive, con conseguenti differenze fondamentali. Innanzitutto, Hadoop è destinato a lunghe scansioni sequenziali e, poiché Hive è basato su Hadoop, le query hanno una latenza molto elevata (molti minuti). Ciò significa che Hive è meno appropriato per le applicazioni che richiedono tempi di risposta molto rapidi. In secondo luogo, Hive è basato sulla lettura e pertanto non è appropriato per l'elaborazione delle transazioni che in genere comporta un'elevata percentuale di operazioni di scrittura. È più adatto per attività di data warehousing come estrazione/trasformazione/caricamento (ETL), reporting e analisi dei dati e include strumenti che consentono un facile accesso ai dati tramite SQL.

Se sei interessato a SQL su Hadoop, oltre a Hive, IBM offre IBM Db2 Big SQL, che rende l'accesso ai set di dati Hive più rapido e sicuro. Guarda il video qui sotto per una rapida panoramica di Hive e Db2 Big SQL.

@sumotori

Click & Earn on the Hive @hive:

With Ecency: https://ecency.com/signup?referral=sumotori

With Peakd: https://peakd.com/register?ref=sumotori

Thai

Apache Hive คืออะไร? ด้วย Big SQL Apache Hive เป็นซอฟต์แวร์คลังข้อมูลโอเพ่นซอร์สสำหรับการอ่าน เขียน และจัดการไฟล์ชุดข้อมูลขนาดใหญ่ที่จัดเก็บโดยตรงใน Apache Hadoop Distributed File System (HDFS) หรือระบบจัดเก็บข้อมูลอื่นๆ เช่น Apache HBase Hive ช่วยให้นักพัฒนา SQL เขียนคำสั่ง Hive Query Language (HQL) ที่คล้ายกับคำสั่ง SQL มาตรฐานสำหรับการสืบค้นข้อมูลและการวิเคราะห์ ได้รับการออกแบบมาเพื่อทำให้การเขียนโปรแกรม MapReduce ง่ายขึ้น เพราะคุณไม่จำเป็นต้องรู้และเขียนโค้ด Java ที่มีความยาว คุณสามารถเขียนเคียวรีใน HQL ได้ง่ายขึ้น จากนั้น Hive จะสามารถสร้างแผนที่และลดฟังก์ชันได้

สิ่งที่รวมอยู่ในการติดตั้ง Hive คือ Hive metastore ซึ่งทำให้คุณสามารถใช้โครงสร้างตารางกับข้อมูลที่ไม่มีโครงสร้างจำนวนมากได้ เมื่อคุณสร้างตาราง Hive กำหนดคอลัมน์ แถว ชนิดข้อมูล ฯลฯ ข้อมูลทั้งหมดนี้จะถูกจัดเก็บไว้ใน metastore และกลายเป็นส่วนหนึ่งของสถาปัตยกรรม Hive เครื่องมืออื่นๆ เช่น Apache Spark และ Apache Pig จะสามารถเข้าถึงข้อมูลใน metastore ได้

เช่นเดียวกับระบบจัดการฐานข้อมูล (DBMS) ใดๆ คุณสามารถรันการสืบค้น Hive จากอินเทอร์เฟซบรรทัดคำสั่ง (เรียกว่าเชลล์ Hive) จาก Java™ Database Connectivity (JDBC) หรือจากแอปพลิเคชัน Open Database Connectivity (ODBC) โดยใช้ไดรเวอร์ Hive JDBC/ODBC คุณสามารถเรียกใช้ Hive Thrift Client ภายในแอปพลิเคชันที่เขียนด้วย C++, Java, PHP, Python หรือ Ruby ซึ่งคล้ายกับการใช้ภาษาฝั่งไคลเอ็นต์เหล่านี้กับ SQL แบบฝังเพื่อเข้าถึงฐานข้อมูล เช่น IBM Db2® หรือ IBM Informix®

Hive ดูเหมือนรหัสฐานข้อมูลแบบดั้งเดิมที่มีการเข้าถึง SQL อย่างไรก็ตาม Hive อิงตามการทำงานของ Apache Hadoop และ Hive ทำให้เกิดความแตกต่างที่สำคัญ ประการแรก Hadoop มีไว้สำหรับการสแกนต่อเนื่องที่ยาวนาน และเนื่องจาก Hive ใช้ Hadoop การสืบค้นจึงมีเวลาแฝงสูงมาก (หลายนาที) ซึ่งหมายความว่า Hive ไม่เหมาะสำหรับแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วมาก ประการที่สอง Hive เป็นแบบอ่านและไม่เหมาะสำหรับการประมวลผลธุรกรรมที่โดยทั่วไปเกี่ยวข้องกับการดำเนินการเขียนในเปอร์เซ็นต์สูง เหมาะกว่าสำหรับงานคลังข้อมูล เช่น การแยก/แปลง/โหลด (ETL) การรายงานและการวิเคราะห์ข้อมูล รวมถึงเครื่องมือที่ช่วยให้เข้าถึงข้อมูลได้ง่ายผ่าน SQL

หากคุณสนใจ SQL บน Hadoop นอกจาก Hive แล้ว IBM ยังมี IBM Db2 Big SQL ซึ่งทำให้การเข้าถึงชุดข้อมูล Hive รวดเร็วและปลอดภัยยิ่งขึ้น ดูวิดีโอด้านล่างเพื่อดูภาพรวมโดยย่อของ Hive และ Db2 Big SQL

@sumotori

Click & Earn on the Hive @hive:

With Ecency: https://ecency.com/signup?referral=sumotori

With Peakd: https://peakd.com/register?ref=sumotori