Cloudera ajoute un outil SQL pour interroger les données de streaming

Rejoignez Transform 2021 pour les thèmes les plus importants de l’IA et des données d’entreprise. Apprendre encore plus.


Cloudera a annoncé aujourd’hui avoir ajouté à son portefeuille un Générateur de flux Cloudera SQL outil basé sur la technologie acquise avec l’acquisition d’Eventador qui permet d’utiliser SQL pour interroger des flux de données en temps réel.

Cet outil Eventador est maintenant intégré à une plate-forme de streaming Cloudera DataFlow (CDF) qui fournit un cadre commun pour le traitement des données de streaming à l’aide de moteurs open source Apache Flink, Kafka Streams ou Spark Structured Streaming. Auparavant, le seul moyen d’interroger ces données était d’utiliser des outils de programmation basés sur Java ou Scala. Désormais, les analystes de données peuvent désormais interroger les données CDF sans avoir à savoir comment écrire du code, a déclaré Dinesh Chandrasekhar, responsable du marketing produit chez Cloudera.

SQL Stream Builder permet également aux analystes de créer des vues des résultats de requêtes qui peuvent être exposées à d’autres applications via des interfaces de programmation d’application (API) REST. Il a également été intégré au framework SDX (Shared Data Experience) créé par Cloudera pour appliquer les politiques de gouvernance et de sécurité à travers CDF.

Malgré l’essor d’un large éventail de langages de programmation utilisés pour analyser les données, la langue dominante pour l’interrogation des données dans l’entreprise reste SQL. Cependant, à mesure que le besoin d’interroger les données au fur et à mesure qu’elles sont diffusées en temps réel devient plus important, les organisations veulent être en mesure d’étendre SQL pour, par exemple, identifier potentiellement des anomalies dans les processus qui seraient le signe d’une fraude potentielle, a déclaré Chandrasekhar.

Une grande partie du besoin accru d’interroger les données en continu est motivée par des initiatives de transformation numérique de l’entreprise qui traitent et analysent les données en temps réel à l’aide de plateformes telles que Spark et Kafka. À un moment donné, un analyste devra lancer une requête ad hoc sur ces données pour résoudre un problème urgent bien avant que les données ne soient finalement stockées dans une base de données relationnelle. «Les données ont une durée de vie», a déclaré Chandrasekhar.

Plutôt que d’avoir à trouver un développeur pour écrire cette requête en Java ou dans un autre langage de programmation pour atteindre cet objectif, il est désormais possible pour un analyste de lancer immédiatement une requête SQL lui-même. Auparavant, cette requête n’aurait peut-être jamais été lancée simplement parce qu’il aurait fallu trop de temps et d’efforts pour trouver un développeur pour écrire le code.

En général, plus de données que jamais sont traitées et analysées à la fois aux points où elles sont créées et consommées et là où elles se déplacent entre les applications en temps réel. Cloudera parie qu’une grande partie de ces données atterrira finalement dans un entrepôt de données basé sur la distribution open source de Hadoop qu’il fournit. Cependant, au cours des dernières années, les lacs de données rivaux compatibles SQL basés sur des plates-formes propriétaires gérées par des fournisseurs de services cloud ont gagné du terrain au détriment des fournisseurs de plates-formes basées sur Hadoop.

Cloudera, avec le lancement de Cloudera SQL Stream Builder, ajoute un autre outil compatible SQL à un portefeuille qui permet d’interroger des données résidant dans Hadoop et d’autres frameworks tels qu’Apache Spark qui sont généralement déployés sur Hadoop. On ne sait pas encore dans quelle mesure ces capacités permettront à Cloudera de contrer les récents succès de ses rivaux. Cependant, en tant que fournisseur d’une plate-forme d’entrepôt de données basée sur des logiciels open source, Cloudera fait appel aux organisations informatiques qui ont décidé d’éviter les logiciels propriétaires dans la mesure du possible.

Quel que soit l’outil utilisé pour analyser les données, elles sont plus que jamais générées plus rapidement. Il reste à voir dans quelle mesure les humains pourront analyser les données générées en temps réel. La plupart des processus numériques que les organisations tentent d’analyser se produisent en quelques millisecondes, ce qui est trop rapide pour qu’un être humain puisse les capturer sans l’aide d’une forme d’IA. Néanmoins, de nombreuses données résidant sur les plates-formes de streaming peuvent être interrogées. Le défi est maintenant de savoir comment structurer d’abord ces requêtes SQL et, tout aussi important, quand les lancer.

VentureBeat

La mission de VentureBeat est d’être une place de la ville numérique pour les décideurs techniques afin d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions. Notre site fournit des informations essentielles sur les technologies de données et les stratégies pour vous guider dans la conduite de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder:

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Nous serions ravis de connaître votre avis

Laisser un commentaire

MeilleursBlogs 🥇 Guide, Avis & Comparatif des Meilleurs Sites et Boutiques en ligne
Logo