machine learning sparklyr 16 erhaumllt zugriff auf power iteration clustering d3ca883

Machine Learning: Sparklyr 1.6 erhält Zugriff auf Power Iteration Clustering

By Vladimir Last updated 29. Juni 2023

Zusätzlich ein neues R-Interface können Spark-Anwender den Graph-Clustering-Algorithmus in ihren Datenanalyseprojekten einfach nutzen.

(Bild: Phonlamai Photo/Shutterstock.com)

Developer Von

Matthias Parbel

Das Sparklyr-Entwicklungsteam hat Version 1.6 des auf Apache Spark zugeschnittenen R-Sprachpakets zum Skalieren von Data-Science- und Machine-Learning-Workflows vorgelegt. Neben einer Reihe von Fehlerbereinigungen und Verbesserungen hat das Update neue Funktionen zu bieten – darunter ein R-Interface zum Power Iteration Clustering sowie Unterstützung für den generalisierten Greenwald-Khanna-Algorithmus.

Mehr Algorithmen zur Datenanalyse

Die Potenzmethode (Power Iteration Clustering) lässt sich als skalierbarer Graph-Clustering-Algorithmus auf eine normalisierte paarweise Ähnlichkeitsmatrix aller Datenpunkte anwenden, um eine niedrigdimensionale Einbettung eines Datensatzes zu finden und den k-means-Algorithmus auf der eingebetteten Darstellung auszuführen. Darüber hinaus lässt sich in Sparklyr 1.6 der generalisierte Greenwald-Khanna-Algorithmus einsetzen, wenn bei der Approximation der Quantile einer großen Anzahl von Datenpunkten die Gewichte der Stichprobendaten berücksichtigt werden sollen.

Beim Einsatz von Dplyr, einem tidyverse-Kernpaket, das Funktionen zum Manipulieren von Dataframes bereitstellt, unterstützt das Sparklyr-Update nun auch die APIs des Datenbank-Backends dbplyr vollständig – sowohl die der Edition 1 wie auch Edition 2. Zudem lassen sich die Funktionen `if_all()` und `if_any()` auf Spark Dataframes anwenden. Um beim Sammeln großer Dataframes etwaige Speicherengpässe auf den Spark Driver Nodes zu vermeiden, können Sparklyr-Anwender jetzt mit `spark_write_rds()` sämtliche Partitionen eines Dataframe parallel in RDS-Dateien (Version 2) exportieren und im standardmäßigen Dateisystem der Spark-Instanz speichern (lokal oder in HDFS im Cluster).

Mehr Details sowie ein kompletter Überblick aller Neuerungen in Sparklyr 1.6 finden sich im Blogbeitrag der LF AI & Data Foundation und in den Release Notes auf GitHub. Das von der Open-Source-Community unterstützte Projekt bewährt sich derzeit im Inkubator der Linux Foundation.

(map)

Quelle: www.heise.de