Führen Sie verschiedene Klassifikatoren / Algorithmen parallel mit Spark

Ich habe einen Datensatz und ich wollte verschiedene Klassifikatoren parallel mit Spark mit Python testen. Zum Beispiel, wenn ich einen Entscheidungsbaum und einen zufälligen Wald testen möchte, wie könnte ich sie parallel laufen lassen?

Ich habe ein paar Ansätze ausprobiert, aber ich bekomme immer:

  • Erstellen von Binned Histogrammen in Spark
  • Pyspark - py-Dateien funktioniert nicht
  • Spark Iteration Zeit zunehmend exponentiell bei der Verwendung beitreten
  • Spark ALS predictAll gibt leer zurück
  • Wie setze ich Pyspark in Python 3 mit spark-env.sh.template ein
  • Spark MLib Entscheidungsbäume: Wahrscheinlichkeit von Etiketten nach Merkmalen?
  • cPickle.PicklingError: Can't pickle <type 'function'>: attribute lookup __builtin__.function failed 

    Ich habe versucht, dies zu tun (was gut gearbeitet hatte mit Scikit-Learn's Klassifikatoren anstelle von Spark's:

     def apply_classifier(clf, train_dataset, test_dataset): model = clf.fit(train_dataset) predictions = model.transform(test_dataset) evaluator = BinaryClassificationEvaluator() evaluator.evaluate(predictions) return [(model, predictions)] ... dt = DecisionTreeClassifier(labelCol="indexedLabel", featuresCol="indexedFeatures", maxDepth=3) rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="indexedFeatures") classifiers = [dt, rf] sc.parallelize(classifiers).flatMap(lambda x: apply_classifier(x, train_dataset, test_dataset)).collect() 

    Irgendwelche Vorschläge, wie ich das schaffen kann?

    Vielen Dank!

  • Wie kann ich setuptools (oder verteilen) ein Paket aus dem lokalen Dateisystem installieren
  • Wie kann man Paketdaten mit setuptools / distribute einbinden?
  • Migration von verteilen auf setuptools
  • Wie schreibe ich ein setup.py für ein Twistd / Twisted Plugin, das mit setuptools arbeitet, verteilen, etc?
  • Setuptools kann keinen Link von dependency_links verwenden
  • Verteilen / distutils spezifizieren Python-Version
  • Python ist die beste Programmiersprache der Welt.