Tag: pandas

Python-Performance-Probleme mit Loops mit großen Tischen

Ich benutze Python und mehrere Bibliotheken wie Pandas und Scipy, um Daten vorzubereiten, damit ich eine tiefere Analyse beginnen kann. Für den Vorbereitungszweck schreibe ich zum Beispiel neue Spalten mit der Differenz von zwei Terminen. Mein Code ist die Bereitstellung der erwarteten Ergebnisse, aber ist wirklich langsam, so kann ich es nicht für einen Tisch […]

Probleme beim Versuch, Links in besuchten Links mit scrapy zu crawlen?

Um krass zu lernen, versuche ich, einige innere URLs aus einer Liste von start_urls zu kriechen. Das Problem ist, dass nicht alle Elemente von start_urls innere urls (hier möchte ich urls zurückkehren). Also, wie kann ich die folgenden 2 Spalte Dataframe (**) : visited_link, extracted_link https://www.example1.com, NaN https://www.example2.com, NaN https://www.example3.com, https://www.extracted-link3.com Bisher habe ich versucht: […]

IPython Notebook nicht drucken Dataframe als Tabelle

Ich versuche, ein df in ipython Notebook zu drucken, aber es druckt es nicht als Tisch. data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012], 'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'], 'wins': [11, 8, 10, 15, 11, 6, 10, 4], 'losses': [5, 8, 6, 1, 5, 10, 6, 12]} football […]

Wie man verschiedene Funktionen auf jede Gruppe von Pandas Groupby?

Wenn ich ein Dataframe wie folgt habe, import numpy as np import pandas as pd df2 = pd.DataFrame({'type':['A', 'A', 'B', 'B', 'C', 'C'], 'value':np.random.randn(6)}) >>> df2 type value 0 A -1.136014 1 A -0.715392 2 B -1.961665 3 B -0.525517 4 C 1.358249 5 C 0.652092 Ich möchte das Dataframe durch die Spalte 'type' gruppieren […]

Analysiere einen sehr großen CSV-Datensatz

Ich habe einen sehr großen CSV-Dataset (900M Datensätze), der aus folgendem Format besteht: URL | IP | ActivityId Beispieldaten: http://google.com/ | 127.0.0.1 | 2 http://google.com/ | 12.3.3.1 | 2 Für dieses Format möchte ich alle einzigartigen Aktivitäten pro URL erhalten. Was ich versuchte zu tun war ein Wörterbuch zu erstellen, wo der Schlüssel die URL […]

Lese Prozess und verketten Pandas Dataframe parallel mit demk

Ich versuche, parallel eine Liste von csv-Dateien zu lesen und zu verarbeiten und die Ausgabe in einem einzigen pandas dataframe zur Weiterverarbeitung zu verketten. Mein Arbeitsablauf besteht aus 3 Schritten: Erstellen Sie eine Reihe von Pandas Dataframe durch das Lesen einer Liste von csv-Dateien (alle mit der gleichen Struktur) def loadcsv(filename): df = pd.read_csv(filename) return […]

Wie erstelle ich neue Spalten, um die Daten der Duplicate ID Spalte zu speichern?

Ich habe diese dataframe: ID key 0 1 A 1 1 B 2 2 C 3 3 D 4 3 E 5 3 E Ich möchte zusätzliche key erstellen – wie nötig – um die Daten in der key zu speichern, wenn es doppelte IDs Dies ist ein Ausschnitt der Ausgabe: ID key key2 0 […]

Wie summiere man einzelne Zeilen in Pandas?

Ich bin noch nicht mit Python vertraut. Ich habe einen Pandas-Datenrahmen, der so aussieht: 0 1 2 3 55 Alice 12896399 8 45 45 Bob 16891982 0 0 90 Cybill 1800407 1 1 05 Alice 12896399 100 200 33 Bob 16891982 0.5 0 42 Bob 16891982 -1.5 -0.5 46 Bob 16891982 1 0 99 Cybill […]

Python und Pandas: Sortierung jeder Zeile in einem Multi-Index DataFrame

Dies ist ein Beispiel DataFrame mit Multi-Index-Zeilen. row_idx_arr = list(zip(['r0', 'r0', 'r0', 'r1', 'r1', 'r1', 'r2', 'r2', 'r2', 'r3', 'r3', 'r3'], ['r-00', 'r-01', 'r-02', 'r-00', 'r-01', 'r-02', 'r-00', 'r-01', 'r-02', 'r-00', 'r-01', 'r-02', ])) row_idx = pd.MultiIndex.from_tuples(row_idx_arr) d = pd.DataFrame((np.random.randn(36)*10).reshape(12,3), index=row_idx, columns=['c0', 'c1', 'returns']) c0 c1 returns r0 r-00 3.553446 5.434018 5.141394 r-01 10.045250 18.453873 […]

Quartiles in Pandas bekommen, wenn Daten eine geringe Varianz haben

Ich bin mir nicht sicher, ob mein Problem lösbar ist, aber ich würde es versuchen. Eine Suche gab kein Ergebnis, jedenfalls. Die Aufgabe: Ich habe einen großartigen Datensatz – ca. 40k Elemente. Diese werden in Bezug auf die Vertrautheit von Ratern bewertet (dh wenn ein Artikel ein Rating von 0,75 hat, bedeutet dies, dass 75% […]

Python ist die beste Programmiersprache der Welt.