Tag: pandas

Wie konvertiert man verschachteltes Wörterbuch in eine 2D-Tabelle

Diese Frage hat hier schon eine Antwort: Wie man diese verschachtelte JSON in säulenförmige Form in Pandas dataframe 1 Antwort umwandelt Wie man das verschachtelte Wörterbuch in eine 2D-Tabelle umwandelt Data [0] ist eine Sammlung von Tabellenzeilen Data [0] [0] ist eine Tabellenzeile, Schlüssel: Jahr ist der Spaltenname, Schlüssel: Werte sind die Werte in der […]

Pandas MultiIndex Ebenen benutzerdefinierte Art

Ich bin neu in Pandas (0.16.1), und wünsche benutzerdefinierte Sortierung in Multiindex, so dass ich Categoricals verwenden. Teil meines Multiindex: Part Defect Own Кузов 504 ИП Кузов 504 Итого Кузов 504 ПС Кузов 505 ПС Кузов 506 ПС Кузов 507 ПС Кузов 530 ИП Кузов 530 Итого Кузов 530 ПС Ich schaffe Pivot-Tabelle mit MultiIndex-Ebenen […]

Überprüfen Sie die Gültigkeit für Flagsäulen in mehreren Zeilen Pandas

Ich habe ein dataframe: a id flag1 flag2 abc 1 1 0 123 1 0 1 xyz 2 1 0 111 2 0 1 qwe 3 1 0 qwe 3 1 0 mmm 4 1 0 222 4 0 1 Ich möchte die id Nummer finden, wo sowohl Flag1 als auch Flag2 1 . Zum […]

Wert in einer Spalte in einer anderen Spalte mit Regex in Pandas suchen

Ich habe ein pandas dataframe mit zwei säulen von strings. Ich möchte alle Zeilen identifizieren, in denen die Zeichenfolge in der ersten Spalte ( s1 ) innerhalb der Zeichenfolge in der zweiten Spalte ( s2 ) erscheint. Also, wenn meine Spalten waren: abc abcd*ef_gh z1y xxyyzz Ich möchte die erste Reihe behalten, aber nicht die […]

Effizienteste I / O-Einstellung zwischen Stata und Python (Pandas)

Ich benutze Stata, um einige Daten zu verarbeiten, exportiere die Daten in einer CSV-Datei und lade sie in Python mit der Funktion pandas read_csv. Das Problem ist, dass alles so langsam ist. Das Exportieren von Stata in eine CSV-Datei dauert alters (das Exportieren im dta Stata-Format ist viel schneller), und das Laden der Daten über […]

Entfernen von Werten, die mehr als 5 Mal in Pandas DataFrame wiederholen

Ich verwende Pandas, um mit csv-Dateien zu arbeiten. Ich muss ein paar wiederholte Werte entfernen, wenn sie nacheinander auftreten. Ich verstehe, dass es eine doppelte Funktion gibt, die jeden Wert entfernt, der das zweite Mal wiederholt, unabhängig davon, wo sie auftreten. Aber ich muss die Daten nur entfernen, wenn die Werte einer Spalte für mehr […]

ValueError: 'Objekt zu tief für das gewünschte Array'

Ich habe ein ValueError: 'Objekt zu tief für das gewünschte Array' in einem Python-Programm. Ich habe diesen Fehler bei der Verwendung von numpy.digitize. Ich denke, es ist, wie ich Pandas DataFrames verwende: Um es einfach zu halten (weil dies durch eine externe Bibliothek erfolgt) habe ich eine Liste in meinem Programm, aber die Bibliothek braucht […]

Python pandas bedingte ersetzen string basierend auf Spaltenwerten

Angesichts dieser Datenrahmen …: DF = pd.DataFrame({'COL1': ['A', 'B', 'C', 'D','D','D'], 'COL2': [11032, 1960, 11400, 11355, 8, 7], 'year': ['2016', '2017', '2018', '2019', '2020', '2021']}) DF COL1 COL2 year 0 A 11032 2016 1 B 1960 2017 2 C 11400 2018 3 D 11355 2019 4 D 8 2020 5 D 7 2021 DF2 = […]

Beschleunigen python gelten Zeile weise Funktionen

Ich arbeite an einem der Datenreinigungsprojekt, ich muss mehrere Felder eines Pandas-Datenrahmens als Teil davon reinigen. Meistens schreibe ich regelmäßige Ausdrücke und einfache Funktionen. Beispiele unten, def func1(s): s = str(s) s = s.replace(' ', '') if len(s) > 0 and s != '0': if s.isalpha() and len(s) < 2: return s def func2(s): s […]

Grundlegende Gruppenoperationen in Dask

Ich versuche, Dask zu benutzen, um eine große Datei (50 GB) zu behandeln. Normalerweise würde ich es in Erinnerung laden und Pandas verwenden. Ich möchte durch zwei Spalten "A" und "B" gruppieren, und wenn Spalte "C" mit einem Wert beginnt, möchte ich diesen Wert in dieser Spalte für diese bestimmte Gruppe wiederholen. In pandas würde […]

Python ist die beste Programmiersprache der Welt.