Tag: pandas

Pandas Eine heiße Kodierung: Zusammenfügen weniger seltener Kategorien

Ich mache eine heiße Codierung über eine kategorische Spalte, die etwa 18 verschiedene Arten von Werten hat. Ich möchte neue Spalten für nur jene Werte erstellen, die mehr als eine Schwelle erscheinen (sagen wir 1%) und eine andere Spalte mit dem Namen other values erstellen other values die 1 hat, wenn der Wert anders als […]

Wie man eine Funktion in Pandas abbildet, die jeden Datensatz in einer Spalte mit vorherigen und nächsten Datensätzen vergleicht

Ich habe eine Zeitreihe von Wasserständen, für die ich monatliche und jährliche Statistiken in Bezug auf mehrere willkürliche Hochwasserstufen berechnen muss. Im Einzelnen muss ich die Dauer pro Monat bestimmen, dass das Wasser die Überschwemmungsstufe überschritten hat, sowie die Anzahl der Ausflüge. Darüber hinaus, wegen der Geräusche, die mit den Datenloggern verbunden sind, muss ich […]

Pandas: Wie kann man eine Jahr-Wochen-Variable erstellen?

Ich habe ein dataframe mit datetimes dates = pd.date_range('9/25/2010', periods=10, freq='D') df = pd.DataFrame({'col':dates}) df['col']=pd.to_datetime(df['col']) df['dow'] = df.col.dt.dayofweek df['week'] = df.col.dt.to_period('W') df['week_alt']=df.col.dt.year.astype(str) + '-w' + df.col.dt.week.astype(str) df Out[21]: col dow week week_alt 0 2010-09-25 5 2010-09-20/2010-09-26 2010-w38 1 2010-09-26 6 2010-09-20/2010-09-26 2010-w38 2 2010-09-27 0 2010-09-27/2010-10-03 2010-w39 3 2010-09-28 1 2010-09-27/2010-10-03 2010-w39 4 2010-09-29 2 […]

Wie man einzelne Zellen in Pandas ordnungsgemäß abruft: loc [Index, Spalte] VS get_value (Index, Spalte)

Welche Methode ist besser (in Bezug auf Leistung und Zuverlässigkeit) zu verwenden, um einzelne Zellen aus einem Pandas DataFrame : get_value () oder loc [] zu holen?

Python-Pandas nicht in der Lage, Zusammenfassung der großen Dataframe anzuzeigen

Ich habe vor kurzem auf Pandas Version 0.13 aufgerüstet und erlebe dieses Problem wo egal wie groß mein Dataframe ist (der größte hat 25 Spalten und 158430 Zeilen), pandas druckt das gesamte Dataframe aus (auch nicht die ganze Sache, nur ein paar Zeilen in Jede Spalte, aber es ist immer noch chaotisch!) Anstatt auszudrucken, die […]

Plotten großer Pandas-Datenrahmen in 3D

Ich versuche derzeit, eine riesige Menge an Daten in der gleichen Handlung zu visualisieren. Grundsätzlich habe ich Daten im Intervall [0,1] zwischen 13:00 und 16:00 mit einem 5 Sekunden Intervall erhalten. Die Daten werden in einem pandas DataFrame, DF gespeichert, mit diesem 5-Sekunden-Intervall-Zeitstempel als Index. So sieht die Daten aus >>> DF abc 13:00:00 0.994035 […]

Sperren in dask.multiprocessing.get und Hinzufügen von Metadaten zu HDF

Durchführen einer ETL-Aufgabe in reinen Python, möchte ich Fehler Metriken sowie Metadaten für jede der Roh-Eingabedateien zu erfassen (Fehler-Metriken werden aus Fehlercodes im Datenbereich der Dateien, während Metadaten in Header gespeichert ist berechnet ). Hier ist Pseudocode für das ganze Verfahren: import pandas as pd import dask from dask import delayed from dask import dataframe […]

Commodity Futures Hierarchische Datenstruktur

Ich für das Leben von mir kann nicht scheinen, die Struktur zu bekommen, die ich will und habe es richtig funktionieren, also in einem Anfall von Wut komme ich zu euch Jungs. Setup: Ich habe ein Verzeichnis namens Futures_Contracts und innen ist etwa 30 Ordner alle mit dem zugrunde liegenden Vermögenswert und schließlich innerhalb der […]

Mit pandas read_csv mit fehlenden Daten

Ich versuche, eine csv-Datei zu lesen, in der einige Zeilen fehlende Datenblöcke fehlen können. Dies scheint ein Problem mit der Funktion pandas read_csv zu verursachen, wenn Sie den dtype angeben. Das Problem scheint, dass, um von der Str zu konvertieren, was auch immer der dtype spezifiziert Pandas versucht nur, es direkt zu werfen. Wenn also […]

Wie man Eigenschaften von Whiskern, Fliegern, Kappen, etc. in Seaborn Boxplot bearbeiten

Ich habe einen verschachtelten Boxplot mit einem überlagerten Stripplot mit dem Seaborn-Paket erstellt. Ich habe Antworten auf Stackoverflow gesehen, wie man die Box- Eigenschaften sowohl für einzelne Boxen als auch für alle Boxen mit ax.artists bearbeiten kann, die von sns.boxplot generiert werden. Gibt es eine Möglichkeit, Whisker, Cap, Flieger, etc. Eigenschaften mit einer ähnlichen Methode […]

Python ist die beste Programmiersprache der Welt.