Tag: regex

So entfernen Sie führende Unterstriche und Zahlen in einer Zeichenfolge in Python

Ich muss einige Strings sanitisieren und ungültige führende (nicht alphabetische) Zeichen von ihnen entfernen. Zum Beispiel: "3_hello" -> "hello" "_hello" -> "hello" "__hello" -> "hello" "++hello" -> "hello" Gibt es einen schnellen Weg, um zu verwenden, um die Aufgabe zu konkurrieren?

Einfache regex für einfache xml string

Ich habe einen String, der aus Elementen besteht. Jedes Element kann "Birne" oder "Apfel" enthalten. Ich kann alle Elemente mit: s = '<tag>uTSqUYRR8gapple</tag><tag>K9VGTZM3h8</tag><tag>pearTYysnMXMUc</tag><tag>udv5NZQdpzpearz5a4oS85mD</tag>' import re; re.findall("<tag>.*?</tag>", s) Allerdings möchte ich das letzte Element, das Birne enthält, bekommen. Was wäre der einfachste / schnellste Weg, dies zu tun? Ist das ein guter Weg: list = re.findall("<tag>.*?</tag>", […]

Python: Finde einen Satz zwischen einigen Website-Tags mit Regex

Ich möchte einen Satz zwischen dem …class="question-hyperlink"> tags finden. Mit diesem Code: import urllib2 import re response = urllib2.urlopen('https://stackoverflow.com/questions/tagged/python') html = response.read(20000) a = re.search('question-hyperlink', html) print html[a.end()+3:a.end()+100] Ich bekomme: DF5 for Python: high level vs low level interfaces. h5py</a></h3> <div class="excerpt"> Wie kann ich beim nächsten anhalten? Und wie finde ich den nächsten Satz? […]

PYTHON REGEXP ersetzt das erkannte Muster mit dem Muster selbst und dem Ersatz?

Text- .1. Das ist einfach awesome.2. Google hat einfach nur Apple ausgelöst. Apfel ruiniert sich! Muster = (Punkt) (Zahl) (Punkt) (Singlespace) Stellen Sie sich vor, Sie haben 30 bis 40 Sätze mit Absatznummern im obigen Muster. Ein <p> -Tag sollte hinter der PARAGRAPH-NUMMER ersetzt werden! VERWENDUNG von re.sub() Ich möchte den Text sein: </p> <p […]

Erstellen Sie ein Dataframe aus HTML-Tabelle in Python

Ich versuche, Informationen aus mehreren Tabellen zu extrahieren, wie die unten unten. Ich versuche, die Adresse, Losnummer, Richtpreis, Beschreibung zu extrahieren – sollte ich einfach einen regelmäßigen Ausdruck treffen? Es gibt 232 solcher Tische – vermutlich eine Schleife, um sie zu extrahieren (und sie in Pandas zu stecken)? <table cellspacing="0" id="ListViewLots_ClientPropertyControl1_1_FormViewLot_1" style="width:100%;border-collapse:collapse;"> <tr> <td colspan="2"> […]

Python url extrakt aus html

Ich brauche python regex zu extrahieren url's aus html, Beispiel HTML-Code: <a href=""http://a0c5e.site.it/r"" target=_blank><font color=#808080>MailUp</font></a> <a href=""http://www.site.it/prodottiLLPP.php?id=1"" class=""txtBlueGeorgia16"">Prodotti</a> <a href=""http://www.site.it/terremoto.php"" target=""blank"" class=""txtGrigioScuroGeorgia12"">Terremoto</a> <a class='mini' href='http://www.site.com/remove/professionisti.aspx?Id=65&Code=xhmyskwzse'>clicca qui.</a>` Ich brauche nur Auszug: http://a0c5e.site.it/r http://www.site.it/prodottiLLPP.php?id=1 http://www.site.it/terremoto.php http://www.site.com/remove/professionisti.aspx?Id=65&Code=xhmyskwzse

Wie benutzt man effektiv reguläre Ausdrücke, um alliterative Ausdrücke zu finden?

Ich habe eine Aufgabe, die es erfordert, regelmäßige Ausdrücke in Python zu verwenden, um alliterative Ausdrücke in einer Datei zu finden, die aus einer Liste von Namen besteht. Hier sind die spezifischen Anweisungen: "Öffnen Sie eine Datei und geben Sie alle alliterativen Namen in die Datei zurück. Für unsere Zwecke ist ein" Name "ein zwei […]

Wie man URL aus HTML-Anker-Element mit Python3 extrahiert? [abgeschlossen]

Ich möchte URL aus Web-Seite HTML-Quelle zu extrahieren. Beispiel: xyz.com source code: <a rel="nofollow" href="example/hello/get/9f676bac2bb3.zip">Download XYZ</a> Ich möchte extrahieren: example/hello/get/9f676bac2bb3.zip Wie kann ich diese URL extrahieren? Ich verstehe nicht Regex. Auch ich weiß nicht, wie man Beautiful Soup 4 oder lxml auf Windows installiert. Ich bekomme Fehler, wenn ich versuche, diese Bibliotheken zu installieren. Ich […]

RegEx Parse Error von Parsley Python

Ich habe einen einfachen Parser für einfache Abfragen gemacht, um Daten aus einem Datenspeicher zu holen. Die Operanden, die ich benutzt habe, sind <, <=,>,> =, == ,! = Der Parser funktioniert für jeden Operanden gut, außer für <Ich bin ein bisschen überrascht von dem Verhalten, da die Regex für jeden Operanden fast identisch sind. […]

Wie lösche ich die ersten vier Zeilen und die letzten 12 Zeilen in eine Datei in Python?

h = httplib.HTTPSConnection(host, port) h.set_debuglevel(0) headers = { "Content-Type": "multipart/form-data; boundary=%s" % (boundary,), "Connection": "Keep-Alive", } h.request('POST', uri, body, headers) res = h.getresponse() #print res.read() data = """MIME-Version: 1.0 Content-Type: multipart/mixed; boundary=–Nuance_NMSP_vutc5w1XobDdefsYG3wq """ + res.read() msg = email.message_from_string(data) #print msg for index, part in enumerate(msg.walk(), start=1): content_type = part.get_content_type() #print content_type payload = part.get_payload() print […]

Python ist die beste Programmiersprache der Welt.