Zug corpus für NER mit NLTK ieer oder conll2000 corpus

Ich habe versucht, ein Modell für Named Entity Recognition für eine bestimmte Domain und mit neuen Entitäten zu trainieren. Es scheint, es gibt keine abgeschlossene geeignete Pipeline dafür, und es besteht die Notwendigkeit, verschiedene Pakete zu verwenden.

Ich möchte NLTK eine Chance geben. Meine Frage ist, wie kann ich den NLTK NER trainieren, um neue Entitäten mit dem ieer corpus zu klassifizieren und zu vergleichen?

  • Pip / easy_install ignorieren ARCHFLAGS in der SciPy-Installation?
  • Jeder Python-Web-Framework mit den folgenden Features?
  • E-Mail-Parsing und Verarbeitung von Architekturbüros
  • Richtiger Weg, um Daten aus RESTFUL API in Django zu verbrauchen
  • Warum ist IoC / DI nicht in Python üblich?
  • MailChimp API 3.0 Batch / Bulk abonnieren
  • Ich werde natürlich Trainingsdaten mit dem IOB-Format wie:

    We PRP B-NP saw VBD O the DT B-NP yellow JJ I-NP dog NN I-NP 

    Ich glaube, ich muss die Spielmarken selbst selber markieren.

    Was mache ich als nächstes, wenn ich eine Textdatei in diesem Format habe, was sind die Schritte, um meine Daten mit dem ieer corpus zu trainieren, oder mit einem besseren, conll2000?

    Ich weiß, es gibt einige Dokumente da draußen, aber es ist nicht klar für mich, was zu tun, nachdem Sie ein Training Korpus getaggt haben.

    Ich möchte für NLTK gehen, weil ich dann die Funktion relextract () verwenden möchte .

    Bitte raten Sie bitte.

    Vielen Dank

  • Tausche zwei Werte in einem numpy Array.
  • Tausche Werte in einem Tupel / Liste innerhalb einer Liste in Python?
  • Gibt es eine standardisierte Methode, um zwei Variablen in Python zu tauschen?
  • Was sind die Unterschiede zwischen Swap in C ++ und Python?
  • Tausche Scheiben von Numpy Arrays
  • Swap Array Daten in NumPy
  • One Solution collect form web for “Zug corpus für NER mit NLTK ieer oder conll2000 corpus”

    Die nltk bietet alles was du brauchst Lesen Sie das Kapitel 6 des nltk Buches, beim Lernen, Text zu klassifizieren . Es gibt Ihnen ein gearbeitetes Beispiel der Klassifizierung. Dann studiere die Sektionen 2 und 3 aus Kapitel 7 , die dir zeigen, wie man mit IOB-Text arbeitet und einen Chunking-Klassifikator schreibt. Obwohl die Beispielanwendung nicht als Entity-Erkennung bezeichnet wird, sollten die Codebeispiele fast keine Änderungen an der Arbeit benötigen (obwohl Sie natürlich eine benutzerdefinierte Feature-Funktion benötigen, um anständige Leistung zu erhalten.)

    Sie können auch die Tags des nltk (oder einen anderen Tagger) verwenden, um POS-Tags zu Ihrem Korpus hinzuzufügen, oder Sie können Ihre Chancen nehmen und versuchen, einen Klassifikator auf Daten ohne Teil-von-Sprache-Tags (nur die IOB benannten Entity-Kategorien) zu trainieren. Meine Vermutung ist, dass POS-Tagging die Leistung verbessern wird, und du bist eigentlich viel besser dran, wenn der gleiche POS-Tagger auf die Trainingsdaten verwendet wird, wie für die Auswertung (und eventuell die Produktion).

    Python ist die beste Programmiersprache der Welt.