x

Re: Wall·E: Automatische Korrektur allgemeiner Tagging-Tippfehler?


Geschrieben von Oli-Wan (Gast) am 09. Oktober 2013 20:23:42: [flux]

Als Antwort auf: Wall·E: Automatische Korrektur allgemeiner Tagging-Tippfehler? geschrieben von Oli-Wan (Gast) am 07. Oktober 2013 21:10:

Mit einem realen Testlauf werde ich mir noch etwas Zeit lassen (obwohl das Programm startklar wäre). Die Idee ist gerade mal zwei Tage in der Welt; vielleicht kommt ja noch der eine oder andere grundsätzliche - und möglicherweise durchaus berechtigte - Einwand.

Hier ist jedenfalls schon mal ein Entwurf für die erste Generation eines Regelsatzes mit der Bitte, einmal drüber zu schauen. Das Format ist das gleiche wie oben: erst das Ersetzungsziel, dann die Menge seiner Urbilder (allesamt dem Datenbestand entnommen). Wer nicht die ganze Liste durchackern will: lieber zwei bis drei der (etwa gleich großen, mehr oder weniger alphabetisch sortierten) Blöcke gründlich überprüfen als alles nur oberflächlich. Entweder zufällig welche herausgreifen (nicht jeder die ersten zwei) oder z.B. jene Blöcke, welche die ersten Buchstaben den eigenen Vornamens enthalten.

Die Urbilder enthalten überwiegend Tippfehler wie vertauschte Buchstaben, falsche Großbuchstaben oder durch abgerutschte Finger eingefügte Buchstaben. Zu kurz geratene Tags sind nur in Ausnamefällen ("landu" ist ziemlich eindeutig, "lan" nicht) dabei. Basis des Entwurfs war diese Auswertung des Geofabrik-DE-Extrakts, wobei ich nach einem Verhältnis der Häufigkeiten von mindestens 200 (statt 500) gesucht habe.

Dieser erste Entwurf wird in jedem Fall kontinuierlich erweitert werden müssen. Ich befürchte allerdings angesichts der bereits jetzt gefundenen Breite ein ziemlich schlechtes Konvergenzverhalten, d.h. bereits aufgetretene Fehler werden sich nur selten wiederholen und stattdessen wird es neue geben.

(("abandoned"␣("abandonde"␣"abandones"))
("addr:city"␣("add:city"␣"adr:city"␣"adde:city"␣"addr.city"␣"addr::city"
"addr:ciry"␣"addr:ciy"␣"addr:dity"␣"addr:sity"␣"addr;city"
"addr_city"))
("addr:country"␣("add:country"␣"addr.country"␣"addr_country"␣"addr:ountry"
"addr:coutry"␣"adr:country"))
("addr:housenumber"␣("addr:housenumberf"))
("addr:postcode"␣("add:postcode"))
("addr:street"␣("add:street"␣"addr::street"))
("addr:suburb"␣("addr_suburb"␣"addr:subrub"␣"addR:suburb"))
("amenity"␣("amenit"))
("bridge"␣("brigde"))
("building"␣("Building"␣"bulding"))
("building:colour"␣("buidling:colour"␣"building;colour"))
("building:levels"␣("buidling:levels"))
("building:use"␣("buidling:use"))
("capacity"␣("caapcity"))
("castle_type"␣("castel_type"␣"castle_typ"␣"castle:type"))
("cemetery"␣("cemetary"))
("construction"␣("cosntruction"␣"Construction"))
("cuisine"␣("cuosine"))
("denotation"␣("denatation"))
("drinkable"␣("dringable"))
("entrance"␣("entramce"))
("fuel:cng"␣("fuel:CNG"))
("fuel:e10"␣("fuel:E10"))
("generator:method"␣("generator_method"))
("generator:source"␣("generator_source"))
("genus:de"␣("genus:DE"))
("height"␣("heigth"␣"heihgt"␣"hieght"␣"hright"))
("heritage"␣("heirtage"))
("heritage:operator"␣("heritgae:operator"␣"heritage_operator"))
("hgv"␣("hgb"))
("highway"␣("higwhay"))
("incline"␣("inclien"))
("information"␣("Information"))
("landuse"␣("landu"))
("layer"␣("LAYER"␣"Layer"))
("man_made"␣("man␣made"))
("maxheight"␣("maxheigth"))
("maxspeed:backward"␣("maxspeed:backeard"))
("maxspeed:forward"␣("maxspeed:forwad"␣"maxspeed.forward"))
("maxweight"␣("maxweigth"␣"Maxweight"))
("memorial"␣("menorial"))
("memorial:type"␣("menorial_type"))
("motorroad"␣("motorraod"))
("mtb:scale"␣("MTB:Scale"␣"MTB:scale"␣"mtb_scale"␣"mtb.scale"␣"mtb:scael"))
("name"␣("Name"))
("natural"␣("Natural"␣"natrual"␣"naturan"␣"naturaql"␣"naturel"))
("network"␣("Network"␣"networt"))
("noexit"␣("NOEXIT"␣"moexit"))
("note"␣("Note"␣"NOTE"␣"noet"))
("phone"␣("phoen"))
("population"␣("ppoulation"))
("public_transport"␣("public_tranpsort"))
("ref"␣("Ref"))
("reservoir_type"␣("reservior_type"))
("roof:colour"␣("roof_colour"))
("roof:material"␣("roof_material"␣"roof:mateiral"␣"roof:materials"))
("roof:shape"␣("roof:shade"␣"roof_shape"␣"rrof:shape"␣"coof:shape"))
("shop"␣("shpo"))
("source"␣("Source"␣"soruce"␣"suorce"))
("surface"␣("surfacw"␣"surfcae"))
("tourism"␣("tourisme"))
("tracktype"␣("trakctype"␣"traxktype"␣"zracktype"␣"Tracktype"␣"tracktyp"
"trackty"␣"tarcktype"))
("traffic_calming"␣("traffic_claming"))
("tunnel"␣("tunne"␣"tunnerl"␣"Tunnel"))
("turn:lanes"␣("turn_lanes"␣"turn:lane"␣"turn|lanes"))
("vehicle"␣("vehicles"))
("website"␣("Website"␣"webside"␣"websi"␣"websit"))
("wheelchair"␣("wheelshair"))
("width"␣("widht"␣"widh"))
)