Inspiriert von werde ich einen in Python geschriebenen Typen veröffentlichen.
Das Wichtigste beim Zählen ist, die URI als 20 Zeichen zu behandeln. Wenn es sich um eine URI handelt, sollte es einfach sein, sie mit einem regulären Ausdruck abzurufen, aber Twitter, der in letzter Zeit verrückt ist, erkennt sie auch ohne Schema als URI! Schön (weiße Augen)
Dank der harten Arbeit der Leute in Twitter ist es möglich, ohne Schema zu extrahieren.
twitter-text-java/src/com/twitter/Regex.java at master · twitter/twitter-text-java
Was ist es noch?
Ich könnte dies in Python übersetzen, aber Pythons reguläre Ausdrücke sind zu alt, um verschiedene Dinge zu unterstützen.
Ich habe gerade die Stelle zerstört, an der der Fehler aufgetreten ist, und es wurde so.
twikoto3/twikoto3/twittertext/regex.py at master · azyobuzin/twikoto3 Ich mache nur die Teile, die sich auf URI beziehen.
Python ist schlimmer als ich erwartet hatte ...
Sie müssen lediglich die Anzahl der Zeichen normalisieren und zählen. Sie können es zählen, aber das Problem ist, dass Sie nach Codepunkt zählen müssen.
Dies war ein großes Problem, da es von Python 3, hauptsächlich Unicode, nicht unterstützt wurde.
Das habe ich damals getroffen
Es ist gemeinfrei, sodass Sie tun können, was Sie wollen. Für die Arbeit mit Python 3 sind einige Änderungen erforderlich, aber es ist sehr einfach, nach Codepunkten zu zählen.
import codepoint
text = "Yoshinoya" #http://blog.unfindable.net/archives/Ich wollte 2728 machen, starb aber an einem Fehler in Qiita
length = len(codepoint.characters(text))
Sie können jetzt zählen! !!
Klicken Sie hier für den vollständigen Code
twikoto3/twikoto3/twittertext at master · azyobuzin/twikoto3
Recommended Posts