[PYTHON] str (utf-8) oder Unicode ist wichtig

Es scheint, dass der verstümmelte Charakter ein ernstes Missverständnis war und wieder unschuldig war.

Die von renderContents () mit BeautifulSoup erhaltene Zeichenfolge ist str → Wenn Sie es nicht dekodieren, wird der Wert nicht in den Datenspeicher eingegeben

Zeichenfolge = Unicode, der durch Aufnehmen von Attributwerten usw. mit BeautifulSoup erhalten wird → Der Wert wird ohne Unicoding in den Datenspeicher eingetragen

Ist der String str oder Unicode, bis Sie sich daran gewöhnt haben? Wenn Sie während der Organisation nicht programmieren, werden Sie wieder süchtig danach.

Unten als Referenz die Quelle zur Bestätigung.

test.py


# -*- coding: utf-8 -*-
import urllib2
import re
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen("http://www.hkt48.jp/schedule/").read())
aaa=soup.find("h3").renderContents()
#Das ist UTF-8
print aaa+":len="+str(len(aaa))
print type(aaa)
#Ich werde versuchen, mich wieder nass anzuziehen
split=re.split("48 ", aaa)
#Dies ist auch UTF-8
print split[0]+":len="+str(len(split[0]))
print type(split[0])
print split[1]+":len="+str(len(split[1]))
print type(split[1])

#Dies ist Unicode
bbb=soup.find('div',{"class":"categories"}).find("ul",{"class":"cf"}).find("li").find("a")["title"]
print bbb+":len="+str(len(bbb))+"type"
print type(bbb)

/ 【Ausführungsergebnis】 HKT48-Zeitplan: len = 24 type 'str' HKT:len=3 type 'str' Zeitplan: len = 18 type 'str' Geburtstag: len = 3type type 'unicode'

Recommended Posts

str (utf-8) oder Unicode ist wichtig
str und unicode
Was ist Mini Sam oder Mini Max?