[PYTHON] 100 Language Processing Knock 2020: Chapitre 3 (expression régulière)

(Attention): L'article actuel est sale avec la priorité donnée à aller de l'avant.

Traitement de la langue version 100 knock 2020 a été publié, donc je vais le résoudre à cette occasion. Notez que le package une fois chargé n'est pas chargé après cela car il s'agit d'une sortie markdown de Jupyter publiée sur GitHub.

Le premier chapitre est ici

Je suis heureux d'avoir pratiqué de manière itérative, tout comme de frapper sur les expressions régulières que je recherchais toujours, afin que l'analyse future puisse être faite en douceur. Je suis en train de le terminer jusqu'à la fin, donc il peut y avoir des erreurs, j'apprécierais que vous le signaliez. Je prévois d'organiser l'apparence de l'article une fois qu'il aura été résolu.

Chapitre 3: Expressions régulières

Il existe un fichier jawiki-country.json.gz qui exporte les articles Wikipédia dans le format suivant.

Il semble que le contenu soit le même qu'en 2015. Le balisage Wiki est résumé ici [https://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8).

20. Lecture des données JSON

Lisez le fichier JSON de l'article Wikipedia et affichez le texte de l'article sur "UK". Dans les problèmes 21-29, exécutez sur le texte de l'article extrait ici.

import json

def return_article(fname, article_title):
    with open(fname, 'rt') as data_file:
        for line in data_file:
            data_json = json.loads(line)
            if data_json['title'] == article_title:
                return data_json['text']

file_path = '../data/jawiki-country.json'
uk_article = return_article(file_path, 'Angleterre')

print(uk_article)
    {{redirect|UK}}
    {{redirect|Royaume-Uni|Pays honorables au printemps et à l'automne|Anglais(Printemps et automne)}}
    {{Otheruses|pays européen|Cuisine locale des préfectures de Nagasaki et Kumamoto|Igirisu}}
    {{Informations de base Pays
    |Nom abrégé=Angleterre
    |Nom du pays japonais=Royaume-Uni de Grande-Bretagne et d'Irlande du Nord

    <<Ce qui suit est omis>>

21. Extraire les lignes contenant les noms des catégories

Extrayez la ligne qui déclare le nom de la catégorie dans l'article.

En regardant le contenu des résultats ci-dessus, les catégories ont été décrites comme suit.

[[Category:Angleterre|*]]
[[Category:Pays membres du Royaume-Uni]]
[[Category:Royaume du Royaume-Uni|*]]
[[Category:Pays membres du G8]]
[[Category:Pays membres de l'Union européenne|Ancien]]
[[Category:Nation marine]]
[[Category:Pays souverain existant]]
[[Category:Pays insulaire]]
[[Category:Une nation / territoire créé en 1801]]

Le format est «[[Catégorie: nom de la catégorie | clé de tri]]». Pour utiliser un caractère spécial sans invoquer sa signification particulière, vous devez utiliser une barre oblique inverse. Je l'ai écrit comme r '^ \ [+ Category \ :. + \] + $' '. En utilisant re.MULTILINE` et findall, vous pouvez rechercher sans tourner la boucle for pour chaque saut de ligne.

import re

def extract_category_row(wiki_text):
    p = re.compile(r'^\[+Category\:.+\]+$', re.MULTILINE)
    return p.findall(wiki_text)

category_rows = extract_category_row(uk_article)
for line in category_rows:
    print(line)
    [[Category:Angleterre|*]]
    [[Category:Pays membres du Royaume-Uni]]
    [[Category:Royaume du Royaume-Uni|*]]
    [[Category:Pays membres du G8]]
    [[Category:Pays membres de l'Union européenne|Ancien]]
    [[Category:Nation marine]]
    [[Category:Pays souverain existant]]
    [[Category:Pays insulaire]]
    [[Category:Une nation / territoire créé en 1801]]

22. Extraction du nom de la catégorie

Extraire les noms des catégories d'articles (par nom, pas ligne par ligne).

Seule la partie entre «()» peut être extraite. Correspondance des caractères de mot Unicode avec «\ w».

def extract_category_name(wiki_text):
    p = re.compile(r'^\[+Category\:(\w+).+$', re.MULTILINE)
    return p.findall(wiki_text)

category_name = extract_category_name(uk_article)
for line in category_name:
    print(line)
Angleterre
Pays membres du Royaume-Uni
Royaume du Royaume-Uni
Pays membres du G8
Pays membres de l'Union européenne
Nation marine
Pays souverain existant
Pays insulaire
Une nation établie en 1801

23. Structure de la section

Afficher le nom de la section et son niveau contenus dans l'article (par exemple, 1 si "== nom de la section ==")

== Histoire == Cela semble être une section.

def extract_section(wiki_text):
    result = {}
    p = re.compile(r'^(={2,})(\w+)\1$', re.MULTILINE)
    section_content =  p.findall(wiki_text)
    for item in section_content:
        result[item[1]] = len(item[0])
    return result

section_dict = extract_section(uk_article)

for k,v in section_dict.items():
    print('niveau:',v, k)
niveau:2 Nom du pays
niveau:2 histoire
niveau:2 Géographie
niveau:3 grandes villes
niveau:3 Climat
niveau:2 politique
niveau:3 yuans

24. Extraction des références de fichiers

Extrayez tous les fichiers multimédias référencés dans l'article.

[[Fichier:Wikipedia-logo-v2-ja.png|thumb|Texte explicatif]]というのがFichierの記載マークアップらしい。

def extract_file(wiki_text):
    p = re.compile(r'\[\[Fichier\:(.+?)\|')
    file_name = p.findall(wiki_text)
    return file_name

file_reference = extract_file(uk_article)
print(file_reference)
    ['Royal Coat of Arms of the United Kingdom.svg', 'Descriptio Prime Tabulae Europae.jpg', "Lenepveu, Jeanne d'Arc au siège d'Orléans.jpg ", 'London.bankofengland.arp.jpg', 'Battle of Waterloo 1815.PNG', 'Uk topo en.jpg', 'BenNevis2005.jpg', 'Population density UK 2011 census.png', '2019 Greenwich Peninsula & Canary Wharf.jpg', 'Birmingham Skyline from Edgbaston Cricket Ground crop.jpg', 'Leeds CBD at night.jpg', 'Glasgow and the Clyde from the air (geograph 4665720).jpg', 'Palace of Westminster, London - Feb 2007.jpg', 'Scotland Parliament Holyrood.jpg', 'Donald Trump and Theresa May (33998675310) (cropped).jpg', 'Soldiers Trooping the Colour, 16th June 2007.jpg', 'City of London skyline from London City Hall - Oct 2008.jpg', 'Oil platform in the North SeaPros.jpg', 'Eurostar at St Pancras Jan 2008.jpg', 'Heathrow Terminal 5C Iwelumo-1.jpg', 'Airbus A380-841 G-XLEB British Airways (10424102995).jpg', 'UKpop.svg', 'Anglospeak.svg', "Royal Aberdeen Children's Hospital.jpg ", 'CHANDOS3.jpg', 'The Fabs.JPG', 'Wembley Stadium, illuminated.jpg']

25. Extraction de modèles

Extraire les noms de champs et les valeurs du modèle "informations de base" inclus dans l'article et les stocker sous forme d'objet dictionnaire.

Les informations de base sont les suivantes.

{{Informations de base Pays
|Nom abrégé=Angleterre
|Nom du pays japonais=Royaume-Uni de Grande-Bretagne et d'Irlande du Nord
|Nom officiel du pays= {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>Nom officiel du pays autre que l'anglais:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}([[Gaélique écossais]])
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}([[Pays de Galles]])
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}([[irlandais]])
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}([[Cornouailles]])
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}([[Écossais]])
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}(Ulster écossais)</ref>
|Image du drapeau= Flag of the United Kingdom.svg
|Image de l'emblème national= [[Fichier:Royal Coat of Arms of the United Kingdom.svg|85px|Emblème national britannique]]

<<Omission>>

}}

Un système d'assertion anticipée a été utilisé pour rechercher en s'appuyant sur «|» (cité de document python).

(?=...) Si ... correspond à ce qui suit, il correspondra, mais il ne consommera aucune chaîne. C'est ce qu'on appelle une affirmation d'anticipation. Par exemple, Isaac (? = Asimov) ne correspondra que si «Isaac» est suivi de «Asimov».

À ce sujet, j'ai fait référence à Traitement du langage amateur. C'est ennuyeux parce que c'est exactement la même chose, donc je l'ai écrit sans extraire la partie {{information de base *}}. Cependant, comme le nombre d'étudiants appliqués dans d'autres exemples est faible, je pense qu'il vaut mieux les extraire correctement avant de le faire. Plus précisément, lors de l'extraction directe, seule la partie | style = * était un obstacle, je l'ai donc extraite en la supprimant.

def extract_basic_info(wiki_text):
    result = {}
    p = re.compile(r'^\|(?!style)(\w+?)\s*\=\s*(.+?)(?:(?=\n\|))', re.MULTILINE)
    basics = p.findall(wiki_text)
    for item in basics:
        result[item[0]] = item[1]
    return result

basic_info = extract_basic_info(uk_article)
print(json.dumps(basic_info, sort_keys=True, indent=4, ensure_ascii=False))
    {
        "Valeur du PIB": "2316,2 milliards<ref name=\"imf-statistics-gdp\" />",
        "Valeur du PIB RFG": "2433,7 milliards<ref name=\"imf-statistics-gdp\" />",
        "Source de valeur du PIB": "1547,8 milliards<ref name=\"imf-statistics-gdp\">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>",
        "Année statistique du PIB": "2012",
        "Statistiques du PIB Année MER": "2012",
        "Statistiques du PIB année yuan": "2012",
        "Classement du PIB": "6",

        <<Omission>>

    }

26. Suppression du balisage en surbrillance

Lorsque vous traitez> 25, supprimez le balisage d'accentuation MediaWiki (tout accent faible, accentuation et accentuation forte) de la valeur du modèle et convertissez-le en texte (Référence: [Markup Quick Reference](http: // ja. wikipedia.org/wiki/Help:% E6% 97% A9% E8% A6% 8B% E8% A1% A8))

Un balisage d'accentuation est un endroit entouré de deux ou plus ', comme' emphase ''. Comme c'est au moment du traitement, nous avons défini une nouvelle fonction qui effectue un traitement en double.

def extract_basic_removed_reinforce(wiki_text):
    result = {}
    ps = re.compile(r'\'{2,}') #Pièce ajoutée
    p = re.compile(r'^\|(?!style)(\w+?)\s*\=\s*(.+?)(?:(?=\n\|))', re.MULTILINE)
    removed_text = ps.sub('', wiki_text) #Pièce ajoutée
    basics = p.findall(removed_text)
    for item in basics:
        result[item[0]] = item[1]
    return result

basic_info = extract_basic_removed_reinforce(uk_article)
print(json.dumps(basic_info, sort_keys=True, indent=4, ensure_ascii=False))
    {
        "Valeur du PIB": "2316,2 milliards<ref name=\"imf-statistics-gdp\" />",
        "Valeur du PIB RFG": "2433,7 milliards<ref name=\"imf-statistics-gdp\" />",
        "Source de valeur du PIB": "1547,8 milliards<ref name=\"imf-statistics-gdp\">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>",
        "Année statistique du PIB": "2012",
        "Statistiques du PIB Année MER": "2012",
        "Statistiques du PIB année yuan": "2012",
        "Classement du PIB": "6",
        "Classement du PIB MER": "6",
        "ccTLD": "[[.uk]] / [[.gb]]<ref>L'utilisation est.Un nombre extrêmement faible par rapport au Royaume-Uni.</ref>",
        "Valeur de la population": "66 435 600<ref>{{Cite web|url=https://www.ons.gov.uk/peoplepopulationandcommunity/populationandmigration/populationestimates|title=Population estimates - Office for National Statistics|accessdate=2019-06-26|date=2019-06-26}}</ref>",
        "Taille de la population": "1 E7",
        "Valeur de densité de population": "271",
        "Année du recensement": "2018",
        "Classement de la population": "22",
        "Noms d'autres anciens dirigeants 1": "[[:en:Norman Fowler, Baron Fowler|Norman Fowler]]",
        "Noms d'autres anciens dirigeants 2": "{{Lien temporaire|Feuille de Lindsay|en|Lindsay Hoyle}}",
        "Noms d'autres anciens dirigeants 3": "[[:en:Brenda Hale, Baroness Hale of Richmond|Brenda Hale]]",
        "Autre ancien titre de la tête 1": "[[Maison aristocratique(Angleterre)|Président de la maison aristocratique]]",
        "Autre ancien titre de la tête 2": "[[Maison du peuple commun(Angleterre)|Président de la Maison du Commonwealth]]",
        "Autre ancien titre de la tête 3": "[[Cour suprême du Royaume-Uni|Secrétaire de la Cour suprême]]",
        "Image de position": "United Kingdom (+overseas territories) in the World (+Antarctica claims).svg",
        "Prénom": "[[Elizabeth II]]",
        "Ancien titre de la tête": "[[Prince britannique|Reine]]",
        "Terminologie officielle": "[[Anglais]]",
        "Image du drapeau": "Flag of the United Kingdom.svg",
        "Hymne national": "[[Sa Majesté la Reine|{{lang|en|God Save the Queen}}]]{{en icon}}<br />Dieu, protège la reine<br />{{center|[[Fichier:United States Navy Band - God Save the Queen.ogg]]}}",
        "Lien de l'emblème national": "([[Emblème national britannique|emblème national]])",
        "Image de l'emblème national": "[[Fichier:Royal Coat of Arms of the United Kingdom.svg|85px|Emblème national britannique]]",
        "Numéro de téléphone international": "44",
        "Image de la carte": "Europe-UK.svg",
        "Heure d'été": "+1",
        "Forme fondatrice": "Fondation du pays",
        "Nom du pays japonais": "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord",
        "Fuseau horaire": "±0",
        "Ville la plus grande": "Londres",
        "Slogan": "{{lang|fr|[[Dieu et mon droit]]}}<br />([[français]]:[[Dieu et mon droit|Dieu et mes droits]])",
        "Rapport de surface d'eau": "1.3%",
        "Nom abrégé": "Angleterre",
        "Date de création 1": "927/843",
        "Date d'établissement 2": "1707{{0}}Peut{{0}}Un jour",
        "Date d'établissement 3": "1801{{0}}janvier{{0}}Un jour",
        "Date de création 4": "1927{{0}}12 avril",
        "Forme établie 1": "[[Royaume d'Angleterre]]/[[Royaume d'Ecosse]]<br />(Les deux pays[[Droit commun(1707)|1707合同法]]Jusqu'à ce que)",
        "Forme établie 2": "[[Royaume de Grande-Bretagne]]Établi<br />(1707 Loi commune)",
        "Forme établie 3": "[[Royaume-Uni de Grande-Bretagne et d'Irlande]]Établi<br />([[Droit commun(1800)|1800合同法]])",
        "Forme établie 4": "Changement du nom de pays actuel "Grande-Bretagne et Royaume-Uni d'Irlande du Nord"",
        "devise": "[[Étang Sterling|Livre britannique]](£)",
        "Code de devise": "GBP",
        "Valeur de la zone": "244,820",
        "Taille de la zone": "1 E11",
        "Classement de la zone": "76",
        "Nom du premier ministre": "[[Boris Johnson]]",
        "Titre de premier ministre": "[[Premier ministre britannique|premier ministre]]",
        "Capitale": "[[Londres]](Enréalité)"
    }


### 27.Suppression des liens internes

>En plus des 26 processus, supprimez le balisage de lien interne MediaWiki de la valeur du modèle et convertissez-le en texte.

Le lien est

[[Le titre de l'article]]
[[Le titre de l'article|Caractère d'affichage]]
[[Le titre de l'article#Nom de la section|Caractère d'affichage]]


Il existe trois types. Les autres balises wiki susceptibles d'être impliquées dans le traitement incluent les catégories, les spécifications de fichier et les éléments de redirection. Je n'ai pas trouvé de redirection dans l'article, je vais donc simplement envisager de supprimer la catégorie et les spécifications du fichier.
Jusque-là, tout se fait avec une fonction, mais je pense que chacune doit être définie comme une autre fonction, comme la lecture de l'aide de base.

[[Category:Aidez-moi|Hiyo Hayami]]
[[Fichier:Wikipedia-logo-v2-ja.png|thumb|Texte explicatif]]
#REDIRECT [[Le titre de l'article]]
#REDIRECT [[Le titre de l'article#Nom de la section]]

?!: Positif si non applicable ?:: Spécifiez où ne pas capturer

#Fonction de suppression de lien
def remove_links(text):
    p = re.compile(r'\[\[(?!Category\:Fichier)(?:[^|]*?\|)?([^|]*?)\]\]')
    return p.sub(r'\1', text)

def extract_basic_not_link_reinforce(wiki_text):
    result = {}
    ps = re.compile(r'\'{2,}') 
    p = re.compile(r'^\|(?!style)(\w+?)\s*\=\s*(.+?)(?:(?=\n\|))', re.MULTILINE) 
    removed_text = remove_links(ps.sub('', wiki_text)) #Pièce modifiée
    basics = p.findall(removed_text)
    for item in basics:
        result[item[0]] = item[1]
    return result

basic_info = extract_basic_not_link_reinforce(uk_article)
print(json.dumps(basic_info, sort_keys=True, indent=4, ensure_ascii=False))

```json
    {
 "Valeur du PIB": "2,3162 milliards <ref name = \" imf-statistics-gdp \ "/>",
 "PIB valeur MER": "2,4337 billions <ref name = \" imf-statistics-gdp \ "/>",
 "Source de la valeur du PIB": "1,5478 billion <ref name = \" imf-statistics-gdp \ "> [http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/ weorept.aspx? pr.x = 70 & pr.y = 13 & sy = 2010 & ey = 2012 & scsm = 1 & ssd = 1 & sort = country & ds =. & br = 1 & c = 112 & s = NGDP% 2CNGDPD% 2CPPPGDP% 2CPPPPC & grp = 0 & a = FMI> Données et statistiques> Perspectives de l'économie mondiale Bases de données> Par pays> Royaume-Uni] </ ref> ",
 "Année des statistiques du PIB": "2012",
 "Année des statistiques du PIB RFG": "2012",
 "Année des statistiques du PIB en yuan": "2012",
 "Classement PIB": "6",
 "Classement PIB MER": "6",
 "ccTLD": ".uk / .gb <ref> L'utilisation est très largement inférieure à .uk. </ Ref>",
         "Valeur de la population": "66 435 600<ref>{{Cite web|url=https://www.ons.gov.uk/peoplepopulationandcommunity/populationandmigration/populationestimates|title=Population estimates - Office for National Statistics|accessdate=2019-06-26|date=2019-06-26}}</ref>",
 "Taille de la population": "1 E7",
 "Valeur de la densité de population": "271",
 «Année du recensement»: «2018»,
 "Classement de la population": "22",
 "Autres anciens dirigeants 1": "Norman Fowler",
         "Noms d'autres anciens dirigeants 2": "{{Lien temporaire|Feuille de Lindsay|en|Lindsay Hoyle}}",
 "Autres anciens dirigeants 3": "Brenda Hale",
 "Autre ancien titre de chef 1": "Président de la Maison aristocratique",
 "Autre ancien titre de chef 2": "Président de la Chambre populaire commune"
    }

28.Suppression du balisage MediaWiki

En plus des 27 processus, supprimez autant que possible le balisage MediaWiki des valeurs de modèle et formatez les informations de base sur le pays.

Définissons-le à nouveau à partir de l'extraction des informations de base. Le site Web et le centre de citation n'ont pas encore été récupérés et doivent être corrigés. Je reviendrai quand j'arriverai au chapitre 10.

# Extraction d'informations de base
def extract_basic(text):
     p = re.compile(r'^\|(?!style)(\w+?)\s*\=\s*(.+?)(?:(?=\n\|))', re.MULTILINE)
    basics = p.findall(text)
    return basics

# Fonction de suppression
def remove_emphasis(text):
    p = re.compile(r'\'{2,}')
    return p.sub(r'', text)
def remove_links(text):
     p = re.compile(r'\[\[(?:[^|]*?\|)*?([^|]*?)\]\]')
    return p.sub(r'\1', text)
def remove_tags(text):
    p = re.compile(r'<[^>]*?>')
    return p.sub(r'', text)
def remove_lang(text):
     p = re.compile(r'\{\{lang(?:[^|]*?\|)*?([^|]*?)\}\}')
    return p.sub(r'\1', text)
def remove_ex_link(text):
    p = re.compile(r'\[http:\/\/(?:[^\s]*?)\s([^]]*?)\]')
    return p.sub(r'\1', text)


def main():
    basic_dict = {}
    basic_list = extract_basic(uk_article)
    for target in basic_list:
        explanation = remove_emphasis(target[1])
        explanation = remove_links(explanation)
        explanation = remove_tags(explanation)
        explanation = remove_lang(explanation)
        explanation = remove_ex_link(explanation)
        basic_dict[target[0]] = explanation
    print(json.dumps(basic_dict, sort_keys=True, indent=4, ensure_ascii=False))
        
if __name__ == '__main__':
    main()
    {
 "Valeur du PIB": "2,3162 billions",
 "PIB valeur du PIB": "2,4337 billions",
 "Source du PIB": "1,5478 billion et statistiques> Bases de données sur les Perspectives de l'économie mondiale> Par pays> Royaume-Uni",
 "Année des statistiques du PIB": "2012",
 "Année des statistiques du PIB RFG": "2012",
 "Année des statistiques du PIB en yuan": "2012",
 "Classement PIB": "6",
 "Classement PIB MER": "6",
 << Omis ci-dessous >>
    }

29.Obtenez l'URL de l'image du drapeau

Utilisez le contenu du modèle pour obtenir l'URL de l'image du drapeau. (Allusion: MediaWiki APIdeimageinfoPourconvertirlaréférencedefichierenURL)

À 28 ans"Image du drapeau": "Flag of the United Kingdom.svg"A été obtenu.

import requests

def extract_basic_dict(article):
    basic_dict = {}
    basic_list = extract_basic(article)
    for target in basic_list:
        explanation = remove_emphasis(target[1])
        explanation = remove_links(explanation)
        explanation = remove_tags(explanation)
        explanation = remove_lang(explanation)
        explanation = remove_ex_link(explanation)
        basic_dict[target[0]] = explanation
    return basic_dict

basic_dict = extract_basic_dict(uk_article)
 fname_flag = basic_dict ['image du drapeau']

def obtain_url(basic_dict, title):
    fname_flag = basic_dict[title].replace(' ', '_')
    url = 'https://en.wikipedia.org/w/api.php?' \
        + 'action=query' \
        + '&titles=File:' + fname_flag \
        + '&prop=imageinfo' \
        + '&iiprop=url' \
        + '&format=json'
    data = requests.get(url)
    return re.search(r'"url":"(.+?)"', data.text).group(1)


def main():
    basic_dict = extract_basic_dict(uk_article)
 query_url = get_url (basic_dict, "drapeau image")
    print(query_url)
    
if __name__ == '__main__':
    main()
    https://upload.wikimedia.org/wikipedia/en/a/ae/Flag_of_the_United_Kingdom.svg

Recommended Posts

100 Language Processing Knock 2020: Chapitre 3 (expression régulière)
100 coups de traitement du langage ~ Chapitre 1
100 traitements linguistiques frappent 03 ~ 05
100 coups de traitement linguistique (2020): 40
100 coups de traitement linguistique (2020): 32
100 coups de traitement linguistique (2020): 47
100 traitements du langage naturel frappent le chapitre 4 Commentaire
100 traitements du langage naturel frappent Chapitre 3 Expressions régulières (première moitié)
[Traitement du langage 100 coups 2020] Chapitre 6: Machine learning
100 coups de traitement linguistique (2020): 22
100 coups de traitement linguistique (2020): 26
100 coups de traitement linguistique (2020): 34
100 coups de traitement du langage 2020: Chapitre 4 (analyse morphologique)
[Traitement du langage 100 coups 2020] Chapitre 5: Analyse des dépendances
100 coups de traitement linguistique (2020): 42
100 coups de traitement linguistique (2020): 29
100 coups de traitement linguistique (2020): 49
Le traitement de 100 langues frappe 06 ~ 09
100 coups de traitement linguistique (2020): 43
100 coups de traitement linguistique (2020): 24
[Traitement du langage 100 coups 2020] Chapitre 1: Mouvement préparatoire
100 coups de traitement linguistique (2020): 45
100 coups de traitement linguistique (2020): 10-19
[Traitement du langage 100 coups 2020] Chapitre 7: Vecteur Word
100 coups de traitement linguistique (2020): 30
100 coups de traitement linguistique (2020): 00-09
100 coups de traitement linguistique (2020): 31
[Traitement du langage 100 coups 2020] Chapitre 8: Réseau neuronal
100 coups de traitement linguistique (2020): 48
[Traitement du langage 100 coups 2020] Chapitre 2: Commandes UNIX
100 coups de traitement linguistique (2020): 44
100 coups de traitement linguistique (2020): 41
100 coups de traitement linguistique (2020): 37
[Traitement du langage 100 coups 2020] Chapitre 9: RNN, CNN
100 coups de traitement linguistique (2020): 25
100 coups de traitement linguistique (2020): 23
100 coups de traitement linguistique (2020): 33
100 coups de traitement linguistique (2020): 20
100 coups de traitement linguistique (2020): 27
100 Language Processing Knock 2020 Chapitre 3: Expressions régulières
[Traitement du langage 100 coups 2020] Chapitre 4: Analyse morphologique
100 coups de traitement linguistique (2020): 46
100 coups de traitement linguistique (2020): 21
100 coups de traitement linguistique (2020): 36
Traitement du langage 100 coups Chapitre 4: Analyse morphologique 31. Verbes
100 coups de traitement du langage amateur: 41
100 coups de traitement du langage amateur: 56
100 coups de traitement du langage amateur: 24
100 coups de traitement du langage amateur: 50
100 coups de traitement du langage amateur: 59
100 coups de traitement du langage amateur: 70
100 coups de traitement du langage amateur: 62
100 Language Processing Knock 2020 Chapitre 1
100 coups de traitement du langage amateur: 92
100 coups de langue amateur: 06
100 coups de traitement du langage amateur: 81
100 coups de traitement du langage amateur: 46
100 coups de traitement du langage amateur: 88
100 coups de traitement du langage amateur: 89
100 coups de traitement du langage amateur: 43
100 coups de traitement du langage amateur: 55