Wenn Sie maschinelles Lernen usw. durchführen, müssen Sie Trainingsdaten vorbereiten. Es wäre schön, wenn wir die tatsächlichen Daten aufbereiten könnten, aber es gibt viele Fälle, in denen es schwierig ist, Daten zu erhalten, oder wenn die Datenmenge nicht ausreicht. In einem solchen Fall denke ich, dass der Fluss darin besteht, Dummy-Daten zu erstellen und die Datenmenge zu erhöhen.
Dieses Mal werde ich versuchen, verschiedene Dummy-Daten mit Pythons ** faker ** -Bibliothek zu erstellen.
Die Umgebung verwendet Google Colaboratory. Die Python-Version ist unten.
import platform
print("python " + platform.python_version())
# python 3.6.9
Darüber hinaus muss der Bibliotheksfälscher installiert werden, der im Voraus Dummy-Daten erstellt.
pip install faker
Jetzt schreiben wir den Code.
Importieren Sie zunächst den Bibliotheksfälscher, der Dummy-Daten erstellt. Stellen Sie außerdem sicher, dass Sie auf japanische Daten abzielen.
from faker import Faker
fake = Faker('ja_JP')
Lassen Sie uns zunächst Dummy-Daten für die Adresse erstellen. Ich habe versucht, 5 Daten anzuzeigen.
[fake.address() for _ in range(5)]
# ['36-21-10 Koiri, Takatsu-ku, Kawasaki-shi, Miyagi-Palast Shiba Daimon 824',
# '17-11-18 Nishikanda, Nakano-ku, Präfektur Kagawa Otagaya Crest 528',
# '6-10-4 Tono, Katsushika-ku, Hiroshima',
# '24-17-14 Teoka, Ko-ku, Kawasaki-shi, Kumamoto Heights Yumiya 667',
# '34-12-7 Kuramae, Inba-mura, Inba-gun, Oak Prefecture Corp. Hyakumura 228']
Sie können Adressdaten mit fake.address () erstellen.
Sie können auch Daten für andere Adressen erstellen.
#Präfekturen
[fake.prefecture() for _ in range(5)]
# ['Präfektur Okinawa', 'Kyoto', 'Präfektur Tochigi', 'Präfektur Saga', 'Präfektur Hiroshima']
#Gemeinde
[fake.city() for _ in range(5)]
# ['Naka-ku, Yokohama', 'Hamura City', 'Toshishima Village', 'Mitaka City', 'Miyakejima Miyakemura']
#Bereichsname
[fake.town() for _ in range(5)]
# ['Glücklich', 'Tsurugaoka', 'Nishikawa', 'Iriya', 'Haori Stadt']
#Gebäudename
[fake.building_name() for _ in range(5)]
# ['Sharm', 'Mantel', 'Sharm', 'Park', 'Städtisch']
Als nächstes erstellen wir Dummy-Daten für den Namen. Namensdaten können in Kanji, Katakana und Romaji erstellt werden.
Zuerst erstellen wir Namensdaten für Kanji.
#Name (Kanji)
[fake.name() for _ in range(5)]
# ['Chiyo Nakatsugawa', 'Yuta Wakamatsu', 'Kaori Kudo', 'Kana Uno', 'Yoko Hirokawa']
#Name (Kanji, männlich)
[fake.name_male() for _ in range(5)]
# ['Ryohei Sasaki', 'Atsushi Sato', 'Shota Sasaki', 'Kenichi Kato', 'Ryohei Aoyama']
#Name (Kanji, weiblich)
[fake.name_female() for _ in range(5)]
# ['Akemi Inoue', 'Kaori Matsumoto', 'Tomomi Wakamatsu', 'Haruka Takahashi', 'Hanako Sugiyama']
#Nachname (Kanji)
[fake.last_name() for _ in range(5)]
# ['Matsumoto', 'Kondo', 'Fujimoto', 'Murayama', 'Kato']
#Vorname (Kanji)
[fake.first_name() for _ in range(5)]
# ['Minoru', 'Null', 'Hanako', 'Ryosuke', 'Kaori']
#Vorname (Kanji, männlich)
[fake.first_name_male() for _ in range(5)]
# ['Hiroki', 'Naoto', 'Atsushi', 'Naoki', 'Akira']
#Vorname (Kanji, weiblich)
[fake.first_name_female() for _ in range(5)]
# ['tanzen', 'Mikako', 'Tomomi', 'Akemi', 'Akemi']
Als nächstes erstellen wir Katakana-Namensdaten.
#Name (Katakana)
[fake.kana_name() for _ in range(5)]
# ['Yui Ogaki', 'Harada Takuma', 'Nakamura Tsubasa', 'Sayuri Yamada', 'Tsuchiya Soutaro']
#Nachname (Katakana)
[fake.last_kana_name() for _ in range(5)]
# ['Miyake', 'Kanou', 'Kudo', 'Harada', 'Aota']
#Vorname (Katakana)
[fake.first_kana_name() for _ in range(5)]
# ['Maaya', 'Naoko', 'Miki', 'Kenichi', 'Yasuhiro']
#Vorname (Katakana, männlich)
[fake.first_kana_name_male() for _ in range(5)]
# ['Manab', 'Manab', 'Yasuhiro', 'Kenichi', 'Atsushi']
#Vorname (Katakana, weiblich)
[fake.first_kana_name_female() for _ in range(5)]
# ['Tomomi', 'Sayuri', 'Asuka', 'Tsubasa', 'Yui']
Als Ende der Namensdaten erstellen wir eine in römischen Zeichen.
#Name (Romaji)
[fake.romanized_name() for _ in range(5)]
# ['Akira Nakamura','Ryosuke Yamada','Yui Takahashi','Maaya Ogaki','Mituru Fujimoto']
#Nachname (Romaji)
[fake.last_romanized_name() for _ in range(5)]
# ['Tsuda', 'Tsuchiya', 'Yamada', 'Nakatsugawa', 'Nakamura']
#Vorname (Romaji)
[fake.first_romanized_name() for _ in range(5)]
# ['Mai', 'Manabu', 'Nanaka', 'Kenichi', 'Taro']
#Vorname (Romaji, männlich)
[fake.first_romanized_name_male() for _ in range(5)]
# ['Tomoya', 'Hiroshi', 'Taichi', 'Mituru', 'Manabu']
#Vorname (Romaji, weiblich)
[fake.first_romanized_name_female() for _ in range(5)]
# ['Haruka', 'Maaya', 'Kaori', 'Kumiko', 'Yoko']
Wir haben Adress- und Namensdaten erstellt, Sie können jedoch auch andere Daten erstellen. Hier sind einige davon.
#Name der Firma
[fake.company() for _ in range(5)]
# ['Harada Gas Co., Ltd.', 'Sasada Mining Co., Ltd.', 'Miyake Gas Co., Ltd.', 'Kudo Construction Co., Ltd.', 'Kobayashi Fisheries Co., Ltd.']
#Industrie
[fake.company_category() for _ in range(5)]
# ['Gas', 'Drucken', 'Bank', 'Essen', 'Versicherung']
#Beruf
[fake.job() for _ in range(5)]
# ['Busführer', 'Kosmetikerin', 'Hochzeitsplaner', 'Wahrsager', 'Apotheker']
#Wort
[fake.word() for _ in range(5)]
# ['weben', 'Hochschule', 'Künstler', 'heute', 'Modernisieren']
Dieses Mal habe ich Python faker verwendet, um verschiedene Dummy-Daten zu erstellen.
Bei der Vorbereitung von Daten für maschinelles Lernen usw. denke ich, dass es häufig der Fall ist, dass tatsächliche Daten allein nicht ausreichen. In einem solchen Fall denke ich, dass Dummy-Daten nützlich sein werden.
Zusätzlich zu den hier vorgestellten können Sie mit faker verschiedene Dummy-Daten erstellen. Einzelheiten finden Sie auf der folgenden Seite. https://faker.readthedocs.io/en/master/locales/ja_JP.html