파이썬으로 위키백과 음식이름 파싱하기
Language/Python

파이썬으로 위키백과 음식이름 파싱하기

매우 많은 수의 음식이름

위키에 나와있는 음식이름을 파싱해서 텍스트 파일로 저장하고자 합니다. 이 많은 단어를 수동으로 가져오려면 힘들겠죠. 파이썬을 써줍시다. 

근데 파싱하고보니 북한음식이름이 엄청많이섞여있어서 ;; 별 쓸모는 없었습니다.

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import requests
from bs4 import BeautifulSoup
 
url = 'https://ko.wiktionary.org/w/index.php?title=분류:한국어_음식'
res = requests.get(url)
html = res.text
bs = BeautifulSoup(html,'html.parser')
 
wordlist = bs.find_all('a','external text')
wordlist2 = []
 
for i in wordlist:
    word = i.get_text()
    wordlist2.append(word)
 
 
for i in wordlist2:
    sUrl = 'https://ko.wiktionary.org/w/index.php?title=분류:한국어_음식&from='+i
    res = requests.get(sUrl)
    html = res.text
    bs = BeautifulSoup(html,'html.parser')
    print(i+ " 파싱완료")
    result = bs.find('div',{'id':'mw-pages'}).find('ul')
    result = result.find_all('a')
    
    for j in result:
        word = j.get_text()
        with open('result.txt','a') as f:
            f.write(word+'\n')
            
    print(i+ " 기록완료")
 
 
cs

코드는 이렇게 작성하였구요.

 

스크립트 작동

정상적으로 글자를 받아옵니다. 

파일로도 잘 저장되었습니다.

'Language > Python' 카테고리의 다른 글

Blind SQL injection Python Script  (0) 2019.04.01