위키에 나와있는 음식이름을 파싱해서 텍스트 파일로 저장하고자 합니다. 이 많은 단어를 수동으로 가져오려면 힘들겠죠. 파이썬을 써줍시다.
근데 파싱하고보니 북한음식이름이 엄청많이섞여있어서 ;; 별 쓸모는 없었습니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
import requests
from bs4 import BeautifulSoup
url = 'https://ko.wiktionary.org/w/index.php?title=분류:한국어_음식'
res = requests.get(url)
html = res.text
bs = BeautifulSoup(html,'html.parser')
wordlist = bs.find_all('a','external text')
wordlist2 = []
for i in wordlist:
word = i.get_text()
wordlist2.append(word)
for i in wordlist2:
sUrl = 'https://ko.wiktionary.org/w/index.php?title=분류:한국어_음식&from='+i
res = requests.get(sUrl)
html = res.text
bs = BeautifulSoup(html,'html.parser')
print(i+ " 파싱완료")
result = bs.find('div',{'id':'mw-pages'}).find('ul')
result = result.find_all('a')
for j in result:
word = j.get_text()
with open('result.txt','a') as f:
f.write(word+'\n')
print(i+ " 기록완료")
|
cs |
코드는 이렇게 작성하였구요.
정상적으로 글자를 받아옵니다.
파일로도 잘 저장되었습니다.
'Language > Python' 카테고리의 다른 글
Blind SQL injection Python Script (0) | 2019.04.01 |
---|