2009년 1월 29일 목요일

국립수산과학원 해양환경조사자료 다운로드

getData.csh
오늘날짜를 쓰고 연도 - 1
eNFRDI.txt 에 영문 관측 연안명 입력해 놓은 파일 읽어서(cat) foreach로 돌림
kNFRDI.txt는 head와 tail 이용해서 한줄씩 읽음
단, 두 파일 모두 첫줄은 dummy로 해 놓을것.
첫줄 한글 문자에서 문제가 있음. 이유는 모름.
한글로 된 연안관측명은 kloc.txt에 임시 저장
python 실행

getData.py
오늘날짜에 해당하는 연도 -1. 수과원 데이터는 1년전꺼를 한꺼번에 제공하기 때문.
한글 연안명이 임시로 저장되어 있는 파일을 읽음.
이때 파이썬에서는 한줄에 해당하는 한글을 읽었는데 뒤에 개행문자가 들어감.
이걸 방지하기 위해서
knam = knam.split()[0] 이걸 꼭 쓸것. 영문도 그런지 확인해 볼것.

ClientForm 이용
Form 에 연도 리스트가 있음.
이중에서 제일 마지막꺼 찾아내야함.
item = form.find_control("baseyear").items
nyear = len(item)
lastyear = item[nyear - 1].name
이렇게 하면 lastyear에 현재 제공되는 마지막 연도 정보를 알 수 있음.

그래서 lastyear 와 현재년도 -1 이랑 같으면 작업 진행. 아니면 끝. 왜냐하면 자료가 없으니까.

한글은 꼭 변환을 해야함
knam = unicode(knam, 'utf-8', 'ignore').encode('euc-kr')

BeautifulSoup를 잘 활용해서 원하는 데이터 추출.

댓글 없음:

댓글 쓰기

참고: 블로그의 회원만 댓글을 작성할 수 있습니다.