본문 바로가기

반응형

Python

(30)
Python 인스타그램 크롤링-크롤링관련 소스(2) 안녕하세요. 인스타그램 크롤링 프로젝트 중 크롤링과 관련된 소스에 대한 설명을 이어서 하겠습니다. 이전 글은 Python 인스타그램 크롤링-크롤링관련 소스(1)이니 참고하시기 바랍니다. URL 검색 키워드 검색 및 사용자 검색에서 얻어은 URL을 이용해서 인스타 그램 URL을 검색하는 것입니다. 아래 그림과 같이 URL을 통해 게시글에 접근하는 기능을 제공합니다. 인스타그램의 url검색은 사용자ID와 동일한 형태의 URL를 붙여서 검색합니다.(사실상 URL은 유일한 Key로 보입니다.) 해시태그 : http://www.inwww.instagram.com/URL def searchInstaUrl(self, strUrl): url = "https://www.instagram.com/{0}".format(st..
Python 인스타그램 크롤링-크롤링관련 소스(1) 안녕하세요. 인스타그램 크롤링 프로젝트 중 크롤링과 관련된 소스에 대한 설명입니다. 전체 구조 중 CraCrawlingInstagramMng.py에 대해 설명하겠습니다. 인스타그램 크롤링 클래스는 크롤링 과정에 필요한 기능을 제공합니다. 이에 필요한 로그인, 검색, 게시글 정보, 이미지 정보, 인스타그램 URL 게시글 정보 수집과 같은 메소드를 구현하였습니다. 전체적인 로직은 하단 이미지와 같습니다. 로그인 로그인은 필수 조건은 아닙니다. 하지만 게시자가 팔로워에게만 공개되는 게시글의 정보를 크롤링하기 위해서는 로그인이 필요합니다. 그리고 웹페이지 로드를 위해 로그인하기 버튼 , 로그인 버튼 클릭 후 3초간의 대기 시간을 가집니다. def LoginInstagram(self, strId, strPassw..
Python 인스타그램 크롤링 프로젝트 구조 안녕하세요. 구현한 인스타그램 크롤링 프로젝트의 구조를 간략하게 설명하려고 합니다. 총 3개의 스텝으로 나누어진 자동화 소스코드이니 참고하시기 바랍니다. 프로젝트 Git 주소 : github.com/kjky12/AnalyFamouHashtag kjky12/AnalyFamouHashtag Contribute to kjky12/AnalyFamouHashtag development by creating an account on GitHub. github.com 프로젝트의 구조는 다음과 같으며 루트 경로에 있는 4개의 소스코드가 메인 소스 코드(ContentKewordFromInstaUrlToDB.py, ContentUsrIdFromInstagUrlToDB.py, InsertKewordInstaUrlDataTo..
Python 크롤링 라이브러리 설명 크롤링시 설치하는 패키지에 대한 간략한 설명만 작성하겠습니다.(워낙 많으 포스팅이 있기때문에 무엇인지만 작성하겠습니다.) BeautifulSoup4 BeautifulSoup은 HTML 코드를 Python으로 사용하기 쉽도록 Parsing을 해주는 역할을 한다. BeautifulSoup의 사용이 편한 이유를 간단하게 표시해보자면 아래와 같다. Temp = soup.select_one('content > div.section') HTML의 div.section 다음에 있는 content 를 찾아서 HTML을 파싱하여 넘겨준다. requests Python에는 requests라는 라이브러리가 있다. 쉽게 생각한다면 HTML정보를 얻어오는 라이브러리이다. (※requests로 데이터를 얻어오고 Beautiful..
Python 인스타그램 크롤링 환경 셋팅 안녕하세요. 파이썬을 이용해 인스타그램에서 이미지, 게시글, 좋아요와 같은 정보를 크롤링하는 자동화 프로그램을 개발했습니다. 개발한 지는 조금 지났지만 이제서야 포스팅을 올리네요. 개발환경은 다음과 같습니다. 언어 : Python 3.7 (64bit) 개발 도구 : Visual Studio 2019 라이브러리 : BeautifulSoup4, requests, lxml, selenium 저는 가상환경, 라이브러리 설치가 편해서 Visual Studio를 사용하여 개발하였습니다. (이제는 개인 적으로 가장 익숙하고 편한 환경을 사용하게 되네요.) Visual studio 파이썬 프로젝트 환경 구축을 해보겠습니다. 현재 구축 할 프로젝트를 위한 가상환경을 생성해줍니다. 가상환경은 추후 기능에 따라 식별할 수 ..
파이썬-엑셀시트 csv파일로 나누기 안녕하세요. 오랜만에 파이썬 포스팅을 가지고 왔습니다! 해당 프로그램은 아래 그림 같이 엑셀 파일의 각각의 시트를 csv파일로 나누어 저장하는 소스코드입니다. 회사 업무 중에 시트로 나뉜 데이터를 csv로 사용하기 위해 만들었습니다. 매우 간략한 코드이기 때문에 주석만 보셔도 충분히 이해 가능할 것 같네요. import xlrd import csv # 해당 경로를 입력해줍니다. strPath = "C:/Temp/" # 엑셀파일명을 입력해줍니다. strPathName = "엑셀파일.xlsx" #엑셀의 열어 workbook을 얻어옵니다. wb = xlrd.open_workbook(strPath + strPathName) #workbook의 전체 시트 목록을 얻어옵니다. lst = wb._sheet_list ..
파이썬 대용량 csv 나누기 안녕하세요 오랜만에 포스팅을 하고보니 새해가 시작됬네요 한살 한살 먹다보니 어느새... 다들 새해에는 좋은일만 있길 기원합니다. 올해는 좀 더 유익한 글을 많이 쓰도록 노력할게요 ㅠㅠ 포스팅을 시작하겠습니다. 업무 중 대용량 csv파일을 나누기위해 만든 소스입니다.(※ csv 파일만 되니 확인 하세요) 간단한 소스인 만큼 간단히 설명하겠습니다. ※ 사용법 ※ 1. python2.7 버전 설치가 필요합니다. 2. ★ 표시된 부분만 변경하면 사용이 가능합니다. 3. 간혹 윈도우 사용자 분이 경로를 복사할 경우 '\' -> '/' 변경 필수 (그냥 될 수 도 있습니다.[xp같은 경우는 안되더군요]) ① : 사용 할 "분류 파일 경로", "분류 파일명", "csv별 라인 개수"를 나타냅니다. ex) nDivCn..
window python console(콘솔) 숨기기 python console(콘솔) 숨기기에 대한 포스팅을 써보려고합니다. 정만 간단더라구요 ※결론 프로그램명.py -> 프로그램명.pyw (확자자명 변경) - XXX.py를 실행하면 UI를 만들어도 위 그림과 같이 프로그램이 실행되는걸 확인 할 수 있습니다. - XXXX.py -> XXXX.pyw 확장자명 변경 - 변경후 XXXX.pyw를 실행 시 콘솔이 실행되지 않습니다.

반응형