본문 바로가기

반응형

Python/Crawling

(6)
[Python-Crawling]네이버 밴드 -데이터 키워드 분석 안녕하세요. 네이버 밴드에서 추출한 데이터를 통해 키워드 분석을 수행해봤습니다. 저도 여러 블로그들을 참조하면서 개발을 수행했습니다. 설명이라기보다 참고하시면 좋을 것 같습니다. 키워드 분석은 아래와 같은 순서로 로직을 처리했습니다. 0. 환경 구축키워드 분석 라이브러리는 Konlpy, nltk를 사용했고 추가적인 시각화를 위해 wordcloud 라이브러리를 사용했습니다. 개발환경 구축은 아래 블로그를 참조하시면 좋을 것 같습니다. https://wonhwa.tistory.com/23 [python] 자연어처리(NLP)-텍스트 빈도 분석안녕하세요! 오늘은 konlpy(한국어 형태소 분석기)와 nltk(영어 분석기)를 이용하여 텍스트에 어떤 단어가 많이 나왔는지 알아보도록 하겠습니다. 1. 설치 빈도 분..
[Python-Crawling]Python 인스타그램 크롤링-크롤링관련 소스(2) 안녕하세요. 인스타그램 크롤링 프로젝트 중 크롤링과 관련된 소스에 대한 설명을 이어서 하겠습니다. 이전 글은 Python 인스타그램 크롤링-크롤링관련 소스(1)이니 참고하시기 바랍니다. URL 검색키워드 검색 및 사용자 검색에서 얻어은 URL을 이용해서 인스타 그램 URL을 검색하는 것입니다. 아래 그림과 같이 URL을 통해 게시글에 접근하는 기능을 제공합니다. 인스타그램의 url검색은 사용자ID와 동일한 형태의 URL를 붙여서 검색합니다.(사실상 URL은 유일한 Key로 보입니다.)해시태그 : http://www.inwww.instagram.com/URL def searchInstaUrl(self, strUrl): url = "https://www.instagram.com/{0}"..
[Python-Crawling]Python 인스타그램 크롤링-크롤링관련 소스(1) 안녕하세요. 인스타그램 크롤링 프로젝트 중 크롤링과 관련된 소스에 대한 설명입니다. 전체 구조 중 CraCrawlingInstagramMng.py에 대해 설명하겠습니다. 인스타그램 크롤링 클래스는 크롤링 과정에 필요한 기능을 제공합니다. 이에 필요한 로그인, 검색, 게시글 정보, 이미지 정보, 인스타그램 URL 게시글 정보 수집과 같은 메소드를 구현하였습니다. 전체적인 로직은 하단 이미지와 같습니다. 로그인로그인은 필수 조건은 아닙니다. 하지만 게시자가 팔로워에게만 공개되는 게시글의 정보를 크롤링하기 위해서는 로그인이 필요합니다. 그리고 웹페이지 로드를 위해 로그인하기 버튼 , 로그인 버튼 클릭 후 3초간의 대기 시간을 가집니다. def LoginInstagram(self, strId, strPa..
[Python-Crawling]Python 인스타그램 크롤링 프로젝트 구조 안녕하세요. 구현한 인스타그램 크롤링 프로젝트의 구조를 간략하게 설명하려고 합니다. 총 3개의 스텝으로 나누어진 자동화 소스코드이니 참고하시기 바랍니다. 프로젝트 Git 주소 : github.com/kjky12/AnalyFamouHashtag kjky12/AnalyFamouHashtagContribute to kjky12/AnalyFamouHashtag development by creating an account on GitHub.github.com 프로젝트의 구조는 다음과 같으며 루트 경로에 있는 4개의 소스코드가 메인 소스 코드(ContentKewordFromInstaUrlToDB.py, ContentUsrIdFromInstagUrlToDB.py, InsertKewordInstaUrlData..
[Python-Crawling]Python 크롤링 라이브러리 설명 크롤링시 설치하는 패키지에 대한 간략한 설명만 작성하겠습니다.(워낙 많으 포스팅이 있기때문에 무엇인지만 작성하겠습니다.) BeautifulSoup4BeautifulSoup은 HTML 코드를 Python으로 사용하기 쉽도록 Parsing을 해주는 역할을 한다. BeautifulSoup의 사용이 편한 이유를 간단하게 표시해보자면 아래와 같다.Temp = soup.select_one('content > div.section')HTML의 div.section 다음에 있는 content 를 찾아서 HTML을 파싱하여 넘겨준다. requestsPython에는 requests라는 라이브러리가 있다. 쉽게 생각한다면 HTML정보를 얻어오는 라이브러리이다.(※requests로 데이터를 얻어오고 Beautifulsoup..
[Python-Crawling]Python 인스타그램 크롤링 환경 셋팅 안녕하세요. 파이썬을 이용해 인스타그램에서 이미지, 게시글, 좋아요와 같은 정보를 크롤링하는 자동화 프로그램을 개발했습니다. 개발한 지는 조금 지났지만 이제서야 포스팅을 올리네요. 개발환경은 다음과 같습니다.언어 : Python 3.7 (64bit)개발 도구 : Visual Studio 2019라이브러리 : BeautifulSoup4, requests, lxml, selenium저는 가상환경, 라이브러리 설치가 편해서 Visual Studio를 사용하여 개발하였습니다. (이제는 개인 적으로 가장 익숙하고 편한 환경을 사용하게 되네요.) Visual studio 파이썬 프로젝트 환경 구축을 해보겠습니다. 현재 구축 할 프로젝트를 위한 가상환경을 생성해줍니다. 가상환경은 추후 기능에 따라 식별할 수 있도록..

반응형