일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- bastion host
- CISCO
- 온프레미스
- 크롤러
- 암호학
- docker
- 자바
- cmd
- Firewall
- abex'crackme
- Reversing
- 머신러닝
- 머신러닝 프로세스
- STP
- Screening Router
- AWS
- 네트워크
- Mac
- vlan
- Java
- dreamhack
- Repository
- 라우터
- vector
- 인공지능
- 스위치
- Python
- RIP
- 리버싱
- AI
- Today
- Total
목록언어/Python (4)
Haekt‘s log

*참고 https://haekt-log.tistory.com/78 [Python3] 간단한 웹 크롤러 만들기 웹사이트의 html 및 js 코드를 크롤링 해보자. - 필요한 사전 지식 크롤링 : WWW 를 탐색해 나가는 행위를 말한다. 파싱 : 자연어, 컴퓨터 언어 등의 문자열을 분석하는 프로세스를 말한다. 파서 : 파 haekt-log.tistory.com - 라이브러리 설명 re : 정규표현을 처리할 수 있게 하는 Python 라이브러리. - 정규표현식 (? ./files.php?file=86927f...0675 # down_link는 리스트이므로, 문자값으로 바꿔서 초기화 down_link = down_link[0] # 문자열로 바뀐 값을 =를 기준으로 나누어 저장. # ['./files.php?fi..

웹사이트의 html 및 js 코드를 크롤링 해보자. - 필요한 사전 지식 크롤링 : WWW 를 탐색해 나가는 행위를 말한다. 파싱 : 자연어, 컴퓨터 언어 등의 문자열을 분석하는 프로세스를 말한다. 파서 : 파싱을 하는 프로그램을 말한다. - 사용한 라이브러리 urllib : http 관련 요청을 수행할 수 있게 도와주는 python 라이브러리 requests : http 관련 요청을 수행할 수 있게 도와주는 python 라이브러리 ( 쉽고, 안정적이어서 urllib 보다 더 잘 사용된다고 함.) BeautifulSoup(BS) : html 구조 해석을 도와주는 python 라이브러리 - BS 라이브러리 BS 는 사용자가 선택한 파서를 이용해 html 과 xml 코드를 파싱, 검색, 수정하는 기능을 제공..

내가 만든 프로그램을 테스트 해보려는 순간, 위와 같은 오류가 발생했다. 찾아보니 python2 에서 기본 인코딩 방식은 ASCII 로, utf-8 과 ASCII 인코딩 방식이 달라서 그렇다고 한다. 아마 코드안에 utf-8 로 인코딩 해야하는 문자가 있었기에 발생하지 않았나 싶다. 해결방법은 간단했다. # -*- coding: utf-8 -*- 추가하기. 아래와 같이 첫 줄에 추가하면 해결된다. # -*- coding: utf-8 -*- import os def test(): # ... codes ...
Python 프로젝트를 진행하던 중, 디렉토리 안의 특정 파일을 따로 뽑아와야 하는 상황이 발생했다. 그래서 OS 모듈을 사용하여 특정 디렉토리의 파일 리스트를 뽑아오도록 했다. 코드는 생각보다 매우 간단하다. - 특정 디렉토리의 파일 리스트 뽑아오기 (폴더 포함)# OS 모듈을 import import os # os.listdir( ) 함수에 특정 디렉토리 경로 입력하여, 디렉토리 안의 파일들을 리스트로 저장. file_list = os.listdir('경로') # ex) os.listdir('/home/hello/test1') # 파일 리스트 출력 print(file_list) 위의 코드만 작성해도, 간단하게 디렉토리 안의 파일들을 리스트로 뽑아올 수 있다. 단, 파일이 들어있는 폴더의 경우에는 안의..