프로그래밍언어/Python

파이썬 웹 크롤링(Python web crawling) 만들기 크롤링 데이터 conda github 저장소 연동 Step 3

by 앵과장 2022. 10. 18. 14:02
반응형

파이썬으로 웹크롤링 진행하기전에 코드를 구현하기전에 github에 올려서 어디든 진행가능한 상태로 만들어야 될것같아 git연동을 찾아보도록 하겠습니다.

아 conda를 처음 쓰다보니 env프로젝트 이름을 너무 회사명칭으로 만들어서 다른이름으로 바꿔야되기때문에 일단 conda에서 프로젝트 명 바꾸는 방법을 찾아보니 바꾼다는 표현보다는 처음 만든 프로젝트를 복제한뒤 삭제하는 방법으로 진행하는 방법이 있어서 정리합니다.

 

conda 환경 프로젝트 이름 변경하기 
복사 이후 삭제

conda create --name {새로만들이름} --clone {변경전이름}

(base) renzo@renzoui-MacBookPro workspace % conda create --name webcrawling --clone sample-01
Source:      /Users/renzo/opt/anaconda3/envs/sample-01
Destination: /Users/renzo/opt/anaconda3/envs/webcrawling
Packages: 40
Files: 3
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
#     $ conda activate webcrawling
#
# To deactivate an active environment, use
#
#     $ conda deactivate

(base) renzo@renzoui-MacBookPro workspace % conda env list
# conda environments:
#
base                  *  /Users/renzo/opt/anaconda3
sample-01                 /Users/renzo/opt/anaconda3/envs/sample-01
webcrawling              /Users/renzo/opt/anaconda3/envs/webcrawling
..
..
..
.
생략 중간에 Y만 눌러주세요

위에 보시는것처럼 해당 폴더에 새로 만든 프로젝트이름 으로 복제되는가 됩니다.

 

conda remove --name {삭제할env} --all

(base) renzo@renzoui-MacBookPro workspace % conda remove --name sample-01 --all

Remove all packages in environment /Users/renzo/opt/anaconda3/envs/sample-01:


## Package Plan ##

  environment location: /Users/renzo/opt/anaconda3/envs/sample-01


The following packages will be REMOVED:

  anyio-3.6.1-pyhd8ed1ab_1
  asgiref-3.5.2-py39hca03da5_0
  beautifulsoup4-4.11.1-py39hca03da5_0
  brotlipy-0.7.0-py39h1a28f6b_1002
  ca-certificates-2022.9.24-h4653dfc_0
  certifi-2022.9.24-pyhd8ed1ab_0
  cffi-1.15.1-py39h22df2f2_0
  
  ...
  ..
  ..
  .
  생략

내가 만든 프로젝트 env가 마음에 안들면 이렇게 변경하시면 됩니다.

 

 

conda git 패키지 설치 github 연결하기

git 패키지 설치

conda install git pip

(webcrawling) renzo@renzoui-MacBookPro webcrawling % conda install git pip
Collecting package metadata (current_repodata.json): done
Solving environment: done


==> WARNING: A newer version of conda exists. <==
  current version: 4.13.0
  latest version: 22.9.0

Please update conda by running

    $ conda update -n base -c defaults conda



## Package Plan ##

  environment location: /Users/renzo/opt/anaconda3/envs/webcrawling

  added / updated specs:
    - git
    - pip
    
    ...
    ..
    .
    생략

 

github 생성된 Repogitory 연결하기

 

pip install git+{github clone 주소정보}

(webcrawling) renzo@renzoui-MacBookPro webcrawling % pip install git+https://github.com/lswteen/webcrawling
Collecting git+https://github.com/lswteen/webcrawling
  Cloning https://github.com/lswteen/webcrawling to /private/var/folders/dg/nlch60190990lz874gvfd4hm0000gn/T/pip-req-build-n3f5de8c
  Running command git clone --filter=blob:none --quiet https://github.com/lswteen/webcrawling /private/var/folders/dg/nlch60190990lz874gvfd4hm0000gn/T/pip-req-build-n3f5de8c
  Resolved https://github.com/lswteen/webcrawling to commit 1bea556697bce97d5bae2b10e12660ee721f5d42
ERROR: git+https://github.com/lswteen/webcrawling does not appear to be a Python project: neither 'setup.py' nor 'pyproject.toml' found.

ERROR: git+https://github.com/lswteen/webcrawling does not appear to be a Python project: neither 'setup.py' nor 'pyproject.toml' found.

 

setup.py 또는 pyproject.toml 이 있어야 하는것같고

찾아보니 setup.py는 Legacy라는 표현이 있어서 pyproject.toml을 찾아보겠습니다.

 

pyproject 기본 init되는 기능같은 느낌인데 java로 치면 application.yml정도 같은느낌...

일단 정확하게 찾아봐야겠지만 github연결이 이번챕터 내용이기 때문에 연결부터 진행하고

점진적으로 찾아가보도록 하겠습니다.

github > 프로젝트에 "pyproject.toml" 파일을 create new file 로 만든뒤에 아래처럼 내용을 넣어주고

[tool.black]
target-version = ['py36', 'py37', 'py38']

pip install git+{본인 프로젝트 git정보}

(webcrawling) renzo@renzoui-MacBookPro webcrawling % pip install git+https://github.com/lswteen/webcrawling
Collecting git+https://github.com/lswteen/webcrawling
  Cloning https://github.com/lswteen/webcrawling to /private/var/folders/dg/nlch60190990lz874gvfd4hm0000gn/T/pip-req-build-3056t3t4
  Running command git clone --filter=blob:none --quiet https://github.com/lswteen/webcrawling /private/var/folders/dg/nlch60190990lz874gvfd4hm0000gn/T/pip-req-build-3056t3t4
  Resolved https://github.com/lswteen/webcrawling to commit 57c6bf081770ecc065a68f4985373b77032a8df1
  Installing build dependencies ... done
  Getting requirements to build wheel ... done
  Preparing metadata (pyproject.toml) ... done
Building wheels for collected packages: UNKNOWN
  Building wheel for UNKNOWN (pyproject.toml) ... done
  Created wheel for UNKNOWN: filename=UNKNOWN-0.0.0-py3-none-any.whl size=1754 sha256=673cccda54c263d45eaf388f0fd0235e7ee242006c52e65441e44ab4b24ddfc9
  Stored in directory: /private/var/folders/dg/nlch60190990lz874gvfd4hm0000gn/T/pip-ephem-wheel-cache-taxxgnw7/wheels/42/2b/15/a60b9c0f18edb1720a07946262971b577531a978a75a124e6a
Successfully built UNKNOWN
Installing collected packages: UNKNOWN
Successfully installed UNKNOWN-0.0.0
(webcrawling) renzo@renzoui-MacBookPro webcrawling %

정상적으로 연결되는 화면을 볼수 있습니다.

 

python 가상화에 대해서 conda만 고려했었는데 진행하다보니 다른부분들도 필요한것 같아서 진행하면서 좀더 
궁합이 좋은 구성으로 찾아보도록 하겠습니다.