爬蟲原理及NumPy

2019-8-17 · digitgeek · Python

①如何檢視IP地址:ip a 回車裡面有個192打頭的就是ip地址
②如何用windows向虛擬機器中拷貝檔案？
    首先開啟xftp軟體沒有的話下載
    新建會話屬性主機：自己的ip地址協議：SFTP 埠號是：22
    使用者名稱：hadoop密碼hadoop 然後點選連結點選接受並儲存
③如何編輯檔案？
        輸入su 回車密碼輸入：root
        gedit 要修改的路徑在裡面加入
        檢視檔案輸入 cat 要檢視修改的路徑
④爬蟲的原理！
    要知道爬蟲中有幾個重要的元件核心部分有：
                                                                   引擎(engine)
                                                                   蜘蛛(spider)
                                                                   管道(pipelines)
                                                                   中介軟體(middleware)
                                                                        部署於中介軟體的有：
                                                                                  承載資料的 Item
                                                                                  請求物件 request
                                                                                  相應物件 response
                                                                               （它們三個之間進行傳遞）

它們傳遞過程：當啟動一個蜘蛛專案的候首先啟動的是引擎“，
引擎一啟動先載入中介軟體裡的請求request，然後交給引

擎，引擎再傳給排程器，排程器會排隊安排什麼時候給引

擎，相當於一個指揮使，引擎又會載入中介軟體的請求

request並傳給下載器Downloader到網上下載，下載完

之後會返回一個response並傳給引擎，引擎再把

response傳給蜘蛛(傳給了蜘蛛parse方法並得到了item

或者request資料型別)，蜘蛛又會把item或者request傳

給引擎，引擎會判斷型別如果是item型別就傳給管道

pipelines,如果是request的請求就繼續上網上下載，如果

item檔案在管道里開啟並且某個欄位是網址或request請

求會繼續下載
排程器(scheduler)

⑥中國人開發的爬蟲：pyspider
⑦就批特兒筆記！
         開啟終端jupyter-notebook --ip ip地址
         複製網址在windows瀏覽訪問不能訪問的話停止防火牆
         關閉防火牆 su 密碼輸入root 回車 systemctl stop firewalld
         在瀏覽器裡點選new下的terminal就能不用虛擬機器看了
         new下的Python3相當於控制檯會自動執行結果

numpy是一個Python裡的包：
                                          dtype:是定義多維度資料型別
                                          array:陣列(在Python裡叫列表)
                                          shape:尺度返回的tuple長度代表幾維度，tuple中的每一項表明了對應的此維度上的元素個數
                                          ndim:維度的數字幾維
                                          size:元素數目
                                          itemsize：在位元組中的每一個元素的大小
                                          axis:軸多個維度才能叫軸

0 條回復 | 直到 2019-8-17 | 646 次瀏覽

支持 0 | 反對 0

爬蟲原理及NumPy

熱門評論