爬蟲原理及NumPy
①如何檢視IP地址:ip a 回車 裡面有個192打頭的就是ip地址
②如何用windows向虛擬機器中拷貝檔案?
首先開啟xftp軟體沒有的話下載
新建會話屬性 主機:自己的ip地址 協議:SFTP 埠號是:22
使用者名稱:hadoop密碼hadoop 然後點選連結 點選接受並儲存
③如何編輯檔案?
輸入su 回車 密碼輸入:root
gedit 要修改的路徑 在裡面加入
檢視檔案輸入 cat 要檢視修改的路徑
④爬蟲的原理!
要知道爬蟲中有幾個重要的元件核心部分有:
引擎(engine)
蜘蛛(spider)
管道(pipelines)
中介軟體(middleware)
部署於中介軟體的有:
承載資料的 Item
請求物件 request
相應物件 response
(它們三個之間進行傳遞)
⑦就批特兒筆記!
開啟終端jupyter-notebook --ip ip地址
複製網址在windows瀏覽訪問不能訪問的話停止防火牆
關閉防火牆 su 密碼輸入root 回車 systemctl stop firewalld
在瀏覽器裡點選new下的terminal就能不用虛擬機器看了
new下的Python3相當於控制檯會自動執行結果
numpy是一個Python裡的包:
dtype:是定義多維度資料型別
array:陣列(在Python裡叫列表)
shape:尺度 返回的tuple長度代表幾維度,tuple中的每一項表明了對應的此維度上的元素個數
ndim:維度的數字幾維
size:元素數目
itemsize:在位元組中的每一個元素的大小
axis:軸多個維度才能叫軸
②如何用windows向虛擬機器中拷貝檔案?
首先開啟xftp軟體沒有的話下載
新建會話屬性 主機:自己的ip地址 協議:SFTP 埠號是:22
使用者名稱:hadoop密碼hadoop 然後點選連結 點選接受並儲存
③如何編輯檔案?
輸入su 回車 密碼輸入:root
gedit 要修改的路徑 在裡面加入
檢視檔案輸入 cat 要檢視修改的路徑
④爬蟲的原理!
要知道爬蟲中有幾個重要的元件核心部分有:
引擎(engine)
蜘蛛(spider)
管道(pipelines)
中介軟體(middleware)
部署於中介軟體的有:
承載資料的 Item
請求物件 request
相應物件 response
(它們三個之間進行傳遞)
它們傳遞過程:當啟動一個蜘蛛專案的候首先啟動的是引擎“,
引擎一啟動先載入中介軟體裡的請求request,然後交給引
引擎一啟動先載入中介軟體裡的請求request,然後交給引
擎,引擎再傳給排程器,排程器會排隊安排什麼時候給引
擎,相當於一個指揮使,引擎又會載入中介軟體的請求
request並傳給下載器Downloader到網上下載,下載完
之後會返回一個response並傳給引擎,引擎再把
response傳給蜘蛛(傳給了蜘蛛parse方法並得到了item
或者request資料型別), 蜘蛛又會把item或者request傳
給引擎,引擎會判斷型別如果是item型別就傳給管道
pipelines,如果是request的請求就繼續上網上下載,如果
item檔案在管道里開啟並且某個欄位是網址或request請
求會繼續下載
排程器(scheduler)
⑥中國人開發的爬蟲:pyspider排程器(scheduler)
⑦就批特兒筆記!
開啟終端jupyter-notebook --ip ip地址
複製網址在windows瀏覽訪問不能訪問的話停止防火牆
關閉防火牆 su 密碼輸入root 回車 systemctl stop firewalld
在瀏覽器裡點選new下的terminal就能不用虛擬機器看了
new下的Python3相當於控制檯會自動執行結果
numpy是一個Python裡的包:
dtype:是定義多維度資料型別
array:陣列(在Python裡叫列表)
shape:尺度 返回的tuple長度代表幾維度,tuple中的每一項表明了對應的此維度上的元素個數
ndim:維度的數字幾維
size:元素數目
itemsize:在位元組中的每一個元素的大小
axis:軸多個維度才能叫軸
熱門評論