117 lines
3.4 KiB
Markdown
117 lines
3.4 KiB
Markdown
|
---
|
|||
|
title: "Получаем размер загружаемого файла на Python"
|
|||
|
date: 2022-09-16T01:08:53+03:00
|
|||
|
draft: false
|
|||
|
tags: [python, tips]
|
|||
|
---
|
|||
|
|
|||
|
### Введение
|
|||
|
|
|||
|
Многие пишут грабберы сайтов на Python.
|
|||
|
Я вот например [скачиваю](#) сиськи с [blog.stanis.ru](http://blog.stanis.ru/).
|
|||
|
|
|||
|
Но иногда, требуется проверить, не загружен ли файл уже, до того как его скачать.
|
|||
|
|
|||
|
Способов сравнения файлов существует достаточное количество,
|
|||
|
но в рамках этого руководства я рассмотрю способ сравнения файлов по их размеру.
|
|||
|
|
|||
|
### Получение размера локального файла
|
|||
|
|
|||
|
В стандартной библиотеке Python, есть функция `getsize()` в модуле `os.path`.
|
|||
|
|
|||
|
```python
|
|||
|
import os.path
|
|||
|
|
|||
|
if __name__ == '__main__':
|
|||
|
file_size = os.path.getsize("./avatar.png")
|
|||
|
|
|||
|
print("Size: {0} ({1})".format(file_size, type(file_size)))
|
|||
|
```
|
|||
|
|
|||
|
Программа вернёт следующий результат:
|
|||
|
|
|||
|
```text
|
|||
|
Size: 14390 (<class 'int'>)
|
|||
|
```
|
|||
|
|
|||
|
Однако не стоит забывать, что файла может и не быть.
|
|||
|
По этому лучше проверять такие ситуации.
|
|||
|
|
|||
|
```python
|
|||
|
os.path.exists("./avatar/png")
|
|||
|
```
|
|||
|
|
|||
|
### Получение размера удалённого файла
|
|||
|
|
|||
|
Для работы с HTTP,
|
|||
|
я использую модуль [requests](https://requests.readthedocs.io/en/latest/index.html).
|
|||
|
|
|||
|
Каждый web-сервер, возвращает заголовки, в которых может быть полезная информация.
|
|||
|
Для примера, получим заголовки файла [аватара](https://iiiypuk.me/avatar.png) на моём сайте.
|
|||
|
|
|||
|
```python
|
|||
|
import requests
|
|||
|
|
|||
|
response = requests.get("https://iiiypuk.me/avatar.png")
|
|||
|
print(response.headers)
|
|||
|
```
|
|||
|
|
|||
|
Вывод будет следующий:
|
|||
|
|
|||
|
```text
|
|||
|
{
|
|||
|
'Server': 'nginx/1.20.2',
|
|||
|
'Date': 'Thu, 15 Sep 2022 22:14:41 GMT',
|
|||
|
'Content-Type': 'image/png',
|
|||
|
'Content-Length': '14390',
|
|||
|
'Last-Modified': 'Fri, 08 Jul 2022 11:23:06 GMT',
|
|||
|
'Connection': 'keep-alive',
|
|||
|
'Accept-Ranges': 'bytes'
|
|||
|
}
|
|||
|
```
|
|||
|
|
|||
|
Нас интересует заголовок `Content-Length`.
|
|||
|
|
|||
|
```python
|
|||
|
print(response.headers['Content-Length'])
|
|||
|
# Выхлоп: 14390
|
|||
|
```
|
|||
|
|
|||
|
Сравнение до боли простое:
|
|||
|
|
|||
|
```python
|
|||
|
import os.path
|
|||
|
import requests
|
|||
|
|
|||
|
if __name__ == '__main__':
|
|||
|
local_size = os.path.getsize("./avatar.png")
|
|||
|
|
|||
|
response = requests.get("https://iiiypuk.me/avatar.png")
|
|||
|
remote_size = int(response.headers['Content-Length'])
|
|||
|
|
|||
|
if local_size != remote_size:
|
|||
|
print("Файлы разные")
|
|||
|
print("Локальный размер: {0}\nУдалённый размер: {1}".format(
|
|||
|
local_size, remote_size))
|
|||
|
else:
|
|||
|
print("Файлы одинаковые")
|
|||
|
|
|||
|
```
|
|||
|
|
|||
|
Обрати внимание, что `response.headers['Content-Length']` возвращает значение
|
|||
|
строкой, а не целым числом.
|
|||
|
|
|||
|
### ВСЁ!
|
|||
|
|
|||
|
Можно скачивать файл.
|
|||
|
|
|||
|
```python
|
|||
|
import shutil
|
|||
|
import requests
|
|||
|
|
|||
|
response = requests.get("https://iiiypuk.me/avatar.png", stream=True)
|
|||
|
|
|||
|
with open("./file.png", "wb") as out_image:
|
|||
|
shutil.copyfileobj(response.raw, out_image)
|
|||
|
```
|