Поисковая система и агрегатор новостей образовательных учреждений
|
3 年之前 | |
---|---|---|
examples | 3 年之前 | |
README.md | 3 年之前 | |
all.db | 3 年之前 | |
career.innopolis.university.html | 3 年之前 | |
crauler.py | 3 年之前 | |
habr.com.html | 3 年之前 | |
innopolis.university.html | 3 年之前 | |
it-events.com.html | 3 年之前 | |
media.innopolis.university.html | 3 年之前 | |
npedkol.ru.html | 3 年之前 | |
parser.py | 3 年之前 | |
Учебные заведения. md.txt | 3 年之前 |
Мы студенты СПО, после окончания обучения планируем продолжать его в высших учебных заведениях. Поэтому для удачного поступления нам необходимы сертификаты и дипломы об индивидуальных достижениях. Многие вузы, фонды, организации проводят такие конкурсы. Но уследить за всеми - нереально. Поэтому наша поисковая система ищет новые страницы с упоминаниями о конкурсах на сайтах вузов и уведомляет в мессенджер о появлении новых. Узкоспециальный агрегатор новостей. Также ее можно использовать и как поисковую систему по сайтам учебных заведений.
crauler.py - бот, "паук", краулер парсит ссылки на внутренние страницы сайтов. (ограничимся 2 уровнем)
parser.py - парсим текст с найденных ссылок
pip install sqlalchemy
pip install bs4
pip install lxml
pip install tldextract
pip install nltk
pip install pymystem3