есть парсеры которые парсят новостные ресурсы, обычно чтобы выдернуть что-то с новости допустим заголовок или дату.надо прописывать для парсера структуру страницы.
а оказывается есть такие библиотеки для парсинга новостных ресурсов и для которых структуру прописывать не нужно,им главное на вход дать ссылку на новости и все