Trasladar la extracción de datos de la web del motor appengine a un proceso local que luego sube los datos a la BD mediante remote_api.
Dado que existe el módulo de appengine "remote_api" que permite ejecutar cualquier operación de la base de datos en remoto. Se pretende que no sea una tarea programada en appengine quien suba los datos a la BD que se extraen de acb.com por web scraping, sino que sea un proceso ejecutado desde cualquier ordenador que extrae los datos en local y luego los actualiza en la BD de la web con remote_api.
Ventajas:
No se depende urlfetch y de la tecnología que appengine ofrezca para parsear el xml, sino que se puede utilizar cualquier biblioteca python disponible tanto de acceso a la web, como de parseado del html. Esto sobre todo en el caso del parseado facilita las cosas porque hasta el momento appengine no ofrece una forma sencilla y con xpath de parsear html mal formado.
Además así se puede conseguir reducir la carga de peticiones que appengine hace de url, de las que existe un límite por día y hace que el lector de la web sea más fácil de programar y depurar.
Blueprint information
- Status:
- Not started
- Approver:
- None
- Priority:
- Undefined
- Drafter:
- None
- Direction:
- Needs approval
- Assignee:
- None
- Definition:
- New
- Series goal:
- None
- Implementation:
- Unknown
- Milestone target:
- None
- Started by
- Completed by