TrabajoFreelance
El punto de encuentro laboral
trabajofreelance.com

¡Bienvenido! (Entrar o Registrarse)

Búsqueda rápida

Proyecto #426654: Spider + Pagina PHP elaboración datos

 

Sobre el autor

Usuario:

Calificaciones:

Puntaje:
2
Promedio:
5,00
Positivas:
2 (100,00 %)
Neutrales:
0 (0,00 %)
Negativas:
0 (0,00 %)

Estadísticas de Proyectos:

Publicados:
3
Contratados:
0 (0,00 %)

Opciones:

Hazle una pregunta

Información del proyecto

Encabezado:
Estoy necesitando una aplicación LAMP que pueda elaborar automaticamente cientos de paginas online, provenientes del sitio derecho.com
Cada pagina contiene edictos de concursos, en particular subastas de terrenos, viviendas.
Tipo de ofertas:
Privadas
Fecha de publicación:
07/02/2012 13:52
Finaliza en:
Finalizado (21/02/2012 13:52)
Contrataciones:
No hay contrataciones. Ya no se puede contratar.
Estadísticas:

Descripción detallada:

Hola,      estoy necesitando una aplicación LAMP que pueda elaborar automaticamente cientos de paginas online, provenientes del sitio derecho.com Cada pagina contiene edictos de concursos publicos, en particular subastas de terrenos, viviendas. Los textos NO siguen un esquema fijo en su redacción, son editados por diferentes autores, por lo tanto es imposible poder programar un simple spider que extraiga automaticamente las informaciones. Por lo tanto, necesito que la aplicación ejecute dos funciones: interprete cada texto automaticamente para sacar la mayor cantidad de datos; la segunda funcion es permitir a un "humano", através de una pagina PHP/Ajax, solucionar las ambiguidades del texto. Por ejemplo cuando NO se puede ubicar un dato, o cuando existen varios importes y hay que elegir uno, etc.  La pagina de ejemplo, que contiene 4000 enlaces a los textos de edictos, es http://www.derecho.com/legislacion/1455459595/todos/alertas-test  Los datos que necesito son: 1. Referencia catastral, es un codigo de referencia que tiene siempre el mismo formato 2. Calle, numero,codigo postal, municipio y provincia del inmueble subastato 3. Numero de finca registral 4. Tipo inmueble: vivienda, terreno, plaza de parking, etc 5. Valor del inmueble en la primera subasta (puede aparecer en numero o letras), hay que calcular ambos campos 6. Fechas de la subastas, la primera y las siguientes 7. Tipo Subasta: judicial o notarial (el primero si el edicto es de un juzgado, el segundo si es de una comunidad autonoma) 8. PDF del edicto (creo que todos los edictos tienen un proprio enlace a los PDF) caso contrario generarlo con FPDF  Al respecto de la pagina PHP/Ajax, que utilizará un operador, para solucionar ambiguidades, seleccionar datos no ubicados por el spider o controlar el resultado de la extracción, necesitaría una pagina como la que describo: en la mitad derecha aparecerá el texto completo del edicto; en la parte izquierda los campos extraidos por el spider, marcando en amarillo los que el operador tiene que definir. Por ejemplo, si en el texto de una subasta aparecen dos importes, por ejemplo 23.000 y 120.000 euros, el operador tendrá una ListBox y podrá seleccionar el dato correcto. Por cada selección (evento onchange de la ListBox) se marcará automaticamente en el texto el dato seleccionado, en color, de modo que el operador pueda leer el contexto del dato.  Se utilizarà la siguiente tabla MySql (son bienvenidas modificaciones): TB Boletines: id, fecha, url (del boletin), referencia_Catastral, calle, numero, codigo_postal, municipio, provincia, finca, tipo_inmueble, valor_inmueble, fecha_subasta1, fecha_subasta2, fecha_subasta3, tipo_subasta.  Habrá DOS paginas, dibujadas con una grafica simple (ya que serán paginas para un operador, no para los clientes): 1. Pagina Lista_Boletines 2. PAgina Editar_Boletin  Los pasos a seguir por cada nuevo boletin serán los siguientes: 1. el "spider" o en "conjunto de funciones para extraer datos" elabora el documento de la URL, insertando un nuevo registro en la      tabla de boletines, colmpletando los datos que puede ubicar y dejando en blanco los que no puede encontrar.     Esta serà una primera fase, es MUY, importante que el "spider" sea optimizado lo màs posible, al fin de que el operador tenga que corregir la menor cantidad de boletines manualmente. 2. El operador, periodicamente, visitarà la lista de boletines, pagina lista_boletines.    En la lista apareceràn estos campos       fecha, URL, porcentaje de elaboraciòn automatica.       este ultimo campo tendrà que dar una idea al operador de cuanto "bien" trabajò el spider. 3. En caso de que el "porcentaje de elaboración automatica" sea muy insatisfactorio, el operador podrà hacer click en un enlace y editar el edicto manualmente. 4. Se utilizarà la pagina "editar boletin", por medio de la cual el operador terminarà de definir los campos manualmente, ayudado por la Javascript y/o Ajax     de modo que la operaciòn sea la màs rapida posible.     Presionando el botòn GUARDAR, se actualizarà la tabla de boletines, con los ultimos datos.        Nota final 1: es posible que en un mismo edicto aparezcan subastas para varios inmuebles. En este caso el sistema tendrà que generar una entrada por cada uno Nota final 2: TODO lo descripto es "hipotetico"; si usted tiene mejores ideas de analisis para mejorar u optimizar ele funcionamiento dle sistema, acepto propuestas de modificación.  Aguardo dudas, ya que el texto descriptivo es muy amplios y puedo haberme olvidado de algo. 

Condiciones de pago

Presupuesto:
No definido
Forma de pago:
Definida en la descripción
Métodos de pago:
  • A convenir

Condiciones de entrega

Tiempo de entrega:
12 días corridos
Métodos de entrega:
  • Definidos en la descripción

Consejos:

Información importante antes de ofertar: