Dentro de las instalaciones de desarrollo de NetDocuments, hay una pequeña sala de conferencias llamada Sundance. El equipo de SOLR está acurrucado en torno a un script de Python actualizado y rascándose la cabeza: ¿podría ser esto realmente correcto? ¿Es posible tomar la 6.1 B, es decir, con una B o mil millones de documentos y crear un algoritmo de aprendizaje automático de extracción de entidades que pueda archivar automáticamente cualquier correo electrónico o documento enviado a la plataforma? Mou está reconciliando los resultados con su código. Ella se sienta y sonríe. "Creo que tenemos un buen equilibrio entre precisión y un modelo flexible".
Mou dirige el equipo de ingeniería de NetDocuments SOLR. SOLR es el motor de búsqueda de código abierto que indexa 145 documentos por segundo todos los días hábiles con picos de 350 documentos por segundo. Mou y su equipo han ideado una forma de ...
El equipo evalúa los resultados y se dirige a la pizarra, cubierta con recuadros, flechas y anotaciones. El equipo resume la esencia de la IA: tablas de candidatos y anticandidatos para cada modelo relevante para la tarea. Los gerentes de producto en la sala miran a Mou y dicen "¿qué?".
Una vez más se recupera y toma un bolígrafo de tinta borrable, luego se mueve hacia la caótica pizarra. "Mire", comienza Mou, "estos algoritmos son solo tablas de búsqueda. La clave son los términos que enviamos y el valor es la etiqueta. Tenemos cientos de etiquetas en nuestros modelos ND. Algunas de las más comunes son demandante, experto, juez "Este es un juez. Este es un demandante. Este no es un juez, etc." Nuestro modelo mantiene esas decisiones en una tabla. , si aparece un nuevo ejemplo, o si le digo que busque nuevos ejemplos, bueno, el algoritmo simplemente analiza todos los ejemplos que le proporcionamos. ¿Qué filas de la tabla son similares? ¿Y qué tan similares? decidir, '¿Es esto nuevo un juez? Creo que sí'. Si es correcto, la entidad se coloca en el grupo "Este es un documento judicial de alegato de moción", y si es incorrecto, se coloca en el grupo "Esto no es un juez". La próxima vez, tiene más datos Hay cientos de modelos similares que su equipo creó en el ámbito legal, de acuerdo con la privacidad del cliente.
El equipo de Mou está hiperconcentrado en algunos grandes desafíos. Uno es cómo resolver nombres similares en comparación con los almacenados en la tabla. Un aspecto del aprendizaje automático es aprender funciones de similitud. Sabes más cuando ves más. Otro desafío es, ¿qué sucede cuando su mesa crece realmente? El valor del aprendizaje automático es que los algoritmos pueden "estimar aproximadamente cuál debería ser el valor correspondiente en función de los modelos de aprendizaje", dice Mou.
The engineering team frowns when a plucky product manager says. "Wow, that sounds boring, almost mechanical. So much of the conversation around AI is awash in mystical descriptions for its near-magic capabilities." Mou doesn’t like that and tries to use more-prosaic terms. "Sure it’s powerful, but not magical. It has limitations. You need data at scale, for example. During presentations, she frequently draws a picture of a wizard hat with a one under it and an n-dimensional table, aka a modern version of the factory. The contrast defines NetDocuments approach to AI as the factory, because “wizards don’t scale.”
El enfoque de NetDocuments es único. Estamos construyendo bancos de trabajo de inteligencia artificial para lograr nuestro objetivo de un DMS invisible, mediante el cual los clientes y socios comerciales pueden enviar cualquier contenido: correo electrónico, documentos, libros de propuestas. Una vez enviado el contenido, nuestra plataforma SOLR procesa el documento, clasifica, extrae partes, nombres, fechas, etc. Los resultados están disponibles para que los equipos de búsqueda, gobernanza o marketing personalizados consulten los nombres recopilados para procesos comerciales fuera del documento. Considere las posibilidades disponibles a medida que se desbloquea el contenido del documento. Contáctanos con tus ideas.