Text Mining Tool: экстрактор текстовПользователям, которые часто и много работают с текстовой информацией, часто приходится извлекать тексты из файлов самых различных форматов. В 90% случаев, как показывает практика, приходится иметь дело с файлами форматов .doc, .html и .pdf. Конечно, каждый раз запускать соответствующую программу (а в случае с pdf - еще и мучаться с конвертированием) - удовольствия мало. Именно для таких пользователей и была создана утилита Text Mining Tool. Это программа для извлечения текста из файлов следующих типов: pdf, doc, rtf, chm и html без использования сторонних программ (Word, Acrobat и т.п.). Извлеченный текст можно сохранить в виде файла или скопировать в буфер для вставки в любой текстовый редактор. Конечно, при таком извлечении любое форматирование текста летит насмарку - пользователю достается "голый" контент. Удобство использования этой утилиты обеспечено следующими ее особенностями: она полностью бесплатная и совершенно без каких-либо лицензионных ограничений; конвертирует файлы PDF, DOC, RTF, CHM, HTML (все - любых версий) в простой текст; дружелюбный интерфейс с "горячими" клавишами; наличие альтернативной консольной утилиты - minetext; базируется на фреймфорке .NET 2.0.Интерфейс программы английский, но никаких проблем с извлечением русскоязычных текстов из файлов любого типа не возникает - проверено. Интерфейс не то чтобы прост - абсолютно примитивен. К тому же правая клавиша мыши в управлении вообще никак не задействована. Для большего удобства в программе определены следующие "горячие" клавиши: Open - F3 или O; Save - F2 или S; Clipboard - F5 или C; Exit - F10 или Escape. Однако возможности их настройки нет. Впрочем, в программе вообще нет никаких настроек. Первая версия Text Mining Tool увидела свет в августе 2003 года; сейчас доступна версия 1.1.42. Text Mining Tool работает под управлением ОС Windows 2000/XP/Vista. Дистрибутив программы "весит" довольно много для такого рода ПО - 8,39 Мб. На диске Text Mining Tool 1.1.42 занимает 15,3 Мб. Более того, чтобы начать работать с Text Mining Tool, мне пришлось скачать и установить Microsoft .NET Framework Version 2.0 Redistributable Package объемом 22,4 Мб (дистрибутив). Зато отдельная установка Text Mining Tool не требуется: распаковал zip-архив - и готово, можно работать. Соответственно, не требуется и специальная деинсталляция, если пользователь решит отказаться от использования программы. Официальный сайт программы - Резюме: неплохая утилита, временами очень даже востребованная. Простая в использовании и не требует инсталляции, но вызывает удивление достаточно большой (сравнительно, конечно) объем. И хотелось бы, чтобы в следующих версиях появилась возможность извлекать текст из файлов .odt - этот формат используется все более распространенным текстовым редактором Writer, входящим в свободный офисный пакет OpenOffice. Виктор ДЕМИДОВ
Чтобы разместить новость на сайте или в блоге скопируйте код:
На вашем ресурсе это будет выглядеть так
Text Mining Tool - утилита для извлечения текста из файлов pdf, doc, rtf, chm и html без использования сторонних программ
|
|