美文网首页我爱编程
文本解析工具--Apache Tika使用报告

文本解析工具--Apache Tika使用报告

作者: Sol_elY | 来源:发表于2017-06-22 12:55 被阅读0次

目录

1.Apache Tika简介

2.Apache Tika配置安装

3.Apache Tika使用体验


1.Apache Tika简介

TiKa

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。

1.1 功能简介

侦测文档的类型,字符编码,语言,等其他现有文档的属性。

提取结构化的文字内容。

该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.

1.2 支持的文档格式

目前支持的文档格式和对应的解析类库如下:

捕获.PNG 获.PNG

2.Apache Tika配置安装

TiKa版本

TiKa提供了一个命令行界面和一个GUI界面,还提供一个java库。我选择下载了app版。下载地址

输入命令java -jar tika-app-1.15.jar --gui打开gui图形管理界面:

图片.png

新建待分析文本tika+text.txt

图片.png

Metadata:


图片.png

Formattedtext:

图片.png

plain text:

图片.png

Structured text:

图片.png

由于未知原因。我的json与main content没有提取出来:

图片.png 图片.png

还可以使用java -jar tika-app-1.15.jar --text *.doc命令进行文本格式的转换,text为要转变的格式,*.doc为你想要转变的文本的物理位置。

相关文章

网友评论

    本文标题:文本解析工具--Apache Tika使用报告

    本文链接:https://www.haomeiwen.com/subject/jckxcxtx.html