TIKA參考API
用戶可以在使用 Tika 的外觀類在應用程序中嵌入Tika。它的方法來探索Tika的所有功能。因為它是一個外網類,Tika抽象的背後有其功能的複雜性。除了這一點,用戶還可以使用各種Tika類在他們的應用程序。
Tika 類 (facade)
這是最突出的Tika類庫和正麵設計模式。因此,抽象所有的內部實現,並提供了簡單的方法來訪問Tika功能。下表列出該類的構造函數以及它們的描述。
package : org.apache.tika
class: Tika
S.No. | 構造函數和說明 |
---|---|
1 |
Tika () 使用默認配置,構建Tika類。 |
2 |
Tika (Detector detector) 通過接受檢測實例作為參數創建 Tika 的外觀 |
3 |
Tika (Detector detector, Parser parser) 創建一個Tika外觀通過接受檢測和解析器實例作為參數。 |
4 |
Tika (Detector detector, Parser parser, Translator translator) 創建一個Tika外觀通過接受檢測器,解析器,並且轉換實例作為參數。 |
5 |
Tika (TikaConfig config) 創建一個Tika外觀通過接受TikaConfig類作為參數的對象。 |
方法和說明
以下是 Tika外觀類的重要方法:
S.No. | 方法和描述 |
---|---|
1 |
String parseToString (File file) 此方法及其所有變種分析作為參數傳遞的文件,並返回字符串格式提取的文本內容。默認情況下,這個字符串參數的長度是有限的。 |
2 |
int getMaxStringLength () 返回由parseToString方法返回字符串的最大長度。 |
3 |
void setMaxStringLength (int maxStringLength) 設置由parseToString方法返回的字符串的最大長度。 |
4 |
Reader parse (File file) 該方法及其所有變型解析作為參數傳遞的文件,並返回 java.io.Reader對象的形式,所提取的文本內容。 |
5 |
String detect (InputStream stream, Metadata metadata) 該方法及其所有變接受InputStream對象和元數據對象作為參數,檢測出給定文檔的類型,並返回該文件類型的名稱作為字符串對象。這種方法提煉使用 Tika 的檢測手段。 |
6 |
String translate (InputStream text, String targetLanguage) 此方法及其所有變種接受InputStream對象,並表示,我們希望我們的文字被翻譯語言的字符串,並把特定的文本所需的語言,嘗試自動檢測源語言。 |
解析器接口
這是Tika包的所有解析器類實現的接口。
package : org.apache.tika.parser
Interface : Parser
方法和說明
以下是TikaParser接口的重要方法:
S.No. | 方法及描述 |
---|---|
1 |
parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) 這個方法將給定的文檔解析到XHTML和SAX事件序列。解析後,將放置在ContentHandler類的對象,並在元數據的類的對象的元數據,所提取的文件的內容。 |
Metadata 類
這個類實現了各種接口,如素材,地理,HttpHeaders,消息,微軟Office,氣候預測,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable接口,支持各種數據模型。下表列出了構造函數和這個類的方法及其說明。
package : org.apache.tika.metadata
class : Metadata
S.No. | 構造方法及描述 |
---|---|
1 |
Metadata() 構造一個新的,空的元數據。 |
S.No. | 方法及描述 |
---|---|
1 |
add (Property property, String value) 增加了一個元數據屬性/值映射到給定的文件。使用此功能,可以將該值設置為一個屬性。 |
2 |
add (String name, String value) 增加了一個元數據屬性/值映射到給定的文件。使用這種方法,我們可以使用新名稱的值設置為一個文件,從現有的元數據。 |
3 |
String get (Property property) 返回給定的元數據屬性的值(如果有的話)。 |
4 |
String get (String name) 返回給定元數據的名稱的值(如果有的話)。 |
5 |
Date getDate (Property property) 返回日期的元數據屬性的值。 |
6 |
String[] getValues (Property property) 返回的元數據屬性的所有的值。 |
7 |
String[] getValues (String name) 返回給定元數據的名稱的所有的值。 |
8 |
String[] names() 返回元數據對象的元數據元素的所有的名字。 |
9 |
set (Property property, Date date) 設置給定的元數據屬性的日期值 |
10 |
set(Property property, String[] values) 設置多個值到一個元數據屬性。 |
語言類標識符
此分類標識了特定內容的語言。下表列出了這個類的構造函數以及它們的描述。
package : org.apache.tika.language
class : Language Identifier
S.No. | 構造器和說明 |
---|---|
1 |
LanguageIdentifier (LanguageProfile profile) 實例化的語言標識符。在這裡必須通過一個LanguageProfile對象作為參數。 |
2 |
LanguageIdentifier (String content) 這個構造函數可以通過從文本內容傳遞一個String實例化一個語言標識符 |
S.No. | 構造器和說明 |
---|---|
1 |
String getLanguage () 返回給當前LanguageIdentifier對象的語言。 |