001: /*
002: * regain - A file search engine providing plenty of formats
003: * Copyright (C) 2004 Til Schneider
004: *
005: * This library is free software; you can redistribute it and/or
006: * modify it under the terms of the GNU Lesser General Public
007: * License as published by the Free Software Foundation; either
008: * version 2.1 of the License, or (at your option) any later version.
009: *
010: * This library is distributed in the hope that it will be useful,
011: * but WITHOUT ANY WARRANTY; without even the implied warranty of
012: * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
013: * Lesser General Public License for more details.
014: *
015: * You should have received a copy of the GNU Lesser General Public
016: * License along with this library; if not, write to the Free Software
017: * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
018: *
019: * Contact: Til Schneider, info@murfman.de
020: *
021: * CVS information:
022: * $RCSfile$
023: * $Source$
024: * $Date: 2004-11-10 16:08:52 +0100 (Mi, 10 Nov 2004) $
025: * $Author: til132 $
026: * $Revision: 10 $
027: */
028: package net.sf.regain.crawler.config;
029:
030: /**
031: * Enthält alle Daten eines URL-Pattern.
032: * <p>
033: * Ein URL-Pattern wird beim Durchsuchen von Dokumenten nach URLs dazu verwendet,
034: * URLs eines bestimmten Typs zu identifizieren.
035: *
036: * @author Til Schneider, www.murfman.de
037: */
038: public class UrlPattern {
039:
040: /** Der Reguläre Ausdruck, die eine URL findet. */
041: private String mRegexPattern;
042: /** Die Gruppe des Regulären Ausdrucks, die die URL enthält. */
043: private int mRegexUrlGroup;
044: /** Gibt an, ob eine gefundene URL nach weiteren URLs durchsucht werden soll. */
045: private boolean mShouldBeParsed;
046: /** Gibt an, ob eine gefundene URL indiziert werden soll. */
047: private boolean mShouldBeIndexed;
048:
049: /**
050: * Erzeugt eine neue UrlPattern-Instanz.
051: *
052: * @param regexPattern Der Reguläre Ausdruck, die eine URL findet.
053: * @param regexUrlGroup Die Gruppe des Regulären Ausdrucks, die die URL
054: * enthält.
055: * @param shouldBeParsed Gibt an, ob eine gefundene URL nach weiteren URLs
056: * durchsucht werden soll.
057: * @param shouldBeIndexed Gibt an, ob eine gefundene URL indiziert werden soll.
058: */
059: public UrlPattern(String regexPattern, int regexUrlGroup,
060: boolean shouldBeParsed, boolean shouldBeIndexed) {
061: mRegexPattern = regexPattern;
062: mRegexUrlGroup = regexUrlGroup;
063: mShouldBeParsed = shouldBeParsed;
064: mShouldBeIndexed = shouldBeIndexed;
065: }
066:
067: /**
068: * Gibt den Reguläre Ausdruck zurück, die eine URL findet.
069: *
070: * @return Der Reguläre Ausdruck, die eine URL findet.
071: */
072: public String getRegexPattern() {
073: return mRegexPattern;
074: }
075:
076: /**
077: * Gibt die Gruppe des Regulären Ausdrucks zurück, die die URL enthält.
078: *
079: * @return Die Gruppe des Regulären Ausdrucks, die die URL enthält.
080: */
081: public int getRegexUrlGroup() {
082: return mRegexUrlGroup;
083: }
084:
085: /**
086: * Gibt zurück, ob eine gefundene URL nach weiteren URLs durchsucht werden soll.
087: *
088: * @return Ob eine gefundene URL nach weiteren URLs durchsucht werden soll.
089: */
090: public boolean getShouldBeParsed() {
091: return mShouldBeParsed;
092: }
093:
094: /**
095: * Gibt zurück, ob eine gefundene URL indiziert werden soll.
096: *
097: * @return Ob eine gefundene URL indiziert werden soll.
098: */
099: public boolean getShouldBeIndexed() {
100: return mShouldBeIndexed;
101: }
102:
103: }
|