HTML Parser : HTML Parser « Network « Java Tutorial

Java Tutorial
1. Language
2. Data Type
3. Operators
4. Statement Control
5. Class Definition
6. Development
7. Reflection
8. Regular Expressions
9. Collections
10. Thread
11. File
12. Generics
13. I18N
14. Swing
15. Swing Event
16. 2D Graphics
17. SWT
18. SWT 2D Graphics
19. Network
20. Database
21. Hibernate
22. JPA
23. JSP
24. JSTL
25. Servlet
26. Web Services SOA
27. EJB3
28. Spring
29. PDF
30. Email
31. J2ME
32. J2EE Application
33. XML
34. Design Pattern
35. Log
36. Security
37. Apache Common
38. Ant
39. JUnit
Java
Java Source Code / Java Documentation
Java Open Source
Jar File Download
Java Articles
Java Products
Java by API
Photoshop Tutorials
Maya Tutorials
Flash Tutorials
3ds-Max Tutorials
Illustrator Tutorials
GIMP Tutorials
C# / C Sharp
C# / CSharp Tutorial
C# / CSharp Open Source
ASP.Net
ASP.NET Tutorial
JavaScript DHTML
JavaScript Tutorial
JavaScript Reference
HTML / CSS
HTML CSS Reference
C / ANSI-C
C Tutorial
C++
C++ Tutorial
Ruby
PHP
Python
Python Tutorial
Python Open Source
SQL Server / T-SQL
SQL Server / T-SQL Tutorial
Oracle PL / SQL
Oracle PL/SQL Tutorial
PostgreSQL
SQL / MySQL
MySQL Tutorial
VB.Net
VB.Net Tutorial
Flash / Flex / ActionScript
VBA / Excel / Access / Word
XML
XML Tutorial
Microsoft Office PowerPoint 2007 Tutorial
Microsoft Office Excel 2007 Tutorial
Microsoft Office Word 2007 Tutorial
Java Tutorial » Network » HTML Parser 
19. 26. 10. HTML Parser
/*******************************************************************************
 * Copyright (c) 2004 Actuate Corporation.
 * All rights reserved. This program and the accompanying materials
 * are made available under the terms of the Eclipse Public License v1.0
 * which accompanies this distribution, and is available at
 * http://www.eclipse.org/legal/epl-v10.html
 *
 * Contributors:
 *  Actuate Corporation  - initial API and implementation
 *******************************************************************************/


import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.LineNumberReader;
import java.util.ArrayList;

public class HTMLParser
{
  FileReader reader;
  LineNumberReader in;
  String token;
  ArrayList attribs = new ArrayList( );
  int pushC = -1;
  private boolean ignoreWhitespace = true;
  
  public static final int EOF = -1;
  public static final int TEXT = 1;
  public static final int DOCTYPE = 2;
  public static final int ELEMENT = 3;
  public static final int COMMENT = 4;
  public static final int SPECIAL_ELEMENT = 5;
  
  public static final int START_ELEMENT = 0;
  public static final int END_ELEMENT = 1;
  public static final int SINGLE_ELEMENT = 2;
  
  public HTMLParser( )
  {
  }
  
  public void openString fileName throws FileNotFoundException
  {
    reader = new FileReaderfileName );
    in = new LineNumberReaderreader );
  }
  
  /**
   
   */
  public void close( )
  {
    try
    {
      in.close( );
      reader.close( );
    }
    catch IOException e1 )
    {
      // Ignore
    }
  }

  public String getTokenText( )
  {
    return token;
  }
  
  public int getElementType( )
  {
    if token.startsWith"/" ) ) //$NON-NLS-1$
      return END_ELEMENT;
    if token.endsWith"/" ) ) //$NON-NLS-1$
      return SINGLE_ELEMENT;
    return START_ELEMENT;
  }
  
  public String getElement( )
  {
    if token.startsWith"/" ) ) //$NON-NLS-1$
      return token.substring);
    if token.endsWith"/" ) ) //$NON-NLS-1$
      return token.substring0, token.length( ) );
    return token;
    
  }
  
  public ArrayList getAttribs( )
  {
    return attribs;
  }
  
  public String getAttribString name )
  {
    for int i = 0;  i < attribs.size( );  i++ )
    {
      AttribPair a = (AttribPairattribs.get);
      if a.attrib.equalsIgnoreCasename ) )
        return a.value;
    }
    return null;
  }
  
  private int getC( )
  {
    if pushC != -)
    {
      int c = pushC;
      pushC = -1;
      return c;
    }
    try
    {
      return in.read( );
    }
    catch IOException e )
    {
      return EOF;
    }
  }
  
  private void pushCint )
  {
    pushC = c;
  }
  
  public int getToken( )
  {
    for ; ; )
    {
      int c = getC( );
      switch )
      {
        case -1:
          return EOF;
        case '<':
          return getElement);
        default:
        {
          parseText);
          if ! ignoreWhitespace  ||  token.trim( ).length( ) )
            return TEXT;
        }
      }
    }
  }

  private int parseTextint )
  {
    StringBuffer text = new StringBuffer( );
    for ; ; )
    {
      if c == EOF )
        break;
      if c == '<' )
      {
        pushC);
        break;
      }
      
      // Convert MS-Word-style quotes.
      
      if c == 8220  ||  c == 8221 )
        text.append"&quot;" );
      else
        text.append( (char);
      c = getC( );
    }

    token = text.toString( );
    return TEXT;
  }

  private int skipSpaceint )
  {
    while c != EOF  &&  Character.isWhitespace( (char)) )
    {
      c = getC( );
    }
    return c;
  }
  
  private int getElementint )
  {
    c = getC( );
    
    // Broken element
    
    if c == EOF )
      return EOF;
    
    if c == '!' )
      return getSpecialElement( );
    
    attribs.clear( );
    c = skipSpace);
    if c == EOF )
      return EOF;
    
    StringBuffer tag = new StringBuffer( );
    if c == '/' )
    {
      tag.append( (char);
      c = skipSpacegetC( ) );
      while c != EOF  &&  c != '>'  && ! Character.isWhitespace( (char)) )
      {
        tag.append( (char);
        c = getC( );
      }
      token = tag.toString( );
      for ; ; )
      {
        if c == '>'  ||  c == -)
          break;
        c = getC( );
      }
      return ELEMENT;     
    }
    
    while c != EOF  &&  c != '>'  &&  c != '/'  && ! Character.isWhitespace( (char)) )
    {
      tag.append( (char);
      c = getC( );
    }
    if c == EOF )
    {
      token = tag.toString( );
      return ELEMENT;
    }
    
    for ; ; )
    {
      c = skipSpace);
      if c == EOF  ||  c == '>' || c == '/' )
        break;
      c = getAttrib);
    }
    if c == '/' )
    {
      tag.append( (char);
      for ; ; )
      {
        c = getC( );
        if c == -1  ||  c == '>' )
          break;
      }
    }
    token = tag.toString( );
    return ELEMENT;
  }
  
  private int getAttribint )
  {
    AttribPair a = new AttribPair( );
    StringBuffer s = new StringBuffer( );
    while c != EOF  &&  c != '='  &&  ! Character.isWhitespace( (char)) )
    {
      s.append( (char);
      c = getC( );
    }
    a.attrib = s.toString( );
    c = skipSpace);
    if c != '=' )
    {
      attribs.add);
      return c;
    }
    s = new StringBuffer( );
    c = skipSpacegetC( ) );
    if c == '\'' || c == '"' )
    {
      int quote = c;
      for ; ; )
      {
        c = getC( );
        if c == -)
          break;
        if c == quote )
        {
          c = getC( );
          break;
        }
        if c == '\\' )
        {
          c = getC( );
          if c == EOF )
            break;
          s.append'\\' );
          s.append( (char);
        }
        else
        {
          s.append( (char);
        }
      }
    }
    else
    {
      for ; ; )
      {
        c = getC( );
        if c == -)
          break;
        if c == '>'  ||  c == '/'  ||  Character.isWhitespace( (char)) )
        {
          c = getC( );
          break;
        }
        s.append( (char);
      }
    }
    a.value = s.toString( );
    attribs.add);
    return c;
  }
  
  class AttribPair
  {
    String attrib;
    String value;
  }
  
  private int getSpecialElement(  )
  {
    StringBuffer text = new StringBuffer( );
    text.append"<!" )//$NON-NLS-1$
    for ; ; )
    {
      int c = getC( );
      if c == EOF || c == '>' )
        break;
      text.append( (char);
    }
    text.append'>' );
    token = text.toString( );
    if token.startsWith"<!--" ) ) //$NON-NLS-1$
      return COMMENT;
    return SPECIAL_ELEMENT;
  }

  static String formatTags[ ] =
  {
      "i""b",  //$NON-NLS-1$//$NON-NLS-2$
      "strong""em",  //$NON-NLS-1$//$NON-NLS-2$
      "code""span"//$NON-NLS-1$ //$NON-NLS-2$
      "a" //$NON-NLS-1$
  };
  
  public boolean isFormatTag( )
  {
    return isFormatTaggetElement( ) );
  }
  
  public boolean isFormatTagString tag )
  {
    for int i = 0;  i < formatTags.length;  i++ )
    {
      if formatTags].equalsIgnoreCasetag ) )
        return true;
    }
    return false;
  }

  public Object getFullElement( )
  {
    StringBuffer text = new StringBuffer( );
    text.append'<' );
    int elementType = getElementType( );
    if elementType == END_ELEMENT )
      text.append'/' );
    text.appendgetElement( ) );
    
    for int i = 0;  i < attribs.size( );  i++ )
    {
      text.append' ' );
      AttribPair a = (AttribPairattribs.get);
      text.appenda.attrib );
      text.append"=\"" )//$NON-NLS-1$
      if a.value != null )
        text.appenda.value );
      text.append"\"" )//$NON-NLS-1$
    }
    if elementType == SINGLE_ELEMENT )
      text.append'/' );
    text.append'>' );
    return text.toString( );
  }

  public int getLineNo( )
  {
    return in.getLineNumber( );
  }

  public void ignoreWhitespaceboolean )
  {
    ignoreWhitespace = b;
  }

}
19. 26. HTML Parser
19. 26. 1. Getting the Links in an HTML Document
19. 26. 2. Getting the Text in an HTML Document
19. 26. 3. Escape HTML special characters from a String
19. 26. 4. Using javax.swing.text.html.HTMLEditorKit to parse html document
19. 26. 5. Extract links from an HTML page
19. 26. 6. extends HTMLEditorKit.ParserCallback
19. 26. 7. HTML parser based on HTMLEditorKit.ParserCallback
19. 26. 8. Find and display hyperlinks contained within a web page
19. 26. 9. Get all hyper links from a web page
19. 26. 10. HTML Parser
www.java2java.com | Contact Us
Copyright 2009 - 12 Demo Source and Support. All rights reserved.
All other trademarks are property of their respective owners.