LCOV - code coverage report
Current view: top level - usr/local/src/libreoffice/include/svtools - parhtml.hxx (source / functions) Hit Total Coverage
Test: libreoffice_filtered.info Lines: 7 33 21.2 %
Date: 2013-07-09 Functions: 7 21 33.3 %
Legend: Lines: hit not hit

          Line data    Source code
       1             : /* -*- Mode: C++; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 4 -*- */
       2             : /*
       3             :  * This file is part of the LibreOffice project.
       4             :  *
       5             :  * This Source Code Form is subject to the terms of the Mozilla Public
       6             :  * License, v. 2.0. If a copy of the MPL was not distributed with this
       7             :  * file, You can obtain one at http://mozilla.org/MPL/2.0/.
       8             :  *
       9             :  * This file incorporates work covered by the following license notice:
      10             :  *
      11             :  *   Licensed to the Apache Software Foundation (ASF) under one or more
      12             :  *   contributor license agreements. See the NOTICE file distributed
      13             :  *   with this work for additional information regarding copyright
      14             :  *   ownership. The ASF licenses this file to you under the Apache
      15             :  *   License, Version 2.0 (the "License"); you may not use this file
      16             :  *   except in compliance with the License. You may obtain a copy of
      17             :  *   the License at http://www.apache.org/licenses/LICENSE-2.0 .
      18             :  */
      19             : 
      20             : #ifndef _PARHTML_HXX
      21             : #define _PARHTML_HXX
      22             : 
      23             : #include "svtools/svtdllapi.h"
      24             : #include <tools/solar.h>
      25             : #include <tools/string.hxx>
      26             : #include <svtools/svparser.hxx>
      27             : 
      28             : #include <boost/ptr_container/ptr_vector.hpp>
      29             : 
      30             : namespace com { namespace sun { namespace star {
      31             :     namespace document {
      32             :         class XDocumentProperties;
      33             :     }
      34             : } } }
      35             : 
      36             : class Color;
      37             : class SvNumberFormatter;
      38             : class SvKeyValueIterator;
      39             : 
      40             : #define HTMLFONTSZ1_DFLT 7
      41             : #define HTMLFONTSZ2_DFLT 10
      42             : #define HTMLFONTSZ3_DFLT 12
      43             : #define HTMLFONTSZ4_DFLT 14
      44             : #define HTMLFONTSZ5_DFLT 18
      45             : #define HTMLFONTSZ6_DFLT 24
      46             : #define HTMLFONTSZ7_DFLT 36
      47             : 
      48             : enum HTMLTableFrame { HTML_TF_VOID, HTML_TF_ABOVE, HTML_TF_BELOW,
      49             :     HTML_TF_HSIDES, HTML_TF_LHS, HTML_TF_RHS, HTML_TF_VSIDES, HTML_TF_BOX };
      50             : 
      51             : enum HTMLTableRules { HTML_TR_NONE, HTML_TR_GROUPS, HTML_TR_ROWS,
      52             :     HTML_TR_COLS, HTML_TR_ALL };
      53             : 
      54             : enum HTMLInputType
      55             : {
      56             :     HTML_IT_TEXT =      0x01,
      57             :     HTML_IT_PASSWORD =  0x02,
      58             :     HTML_IT_CHECKBOX =  0x03,
      59             :     HTML_IT_RADIO =     0x04,
      60             :     HTML_IT_RANGE =     0x05,
      61             :     HTML_IT_SCRIBBLE =  0x06,
      62             :     HTML_IT_FILE =      0x07,
      63             :     HTML_IT_HIDDEN =    0x08,
      64             :     HTML_IT_SUBMIT =    0x09,
      65             :     HTML_IT_IMAGE =     0x0a,
      66             :     HTML_IT_RESET =     0x0b,
      67             :     HTML_IT_BUTTON =    0x0c
      68             : };
      69             : 
      70             : enum HTMLScriptLanguage
      71             : {
      72             :     HTML_SL_STARBASIC,
      73             :     HTML_SL_JAVASCRIPT,
      74             :     HTML_SL_UNKNOWN
      75             : };
      76             : 
      77             : struct HTMLOptionEnum
      78             : {
      79             :     const sal_Char *pName;  // Wert einer HTML-Option
      80             :     sal_uInt16 nValue;      // und der dazugehoerige Wert eines Enums
      81             : };
      82             : 
      83             : // Repraesentation einer HTML-Option (=Atrribut in einem Start-Tag)
      84             : // Die Werte der Optionen werden immer als String gespeichert.
      85             : // Die Methoden GetNumber, ... duerfen nur aufgerufen werden, wenn
      86             : // die Option auch numerisch, ... ist.
      87             : 
      88          10 : class SVT_DLLPUBLIC HTMLOption
      89             : {
      90             :     String aValue;          // der Wert der Option (immer als String)
      91             :     String aToken;          // der Name der Option als String
      92             :     sal_uInt16 nToken;          // und das entsprechende Token
      93             : 
      94             : public:
      95             : 
      96             :     HTMLOption( sal_uInt16 nTyp, const String& rToken, const String& rValue );
      97             : 
      98             :     // der Name der Option ...
      99          14 :     sal_uInt16 GetToken() const { return nToken; }  // ... als Enum
     100           0 :     const String& GetTokenString() const { return aToken; } // ... als String
     101             : 
     102             :     // der Wert der Option ...
     103          14 :     const String& GetString() const { return aValue; }  // ... als String
     104             : 
     105             :     sal_uInt32 GetNumber() const;                           // ... als Zahl
     106             :     sal_Int32 GetSNumber() const;                           // ... als Zahl
     107             :     void GetNumbers( std::vector<sal_uInt32> &rNumbers,                  // ... als Zahlen
     108             :                      bool bSpaceDelim=false ) const;
     109             :     void GetColor( Color& ) const;                      // ... als Farbe
     110             : 
     111             :     // ... als Enum pOptEnums ist ein HTMLOptionEnum-Array
     112             :     sal_uInt16 GetEnum( const HTMLOptionEnum *pOptEnums,
     113             :                         sal_uInt16 nDflt=0 ) const;
     114             :     bool GetEnum( sal_uInt16 &rEnum, const HTMLOptionEnum *pOptEnums ) const;
     115             : 
     116             :     // ... und als ein par spezielle Enums
     117             :     HTMLInputType GetInputType() const;                 // <INPUT TYPE=...>
     118             :     HTMLTableFrame GetTableFrame() const;               // <TABLE FRAME=...>
     119             :     HTMLTableRules GetTableRules() const;               // <TABLE RULES=...>
     120             :     //SvxAdjust GetAdjust() const;                      // <P,TH,TD ALIGN=>
     121             : };
     122             : 
     123             : typedef ::boost::ptr_vector<HTMLOption> HTMLOptions;
     124             : 
     125             : class SVT_DLLPUBLIC HTMLParser : public SvParser
     126             : {
     127             : private:
     128             :     mutable HTMLOptions maOptions; // die Optionen des Start-Tags
     129             : 
     130             :     bool bNewDoc        : 1;        // neues Doc lesen ?
     131             :     bool bIsInHeader    : 1;        // scanne Header-Bereich
     132             :     bool bIsInBody      : 1;        // scanne Body-Bereich
     133             :     bool bReadListing   : 1;        // Lese Listings
     134             :     bool bReadXMP       : 1;        // Lese XMP
     135             :     bool bReadPRE       : 1;        // Lese preformatted Text
     136             :     bool bReadTextArea  : 1;        // Lese TEXTAREA
     137             :     bool bReadScript    : 1;        // Lesen von <SCRIPT>
     138             :     bool bReadStyle     : 1;        // Lesen von <STYLE>
     139             :     bool bEndTokenFound : 1;        // </SCRIPT> oder </STYLE> gefunden
     140             : 
     141             :     bool bPre_IgnoreNewPara : 1;    // Flags fuers lesen von PRE-Absaetzen
     142             :     bool bReadNextChar : 1;         // true: NextChar nochmals lesen (JavaScript!)
     143             :     bool bReadComment : 1;          // true: NextChar nochmals lesen (JavaScript!)
     144             : 
     145             :     sal_uInt32 nPre_LinePos;            // Pos in der Line im PRE-Tag
     146             : 
     147             :     int mnPendingOffToken;          ///< OFF token pending for a <XX.../> ON/OFF ON token
     148             : 
     149             :     String aEndToken;
     150             : 
     151             : protected:
     152             :     String sSaveToken;              // das gelesene Tag als String
     153             : 
     154             :     int ScanText( const sal_Unicode cBreak = 0U );
     155             : 
     156             :     int _GetNextRawToken();
     157             : 
     158             :     // scanne das naechste Token,
     159             :     virtual int _GetNextToken();
     160             : 
     161             :     virtual ~HTMLParser();
     162             : 
     163           1 :     void FinishHeader( bool bBody ) { bIsInHeader = false; bIsInBody = bBody; }
     164             : 
     165             : public:
     166             :     HTMLParser( SvStream& rIn, bool bReadNewDoc = true );
     167             : 
     168             :     virtual SvParserState CallParser();   // Aufruf des Parsers
     169             : 
     170          19 :     bool IsNewDoc() const       { return bNewDoc; }
     171           1 :     bool IsInHeader() const     { return bIsInHeader; }
     172             :     bool IsInBody() const       { return bIsInBody; }
     173             :     bool IsValidSyntax() const  { return true; }
     174           0 :     bool IsReadListing() const  { return bReadListing; }
     175           0 :     bool IsReadXMP() const      { return bReadXMP; }
     176          35 :     bool IsReadPRE() const      { return bReadPRE; }
     177           0 :     bool IsReadScript() const   { return bReadScript; }
     178           0 :     bool IsReadStyle() const    { return bReadStyle; }
     179             : 
     180             :     void SetReadNextChar()      { bReadNextChar = true; }
     181             : 
     182             :     // PRE-/LISTING oder XMP-Modus starten/beenden oder Tags entsprechend
     183             :     // filtern
     184             :     inline void StartPRE( bool bRestart=false );
     185           0 :     void FinishPRE() { bReadPRE = false; }
     186             :     int FilterPRE( int nToken );
     187             : 
     188             :     inline void StartListing( bool bRestart=false );
     189           0 :     void FinishListing() { bReadListing = false; }
     190             :     int FilterListing( int nToken );
     191             : 
     192             :     inline void StartXMP( bool bRestart=false );
     193           0 :     void FinishXMP() { bReadXMP = false; }
     194             :     int FilterXMP( int nToken );
     195             : 
     196           0 :     void FinishTextArea() { bReadTextArea = false; }
     197             : 
     198             :     // PRE-/LSITING- und XMP-Modus beenden
     199           0 :     void FinishPREListingXMP() { bReadPRE = bReadListing = bReadXMP = false; }
     200             : 
     201             :     // Das aktuelle Token dem aktuellen Modus (PRE, XMP, ...) entsprechend
     202             :     // Filtern und die Flags setzen. Wird von Continue aufgerufen, bevor
     203             :     // NextToken gerufen wird. Wer eigene Schleifen implementiert bzw.
     204             :     // selbst NextToken aufruft, sollte diese Methode vorher rufen.
     205             :     int FilterToken( int nToken );
     206             : 
     207             :     // Scannen eines Scripts beenden (sollte nur unmittelbar nach dem
     208             :     // Lesen eines <SCRIPT> aufgerufen werden
     209             :     void EndScanScript() { bReadScript = false; }
     210             : 
     211           0 :     void ReadRawData( const sal_Char *pEndToken ) { aEndToken.AssignAscii(pEndToken); }
     212             : 
     213             :     // Token ohne \-Sequenzen
     214             :     void UnescapeToken();
     215             : 
     216             :     // Ermitteln der Optionen. pNoConvertToken ist das optionale Token
     217             :     // einer Option, fuer die CR/LFs nicht aus dem Wert der Option
     218             :     // geloescht werden.
     219             :     const HTMLOptions& GetOptions( sal_uInt16 *pNoConvertToken=0 ) const;
     220             : 
     221             :     // fuers asynchrone lesen aus dem SvStream
     222             :     virtual void Continue( int nToken );
     223             : 
     224             : 
     225             : protected:
     226             : 
     227             :     static rtl_TextEncoding GetEncodingByMIME( const String& rMime );
     228             : 
     229             :     /// template method: called when ParseMetaOptions adds a user-defined meta
     230             :     virtual void AddMetaUserDefined( OUString const & i_rMetaName );
     231             : 
     232             : private:
     233             :     /// parse meta options into XDocumentProperties and encoding
     234             :     bool ParseMetaOptionsImpl( const ::com::sun::star::uno::Reference<
     235             :                 ::com::sun::star::document::XDocumentProperties>&,
     236             :             SvKeyValueIterator*,
     237             :             const HTMLOptions&,
     238             :             rtl_TextEncoding& rEnc );
     239             : 
     240             : public:
     241             :     /// overriding method must call this implementation!
     242             :     virtual bool ParseMetaOptions( const ::com::sun::star::uno::Reference<
     243             :                 ::com::sun::star::document::XDocumentProperties>&,
     244             :             SvKeyValueIterator* );
     245             : 
     246             :     // Ist der uebergebene 0-terminierte String (vermutlich) der Anfang
     247             :     // eines HTML-Files? Er sollte mind. 80 Zeichen lang sein.
     248             :     // Mit Ausnahme des Falls, dass SwitchToUCS2==false und
     249             :     // SVPAR_CS_DONTKNOW uebergeben wird muss der String mit zwei(!)
     250             :     // 0-Bytes an einer geraden(!) Position terminiert sein.
     251             :     static bool IsHTMLFormat( const sal_Char* pHeader,
     252             :                       bool bSwitchToUCS2 = false,
     253             :                       rtl_TextEncoding eEnc=RTL_TEXTENCODING_DONTKNOW );
     254             : 
     255             :     bool ParseScriptOptions( String& rLangString, const String&, HTMLScriptLanguage& rLang,
     256             :                              String& rSrc, String& rLibrary, String& rModule );
     257             : 
     258             :     // Einen Kommentar um den Inhalt von <SCRIPT> oder <STYLE> entfernen
     259             :     // Bei 'bFull' wird ggf. die gesammte Zeile hinter einem "<!--"
     260             :     // entfernt (fuer JavaSript)
     261             :     static void RemoveSGMLComment( String &rString, sal_Bool bFull );
     262             : 
     263             :     static bool InternalImgToPrivateURL( String& rURL );
     264             :     static rtl_TextEncoding GetEncodingByHttpHeader( SvKeyValueIterator *pHTTPHeader );
     265             :     bool SetEncodingByHTTPHeader( SvKeyValueIterator *pHTTPHeader );
     266             : };
     267             : 
     268           0 : inline void HTMLParser::StartPRE( bool bRestart )
     269             : {
     270           0 :     bReadPRE = true;
     271           0 :     bPre_IgnoreNewPara = !bRestart;
     272           0 :     nPre_LinePos = 0UL;
     273           0 : }
     274             : 
     275           0 : inline void HTMLParser::StartListing( bool bRestart )
     276             : {
     277           0 :     bReadListing = true;
     278           0 :     bPre_IgnoreNewPara = !bRestart;
     279           0 :     nPre_LinePos = 0UL;
     280           0 : }
     281             : 
     282           0 : inline void HTMLParser::StartXMP( bool bRestart )
     283             : {
     284           0 :     bReadXMP = true;
     285           0 :     bPre_IgnoreNewPara = !bRestart;
     286           0 :     nPre_LinePos = 0UL;
     287           0 : }
     288             : 
     289             : #endif
     290             : 
     291             : /* vim:set shiftwidth=4 softtabstop=4 expandtab: */

Generated by: LCOV version 1.10