从html中抓取文字,把格式化的标签去掉

DK 于2008,09,16发表 | 没有评论 »

建立一个静态的类来作为文字处理的工具,在类中建立以下静态方法.在使用的时候直接调用即可.

/// 
  /// 去除HTML标记
  /// 
  /// 包括HTML的源码 
  /// 已经去除后的文字
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @”]*?>.*?”,

          @”<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([”"@#])(\\[”"@#tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>”,
          @”([\r\n])[\s]+”,
          @”&(quot|#34);”,
          @”&(amp|#38);”,
          @”&(lt|#60);”,
          @”&(gt|#62);”,
          @”&(nbsp|#160);”,
          @”&(iexcl|#161);”,
          @”&(cent|#162);”,
          @”&(pound|#163);”,
          @”&(copy|#169);”,
          @”&#(\d+);”,
          @”–>”,
          @””,
           ” “,
           “\xa1″,//chr(161),
           “\xa2″,//chr(162),
           “\xa3″,//chr(163),
           “\xa9″,//chr(169),
           “”,
           “\r\n”,
           “”
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i”,”");
   strOutput.Replace(”\r\n”,”");
   return strOutput;
  }

转载请注明原文出处《从html中抓取文字,把格式化的标签去掉》如无特别声明，所有文章均遵守创作共用署名－非商业－禁止演绎 3.0协议。

标签: C#, html, 标签 | 分类：编程 |

dklogs

从html中抓取文字,把格式化的标签去掉

我要评论

文章分类

标签云

文章存档

链接

管理