EbcdicToUnicode (String function): Difference between revisions

From m204wiki
Jump to navigation Jump to search
mNo edit summary
Line 9: Line 9:
   %unicode = string:EbcdicToUnicode( [CharacterDecode=bool] [, Untranslatable=char] )  
   %unicode = string:EbcdicToUnicode( [CharacterDecode=bool] [, Untranslatable=char] )  
                                                                                        
                                                                                        
===Syntax Terms===                                                                     
====Syntax Terms====                                                                     
<dl>                                                                                   
<dl>                                                                                   
<dt>%unicode                                                                           
<dt>%unicode                                                                           
Line 31: Line 31:
*If the value is the null string, any untranslatable EBCDIC characters are removed from the input string.                                                                                           
*If the value is the null string, any untranslatable EBCDIC characters are removed from the input string.                                                                                           
                                                                                                                  
                                                                                                                  
The ''''Untranslatable'''' parameter is optional. If it is omitted and an EBCDIC character is encountered that is not translatable to Unicode, a [[CharacterTranslationException]] exception is thrown.                                                      
The ''''Untranslatable'''' parameter is optional. If it is omitted and an EBCDIC character is encountered that is not translatable to Unicode, a [[CharacterTranslationException]] exception is thrown.                                                                                                              
                                                                                                               
The Untranslatable parameter is available as of [[Sirius Mods]] version 7.5.
The Untranslatable parameter is available as of [[Sirius Mods]] version 7.5.                                  
It provides the functionality formerly provided by the EbcdicTranslateNonUnicode and the EbcdicRemoveNonUnicode methods, which are invalid as of [[Sirius Mods]] 7.5.
It provides the functionality formerly provided by the EbcdicTranslateNonUnicode and the EbcdicRemoveNonUnicode methods, which  
                                                           
are invalid as of [[Sirius Mods]] 7.5.                                                                        
</dl>                                                            
                                                                                                               
</dl>                                                                                                          
===Exceptions===                                                                                                 
===Exceptions===                                                                                                 
This [[Intrinsic Classes|intrinsic]] function can throw the following exception:                              
This [[Intrinsic Classes|intrinsic]] function can throw the following exception:
<dl>                                                                                                             
<dl>                                                                                                             
<dt>CharacterTranslationException                                                                               
<dt>CharacterTranslationException                                                                               
<dd>If the method encounters a translation problem,                                                            
<dd>If the method encounters a translation problem, properties of the exception object may indicate the location and type of problem.  
properties of the exception object may indicate the location and type of problem.                              
</dl>                                                                                                           
</dl>                                                                                                           
===Usage Notes===                                                                                              
===Usage Notes===                                  
*You can find the list of XHTML entities on the Internet at the following URL:                                
*You can find the list of XHTML entities on the Internet at the following URL:  
     http://www.w3.org/TR/xhtml1/dtds.html#h-A2                                                                
     http://www.w3.org/TR/xhtml1/dtds.html#h-A2
*More information is available about the [[Unicode Tables|Unicode tables]].                                
*More information is available about the [[Unicode Tables|Unicode tables]].
*The [[EbcdicToAscii (String function)|EbcdicToAscii]] method converts an EBCDIC string to ASCII.                                                                           
*The [[EbcdicToAscii (String function)|EbcdicToAscii]] method converts an EBCDIC string to ASCII.                                                                           
*The [[U (String function)|U]] function is a compile-time-only equivalent of the EbcdicToUnicode method (with CharacterDecode argument implicitly set to ''''True'''').                                            
*The [[U (String function)|U]] function is a compile-time-only equivalent of the EbcdicToUnicode method (with CharacterDecode argument implicitly set to ''''True'''').  
*Using EbcdicToUnicode (or the U function) is necessary if the string you want to convert to Unicode may contain a hexadecimal character reference. Such a reference cannot be meaningfully assigned to a Unicode variable otherwise.
*Using EbcdicToUnicode (or the U function) is necessary if the string you want to convert to Unicode may contain a hexadecimal character reference. Such a reference cannot be meaningfully assigned to a Unicode variable otherwise.


===Examples===                                                                                               
===Examples===                                                                                               
The following fragment shows four calls of EbcdicToUnicode: respectively against translatable EBCDIC characters, a string with a character reference, a string with an entity reference, and a string with an EBCDIC character that cannot be translated to Unicode.  
The following fragment shows four calls of EbcdicToUnicode: respectively against translatable EBCDIC characters, a string with a character reference, a string with an entity reference, and a string with an EBCDIC character that cannot be translated to Unicode.  
The [[Intrinsic X Function|X]] constant function is used in the example.                                    
The [[X (String function)|X]] constant function is used in the example.
     %e String Len 20                                                                                        
     %e String Len 20                                        
     %u Unicode                                                                                              
     %u Unicode                          
     %e = '12'                                                                                              
     %e = '12'                      
     %u = %e:EbcdicToUnicode                                                                                
     %u = %e:EbcdicToUnicode                
     Print %u                                                                                                
     Print %u                      
     Print %u:UnicodeToUtf16:StringToHex                                                                    
     Print %u:UnicodeToUtf16:StringToHex  
                                                                                                              
                                                                                                              
     %e = '1&amp;#x2122;2'                                                                                  
     %e = '1&amp;#x2122;2'
     %u = %e:EbcdicToUnicode(CharacterDecode=True)                                                          
     %u = %e:EbcdicToUnicode(CharacterDecode=True)  
     Print %u:UnicodeToUtf16:StringToHex                                                                    
     Print %u:UnicodeToUtf16:StringToHex  
                                                                                                              
                                                                                                              
     %e = '&amp;copy;'                                                                                      
     %e = '&amp;copy;'                                  
     %u = %e:EbcdicToUnicode(CharacterDecode=True)                                                          
     %u = %e:EbcdicToUnicode(CharacterDecode=True)  
     Print %u                                                                                                
     Print %u  
                                                                                                              
                                                                                                              
     %e = 'F1FFF2':X                                                                                        
     %e = 'F1FFF2':X
     %u = %e:EbcdicToUnicode                                 
     %u = %e:EbcdicToUnicode                                 
                                                                                                          
                                                                                                          
The result of the above fragment is:                                                                    
The result of the above fragment is:    
     12                                                                                                   
     12                                                                                                   
     00310032                                                                                             
     00310032                                                                                             
     003121220032                                                                                         
     003121220032                                                                                         
     &copy;                                                                                           
     &copy;                                                                                           
     CANCELLING REQUEST: MSIR.0751: Class STRING, function                                              
     CANCELLING REQUEST: MSIR.0751: Class STRING, function  
       EBCDICTOUNICODE: CHARACTER TRANSLATIONEXCEPTION                                                  
       EBCDICTOUNICODE: CHARACTER TRANSLATIONEXCEPTION  
       exception: EBCDIC character X'FF' without valid                                                  
       exception: EBCDIC character X'FF' without valid  
       translation to Unicode at byte position 2 ...                                                    
       translation to Unicode at byte position 2 ...
====Note====                                                                                                   
====Note====                                                                                                   
The initial ''''Print %u'''' statement in the example above is not very revealing because it is        
The initial ''''Print %u'''' statement in the example above is not very revealing because it is  
equivalent to specifying ''''Print %u:[[UnicodeToEbcdic (Unicode function)|UnicodeToEbcdic]]'''' &mdash;
equivalent to specifying ''''Print %u:[[UnicodeToEbcdic (Unicode function)|UnicodeToEbcdic]]'''' &mdash;
a Unicode string is implicitly converted to EBCDIC                                                      
a Unicode string is implicitly converted to EBCDIC  
when it is used in an EBCDIC context like a Print statement.                                            
when it is used in an EBCDIC context like a Print statement.
The [[UnicodeToUtf16 (Unicode function)|UnicodeToUtf16]] method, however, converts the Unicode variable
The [[UnicodeToUtf16 (Unicode function)|UnicodeToUtf16]] method, however, converts the Unicode variable to a byte-stream string, which the [[StringToHex (String function)|StringToHex]] method converts to its hex representation.
to a byte-stream string, which the [[StringToHex (String function)|StringToHex]] method converts to its  
hex representation.


===See also===                                                                                         
===See also===                                                                                         

Revision as of 23:15, 21 October 2010

This intrinsic function converts an EBCDIC string to Unicode using the current Unicode tables. As an option, XML style hexadecimal character references, XHTML entity references, and '&amp;' references are converted to the represented Unicode character. An additional option lets you specify how to handle untranslatable EBCDIC characters.

The EbcdicToUnicode function is available as of version 7.3 of the Sirius Mods.

EbcdicToUnicode syntax

  %unicode = string:EbcdicToUnicode( [CharacterDecode=bool] [, Untranslatable=char] ) 
                                                                                      

Syntax Terms

%unicode
A string variable to receive the method object string translated to Unicode.
string
An EBCDIC character string.
CharacterDecode=bool
The optional (name required) CharacterDecode argument is a Boolean:
  • If its value is 'True', an ampersand (&) in the input EBCDIC string is allowed only as the beginning of one of these types of character or entity reference:
    • The substring '&amp;'. This substring is converted to a single '&' character.
    • A hexadecimal character reference (for example, the eight characters '&#x201C;' for the Unicode Left double quotation mark). The character reference is converted to the referenced character.
    • As of Sirius Mods version 7.6, an XHTML entity reference (for example, the six characters '&copy;' for the "copyright" character). The entity reference is converted to the referenced character.
A decimal character reference (for example, &#172;) is not allowed.
  • If its value is 'False', the default, an ampersand is treated only as a normal character.
Untranslatable=char
The optional (name required) Untranslatable argument is a single character or a null string that specifies how to handle EBCDIC input characters that are not translatable to Unicode:
  • If the value is a single Unicode character, any untranslatable EBCDIC characters are replaced with that Unicode character.
  • If the value is the null string, any untranslatable EBCDIC characters are removed from the input string.
The 'Untranslatable' parameter is optional. If it is omitted and an EBCDIC character is encountered that is not translatable to Unicode, a CharacterTranslationException exception is thrown. The Untranslatable parameter is available as of Sirius Mods version 7.5. It provides the functionality formerly provided by the EbcdicTranslateNonUnicode and the EbcdicRemoveNonUnicode methods, which are invalid as of Sirius Mods 7.5.

Exceptions

This intrinsic function can throw the following exception:

CharacterTranslationException
If the method encounters a translation problem, properties of the exception object may indicate the location and type of problem.

Usage Notes

  • You can find the list of XHTML entities on the Internet at the following URL:
   http://www.w3.org/TR/xhtml1/dtds.html#h-A2
  • More information is available about the Unicode tables.
  • The EbcdicToAscii method converts an EBCDIC string to ASCII.
  • The U function is a compile-time-only equivalent of the EbcdicToUnicode method (with CharacterDecode argument implicitly set to 'True').
  • Using EbcdicToUnicode (or the U function) is necessary if the string you want to convert to Unicode may contain a hexadecimal character reference. Such a reference cannot be meaningfully assigned to a Unicode variable otherwise.

Examples

The following fragment shows four calls of EbcdicToUnicode: respectively against translatable EBCDIC characters, a string with a character reference, a string with an entity reference, and a string with an EBCDIC character that cannot be translated to Unicode. The X constant function is used in the example.

   %e String Len 20                                         
   %u Unicode                           
   %e = '12'                        
   %u = %e:EbcdicToUnicode                 
   Print %u                        
   Print %u:UnicodeToUtf16:StringToHex 
                                                                                                            
   %e = '1&#x2122;2'
   %u = %e:EbcdicToUnicode(CharacterDecode=True) 
   Print %u:UnicodeToUtf16:StringToHex 
                                                                                                            
   %e = '&copy;'                                    
   %u = %e:EbcdicToUnicode(CharacterDecode=True)   
   Print %u 
                                                                                                            
   %e = 'F1FFF2':X  
   %u = %e:EbcdicToUnicode                                 
                                                                                                        

The result of the above fragment is:

   12                                                                                                   
   00310032                                                                                             
   003121220032                                                                                         
   ©                                                                                           
   CANCELLING REQUEST: MSIR.0751: Class STRING, function 
     EBCDICTOUNICODE: CHARACTER TRANSLATIONEXCEPTION 
     exception: EBCDIC character X'FF' without valid 
     translation to Unicode at byte position 2 ...

Note

The initial 'Print %u' statement in the example above is not very revealing because it is equivalent to specifying 'Print %u:UnicodeToEbcdic' — a Unicode string is implicitly converted to EBCDIC when it is used in an EBCDIC context like a Print statement. The UnicodeToUtf16 method, however, converts the Unicode variable to a byte-stream string, which the StringToHex method converts to its hex representation.

See also

List of Intrinsic String Methods